Editable Image Elements for Controllable Synthesis
ECCV2024
这篇文章提出了一种新的图像表示方法,作者利用扩散模型来促进对用户提供的图像进行空间编辑。针对扩散模型在图像编辑方面的挑战——其高维噪声输入空间不适合图像反演或空间编辑任务,作者设计了一种编码方式,能够将输入图像转化为“图像元素”,这些元素可以精确重构原始图像。用户可以直观地编辑这些图像元素,而扩散模型则将编辑后的元素解码为逼真的图像。作者验证了这一表示方法在多种图像编辑任务中的有效性,包括对象缩放、重新排列、拖动、去遮挡、移除、变形及图像合成。
论文链接
https://arxiv.org/abs/2404.16029
Overview
(顶部)为了对图像进行编码,我们从具有等间距查询点的 SAM 中提取特征,并执行简单的聚类以获得具有可比大小的对象部分的分组,类似于超像素。每个元素都使用我们的卷积编码器单独编码,并与其质心和大小参数相关联以形成图像元素。(底部)用户可以直接修改图像元素,例如移动、调整大小或删除。我们将修改后的图像元素与整个场景的文本描述一起传递给基于扩散的解码器,以合成尊重修改后的元素的逼真图像。
Experiments
实验研究了各种设计选择,包括重建和编辑。论文的default setting可实现最佳的整体性能,无论是在图像质量方面还是编辑方面。
From Training-Free to Adaptive: Empirical Insights
into MLLMs' Understanding of Detection Information
ICLR Under review
这篇文章讨论了现今多模态大模型缺乏对图像细节理解的能力,故而就有很多工作将计算机视觉领域的方法结合到MLLM中,试图增强MLLM对于图像细节的理解,其中就包括将检测信息(目标类别与目标位置)与MLLM结合来增强对图像细节的理解,而作者更进一步,尝试用微调的方法促进检测信息与MLLM的融合,取得了更优异的效果,作者在当前9个主流的多模态理解Benchmark上做了充足的实验论证了论文方法的有效性。
Framework
以 LLaVA-1.5 为例,展示了所研究的 MLLM 在不同训练策略下的整体架构。2首先,使用 CLIP-ViT-L-336px 提取图像级特征,并采用两层 MLP 将这些特征与文本对齐。随后,我们分别使用 DINO 和 PaddleOCRv2 进行对象检测和 OCR。然后使用上述方法将结果转换为句子,并使用主干 LLM 的嵌入层转换为文本特征。接下来,我们将图像级特征和检测特征连接起来并将它们输入到主干 LLM 中。因此,MLLM 可以在训练和推理过程中同时获得整体图像信息和细粒度图像细节。
Experiment
实验结果可知,TFI-7B 在某些基准测试中表现出部分增强,而 TFI-13B 则表现出明显的下降。两种模型在评估物体幻觉的 POPE 基准测试中都表现出显著的改进,表明注入的物体检测信息效果良好。此外,它们在包含大量与图像中的文本相关的问题的 MME-Cognition 基准测试中表现出稳健的性能,这表明 OCR 信息也表现出了功效。
写作总结
一个重建模型可以是一个好的编辑模型,论文1的关键有三:1.解耦成Image Elements实现任意粒度的编辑2.编码时将外观和几何信息解耦3.随机剔除图像元素训练,因此模型可以补全原图没有的像素。论文的局限性在于,大多实现的是2D平面的几何编辑,无法实现可控的3D编辑。
论文2方法讲解清晰易懂,作者善用公式、图表、文字表述结合的方式讲解自己的方法,并在多个主流Benchmark上做了充足的实验论证了论文方法的有效性。
The End
VLRLab
分享者:朱翰绅 汪城
编辑:罗琪頔
审核:伏凌
免责声明:
(1)本文仅代表论文分享者观点,分享者不是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。
(2)本文观点不代表本公众号立场