UCSD提出一种新的图像表示，它使用扩散模型促进输入图像的空间编辑。

文摘 2024-11-07 22:21 湖北

Editable Image Elements for Controllable Synthesis

ECCV2024

这篇文章提出了一种新的图像表示方法，作者利用扩散模型来促进对用户提供的图像进行空间编辑。针对扩散模型在图像编辑方面的挑战——其高维噪声输入空间不适合图像反演或空间编辑任务，作者设计了一种编码方式，能够将输入图像转化为“图像元素”，这些元素可以精确重构原始图像。用户可以直观地编辑这些图像元素，而扩散模型则将编辑后的元素解码为逼真的图像。作者验证了这一表示方法在多种图像编辑任务中的有效性，包括对象缩放、重新排列、拖动、去遮挡、移除、变形及图像合成。

论文链接

https://arxiv.org/abs/2404.16029

Overview

（顶部）为了对图像进行编码，我们从具有等间距查询点的 SAM 中提取特征，并执行简单的聚类以获得具有可比大小的对象部分的分组，类似于超像素。每个元素都使用我们的卷积编码器单独编码，并与其质心和大小参数相关联以形成图像元素。（底部）用户可以直接修改图像元素，例如移动、调整大小或删除。我们将修改后的图像元素与整个场景的文本描述一起传递给基于扩散的解码器，以合成尊重修改后的元素的逼真图像。

Experiments

实验研究了各种设计选择，包括重建和编辑。论文的default setting可实现最佳的整体性能，无论是在图像质量方面还是编辑方面。

From Training-Free to Adaptive: Empirical Insights

into MLLMs' Understanding of Detection Information

ICLR Under review

这篇文章讨论了现今多模态大模型缺乏对图像细节理解的能力，故而就有很多工作将计算机视觉领域的方法结合到MLLM中，试图增强MLLM对于图像细节的理解，其中就包括将检测信息（目标类别与目标位置）与MLLM结合来增强对图像细节的理解，而作者更进一步，尝试用微调的方法促进检测信息与MLLM的融合，取得了更优异的效果，作者在当前9个主流的多模态理解Benchmark上做了充足的实验论证了论文方法的有效性。

Framework

以 LLaVA-1.5 为例，展示了所研究的 MLLM 在不同训练策略下的整体架构。2首先，使用 CLIP-ViT-L-336px 提取图像级特征，并采用两层 MLP 将这些特征与文本对齐。随后，我们分别使用 DINO 和 PaddleOCRv2 进行对象检测和 OCR。然后使用上述方法将结果转换为句子，并使用主干 LLM 的嵌入层转换为文本特征。接下来，我们将图像级特征和检测特征连接起来并将它们输入到主干 LLM 中。因此，MLLM 可以在训练和推理过程中同时获得整体图像信息和细粒度图像细节。

Experiment

实验结果可知，TFI-7B 在某些基准测试中表现出部分增强，而 TFI-13B 则表现出明显的下降。两种模型在评估物体幻觉的 POPE 基准测试中都表现出显著的改进，表明注入的物体检测信息效果良好。此外，它们在包含大量与图像中的文本相关的问题的 MME-Cognition 基准测试中表现出稳健的性能，这表明 OCR 信息也表现出了功效。

写作总结

一个重建模型可以是一个好的编辑模型，论文1的关键有三:1.解耦成Image Elements实现任意粒度的编辑2.编码时将外观和几何信息解耦3.随机剔除图像元素训练,因此模型可以补全原图没有的像素。论文的局限性在于，大多实现的是2D平面的几何编辑,无法实现可控的3D编辑。
论文2方法讲解清晰易懂，作者善用公式、图表、文字表述结合的方式讲解自己的方法，并在多个主流Benchmark上做了充足的实验论证了论文方法的有效性。

The End

VLRLab

分享者：朱翰绅汪城

编辑：罗琪頔

审核：伏凌

免责声明：

（1）本文仅代表论文分享者观点，分享者不是原文作者，其个人理解及总结不一定准确及全面，论文完整思想及论点应以原论文为准。

（2）本文观点不代表本公众号立场

VLRLab学习屋

发布华中科技大学VLRLab实验室的新闻资讯与动态

最新文章

武汉大学提出Hi-SAM，一种利用SAM进行多层次文本分割的统一模型。

北京大学提出了一种实时端到端检测器，名为RT-DETR

字节跳动提出LLaVA-NeXT-Interleave：一种面向多图像、视频和三维任务的多模态大模型方法

北京大学提出了一种高效的3D内容生成方法DreamGaussian

历史性突破！VLRlab大四学生团队首次在“挑战杯”揭榜挂帅专项赛斩获“擂主”

UCSD提出一种新的图像表示，它使用扩散模型促进输入图像的空间编辑。

就在明天！CSIG优博论坛将于11月3日在华中科技大学举办

华为提出EWEK-QA，一种高效通用的QA系统。

VLRLab团队受字节跳动安全与数据部门邀请，进行基于大模型的多模态风险内容识别的汇报

清华大学提出视觉语言模型CogAgent，专注于GUI的理解与导航。

VLRLab团队iPad本科生获ECCV 2024水下目标识别竞赛全球冠军

华南理工&华科提出一种Bridge text spotting方法，解决了两阶段方法中的错误累积和次优性能问题，同时保持模块化。

MIT提出了一种异构预训练Transformer模型

VLRLab团队研究生成果获ECCV2024首届数据集蒸馏竞赛亚军

VLRLab团队4篇论文入选人工智能领域国际顶会NeurIPS 2024

上海交通大学提出了一种有效的位置森林Transformer: PosFormer，用于手写数学表达式识别。(米兰）

VLRLab团队iPad本科生论文被PRCV 2024接收

复旦大学提出OccLLaMA，一种occ-language-action生成世界模型。

国科大提出Math-PUMA，一种三阶段的专注于渐进向上的多模态对齐方法。

VLRLab团队iPad本科生论文被Nature旗下期刊《Scientific Data》接收

甲骨文单字辅助破译数据集HUST-OBC

高质量甲骨文文字演变数据集EVOBC

前沿论文分享20240716

前沿论文分享20240708

任意粒度感知！IPad本科生发表顶级会议论文

VLRLab团队7篇论文入选计算机视觉国际顶会ECCV 2024

前沿论文分享20240702

前沿论文分享20240626

前沿论文分享20240618

前沿论文分享20240611

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉