Nvidia提出了Add-it,这是一种无需训练的方法,可根据文本提示向图像添加对象。Add-it 适用于真实图像和生成的图像。该方法利用现有的文本转图像模型 (FLUX.1-dev),无需额外训练。
Add -it利用文本到图像的扩散模型来整合来自三个来源的注意力:原始图像、文本提示和生成的图像。这种方法不需要微调,可确保结构一致性和真实的对象放置。
为了应对对象插入的挑战,引入了加权注意力机制、主体引导的潜在混合技术和噪声结构传输步骤。Add -it优于以前的监督方法,并引入了“Additing Affordance Benchmark”来评估对象放置的合理性,在多个基准测试中取得了最先进的结果。
方法介绍
根据文本指令将对象添加到图像中是语义图像编辑中的一项具有挑战性的任务,需要在保留原始场景和将新对象无缝集成到合适的位置之间取得平衡。尽管付出了大量的努力,但现有模型往往难以实现这种平衡,尤其是在复杂场景中找到添加对象的自然位置时。我们引入了 Add-it,这是一种无需训练的方法,它扩展了扩散模型的注意力机制,以整合来自三个关键来源的信息:场景图像、文本提示和生成的图像本身。我们的加权扩展注意力机制在确保自然对象放置的同时保持了结构一致性和精细细节。无需针对特定任务进行微调,Add-it 在真实和生成的图像插入基准上都取得了最先进的结果,包括我们新构建的用于评估对象放置合理性的“Additing Affordance Benchmark”,其表现优于监督方法。人工评估表明,在超过 80% 的情况下,Add-it 是首选,并且它还展示了各种自动化指标的改进。
它是如何工作的?
架构概述:给定源噪声X T source、目标噪声X T target和文本提示P target 的元组,首先应用结构迁移将源图像的结构注入目标图像。然后扩展自注意力块,以便X T target从P target和X T source中提取键和值,每个源分别加权。最后使用主题引导潜在混合来保留源图像的精细细节。
与当前方法的比较
在真实图像(左)和生成图像(右) 上对 Add-It 与其他基线进行定性比较。
定量评估
Add-It 与其他基线在人类偏好(左)和自动指标(右) 方面的定量比较。
逐步生成
Add-it 可以逐步生成图像,使最终图像在每一步都能更好地适应用户的偏好。
精致的可供性地图
Add-it 生成的图像(包含和不包含潜在混合步骤)以及生成的可供性图。潜在混合块有助于对齐源图像中的精细细节,例如移除女孩的眼镜或调整自行车的阴影。
非真实感图像
Add-it 可对非真实感源图像进行操作。
限制
Add-it 可能无法添加源图像中已经存在的主体。当系统提示您向图像中添加另一只狗时,Add-it 会生成同一只狗,尽管它成功地在狗后面添加了一个人。
感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~