GroundingBooth是一个用于文本到图像的接地定制框架。首先提取文本描述和图像的特征,然后通过一种特殊的注意力机制来控制这些特征的结合。这个机制就像是一个精密的筛子,确保每个对象和背景之间的信息不会混淆。
比如,如果你想要在一个特定的地方放一个玩具和一棵树,系统会确保玩具和树都被放在你指定的位置,而不会因为背景的干扰而位置错乱。这样,用户就可以得到既符合要求又美观的定制图像。
GroundingBooth 支持:(a) 接地的单主题定制,以及 (b) 多主题和文本实体联合接地定制,实现主题驱动的前景和文本驱动的背景生成的联合接地,并具有身份保留和文本-图像对齐功能。
相关链接
论文链接:http://arxiv.org/abs/2409.08520v1
项目主页:https://groundingbooth.github.io
代码链接:https://github.com/YOUR%20REPO%20HERE
论文阅读
GroundingBooth:将文本转换为图像的定制
摘要
文本到图像定制的最新研究表明,在给定主题的几张图像的情况下生成个性化对象变体非常成功。虽然现有方法更注重保留主题的身份,但它们往往无法控制对象之间的空间关系。在这项工作中,我们引入了 GroundingBooth,这是一个在文本到图像定制任务中实现前景主题和背景对象的零样本实例级空间基础的框架。我们提出的文本图像基础模块和掩蔽交叉注意层使我们能够生成具有准确布局对齐和身份保留的个性化图像,同时保持文本图像的连贯性。通过这种布局控制,我们的模型本质上可以同时定制多个主题。我们的模型在布局引导的图像合成和基于参考的定制任务上进行了评估,与现有方法相比,显示出强大的效果。我们的工作是首次实现主题驱动的前景生成和文本驱动的背景生成的联合基础的工作。
方法
GroundingBooth 框架概述。它分为两个步骤:
特征提取。分别使用 CLIP 编码器和 DINOv2 编码器提取文本和图像嵌入,并使用提出的基础模块提取基础标记。 U-Net 每个变压器块中的前景-背景交叉注意力控制。
在训练期间,我们使用具有单个参考对象的数据集。在推理阶段,管道允许通过复制的掩码交叉注意力层注入多个参考对象的特征。我们的工作是首次尝试在定制图像合成任务中引入精确的基础,它共同控制图像驱动的前景对象和文本驱动的背景的大小和位置,自适应地协调参考对象的姿势并忠实地保留它们的身份。
GroundingBooth框架的基础模块。基础模块将提示布局对和参考对象布局对作为输入。对于前景参考对象,CLIP 文本标记和 DINOv2 图像类标记均被使用。
提出的掩蔽交叉注意力管道。Q、K 和 V 分别是图像查询、键和值,A 是亲和力矩阵。
实验
结果表明,GroundingBooth实现了前景背景联合控制、文本对齐和前景对象身份保持。即使前景对象的边界框与背景文本实体有很大重叠,该模型仍可以区分主体驱动的前景生成和文本驱动的背景生成,从而有效避免上下文混合和剩余场景幻觉。
在 COCO 验证集上进行参考引导的布局到图像合成结果。结果表明,即使在存在各种背景对象的复杂场景中,只要提供它们的边界框,模型也能生成具有精确布局的结果,这不仅显示出参考对象明显的身份保留,而且布局对齐和文本对齐也准确,实现了灵活布局定制的文本到图像生成。与以前的布局到图像生成方法相比,GroundingBooth模型在接地方面具有竞争力的准确性,并且在身份保留评估方面有显着的改进。
与基于DreamBench对象的现有方法的可视化比较。
结论
本文介绍了 GroundingBooth,这是一个用于接地文本到图像定制任务的通用框架。该模型实现了参考图像和提示的联合接地,具有精确的对象位置和大小控制,同时保留了身份和文本-图像对齐。结果表明,所提出的文本-图像特征接地模块和掩蔽交叉注意模块可有效减少前景和背景之间的上下文混合。希望该研究能够激发对更具身份保留和可控的基础生成模型的探索,从而实现更高级的视觉编辑。
感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~