超越IP-Adapter!字节提出MoMA,一种即插即用、无需调优的快速个性化生成方法!

文摘   2024-12-23 00:19   江苏  

字节提出一种即插即用的快速个性化生成方法-MoMA。不需调优,只需一张主体的图像(下图蓝色圈出),就可以生成文本对齐的、保留身份的同一主体的新图像,只需要一次向前传递。我们的模型既支持重新语境化,即相同的主题位于新环境中,如绿色所示,也支持改变主题本身的纹理,如红色所示。

相关链接

论文:https://arxiv.org/pdf/2404.05674

主页:https://moma-adapter.github.io/

Code:https://github.com/bytedance/MoMA/tree/main

Demo:https://huggingface.co/KunpengSong/MoMA_llava_7b

论文阅读

MoMA:快速个性化图像生成的多模态LLM适配器

摘要

在本文中,我们提出了MoMA:一个开放词汇,无需训练的个性化图像模型,具有灵活的零拍摄功能。随着基础文本到图像模型的快速发展,对稳健的图像到图像翻译的需求也在增长。

为了满足这一需求,moma专注于主题驱动的个性化图像生成。利用开源的多模态大型语言模型(MLLM),我们训练MoMAto作为特征提取器和生成器的双重角色。该方法有效地将参考图像和文本提示信息协同产生有价值的图像特征,促进了图像扩散模型。

为了更好地利用生成的特征,我们进一步引入了一种新的自关注捷径方法,该方法有效地将图像特征转移到图像扩散模型中,提高了生成图像中目标物体的相似性。

值得注意的是,作为一个免调的即插即用模块,我们的模型只需要一个参考图像,并且在生成具有高细节保真度,增强身份保存和提示忠实度的图像方面优于现有方法。

方法

模型结构。(1)在左上角,我们采用生成式多模态图像解码器提取语义特征,并根据目标提示符对其进行修改。这些特征被投射到文本空间,然后注入到预训练的冻结unet中,该unet具有解耦的上下文交叉关注,如浅红色所示。

(2)在左下角,为了进一步提高细节精度,我们将清晰的参考图像(t =0)转发到同一UNet,提取自关注特征。这些细粒度的特征包含主题的详细信息,并通过解耦的对象交叉注意层注入到UNet中,如橙色所示

(3)采用两阶段训练流水线对模型进行训练:首先训练多模态解码器(多模态生成学习),然后联合优化UNet中新增的注意力模块。

我们提出了MoMA,一个通过细粒度特征转移增强的多模态LLM适配器。整个体系结构如图2所示。该方法由三部分组成:

  • 利用生成式多模态解码器从参考图像中提取图像特征,并根据目标提示对其进行编辑,生成上下文化的图像特征;
  • 同时,用白色代替原图像的背景,只留下目标像素点,利用原UNet的自关注层提取目标图像特征;
  • 最后,在新图像生成过程中,我们分别用专门训练的上下文-跨注意层和对象-跨注意层将上下文化图像特征和目标图像特征注入UNet扩散模型。

多模态生成学习和迭代自注意掩蔽

实验

上下文编辑的结果

我们给出了定性的例子来说明我们模型的有效性。在下面的图中,目标提示指定一个新的上下文环境。我们的模型无缝地生成高质量的背景,同时精确地将相同的物体定位在这个新的设置中。

纹理编辑结果

在下面的图像中,提示表示纹理发生了变化。我们的模型展示了它在响应文本提示时渲染现实纹理的能力,熟练地改变指定的视觉元素,同时使图像的其他身份方面不受影响。

与其他方法比较

Zero Shot定性比较,我们在上面板共享重新语境化,在下面板共享纹理编辑。我们的结果在上下文编辑中有更准确的细节,在纹理编辑中更好地平衡了提示和图像保真度。

即插即用适配器

我们的模型是一个通用适配器,因为我们在训练阶段冻结了原来的扩散模型。它可以推广到自定义模型检查点,从相同的基本模型进行微调。在下面的图中,我们在HuggingFace和CivitAi的社区模型上验证了这一点,包括现实视觉V4.0, ReV-Animated, Anything v4和美学复古动画。这些模型都是从SD v1.5微调的。MoMA可以直接应用于这些社区模式,不需要任何修改。

我们对重新语境化和纹理编辑进行用户研究。我们的方法在这些指标上显示了显著的性能提升,特别是在提示执行方面。

结论

综上所述,我们在文本到图像扩散模型上提出了功能强大的快速图像个性化MoMA。它是无调弦,开放的词汇表,并支持重新语境化和纹理编辑。我们的实验结果表明了它相对于现有方法的优越性

我们提出的多模态图像特征解码器成功地利用了mlm的优势进行上下文特征生成。我们的掩蔽主题交叉注意技术提供了一个引人注目的特征快捷方式,显著提高了细节的准确性。

此外,作为一个即插即用的模块,我们的模型可以直接与同一基础模型调整后的社区模型集成,将其应用范围扩展到更广泛的领域。

感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~

AIGC Studio
一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术。这里不仅有简单易懂的AIGC理论实践和AI学习路线,还有大厂工作经历和体会分享。如果有幸能给你一些帮助就更好啦!
 最新文章