突破个性化图像生成局限!MagicTailor:组件可控个性化图像生成创新框架!

文摘   2024-11-05 00:02   上海  
    点击下方卡片,关注“AI生成未来

后台回复“GAI”,免费获取最新AI相关行业报告和资料!

作者:Donghao Zhou,Jiancheng Huang

解读:AI生成未来 

文章链接:https://arxiv.org/pdf/2410.13370
项目链接:https://correr-zhou.github.io/MagicTailor

亮点直击

  • 引入了一项名为组件可控个性化的新任务,使T2I模型在个性化过程中能够精确控制概念的各个组件。此外,语义污染和语义不平衡被确定为此任务中的关键挑战。
  • 提出了MagicTailor,这是一个专门为组件可控个性化设计的新框架。该框架结合了动态掩码退化(DM-Deg),用于动态扰动不需要的视觉语义,以及双流平衡(DS-Bal),以确保视觉语义的平衡学习。
  • 综合对比表明,MagicTailor在该任务中取得了优异的性能。此外,消融研究和进一步的应用展示了该方法的有效性和多功能性。

总结速览

解决的问题

传统的文本到图像(T2I)扩散模型在生成高质量图像方面有了显著进展,但仍难以精细控制特定的视觉概念。现有方法虽然可以通过学习参考图像来复制给定的概念,但在个体组件的细粒度自定义方面存在局限性。这种细粒度的控制受限于语义污染(不需要的视觉元素会干扰个性化概念)和语义不平衡(概念与组件之间的学习不均衡)两个主要挑战。

提出的方案

为了解决这些问题,提出了“组件可控个性化”的新任务,并设计了创新框架MagicTailor。MagicTailor通过动态掩码退化(DM-Deg) 动态干扰不需要的视觉语义,同时使用 双流平衡(DS-Bal) 建立了平衡的学习方式,从而实现对目标视觉语义的精细控制。

应用的技术

  • 动态掩码退化(DM-Deg):动态扰动不需要的视觉语义,减少语义污染。
  • 双流平衡(DS-Bal):建立平衡的学习模式,解决语义不平衡问题。

达到的效果

通过广泛的对比实验、消融分析和性能分析,MagicTailor在组件可控的个性化任务上表现优异,展示出显著的实用潜力,为更细致和富有创造力的图像生成铺平了道路。

组件可控的个性化

  • (a) 个性化插图,展示文本到图像 (T2I) 扩散模型如何从给定的参考图像中学习和再现视觉概念。
  • (b) 组件可控个性化的图示,描绘了一项新制定的任务,旨在在个性化过程中修改视觉概念的特定组件。
  • (c) MagicTailor 生成的示例图像,展示了所提出的 MagicTailor 的有效性,MagicTailor 是一种新颖的框架,采用 T2I 扩散模型来实现组件可控的个性化。

组件可控个性化的挑战

  • (a) 语义污染:
    • (i) 不受欢迎的视觉元素可能会无意中扰乱个性化概念。
    • (ii) 简单的屏蔽策略是无效的,会导致意外的合成
    • (iii) DM-Deg 有效地抑制了不需要的视觉语义,防止了这种污染。
  • (b) 语义不平衡:
    • (i) 同时学习概念和组件可能会导致不平衡,导致概念或组件扭曲(这里介绍前者的情况)。
    • (ii) DS-Bal 确保平衡学习,提高个性化表现。

MagicTailor Pipeline

MagicTailor 使用参考图像作为输入,通过低秩自适应 (LoRA) 微调 T2I 扩散模型,以学习目标概念和组件,从而能够生成将组件无缝集成到概念中的图像。

本文引入了动态掩码退化(DM-Deg),这是一种动态干扰不需要的视觉语义的新技术。这种方法有助于抑制模型对不相关视觉细节的敏感性,同时保留整体视觉上下文,从而有效减轻语义污染。

此外,采用双流平衡(DS-Bal),一种旨在平衡视觉语义学习的双流学习范式,来解决语义不平衡的问题。在线去噪 U-Net 执行样本最小-最大优化,而动量去噪 U-Net 应用选择性保留正则化,确保更忠实的个性化。

算法总览

该过程首先识别每个参考图像 中所需的概念或组件,采用现成的文本引导图像分割器生成基于 及其相关类别标签 的分割掩膜 。在此基础上,引入动态masked降解(Dynamic Masked Degradation,DM-Deg)来扰动 中不需要的视觉语义,以应对语义污染。在每个训练步骤中,DM-Deg 将 转换为随机降解的图像 ,降解强度会动态调整。随后,这些降解图像及结构化文本提示被用于微调 T2I 扩散模型,以促进概念和组件的学习。

该模型正式表示为 ,其中 代表去噪 U-Net,是文本编码器, 分别表示图像编码器和解码器。为了促进所需视觉语义的学习,采用了掩膜扩散损失,其定义为:

其中, 是未缩放的噪声,是在随机时间步 的降噪潜在图像 是相应文本提示的文本嵌入, 是从 下采样得到的,以匹配 的形状。此外,还引入了交叉注意损失,以加强所需视觉语义与其相应伪词之间的关联,公式为:

是伪词 和噪声潜在图像 之间的交叉注意图,而 是从 下采样得到的,以匹配 的形状。使用 ,首先通过联合学习所有样本来预热 T2I 模型,旨在初步注入视觉语义的知识。预热阶段的损失定义为:

其中 的损失权重。为了实现高效的微调,我们仅训练去噪 U-Net 采用低秩适应(Low-Rank Adaptation, LoRA)的方法,并更新伪词的文本嵌入 ,而保持其他部分不变。

随后,我们采用双流平衡(Dual-Stream Balancing, DS-Bal)建立双流学习范式,以应对称为语义不平衡的挑战。在这一范式中,在线去噪 U-Net 对最难学习的样本进行逐样本的最小-最大优化,同时动量去噪 U-Net 对其他样本应用选择性保留正则化。

动态mask退化

在此任务中,主要挑战之一是语义污染,其中不需要的视觉语义可能被 T2I 模型感知,从而“污染”个性化概念。如图 2(a.i) 所示,目标概念(即人)可能会受到目标组件的所有者(即眼睛)的严重干扰,导致生成混合的人物。不幸的是,直接遮蔽目标概念和组件以外的区域会破坏整体视觉上下文,从而导致过拟合和奇怪的组合,如图 2(a.ii) 所示。因此,参考图像中不需要的视觉语义应当妥善处理。因此,我们提出了动态掩膜降解(Dynamic Masked Degradation,DM-Deg),旨在动态扰动不需要的视觉语义(见图 3),以抑制 T2I 模型对这些语义的感知,同时保持整体视觉上下文(见图 2(a.iii))。

降解施加:在每个训练步骤中,DM-Deg 在每个参考图像的分割掩膜外施加降解。可以采用多种类型的降解来扰动图像的视觉语义,例如噪声、模糊和几何失真,但并非所有类型都易于使用且与掩膜操作兼容。在 DM-Deg 中,我们选择使用高斯噪声,因为它简单易行。对于参考图像 ,我们随机采样一个与  形状相同的高斯噪声矩阵 。需要注意的是,此处 的像素值范围为 。然后,降解施加的过程如下:

其中, 表示逐元素相乘, 是用于调节 降解强度的动态权重。通过这种方式,我们可以获得一幅随机降解的图像 ,其原始视觉上下文通常得以保留。面对 ,T2I 模型更难感知掩膜外区域的不需要视觉语义,因为这些语义在每个训练步骤中都将被高斯噪声随机扰动。

动态强度:不幸的是,T2I 模型在学习有意义的视觉语义时可能逐渐记住引入的噪声,从而使噪声出现在生成的图像中(见图 4(a))。这种行为与先前对深度网络的观察一致(Arpit et al., 2017)。因此,我们设计了一种下降方案,以动态调节施加噪声的强度。该方案采用指数曲线,在早期步骤中保持相对较大的强度,而在后期步骤中迅速下降。设 为当前训练步骤,为总训练步骤。动态强度的曲线定义为:

其中 的初始值, 是调节下降率的因子。经验性地设定 ,以 2 的幂次进行调节。采用这种动态强度的方案,可以有效防止语义污染,同时减轻引入噪声的记忆,从而实现更好的生成效果。

双流平衡

在此任务中,另一个主要挑战是语义不平衡,这源于目标概念与组件之间固有的视觉语义差异。一般而言,一个概念的视觉语义通常比组件更为丰富(例如,人物与头发),而在某些情况下,组件的语义丰富性可能大于概念(例如,简单的塔与复杂的屋顶)。这种不平衡使得联合学习过程变得复杂,可能会过度强调概念或组件中的某一方,导致生成的不连贯性(见图 5(a))。为了解决这一挑战,设计了双流平衡(Dual-Stream Balancing,DS-Bal),建立了一种在线和动量去噪 U-Net 的双流学习范式(见图 3),以平衡概念和组件的视觉语义学习,从而提高个性化的保真度(见图 5(b))。

逐样本最小-最大优化:从损失的角度看,概念和组件的视觉语义是通过优化所有样本的掩膜扩散损失 来学习的。不幸的是,这种无差别的优化并未对更具挑战性的样本分配足够的学习资源,逐渐导致不平衡的学习过程。为了解决这个问题,DS-Bal 利用在线去噪 U-Net 在每个训练步骤中仅学习最难学习的样本的视觉语义。在线去噪 U-Net (ε_\theta) 继承了通过联合学习预热的原始去噪 U-Net 的权重,仅优化 个样本中最大掩膜扩散损失 ,其定义为:

最小化 可以被视为一种最小-最大优化形式(Razaviyayn et al., 2020)。 的学习目标可以在不同的训练步骤之间切换,而不总是被概念或组件所主导。这种优化方案可以有效调节不同样本的学习动态,避免对任何特定样本的过度强调。

选择性保留正则化:在某个训练步骤中,在 中被忽略的样本可能会遭遇知识遗忘。这是因为,优化 的过程旨在增强特定样本的知识,可能无意中遮盖了其他样本的知识。为此,DS-Bal 同时利用动量去噪 U-Net 来保留每个训练步骤中其他样本的学习视觉语义。具体而言,我们首先选择在中被排除的样本,可以表示为:

其中 中目标样本的索引, 是选定的索引集。然后,我们使用动量去噪 U-Net 应用正则化,采用掩膜保留损失:

其中 是通过 EMA从 更新的,平滑系数 ,从而在每个训练步骤中维持 的先前积累知识。通过鼓励 中的输出一致性,我们可以在学习 中的特定样本时,促进其他样本知识的维护。最后,采用损失权重 ,DS-Bal 阶段的总损失被公式化为:

定性结果

展示了由 MagicTailor 生成的图像以及针对各个领域的个性化的 SOTA 方法。 MagicTailor 总体上实现了良好的文本对齐、强大的身份保真度和高生成质量。

定量结果

将 MagicTailor 与基于自动指标(CLIP-T、CLIP-I、DINO 和 DreamSim)和用户研究(人类对文本对齐、身份保真度和生成质量的偏好)的 SOTA 个性化方法进行比较。最佳结果以粗体标记。

MagicTailor 可以在这项具有挑战性的任务中取得卓越的性能。

结论

本文引入了组件可控个性化这一新任务,允许在个性化概念中精确定制各个组件。解决了使该任务特别困难的两个主要挑战:语义污染(不需要的视觉元素破坏概念的完整性)和语义不平衡(导致视觉语义学习过程偏差)。为应对这些挑战,提出了MagicTailor这一创新框架,包含动态掩码退化(DM-Deg)以缓解不需要的视觉语义影响,以及双流平衡(DS-Bal)以确保视觉组件的平衡学习。全面实验表明,MagicTailor不仅在这一具有挑战性的任务中树立了新的基准,还为广泛的创意应用开辟了令人兴奋的可能性。展望未来,设想将该方法扩展至图像和视频生成的其他领域,探索如何识别、控制和操控多层次视觉语义,以实现更复杂和富有想象力的生成能力。

参考文献

[1] MagicTailor:Component-Controllable Personalization in Text-to-Image Diffusion Models

致谢

如果您觉得这篇文章对你有帮助或启发,请不吝点赞、在看、转发,让更多人受益。同时,欢迎给个星标⭐,以便第一时间收到我的最新推送。每一个互动都是对我最大的鼓励。让我们携手并进,共同探索未知,见证一个充满希望和伟大的未来!


技术交流

加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!


往期推荐

2024年了,Diffusion模型还有什么可做的?
文本引导I2I迈向统一!北大王选所提出FCDiffusion:端到端适用于各种图像转换任务

大语言模型的前世今生:万字长文完整梳理所有里程碑式大语言模型(LLMs)

绝地归来!英伟达等提出JeDi:无需微调,个性化图像生成新SOTA![CVPR 2024]

AI生成未来
领先的AIGC和具身智能、大模型技术交流社区,关注LLM、CV、深度学习、生成式等AI领域前沿技术
 最新文章