组件可控个性化生成方法MagicTailor:生成过程可自由地定制ID。

文摘   2025-01-10 00:00   江苏  

今天的文章来自公众号粉丝投稿,文章提出了一种组件可控的个性化生成方法MagicTailor,旨在个性化生成过程中可以自由地定制ID的特定组件。

相关链接

论文阅读:https://arxiv.org/pdf/2410.13370

项目主页:https://correr-zhou.github.io/MagicTailor/

论文介绍

文生图(T2I)扩散模型的最新进展使得能够根据文本提示创建高质量图像,但它们仍然难以生成对特定视觉概念进行精确控制的图像。现有的方法可以通过学习参考图像来复制给定的概念,但它们缺乏对概念中的各个组件进行细粒度定制的灵活性。

在本文中,介绍了组件可控的个性化,这是一项新颖的任务,它允许用户在个性化视觉概念时重新配置特定组件,从而突破了 T2I 模型的界限。由于两个主要障碍,这项任务特别具有挑战性:语义污染,即不需要的视觉元素破坏个性化概念;语义不平衡,导致概念和组件的学习不成比例。

为了克服这些挑战,本文设计了MagicTailor,这是一个创新框架,利用动态掩码退化(DM-Deg)来动态扰乱不需要的视觉语义和双流平衡(DS-Bal),为所需的视觉语义建立平衡的学习范例。广泛的比较、消融和分析表明,MagicTailor 不仅在这项具有挑战性的任务中表现出色,而且在实际应用中也具有重大前景,为更细致和更具创意的图像生成铺平了道路。

方法介绍

MagicTailor 使用参考图像作为输入,通过低秩自适应 (LoRA) 微调 T2I 扩散模型,以学习目标概念和组件,从而能够生成将组件无缝集成到概念中的图像。 我们引入了动态掩码退化(DM-Deg),这是一种动态干扰不需要的视觉语义的新技术。这种方法有助于抑制模型对不相关视觉细节的敏感性,同时保留整体视觉上下文,从而有效减轻语义污染。 此外,我们采用双流平衡(DS-Bal),一种旨在平衡视觉语义学习的双流学习范式,来解决语义不平衡的问题。在线去噪 U-Net 执行样本最小-最大优化,而动量去噪 U-Net 应用选择性保留正则化,确保更忠实的个性化。

组件可控的个性化

(a) 个性化插图,展示文本到图像 (T2I) 扩散模型如何从给定的参考图像中学习和再现视觉概念。 (b) 组件可控个性化的图示,描绘了一项新制定的任务,旨在在个性化过程中修改视觉概念的特定组件。 (c) MagicTailor 生成的示例图像,展示了所提出的 MagicTailor 的有效性,MagicTailor 是一种新颖的框架,采用 T2I 扩散模型来实现组件可控的个性化。

组件可控个性化的挑战

语义污染

  1. 不受欢迎的视觉元素可能会无意中扰乱个性化概念。
  2. 简单的屏蔽策略是无效的,会导致意外的合成;
  3. 我们的 DM-Deg 有效地抑制了不需要的视觉语义,防止了这种污染。

语义不平衡

  1. 同时学习概念和组件可能会导致不平衡,导致概念或组件扭曲(这里我们介绍前者的情况)。
  2. 我们的 DS-Bal 确保平衡学习,提高个性化表现。

定性结果

我们展示了由 MagicTailor 生成的图像以及针对各个领域的个性化的 SOTA 方法。 MagicTailor 总体上实现了良好的文本对齐、强大的身份保真度和高生成质量。

定量结果

我们将 MagicTailor 与基于自动指标(CLIP-T、CLIP-I、DINO 和 DreamSim)和用户研究(人类对文本对齐、身份保真度和生成质量的偏好)的 SOTA 个性化方法进行比较。最佳结果以粗体标记。 MagicTailor 可以在这项具有挑战性的任务中取得卓越的性能。

感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~

AIGC Studio
一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术。这里不仅有简单易懂的AIGC理论实践和AI学习路线,还有大厂工作经历和体会分享。如果有幸能给你一些帮助就更好啦!
 最新文章