ACM MM 2024 Oral | MAPLE实验室提出图像定制化算法Equilibrate Diffusion

学术   2024-08-29 11:18   浙江  

升与描述文本和参考图像一致性的

图像定制化算法

ACMMM2024


导言


图像定制化任务能够学习用户给定的少量图像中的主体概念,但是在概念学习以及生成过程中会面临定制化结果与概念图像和文本描述不一致的挑战。我们在ACM MM上提出了一种名为均衡扩散(Equilibrated Diffusion)的图像定制方法,该方法利用频率感知的文本嵌入和掩码引导的扩散过程,通过残差参考注意力机制增强图像与文本的一致性。

实验结果如图1所示,它表明该方法在保持主体一致性的同时,能够根据文本描述灵活调整图像风格,其效果优于其他现有方法。

图1. 效果展示
该论文被A类国际学术会议ACM Multimedia 2024录用,并入选口头报告(Oral,比例3.97%)。论文作者为西湖大学MAPLE实验室研究员麻力元、博士生方学基,齐国君教授为论文通讯作者,西湖大学为通讯单位。

国际多媒体会议(ACM International Conference on Multimedia, 简称ACMMM) 由国际计算机协会(ACM)发起,是多媒体处理、分析与计算机领域最具影响力的国际顶级会议。ACM MM 2024将于2024年10月28日至11月1日在澳大利亚墨尔本举行。

本文的贡献包括:


1)提出了频率感知解耦文本嵌入和掩码引导扩散训练策略,帮助模型在学习主体相关概念的同时,排除风格和背景等无关属性的干扰。

2)设计了残差参考注意力机制,通过空间注意力机制来保留生成图像中主体概念的纹理细节。

3)实验结果表明,Equilibrated Diffusion在保持主体一致性和与文本描述的对齐上优于现有方法。


实验方法



均衡扩散通过一个综合的训练策略,包括频率感知解耦文本嵌入(FDTE)和掩码引导的扩散过程(MGDP),以及空间细节增强模块来提高文本对齐和图像对齐,该方法的整体训练和推理过程如图2所示,其中具体包括以下几个重要的设计:

图2. 方法介绍

1. 频率感知解耦文本嵌入。如图3所示,该方法通过将图像分解为高频和低频分量,从频域角度解耦图像的风格和内容信息。这样可以在不同频率段上独立学习内容和风格的概念表示,并在去噪过程中应用不同的文本嵌入,从而增强模型对风格与内容的理解。
图3. 频率感知解耦文本嵌入

2. 掩码引导的扩散过程。为减少背景对主体概念学习的干扰,MGDP在扩散过程中使用主体掩码来引导噪声添加和预测,使模型专注于学习主体的概念表达。这样可以保留背景的干净信息,同时促使模型更好地学习主体概念。


3. 空间信息增强模块包括残差参考注意力(RRA)和参考注意力损失。为增强图像对齐,RRA通过引用图像的空间细节来改进图像生成过程中的空间注意力。它在模型训练过程中提取引用图像的特征,并将这些特征与目标图像的自注意力模块中的对应特征融合,从而提高特征融合的有效性,并在推理阶段逐步注入引用图像的空间信息。参考注意力损失则鼓励模型在生成过程中更加关注与参考图像相对应的区域,从而增强生成图像的纹理一致性和细节保留。



实验结果


实验部分主要通过定性和定量分析验证了本文提出方法的有效性。具体来说:


● 实验设置:使用了DreamBooth数据集进行实验,包含30个不同类别的主体。使用了CLIP-T、CLIP-I和DINO-I等评估指标来衡量模型的文本对齐和图像对齐能力。
● 定性评估:通过定性对比展示了本文方法在风格化提示对齐和主体身份保留方面的优越性。本文方法不仅在风格化描述中表现出色,还能在风格化与非风格化的场景中保持高一致性。

图4. 定性的可视化结果比较


● 定量评估:在多个评估指标上,本文方法均表现出色,特别是在CLIP-I和DINO-I分数上,证明了其在保留主体纹理和文本对齐方面的优势。

图5. 定量的指标比较

● 消融实验:通过消融实验分析了各核心组件的贡献,包括残差参考注意力、频率感知解耦文本嵌入和掩码引导扩散过程。实验结果表明,这些组件对于提高图像与文本的一致性和减少背景干扰都起到了重要作用。如图6所示:

图6. 消融实验指标对比



总结


Equilibrated Diffusion方法实现了在定制图像时实现更好的图像一致性和风格化文本对齐。具体而言,通过频率感知解耦文本嵌入来解耦内容和风格,我们将原始扩散优化过程分解到不同的频率带上。这增强了模型理解低频表示内容和高频表示风格的能力,并通过解耦文本嵌入提升了文本一致性表达。


此外,掩码引导扩散过程减少了概念图像背景对生成结果的影响,进一步提升了文本对齐效果。残差参考注意力和参考注意力损失则更好地传递了参考概念的空间细节,促进了纹理一致性。



论文题目:Equilibrated Diffusion: Frequency-aware Textual Embedding for Equilibrated Image Customization

论文地址:

http://openreview.net/pdf?id=ERuypCHYvX

代码地址:

https://github.com/maple-research-lab/EqDiff

作者:Liyuan Ma, Xueji Fang, Guo-jun Qi*


 来 源  | MAPLE实验室

 撰 稿  | 麻力元

 编 辑  | 姜天欣

 校 对  | 冯晨希

 

西湖大学工学院面向国家战略性新兴产业发展重大需求,着力建设交叉学科与新兴学科为特色的工程技术学科群,努力建成国家重大科学技术研究和拔尖创新人才培养的重要基地。工学院以国际高端人才为学科带头人构建科研团队,分阶段、分领域打造一流人才队伍。


工学院目前重点建设七大研究领域 (Programs)——人工智能与数据科学、生物医学工程、化学与生物工程、电子信息科学与技术、材料科学与工程、机械科学与工程、可持续发展与环境工程。围绕七大领域,工学院已建成一批高水平实验室和研究中心,其中已获批成立全省3D微纳加工和表征研究重点实验室、全省智能低碳生物合成重点实验室,培育建设浙江省海岸带环境与资源研究重点实验室,建立微纳光电系统集成浙江省工程研究中心。

扫描二维码 | 关注我们

西湖大学工学院

School of Engineering

Westlake University


西湖大学工学院SOE
西湖大学工学院致力于面向国家战略性新型产业发展重大需求的科技创新和人才培养,建立交叉学科与新兴学科为特色的应用科学、工程技术学科群,建成国家重大科学技术研究和拔尖创新人才培养的重要基地。
 最新文章