提升与描述文本和参考图像一致性的
图像定制化算法
ACMMM2024
导言
本文的贡献包括:
1)提出了频率感知解耦文本嵌入和掩码引导扩散训练策略,帮助模型在学习主体相关概念的同时,排除风格和背景等无关属性的干扰。
2)设计了残差参考注意力机制,通过空间注意力机制来保留生成图像中主体概念的纹理细节。
3)实验结果表明,Equilibrated Diffusion在保持主体一致性和与文本描述的对齐上优于现有方法。
实验方法
均衡扩散通过一个综合的训练策略,包括频率感知解耦文本嵌入(FDTE)和掩码引导的扩散过程(MGDP),以及空间细节增强模块来提高文本对齐和图像对齐,该方法的整体训练和推理过程如图2所示,其中具体包括以下几个重要的设计:
实验结果
图4. 定性的可视化结果比较
总结
Equilibrated Diffusion方法实现了在定制图像时实现更好的图像一致性和风格化文本对齐。具体而言,通过频率感知解耦文本嵌入来解耦内容和风格,我们将原始扩散优化过程分解到不同的频率带上。这增强了模型理解低频表示内容和高频表示风格的能力,并通过解耦文本嵌入提升了文本一致性表达。
此外,掩码引导扩散过程减少了概念图像背景对生成结果的影响,进一步提升了文本对齐效果。残差参考注意力和参考注意力损失则更好地传递了参考概念的空间细节,促进了纹理一致性。
论文题目:Equilibrated Diffusion: Frequency-aware Textual Embedding for Equilibrated Image Customization
论文地址:
http://openreview.net/pdf?id=ERuypCHYvX
代码地址:
https://github.com/maple-research-lab/EqDiff
作者:Liyuan Ma, Xueji Fang, Guo-jun Qi*
来 源 | MAPLE实验室
撰 稿 | 麻力元
编 辑 | 姜天欣
校 对 | 冯晨希
西湖大学工学院面向国家战略性新兴产业发展重大需求,着力建设交叉学科与新兴学科为特色的工程技术学科群,努力建成国家重大科学技术研究和拔尖创新人才培养的重要基地。工学院以国际高端人才为学科带头人构建科研团队,分阶段、分领域打造一流人才队伍。
工学院目前重点建设七大研究领域 (Programs)——人工智能与数据科学、生物医学工程、化学与生物工程、电子信息科学与技术、材料科学与工程、机械科学与工程、可持续发展与环境工程。围绕七大领域,工学院已建成一批高水平实验室和研究中心,其中已获批成立全省3D微纳加工和表征研究重点实验室、全省智能低碳生物合成重点实验室,培育建设浙江省海岸带环境与资源研究重点实验室,建立微纳光电系统集成浙江省工程研究中心。
扫描二维码 | 关注我们
西湖大学工学院
School of Engineering
Westlake University