论文一起读 | 基于共享注意力的风格对齐图像生成

文摘   科技   2024-08-15 10:30   广东  

导读

本文是VCC冯嘉伟同学对论文 Style Aligned Image Generation via Shared Attention 的解读,该工作来自Google Research和特拉维夫大学,并已发表在计算机视觉顶级会议CVPR 2024上。 

项目主页: 
https://style-aligned-gen.github.io/ 

该工作提出了一种风格共享方法,通过最小化注意力共享机制实现一系列生成图像在风格上一致的效果,该方法实现了在扩散模型中风格一致性图像生成的突破。其无需优化或微调的特点,使其在各种创意产业、娱乐行业、教育与培训、广告与营销等领域具有广泛的应用前景。同时,该方法有效解决了现有方法在风格一致性、效率和适用范围方面的问题,为生成风格一致的图像提供了一种高效、便捷和通用的解决方案。 

注:本文图片均来自原论文与其项目主页。



I


 引言 
近年来,大规模文本生成图像(Text-to-Image)模型在各个创意领域中迅速崛起,能够根据文本提示生成视觉上引人注目的输出。这些模型展示了将输入文本转化为视觉效果的强大能力,广泛应用于艺术、图形设计、动画、建筑、游戏等领域。然而,如何在生成过程中保持一致的风格仍然是一个挑战。现有的方法需要对模型进行微调并手动干预,以实现内容和风格的解耦。

本导读论文介绍了一种新的技术——StyleAligned,通过在扩散过程中进行最小的“注意力共享”,在生成的图像系列中建立风格对齐。该方法通过简单的反演操作,使用参考风格来生成风格一致的图像。本导读论文的评估表明,该方法在各种风格和文本提示下都能实现高质量的合成和一致性。

II


 技术贡献 

本工作主要贡献如下:

  • 创新的风格对齐方法这是一种在生成图像系列中实现风格一致性的新方法。通过在扩散过程中引入最小的注意力共享,该方法无需优化即可在文生图模型中保持风格一致性;

  • 无优化的零样本解决方案:与现有的需要进行微调和优化的方法不同,StyleAligned是一种零样本解决方案,不需要任何形式的优化或微调。这使得该方法在实现风格一致性方面更加高效和便捷;

  • 多样的实验评估:在各种风格和文本提示下进行了广泛的实验,展示了该方法在高质量合成和风格一致性方面的有效性。本工作还展示了该方法在生成与参考图像风格一致的图像方面的性能。


III


 方法介绍 
首先介绍的是自注意力机制在文生图扩散模型里的意义,以及本工作在这上面所实现的功能。

自注意力机制在T2I扩散模型中的应用
在文生图扩散模型中,深层图像特征通过自注意力层进行互相更新。每个图像特征通过投影到查询  、键  和值  空间,然后计算缩放点积注意力。本工作在自注意力层进行,目标是在生成图像的过程中共享注意力,以实现风格对齐:
  
其中  是  和  的维度。

风格对齐图像集生成
本工作的目标是生成一个图像集,这些图像与输入的文本提示对齐并且共享一致的风格。通过在生成过程中引入共享注意力机制,各图像在自注意力层之间进行通信,实现风格一致性。

具体来说,通过以下步骤实现风格对齐:
1)   和  的自适应归一化:对目标图像的  和  使用自适应实例标准化 (AdaIN) 进行归一化,使其与参考图像的  和  一致:

     
其中 ,   ,  分别是  和  对应像素的标准值和标准差。

2) 共享注意力更新:通过共享参考图像的注意力,将目标图像的特征更新为与参考图像风格一致。最后共享注意力表示如下:
  
其中  和  

图1 共享注意力层


IV


 部分结果展示 
接下来我们首先展示本工作的定性结果。图2展示了本工作提出的StyleAligned方法能够实现一系列生成图像在风格上保持一致。图3是消融实验比较了各种在自注意力层上可实现的注意力共享方式,证明了StyleAligned是最适配任务的方式。

图2 使用标准文生图模型和StyleAligned方法生成图像比较图

图3 消融实验,有无使用Style-aligned方法的定性比较


接下来,本工作从衡量文图匹配的CLIP分数和评估生成图像集相似度的DINO向量相似度进行定量评估,结果展示在图4。尽管图4里本工作提出的方法在俩方面没有达到最好的效果,但StyleAligned实现在一个较高的文图匹配度的情况下达到了更好的风格一致性。

图4 定量实验,横轴是CLIP分数,纵轴是DINO向量相似度

V


 总结与展望 
本论文提出了一种创新的风格对齐方法,通过最小的注意力共享在扩散过程中实现风格一致性。与现有方法相比,他们的方法无需优化或微调,能够高效地生成风格一致的图像集。他们的实验结果和用户评价都表明,该方法在保持风格一致性和高质量生成方面具有显著优势。未来的工作可以进一步探索如何在更复杂的场景中应用该方法,并优化其在大规模生成任务中的性能。

VI


 思考与讨论 
Q: StyleAligned方法可不可以跟其他生成方法结合?
A: 可以的,由于StyleAligned方法是无需微调的方法,可以跟各种方法结合,像是ControlNet、MultiDiffusion和DreamBooth,见下图:
图5 StyleAligned与现有知名的方法结合

Q: StyleAligned是否能够控制风格一致性的程度? 
A: 在实际注意力计算中,注意力层里会有多个注意力头,通过操作共享的注意力头的数量,本方法能够控制风格一致性的程度,详情请见下图:
图6 注意力不同程度的共享表现

以下是开放性问题,欢迎读者朋友留言讨论:
Q: 我们如何去界定风格一致性呢,通过定性比较我们能够看出来本导读论文提出的方法更胜一筹,但是在定量比较上,指标并不能够比较出最好的结果,我们能否找到个指标去很好地衡量风格呢?

-- End--



导 读 | 冯嘉伟
审 核 | 杨景媛
编 辑 | 申


参考文献

[1] Aditya Ramesh, Mikhail Pavlov, Gabriel Goh, Scott Gray, Chelsea Voss, Alec Radford, Mark Chen, and Ilya Sutskever. Zero-shot text-to-image generation. International Conference on Machine Learning (ICML). 8821-8831, 2021. 

[2] Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, and Bjorn Ommer. High-resolution image synthesis with latent diffusion models. Conference on Computer Vision and Pattern Recognition (CVPR). 10684-10695, 2022. 

[3] Chitwan Saharia, William Chan, Saurabh Saxena, Lala Li, Jay Whang, Emily L Denton, Kamyar Ghasemipour, Raphael Gontijo Lopes, Burcu Karagol Ayan, Tim Salimans, Jonathan Ho, David J. Fleet, Mohammad Norouzi. Photorealistic text-to-image diffusion models with deep language understanding. Advances in Neural Information Processing Systems (NeurlPS). 35:36479-36494, 2022. 

[4] Jonathan Ho, Ajay Jain, and Pieter Abbeel. Denoising diffusion probabilistic models. Advances in Neural Information Processing Systems (NeurlPS). 6840-6851, 2020. 

[5] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, and Ilya Sutskever. Learning transferable visual models from natural language supervision. International Conference on Machine Learning (ICML). 5748-8763, 2021. 

[6] Mathilde Caron, Hugo Touvron, Ishan Misra, Herve Jegou, Julien Mairal, Piotr Bojanowski, and Armand Joulin. Emerging properties in self-supervised vision transformers. International Conference on Computer Vision (ICCV). 9650-9660, 2021. 

[7] Omer Bar-Tal, Lior Yariv, Yaron Lipman, and Tali Dekel. Multidiffusion: Fusing diffusion paths for controlled image generation. International Conference on Machine Learning (ICML). 1737-1752, 2023. 

[8] Nataniel Ruiz, Yuanzhen Li, Varun Jampani, Wei Wei, Tingbo Hou, Yael Pritch, Neal Wadhwa, Michael Rubinstein, and Kfir Aberman. Hyperdreambooth: Hypernetworks for fast personalization of text-to-image models. Conference on Computer Vision and Pattern Recognition (CVPR). 6527-6536, 2024. 

[9] Lvmin Zhang, Anyi Rao, and Maneesh Agrawala. Adding conditional control to text-to-image diffusion models. International Conference on Computer Vision (ICCV). 3836-3847, 2023.




深圳大学可视计算研究中心
Visual Computing Research Center
----------------------------------
https://vcc.tech


中心以计算机图形学、计算机视觉、可视化、机器人、人工智能、人机交互为学科基础,致力促进多个学科的深入交叉与集成创新,重点推进大规模静动态数据获取与优化融合、多尺度几何建模与图像处理、可视内容生成与仿真渲染、复杂场景重建与识别理解、三维移动协同感知与人机交互、智能模拟学习与强化认知、海量信息可视化与可视分析等方面的科学研究。

📫
转载及合作:szuvcc@gmail.com


深圳大学可视计算研究中心
深圳大学可视计算研究中心致力于大力提升可视计算科学研究与高等教育水平,以计算机图形学、计算机视觉、人机交互、机器学习、机器人、可视化和可视分析为学科基础,促进多个学科的深入交叉和集成创新。详见官网: vcc.tech
 最新文章