人物图像生成与控制:特定角色图像生成,姿势与外观控制,流场学习,虚拟穿衣
Learning Flow Fields in Attention for Controllable Person Image Generation
2024-12-11|Meta AI, KCL, Tongji|🔺13
http://arxiv.org/abs/2412.08486v1
https://huggingface.co/papers/2412.08486
https://github.com/franciszzj/Leffa
研究背景与意义
在当今的虚拟现实、增强现实、游戏和电子商务领域,可控的人物图像生成技术日益受到关注。该技术旨在根据参考图像生成特定人物的图像,使得对人物的外观和姿势能够进行精准控制。尽管近年来在基于扩散的图像生成技术上取得了显著进展,但现有方法在生成过程中常常会扭曲参考图像中的细微纹理细节,尽管整体图像质量较高。本文的研究目标在于解决这一挑战,提出了一种新的方法——学习注意力中的流场(Leffa),通过在训练过程中引导目标查询关注正确的参考关键区域,从而有效减少细节扭曲,提升生成图像的质量。
研究方法与创新
本研究提出的Leffa方法通过在扩散模型的注意力层中引入正则化损失,显著改善了细节保留能力。具体而言,Leffa方法将目标查询和参考关键区域之间的注意力图转化为流场,促使目标查询更准确地关注对应的参考区域。这一创新不仅有效减少了生成图像中细节的扭曲,而且在不增加额外模型参数和推理成本的情况下,提升了图像的整体质量。
与现有方法相比,Leffa方法的优势在于其模型无关性,可以广泛应用于其他扩散模型中。实验结果显示,Leffa在虚拟试穿和姿势转移任务中均达到了最先进的性能,成功降低了细节扭曲现象。
实验设计与结果分析
本研究在VITON-HD和DressCode等数据集上对Leffa方法进行了全面评估。实验结果表明,采用Leffa方法生成的人物图像在细节保留和整体质量上均优于现有的基准方法。通过统计显著性分析,Leffa在多个场景下的表现均显示出显著的改进,验证了该方法的有效性。
此外,研究还对Leffa的注意力图进行了可视化,结果表明模型能够准确关注目标区域,进一步支持了Leffa方法在细节保留方面的有效性。
结论与展望
本文提出的Leffa方法为可控人物图像生成提供了一种新颖的解决方案,显著改善了细节保留能力,具有广泛的应用前景。未来的研究可以进一步探索Leffa在其他生成任务中的应用潜力,并优化其在实时生成中的性能。此外,研究还可以考虑将Leffa与其他生成模型结合,以期实现更高质量的图像生成效果。