腾讯优图提出首个基于DiT的高保真虚拟试衣算法FitDiT
今天介绍的文章来自公众号粉丝投稿,腾讯优图提出首个基于DiT的高保真虚拟试衣算法FitDiT,给定一个人像图像和一个衣物图像,就可以生成一个展示人物穿着所提供衣物的图像。FitDiT 在虚拟试穿中表现出色,解决了各种场景中与纹理感知保存和尺寸感知试穿相关的挑战。
1. 引言
基于图像的虚拟试穿是当前电商场景流行且前景看好的图像合成技术,能够显著改善消费者的购物体验并降低服装商家的广告成本。顾名思义,虚拟换衣任务的目标是生成穿着给定服装的目标模特的图像。但是目前的基于GAN 和 U-Net Diffusion的模型在丰富纹理维持以及服装尺寸适配方面有所欠缺,其中我们发现U-Net的扩散结构的对高分辨率潜在特征的关注较少,会导致纹理维持较差。为了解决这个问题,我们提出了 FitDiT ,是首个基于DiT结构的高保真虚拟换衣工作,通过更加关注高分辨率特征,克服了当前 U-Net 扩散模型在复杂纹理维护方面的局限性。
对于丰富的纹理感知维护,我们提出了一种服装先验进化策略,以更好地精确掌握服装的图案知识,并在像素空间中采用频谱距离损失来保留复杂的图案。此外,对于尺寸感知试穿,我们提出了一种扩张松弛掩模增强方法,使用粗矩形掩模来降低服装形状的泄漏,并使模型能够自适应地学习服装的整体形状。大量的定性和定量实验有力地证明了 FitDiT 优于最先进的虚拟试穿模型,特别是在处理尺寸不匹配的纹理丰富的服装方面。此外,它对单个 1024 × 768 图像的推理时间达到了 4.57 秒,超越了现有方法。这些发现是推动虚拟试穿领域发展的重要里程碑,使现实世界中更复杂的应用成为可能。
FitDiT方案相比现有的开源算法有以下优势:
1. 更清晰的纹理信息 2. 更好的衣服版型维持能力 3.更少的推理耗时
相关链接
• 论文地址:https://arxiv.org/pdf/2411.10499 • 项目主页:https://byjiang.com/FitDiT/ • 代码仓库:https://github.com/BoyuanJiang/FitDiT • 体验地址:http://demo.fitdit.byjiang.com/
2. 效果展示
3. 方法介绍
3.1 模型概述
FitDiT的目标是给定一个人像图像和一个衣物图像,生成一个展示人物穿着所提供衣物的图像。这一过程可以被视为一个基于示例的图像修复任务,涉及使用衣物 作为参考来填充被掩码的人像图像。FitDiT采用并行分支架构,其中GarmentDiT从输入的衣物图像中提取详细的衣物特征,然后通过混合注意力机制将这些特征注入到DenoisingDiT中。
3.2 DiT的定制化
原始的稳定扩散模型(SD3)是一个文本到图像的模型,由一系列堆叠的MM-DiT块组成。我们分析了文本到图像和虚拟试衣任务之间的差异,并为虚拟试衣特别定制了模型。
• 结构精简:原始SD3使用OpenCLIP bigG/14, CLIP-ViT/L和T5-xxl作为文本编码器来处理文本提示,但对于虚拟试衣,生成的图像主要由给定的衣服决定,文本提示的影响有限。因此,我们移除了SD3中的文本编码器,节省了约72%的参数,同时提高了模型训练和推理的速度,并减少了内存使用。 • 将服装作为全局控制条件:在虚拟试衣任务中,不同类型的衣物(如上身、下身、连衣裙)通常使用统一的模型进行训练,这可能会导致训练过程中的混淆。我们提出使用OpenCLIP bigG/14,和CLIP-ViT/L的图像编码器将给定的衣物编码成garment-aware embedding,然后与时间步embedding结合,产生DiT模块中AdaLN的控制参数,以衣物感知的方式调制DiT块中的特征。 • 衣物特征注入:为了提取衣物特征,我们首先将衣物输入到GarmentDiT中,并在时间步 t=0 时保存GarmentDiT注意力模块中的key和value的特征,这些特征包含了丰富的衣物纹理信息。然后在每个去噪步骤中,我们使用混合注意力机制将保存的衣物特征注入到DenoisingDiT中。
3.3 扩张放松掩码策略
传统的跨类别试衣方法通常会遇到形状渲染不准确的问题,因为它们通常基于人体解析轮廓严格构建mask。这种掩码构建策略可能导致训练过程中衣物形状信息的泄露,导致模型在推理时倾向于填充整个掩码区域。为了缓解这个问题,我们提出了一种扩张放松掩码策略,允许模型在训练期间自动学习目标衣物的最优长度。
3.4 衣物纹理增强
为了在试衣过程中保持丰富的纹理,我们提出了一个两阶段训练策略。首先,我们通过衣物先验演化阶段来微调GarmentDiT,使其能够更好的捕捉衣服的细节信息。其次是DenoisingDiT训练,它结合了频率损失和去噪损失。
• 衣物先验演化:衣物特征提取器在试衣任务中保持纹理细节方面起着至关重要的作用。我们提出了一个简单而有效的衣物先验演化策略来增强我们的GarmentDiT。 • 频率学习:我们提出了像素空间中的频率谱距离损失,使模型在优化过程中更多地关注频率域中存在显著差距的部分。
4. 实验结果
在我们提出的复杂换衣数据集(CVDD)上的对比
不同算法的性能对比,统一使用H20测试,分辨率为768x1024,20步去噪。结合CPU offload技术,FitDiT推理需要的显存可以进一步降低到6G。
感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~