TryOffAnyone 是一种新颖的单阶段框架,旨在从穿着衣服的人的输入图像和覆盖服装区域的相应服装掩码合成高质量的平铺布料图像。在 VITON-HD 等基准数据集上实现了最先进的性能。该方法在为全身和半身输入生成高质量平铺服装图像方面十分有效。
相关链接
论文:https://arxiv.org/pdf/2412.08573 代码:https://github.com/ixarchakos/try-off-anyone 试用:https://huggingface.co/spaces/1aurent/TryOffAnyone
论文阅读
论文介绍
时尚行业越来越多地利用计算机视觉和深度学习技术来增强在线购物体验和运营效率。在本文中,我们解决了从模特穿着的服装照片中生成高保真平铺服装图像的挑战——这对于个性化推荐、服装组合和虚拟试穿系统至关重要。受到潜在扩散模型 (LDM) 在图像到图像转换中的成功的启发,我们提出了一种利用微调的稳定扩散模型的新方法。我们的方法采用精简的单阶段网络设计,集成了服装专用掩模,以有效地隔离和处理目标服装。通过选择性训练变压器块并删除不必要的交叉注意层来简化网络架构,我们显着降低了计算复杂度,同时在 VITON-HD 等基准数据集上实现了最先进的性能。实验结果证明了我们的方法在为全身和半身输入生成高质量平铺服装图像方面的有效性。
TryOffAnyone 是一种新颖的单阶段框架,旨在从穿着衣服的人的输入图像(图 1b)和覆盖服装区域的相应布面具(图 2b)合成高质量的平铺布料图像(图 1a)。利用在 ATR 数据集上微调的 Segformer 语义分割模型来提取准确的衣服掩码。衣服掩码作为生成过程的明确指导,指示要以平放配置重建的精确服装。这种方法解决了输入图像中复杂场景带来的挑战,例如存在多件服装或遮挡,确保准确提取和生成所需的服装。
与依赖文本编码器如CLIP来调节生成过程的稳定扩散不同,我们提出的架构通过利用衣服掩码提供的空间信息消除了对文本描述的需求。这种基于衣服掩码的指导在两个关键方面显着改善了生成过程;它通过提供目标服装的明确定位来提高图像质量,减少文本提示引入的歧义,同时通过消除与文本编码器相关的计算开销来简化训练流程,从而提高训练效率。
方法介绍
TryOffAnyone 的架构由两个主要模块组成:预训练的变分自动编码器 (VAE) 和去噪 U-Net。VAE 作为潜在空间编码器解码器运行,将输入图像压缩为低维表示,同时保留基本服装特征。 U-Net 以着装人员的衣服和布料面具的潜在表征为条件,进行迭代去噪以生成目标平铺布料图像。
上图说明了所提出的网络架构,重点介绍了对去噪扩散 U-Net 中的变压器块的微调方法。为了确定最佳配置,论文尝试了各种训练参数设置,包括微调整个架构、变压器块以及变压器块内的注意层。经过大量实验,我们选择了变压器块微调作为最有效的方法,与仅注意和全架构训练相比,其性能显着提高。仅对注意层进行微调不足以完成生成虚拟试穿的复杂任务,因为它缺乏完全捕捉所需复杂结构和纹理细节的能力。
另一方面,虽然微调整个架构取得了与变压器块微调相当的结果,但它需要更多的计算资源。变压器块微调方法达到了理想的平衡,特别是在较小的基准数据集(例如 VITONHD)上。
论文证明专注于 Transformer 模块不仅可以实现与微调完整 U-Net 相当的性能,还可以显著减少可训练参数的数量,从 8.1545 亿减少到 2.6724 亿。参数的减少意味着更低的内存需求,使解决方案更高效、更可扩展,同时又不影响质量。
结果
结论
在这项工作提出了一种精简而有效的方法来生成高保真平铺服装图像,满足了以时尚为中心的计算机视觉应用中的关键需求。通过利用潜在扩散模型 (LDM) 和微调的 StableDiffusion 网络的强大功能,取得了最先进的成果,从人穿照片中生成逼真且结构准确的服装图像。论文创新地使用服装蒙版,使模型能够隔离和聚焦特定的服装,显着提高了全身和半身输入的生成输出质量。在 VITON-HD 数据集上进行的实验评估验证了该方法优于现有方法,展示了其在电子商务和虚拟试穿系统中可扩展部署的潜力。
感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~