之前已经给大家介绍了很多关于虚拟试穿的文章,本公众号也总结了虚拟试衣专题在公众号菜单栏,感兴趣的小伙伴可以在公众号内搜索“虚拟试衣”阅读~
今天给大家介绍阿里最新提出的虚拟试衣方法BooW-VTON,结合有效的数据增强方法,从野外场景中获取大规模未配对的训练数据,从而显著提高模型的试穿性能,而无需额外的修复mask。
BooW-VTON方法只需要参考布料图像、源姿势图像和源人物图像作为输入,与现有方法相比,这种方法更具成本效益且用户友好。大量定性和定量实验表明,在如此低要求的输入下,该方法在野外场景中具有优异的性能。
上图:Boow-VTON方法在野外试穿任务中取得了显著成果,在保留人物特征和前景/背景内容的同时,保持了高质量的试穿效果。中图:无需训练即可进行多件服装试穿。下图:与现有的野外试穿方法相比,Boow-VTON取得了显著的领先优势。
亮点直击
对现有试穿方法在更现实的野外场景中的糟糕表现进行了合理的分析。 提出了一种新的训练范式,以实现更高效的无遮罩图像试穿流程。为了进一步提高试穿模型的性能,通过更多样化的增强训练对和高效的试穿定位损失升级了这种训练范式。 在多个具有挑战性的基准上验证了提出的方法的有效性。大量有意义的实验进一步证明了它与基线和其他 SOTA 方法相比的出色性能。
野外试穿、店内试穿、基于面具的试穿和 Boow-VTON 的区别。野外试穿涉及的内容比店内试穿更复杂。我们的方法减少了对人工解析特征的依赖,同时提高了非试穿区域内容的保留。
相关链接
论文链接:https://arxiv.org/pdf/2408.06047
项目地址:https://github.com/little-misfit/BooW-VTON(即将开源)
论文阅读
摘要
基于图像的虚拟试穿是一项越来越流行和重要的任务,用于生成特定人物的逼真的试穿图像。现有的方法总是使用精确的蒙版去除源图像中的原始服装,从而基于强大的扩散模型在简单和传统的试穿场景中实现逼真的合成图像。因此,获取合适的蒙版对于这些方法的试穿性能至关重要。然而,获得精确的修复蒙版,特别是对于包含各种前景遮挡和人物姿势的复杂野外试穿数据,并不容易,如图 1-Top 所示。这种困难通常会导致在更实际和更具挑战性的现实场景中表现不佳,例如图 1-Bottom 所示的自拍场景。为此,我们提出了一种新颖的训练范式,结合有效的数据增强方法,从野外场景中获取大规模未配对的训练数据,从而显著提高我们模型的试穿性能,而无需额外的修复蒙版。此外,试穿定位损失旨在定位更准确的试穿区域,以获得更合理的试穿结果。值得注意的是,我们的方法只需要参考布料图像、源姿势图像和源人物图像作为输入,与现有方法相比,这种方法更具成本效益且用户友好。大量定性和定量实验表明,在如此低要求的输入下,该方法在野外场景中具有出色的性能。
方法
模型训练流程概述。
(a)为伪训练对准备数据。人物图像用于构建伪三元组,而前景和背景图像用于野生数据增强。
(b-1)野生增强伪对的实现。使用图像堆叠将背景和前景添加到人物图像中。
(b-2)无遮罩试穿扩散模型的训练过程。训练试穿 U-net 以确定人物图像 P ′ 中的试穿区域。使用 M 来约束注意块中服装对齐和替换的区域。M 仅在训练期间使用。
使用试戴蒙版M来引导模特的注意力到正确的试穿区域。
效果
StreetVTON(左)和 WildVTON(右)的定性比较。
VITON-HD 的质量比较。
着装规范的定性比较。
训练组件的比较。
结论
本文提出了一种基于图像的新型试穿训练范式,以消除当前学习框架对试穿口罩的依赖,从而实现比现有 SOTA 方法更优越、更逼真的野外试穿性能。具体来说,我们构建了仅具有不同服装的人物图像对作为无口罩试穿模型的训练数据。此外,由于在更复杂的野外场景中难以捕捉准确的试穿区域,我们引入了野外数据增强和试穿定位损失,以进一步提高在真实世界试穿场景中的表现。大量的定性和定量实验表明,我们的模型在各种试穿情况下都超越了现有的方法。
感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~