数字服装生成模型AIpparel, 可根据文本和图像等多模态输入生成复杂、多样、高质量的缝纫图案。

文摘   2024-12-13 00:00   江苏  



 

多模态数字服装生成模型AIpparel, 可根据文本和图像等多模态输入生成复杂、多样、高质量的缝纫图案。

斯坦福大学和苏黎世联邦理工学院提出一种数字服装的多模态生成模型AIpparel,通过在自定义缝纫图案数据集上使用新颖的标记方案对大型多模态模型进行微调来训练这些图案。AIpparel 根据文本和图像等多模态输入生成复杂、多样、高质量的缝纫图案,并解锁了语言指导的缝纫图案编辑等新应用。生成的缝纫图案可直接用于模拟相应的 3D 服装。


相关链接

  • • 论文:http://arxiv.org/abs/2412.03937v1
  • • 主页:http://georgenakayama.github.io/AIpparel

论文阅读

AIpparel:数字服装的大型多模式生成模型

摘要

服装是人类生活中必不可少的物品,它能提供保护、反映文化特征并展示个人风格。然而,服装的制作仍然是一个耗时的过程,这主要是因为设计服装需要手工操作。为了简化这个过程,我们引入了 AIpparel,这是一个用于生成和编辑缝纫图案的大型多模态模型。我们的模型在一个定制的大型数据集上对最先进的大型多模态模型 (LMM) 进行了微调,该数据集包含超过 120,000 件独特的服装,每件服装都带有多模态注释,包括文本、图像和缝纫图案。此外,我们提出了一种新颖的标记化方案,可以简洁地编码这些复杂的缝纫图案,以便 LLM 可以学习有效地预测它们。AIpparel 在单模态任务(包括文本到服装和图像到服装预测)中实现了最先进的性能,并且它支持新颖的多模态服装生成应用,例如交互式服装编辑。


方法

AIpparel使用一种新颖的缝纫图案标记器(浅蓝色区域)将每个面板标记为一组特殊标记(浅绿色区域)。面板顶点位置和 3D 变换通过位置嵌入(彩色箭头)合并到标记中。AIpparel接收多模态输入,例如图像和文本(浅橙色区域),使用自回归采样输出缝纫图案(浅灰色区域)。最后,对输出进行解码以生成可用于模拟的缝纫图案(浅粉色区域)。

结果

图像到服装预测(定性)。GCD-MM(左):模型可以仅从输入图像重建合适的缝纫图案。相比之下,尽管经过微调,SewFormer 也无法生成可用于模拟的缝纫图案。SewF actory(右):SewFormer 生成不准确的面板(上行)和不正确的服装类型(下行),而 AIpparel 可以准确地从图像中恢复缝纫图案,从而获得出色的模拟结果。

多模态缝纫图案预测(定性)。AIpparel 可以准确预测缝纫图案,其遵循输入的效果优于基线。


缝纫图案编辑(定性)。与基线相比,我们的模型更准确地遵循编辑指令,准确地在背心上添加一个兜帽(顶行)并拉长裙子(底行)。
消融(定性)。DressCode 的标记器生成不切实际的图案(第二行,带框区域)并且与文本输入不匹配(即“喇叭下摆”)。相比之下,我们的标记器输出几何规则的缝纫图案,与输入准确对齐

结论

视觉语言和其他大型多模态模型可以捕获网络知识,并为许多下游应用提供推理能力。通过微调 LMM 来理解缝纫图案,我们迈出了视觉语言服装模型的第一步,该模型将网络知识转移到服装生成和编辑中,为时装设计和制造解锁了大量应用


感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~


AIGC Studio
一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术。这里不仅有简单易懂的AIGC理论实践和AI学习路线,还有大厂工作经历和体会分享。如果有幸能给你一些帮助就更好啦!
 最新文章