多模态数字服装生成模型AIpparel, 可根据文本和图像等多模态输入生成复杂、多样、高质量的缝纫图案。
斯坦福大学和苏黎世联邦理工学院提出一种数字服装的多模态生成模型AIpparel,通过在自定义缝纫图案数据集上使用新颖的标记方案对大型多模态模型进行微调来训练这些图案。AIpparel 根据文本和图像等多模态输入生成复杂、多样、高质量的缝纫图案,并解锁了语言指导的缝纫图案编辑等新应用。生成的缝纫图案可直接用于模拟相应的 3D 服装。
相关链接
• 论文:http://arxiv.org/abs/2412.03937v1 • 主页:http://georgenakayama.github.io/AIpparel
论文阅读
摘要
服装是人类生活中必不可少的物品,它能提供保护、反映文化特征并展示个人风格。然而,服装的制作仍然是一个耗时的过程,这主要是因为设计服装需要手工操作。为了简化这个过程,我们引入了 AIpparel,这是一个用于生成和编辑缝纫图案的大型多模态模型。我们的模型在一个定制的大型数据集上对最先进的大型多模态模型 (LMM) 进行了微调,该数据集包含超过 120,000 件独特的服装,每件服装都带有多模态注释,包括文本、图像和缝纫图案。此外,我们提出了一种新颖的标记化方案,可以简洁地编码这些复杂的缝纫图案,以便 LLM 可以学习有效地预测它们。AIpparel 在单模态任务(包括文本到服装和图像到服装预测)中实现了最先进的性能,并且它支持新颖的多模态服装生成应用,例如交互式服装编辑。
方法
AIpparel使用一种新颖的缝纫图案标记器(浅蓝色区域)将每个面板标记为一组特殊标记(浅绿色区域)。面板顶点位置和 3D 变换通过位置嵌入(彩色箭头)合并到标记中。AIpparel接收多模态输入,例如图像和文本(浅橙色区域),使用自回归采样输出缝纫图案(浅灰色区域)。最后,对输出进行解码以生成可用于模拟的缝纫图案(浅粉色区域)。
结果
结论
视觉语言和其他大型多模态模型可以捕获网络知识,并为许多下游应用提供推理能力。通过微调 LMM 来理解缝纫图案,我们迈出了视觉语言服装模型的第一步,该模型将网络知识转移到服装生成和编辑中,为时装设计和制造解锁了大量应用
感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~