ControlEdit:AI 赋能服装设计,开启个性化定制新时代!

文摘   2024-09-26 09:18   美国  

北京服装学院的研究人员开发了一种名为 ControlEdit 的新型 AI 服装图像编辑方法,它能够根据文本描述和视觉图像等数据精确地调整和修改服装图像,为设计师和用户提供了一个强大的服装设计和个性化定制工具。

引言

想象一下,你只需简单描述或绘制草图,就能轻松地修改服装图像,添加你喜欢的图案、改变颜色或款式,甚至设计出独一无二的服装。这不再是天方夜谭!北京服装学院的研究人员开发了一种名为 ControlEdit 的新型图像编辑方法,它将服装图像编辑转化为多模态引导的服装图像局部修复问题,为设计师和用户提供了一个强大的服装设计和个性化定制工具。这项研究利用了人工智能领域的最新进展,特别是扩散模型和自监督学习,为服装设计领域带来了新的可能性。

相关工作

基于 GAN 的服装图像编辑

传统的服装图像编辑方法主要基于生成对抗网络 (GAN)。GAN 方法通过将服装控制条件映射到潜在空间,然后进行服装编辑。例如,Fashion++ 将语义分割图与纹理特征和形状特征相关联;ADGAN 将人类属性映射到潜在空间作为独立代码,并通过混合和插值操作实现属性控制;FE-GAN 和 FashionGAN 将控制图像编码到合成解析图中,从而指导服装图像细节的生成;FashionTex 将肖像、文本和纹理映射到潜在空间,以获得用于操纵图像生成的不同潜在向量;FICE 利用预训练的 GAN 生成器和 CLIP 模型来实现语义约束。然而,这些方法在生成图像的质量和真实感方面存在一定的局限性。

基于扩散的服装图像编辑

近年来,扩散模型的快速发展使其在图像生成领域展现出超越 GAN 的能力。一些研究开始将扩散模型应用于服装图像编辑,例如 Text2Human 添加了不同的文本指导,以基于人体文本生成用于人体分析的逼真纹理肖像图像;MGD 和 微调预训练的扩散模型,以使用参考图像完成缺失区域,同时保持控制条件指导;DiffFashion 通过自动生成的语义掩码和预训练的视觉变换器 (ViT) 来指导去噪过程,从而允许外观转换,同时保留结构信息。

ControlEdit 方法

ControlEdit 方法的核心思想是将服装图像编辑转化为多模态引导的服装图像局部修复问题。研究人员通过利用自监督学习方法解决了收集真实图像数据集的难题,并扩展了特征提取网络的通道以确保编辑前后服装图像风格的一致性。此外,他们还设计了一个逆潜在损失函数来实现对非编辑区域内容的软控制。为了使编辑边界自然过渡,并增强非编辑区域内容的一致性,他们采用了混合潜在扩散作为采样方法。

1 预备知识

ControlEdit 基于 Controlnet 进行扩展,Controlnet 是一种微调方法,它将 LDM 的权重复制到“可训练副本”和“锁定副本”。锁定副本保留从数十亿张图像中学习到的网络能力,而可训练副本则在特定任务数据集上进行训练,学习条件控制,并通过零卷积连接。

前向过程: 提取的特征图被送入自动编码器并转换为潜在变量。给定方差 β,添加噪声图像 z0 直到 zT ~ N(0,1)。

(公式1)

反向过程: 反向过程可以通过运行反向学习逐渐去除噪声,直到生成新的样本。

(公式2)

Controlnet 的损失函数如公式 3 所示,其中文本提示 ct 和 cf 是条件特征图,εθ(·) 是去噪网络。

(公式3)

2 ControlEdit 详解

ControlEdit 的整体结构如图 2所示。该方法旨在根据草图、文本、掩码和掩码源图像生成目标服装图像。研究人员采用 Controlnet 进行初始化,以保留模型的原始可控性。由于缺乏一系列预先编辑的真实图像、修改的草图图像和编辑后的真实图像,他们向网络提供掩码源图像来模拟预先编辑的服装图像。目的是允许网络在生成编辑结果时保留非编辑区域的内容,并为生成区域提供颜色参考;同时,为了增强模型对编辑位置的感知,引入掩码信息,使网络能够更好地理解目标区域的空间信息。

(图2:ControlEdit 网络架构)

数据增强: 服装图像编辑的形状和大小具有随机性,因此采用传统形状的掩码会导致模型只能学习简单的映射关系。受 Paint by Example 的启发,研究人员使用贝塞尔曲线采样 18 个点并连接它们,形成任意形状的掩码区域,如图 3 所示。生成的掩码区域更接近实际的编辑操作,减少了训练和测试之间的差距,增强了鲁棒性。

(图3:掩码图像示例)

逆潜在损失函数: 基于草图的 Controlnet 方法在模型训练过程中在颜色恢复和细节保留方面存在一定的局限性,因为它缺乏非编辑区域的 RGB 信息。Controlnet 的编码器执行多次下采样操作,这进一步加剧了信息损失。为了确保生成的图像与真实图像一致,并且网络结构具有源图像的 RGB 信息,研究人员将掩码源图像引入特征提取网络。这些图像为非编辑区域提供 RGB 信息,而掩码可以防止模型需要生成的内容泄漏。原始的 Controlnet 损失函数无法有效地弥合编辑和非编辑域之间的差距。研究人员提出了逆潜在损失函数,以迫使编辑模型在编辑过程中更加关注维护图像的整体结构和非编辑区域内容的一致性。

(公式4)

(公式5)

用于采样的潜在掩码: 为了进一步确保自然过渡,研究人员在推理阶段使用了混合潜在扩散 采样方法。通过修改每个去噪步骤中的潜在变量,并强制掩码外的部分保持不变,可以确保非编辑区域的颜色自然过渡到编辑区域,保持全局颜色一致性。如图 4 所示,在去噪步骤中,采用文本、xm、xs 和 m 的特征作为 Unet 的条件输入,以获得编辑区域的潜在变量。

(公式6)

(公式7)

(公式8)

(图4:图像推理网络结构)

实验结果

研究人员在 MGD 数据集上进行了实验,并与其他图像编辑方法进行了比较。结果表明,ControlEdit 在定性和定量评估中均优于基线算法,例如 Controlnet、SD Inpainting、混合潜在扩散和 Uni-paint。

1 定性比较

ControlEdit 生成的图像在视觉上更加逼真和自然,并且能够更好地保留服装的细节和纹理。相比之下,其他方法生成的图像要么存在明显的伪影,要么无法准确地反映用户意图。例如,SD Inpainting 和混合潜在扩散方法在处理复杂的服装结构时容易出现扭曲和变形,而 Uni-paint 方法则难以生成具有丰富细节的图像。

(图5:定性比较。SD Inpainting、混合潜在扩散和 Uni-paint 合成由底部文本驱动的服装图像。)

2 定量比较

从表 1 中可以看出,ControlEdit 在 FID、LPIPS、Pre_error 和 CLIP Score 等多个指标上均取得了最佳成绩。这表明 ControlEdit 生成的图像不仅具有更高的保真度和感知相似性,还能够更好地保留源图像的内容,并且与用户输入的文本描述更加一致。相比之下,其他方法在这些指标上的表现均逊于 ControlEdit,尤其是在 FID 和 LPIPS 这两个关键指标上差距较为明显。

(表1:基线模型在 2000 张 512 x 512 图像上的定量结果。)

3 用户研究

研究人员还进行了一项用户研究,以评估 ControlEdit 的用户体验。结果表明,用户普遍认为 ControlEdit 易于使用,并且能够生成高质量和逼真的服装图像。

(图7:用户研究结果。我们将 ControlEdit 与三个基线进行了比较。)

4 消融实验

为了验证 ControlEdit 方法中各个组件的有效性,研究人员进行了一系列消融实验。结果表明,增加通道、逆潜在损失和用于采样的潜在掩码都对提高 ControlEdit 的性能起到了重要作用。

(图6:我们方法中各个组件的视觉消融研究。)


(表2:在 2000 张 512 x 512 图像上的消融实验的定量结果。)

结论

ControlEdit 是一种基于 AI 的多模态服装图像编辑方法,它能够根据文本描述和视觉图像等数据精确地调整和修改服装图像。这项研究表明,ControlEdit 在定性和定量评估中均优于基线算法,并且具有良好的用户体验。ControlEdit 的出现为服装设计领域带来了新的可能性,有望成为设计师和用户进行服装设计和个性化定制的强大工具。

相关链接

  • • ControlEdit 代码库: https://github.com/cd123-cd/ControlEdit

  • • MGD 数据集: https://github.com/BUPT-GAMMA/Multimodal-Garment-Designer

  • • Controlnet 论文: https://arxiv.org/abs/2302.05543

子非AI
子非AI,焉知AI之乐:分享AI的有趣应用和创新案例,让你了解AI的乐趣。
 最新文章