上交提出了多风格面部素描生成模型,有效解决数据不足、风格类型受限等问题。

文摘   2024-09-10 00:00   江苏  

上交提出了一种新颖的多风格面部素描合成模型,旨在解决现有面部素描合成(FSS)方法在高质量素描生成中面临的挑战,包含数据不足、风格类型受限及模型输入处理缺陷等问题。简单说,就是输入一张人脸照片和想要的素描风格后,计算机会试着在脑海中"填补"相应的素描。首先,系统会把照片转换成一系列简化的标签,然后通过机器的学习,不断地根据样式要求,做出更准确的素描。整个过程其实就像是在猜测和创作一样,但不是凭空想象,而是依赖于之前的例子进行反向推理。

多风格FSS的插图。通过将人脸图像作为唯一的输入,该方法能够稳定地生成训练集中没有包含的具有多种风格的相应草图。

相关链接

论文地址:http://arxiv.org/abs/2408.12400v1

论文阅读

通过蒙面生成建模的多风格面部素描合成

摘要

面部素描合成 (FSS) 模型能够根据给定的面部照片生成素描肖像,在多个领域具有深远的意义,包括跨模态人脸识别、娱乐、艺术、媒体等。然而,制作高质量的素描仍然是一项艰巨的任务,主要原因是与三个关键因素相关的挑战和缺陷:

  1. 艺术家绘制数据的稀缺性
  2. 风格类型有限的限制
  3. 现有模型在处理输入信息方面的不足。

为了解决这些困难,我们提出了一个轻量级的端到端合成模型,它可以有效地将图像转换为相应的多风格素描,从而无需任何补充输入(例如 3D 几何图形)。在本研究中,我们通过将半监督学习纳入训练过程来克服数据不足的问题。此外,我们采用特征提取模块和样式嵌入来熟练地在迭代预测蒙版图像标记时控制生成转换器,从而实现连续的风格化输出,在草图中准确保留面部特征。大量实验表明,我们的方法在多个基准测试中始终优于以前的算法,表现出明显的差异。

方法

为了解决上述问题,本研究的核心方法涉及Mask Generative Modeling(MGM),并设计了一种分阶段的训练过程。模型的输入包括人脸照片和样式条件,而输出为所需的素描。首先,模型通过VQ-tokenizer将图像转化为潜在标记,并使用编码器提取人脸特征。这些特征随后被输入到变换器中,网络会在潜在空间中逐步恢复被遮挡的图像标记,通过学习重建这些标记来实现图像生成。训练过程中,采用了Masked Image Modeling (MIM) loss来优化变换器,确保合成素描与真实素描之间的相似性。在解码阶段,合成的潜在标记通过解码器重构为最终的素描输出。模型不仅针对单一风格进行训练,还能通过调整风格参数,生成多样风格的中间输出,实现了风格插值。

训练模型时,利用许多带有素描的照片,并且通过两轮的学习逐步提高准确性和细节表现,最终能输出风格各异、细腻真实的素描。这种方法的优势在于,不需要复杂的额外材料,单靠一张照片就能生成多种风格的素描,从而让生成的图像更为灵活多变。

实验

多风格FSS的插图。通过将人脸图像作为唯一的输入,我们的方法能够稳定地生成训练集中没有包含的具有多种风格的相应草图。

各种典型方法合成的草图比较。

质量的一代跨越各种基准

合成不同风格参数的草图。每列底部的数字是样式参数s。

结论

针对当前人脸素描生成算法发展过程中面临的数据不足、风格受限、输入复杂等问题,本文提出了一种创新高效的基于蒙版生成模型的人脸素描生成算法。该算法利用半监督和自监督学习技术,不仅缓解了数据不足带来的挑战,而且避免了使用训练不稳定的GAN,而后者是当前主流素描人脸生成的基础模型。此外,该算法具备在不同风格之间进行插值的能力,这是大多数现有人脸素描生成算法所缺乏的功能。这使得生成的素描能够超越训练集中有限的风格,并一致地生成不同风格之间的中间风格。该算法不需要复杂的额外信息输入,一张人脸照片就可以生成相应的素描。一系列公平的实验也证实了该算法更高的生成质量,以及其在背景和前景分离以及多风格生成方面的优势。

感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~

AIGC Studio
一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术。这里不仅有简单易懂的AIGC理论实践和AI学习路线,还有大厂工作经历和体会分享。如果有幸能给你一些帮助就更好啦!
 最新文章