ACM MM 2024 | S2TD-Face:基于素描输入的精细3D人脸重建方法

科技   2024-11-22 23:59   上海  

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【Mamba/多模态/扩散】交流群

添加微信号:CVer2233,小助手会拉你进群!

扫描下方二维码,加入CVer学术星球可以获得最新顶会/顶刊上的论文ideaCV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!


1 研究背景

从人脸素描草图中重建带有纹理的精细3D人脸在刑侦与失踪人员调查、动漫娱乐、艺术设计等多个场景中具有广泛的应用潜力,是一个极具前景但尚未充分发展的研究领域。现有研究主要面临着两方面的不足:一方面,现有的方法只能处理姿态受限且有真实阴影的人脸素描草图,且难以将素描的细节笔触反馈到重建的3D形状上;另一方面,纹理在面部外观的表现中起着关键作用,但素描草图缺乏这一信息,因此在重建过程中需要额外的纹理控制。

本工作发表于ACM MM 2024(The 32nd ACM International Conference on Multimedia)

论文题目:S2TD-Face: Reconstruct a Detailed 3D Face with Controllable Texture from a Single Sketch

作者:Zidu Wang, Xiangyu Zhu, Jiang Yu, Tianshuo Zhang and Zhen Lei.

GitHub: https://github.com/wang-zidu/S2TD-Face

arXiv: https://arxiv.org/abs/2408.01218

本文提出了一种从素描草图中重建具有可控纹理的3D人脸的新方法,称为S2TD-Face(Sketch to controllable Textured and Detailed Three-Dimensional Face)。S2TD-Face引入了一个两阶段形状重建框架,能够直接从输入草图中重建精细的带纹理的三维人脸形状。为了将素描的细节笔触反馈到重建的3D形状上,S2TD-Face提出了一种新的草图到几何形状的损失函数,以确保重建结果精确匹配输入特征,如草图勾勒出的酒窝和皱纹等。S2TD-Face的训练不依赖难以获取的3D人脸扫描数据或手绘素描草图。此外,S2TD-Face还引入了一个纹理控制模块,通过文本提示从纹理库中选择合适的纹理并将其无缝整合到几何结构中,从而得到具有可控纹理的3D细节人脸,在最新的版本中,S2TD-Face还进一步支持了基于ControlNet的3D人脸纹理控制方法。

图1 S2TD-Face能够从不同风格的人脸草图中重建出高保真且拓扑一致的3D精细人脸。它还支持基于文本提示的3D人脸纹理控制,能够生成卡通、雕塑风格或真实人脸风格的纹理。

2 研究内容

图2是S2TD-Face的总体流程概括。

图2 基于素描输入的纹理可控的三维精细人脸重建方法的流程概括。

2.1 训练策略的研究

基于现有大量的二维真实人脸图片,S2TD-Face首先集成了各种素描草图生成方法,从二维人脸图片中得到了各类风格的素描人脸。由于每张素描人脸数据都有真实的二维人脸图片数据与之对应,S2TD-Face在训练的时候能够结合成熟的三维人脸重建技术,利用已有的关键点信息、五官分割信息和纹理信息对重建出的3D形状进行约束。这种训练策略使得S2TD-Face不依赖于难以收集的3D人脸扫描数据和手绘草图。图3是S2TD-Face的数据示例,(a)-(e)为从原始图像(f)中生成的不同风格的草图,(g)表示关键点,(h)表示分割信息。S2TD-Face重建框架的输入包括素描草图 (a)-(e),(f)-(h)用作监督信号。

图3 S2TD-Face的数据示例。

2.2 重建与素描草图细节笔触一致的精细三维人脸

基于素描草图的特点,S2TD-Face结合可微渲染技术,设计了有效的损失函数,其能够捕捉素描草图刻画的人脸形状信息,并将其准确地反应到三维结构上。S2TD-Face使用法线偏移对人脸mesh进行精细化建模,并构建素描到三维信息的损失函数:

其中,分别表示预测的素描图与对应真值素描图的经过面部区域掩码过滤的结果,n∈{a,b,c,d}表示预测素描图的四种形式,即a是由纹理和粗糙形状渲染得到的预测素描图;b是由纹理和精细形状渲染得到的预测素描图;c是由灰色纹理和粗糙形状渲染得到的预测素描图;d是由灰色纹理和精细形状渲染得到的预测素描图。包括两个部分,第一部分计算渲染预测的素描与对应真值的图片度量损失(sketch-photometric),第二部分计算渲染预测的素描与对应真值的感知度量损失(sketch-perception),的可视化过程如图4所示,更详细的计算过程也可参考S2TD-Face原文。

图4 素描到三维信息的损失函数的过程概述。

2.3 精细三维人脸纹理控制模块

对于精细三维人脸纹理控制模块,S2TD-Face首先搜集一定数量的各种外观风格的人脸图像,作为预设的人脸纹理模板库Library。S2TD-Face将使用者提供的待重建三维人脸的纹理的文本描述Text,作为纹理控制模块的输入。利用CLIP对预设的人脸纹理模板库Library中的图片进行匹配,选取最相似的人脸纹理图片或从最相似的前k张图片中选取任一图片,保证方法的灵活性,利用三维人脸重建技术估计人脸图片的UV纹理展开图,并使用三维人脸重建技术估计的PCA纹理对不可见区域进行补全。在最新的版本中,S2TD-Face还进一步支持了基于ControlNet的3D人脸纹理控制方法。

3 实验结果

3.1 定量对比实验

表1 S2TD-Face在Sketch-REALY benchmark上取得了SOTA的水平(更详细的实验设置请参考论文)。

3.2 可视化结果

图5 S2TD-Face能够从不同风格的人脸草图中重建出高保真且拓扑一致的3D精细人脸。它还支持基于文本提示的3D人脸纹理控制,能够生成卡通、雕塑风格或真实人脸风格的纹理。

3.3 3D形状细节的表示方式

图6 S2TD-Face的局部细节效果(如皱纹、酒窝等)是由3D形状表示的,不依赖于特定的纹理。

3.4 定性对比实验

图7 S2TD-Face实现了与输入人脸素描草图细节和身份高度一致的最佳效果。

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!

ECCV 2024 论文和代码下载

在CVer公众号后台回复:ECCV2024,即可下载ECCV 2024论文和代码开源的论文合集

CVPR 2024 论文和代码下载

在CVer公众号后台回复:CVPR2024,即可下载CVPR 2024论文和代码开源的论文合集


Mamba、多模态和扩散模型交流群成立

扫描下方二维码,或者添加微信号:CVer2233,即可添加CVer小助手微信,便可申请加入CVer-Mamba、多模态学习或者扩散模型微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。


一定要备注:研究方向+地点+学校/公司+昵称(如Mamba、多模态学习或者扩散模型+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer2233,进交流群


CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集上万人!


扫码加入星球学习

▲点击上方卡片,关注CVer公众号

整理不易,请赞和在看

CVer
一个专注于计算机视觉方向的公众号。分享计算机视觉、深度学习、人工智能、自动驾驶和高校等高质量内容。
 最新文章