ACM MM 2024 | S2TD-Face：基于素描输入的精细3D人脸重建方法

科技 2024-11-22 23:59 上海

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达
点击进入—>【Mamba/多模态/扩散】交流群

添加微信号：CVer2233，小助手会拉你进群！
扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料，及最前沿应用！发论文/搞科研/涨薪，强烈推荐！

1 研究背景

从人脸素描草图中重建带有纹理的精细3D人脸在刑侦与失踪人员调查、动漫娱乐、艺术设计等多个场景中具有广泛的应用潜力，是一个极具前景但尚未充分发展的研究领域。现有研究主要面临着两方面的不足：一方面，现有的方法只能处理姿态受限且有真实阴影的人脸素描草图，且难以将素描的细节笔触反馈到重建的3D形状上；另一方面，纹理在面部外观的表现中起着关键作用，但素描草图缺乏这一信息，因此在重建过程中需要额外的纹理控制。

本工作发表于ACM MM 2024（The 32nd ACM International Conference on Multimedia）

论文题目：S2TD-Face: Reconstruct a Detailed 3D Face with Controllable Texture from a Single Sketch

作者：Zidu Wang, Xiangyu Zhu, Jiang Yu, Tianshuo Zhang and Zhen Lei.

GitHub: https://github.com/wang-zidu/S2TD-Face

arXiv: https://arxiv.org/abs/2408.01218

本文提出了一种从素描草图中重建具有可控纹理的3D人脸的新方法，称为S2TD-Face（Sketch to controllable Textured and Detailed Three-Dimensional Face）。S2TD-Face引入了一个两阶段形状重建框架，能够直接从输入草图中重建精细的带纹理的三维人脸形状。为了将素描的细节笔触反馈到重建的3D形状上，S2TD-Face提出了一种新的草图到几何形状的损失函数，以确保重建结果精确匹配输入特征，如草图勾勒出的酒窝和皱纹等。S2TD-Face的训练不依赖难以获取的3D人脸扫描数据或手绘素描草图。此外，S2TD-Face还引入了一个纹理控制模块，通过文本提示从纹理库中选择合适的纹理并将其无缝整合到几何结构中，从而得到具有可控纹理的3D细节人脸，在最新的版本中，S2TD-Face还进一步支持了基于ControlNet的3D人脸纹理控制方法。

图1 S2TD-Face能够从不同风格的人脸草图中重建出高保真且拓扑一致的3D精细人脸。它还支持基于文本提示的3D人脸纹理控制，能够生成卡通、雕塑风格或真实人脸风格的纹理。

2 研究内容

图2是S2TD-Face的总体流程概括。

2.1 训练策略的研究

基于现有大量的二维真实人脸图片，S2TD-Face首先集成了各种素描草图生成方法，从二维人脸图片中得到了各类风格的素描人脸。由于每张素描人脸数据都有真实的二维人脸图片数据与之对应，S2TD-Face在训练的时候能够结合成熟的三维人脸重建技术，利用已有的关键点信息、五官分割信息和纹理信息对重建出的3D形状进行约束。这种训练策略使得S2TD-Face不依赖于难以收集的3D人脸扫描数据和手绘草图。图3是S2TD-Face的数据示例，(a)-(e)为从原始图像(f)中生成的不同风格的草图，(g)表示关键点，(h)表示分割信息。S2TD-Face重建框架的输入包括素描草图 (a)-(e)，(f)-(h)用作监督信号。

2.2 重建与素描草图细节笔触一致的精细三维人脸

基于素描草图的特点，S2TD-Face结合可微渲染技术，设计了有效的损失函数，其能够捕捉素描草图刻画的人脸形状信息，并将其准确地反应到三维结构上。S2TD-Face使用法线偏移对人脸mesh进行精细化建模，并构建素描到三维信息的损失函数:

其中，和分别表示预测的素描图与对应真值素描图的经过面部区域掩码过滤的结果，n∈{a,b,c,d}表示预测素描图的四种形式，即a是由纹理和粗糙形状渲染得到的预测素描图；b是由纹理和精细形状渲染得到的预测素描图;c是由灰色纹理和粗糙形状渲染得到的预测素描图；d是由灰色纹理和精细形状渲染得到的预测素描图。包括两个部分，第一部分计算渲染预测的素描与对应真值的图片度量损失（sketch-photometric），第二部分计算渲染预测的素描与对应真值的感知度量损失（sketch-perception），的可视化过程如图4所示，更详细的计算过程也可参考S2TD-Face原文。

2.3 精细三维人脸纹理控制模块

对于精细三维人脸纹理控制模块，S2TD-Face首先搜集一定数量的各种外观风格的人脸图像，作为预设的人脸纹理模板库Library。S2TD-Face将使用者提供的待重建三维人脸的纹理的文本描述Text，作为纹理控制模块的输入。利用CLIP对预设的人脸纹理模板库Library中的图片进行匹配，选取最相似的人脸纹理图片或从最相似的前k张图片中选取任一图片，保证方法的灵活性，利用三维人脸重建技术估计人脸图片的UV纹理展开图，并使用三维人脸重建技术估计的PCA纹理对不可见区域进行补全。在最新的版本中，S2TD-Face还进一步支持了基于ControlNet的3D人脸纹理控制方法。

3 实验结果

3.1 定量对比实验

表1 S2TD-Face在Sketch-REALY benchmark上取得了SOTA的水平（更详细的实验设置请参考论文）。

3.2 可视化结果

图5 S2TD-Face能够从不同风格的人脸草图中重建出高保真且拓扑一致的3D精细人脸。它还支持基于文本提示的3D人脸纹理控制，能够生成卡通、雕塑风格或真实人脸风格的纹理。

3.3 3D形状细节的表示方式

图6 S2TD-Face的局部细节效果（如皱纹、酒窝等）是由3D形状表示的，不依赖于特定的纹理。

3.4 定性对比实验

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复：何恺明，即可下载本课程的所有566页课件PPT！赶紧学起来！
ECCV 2024 论文和代码下载
在CVer公众号后台回复：ECCV2024，即可下载ECCV 2024论文和代码开源的论文合集

CVPR 2024 论文和代码下载

在CVer公众号后台回复：CVPR2024，即可下载CVPR 2024论文和代码开源的论文合集

Mamba、多模态和扩散模型交流群成立

扫描下方二维码，或者添加微信号：CVer2233，即可添加CVer小助手微信，便可申请加入CVer-Mamba、多模态学习或者扩散模型微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。

一定要备注：研究方向+地点+学校/公司+昵称（如Mamba、多模态学习或者扩散模型+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群


▲扫码或加微信号: CVer2233，进交流群

CVer计算机视觉（知识星球）来了！想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料，欢迎扫描下方二维码，加入CVer计算机视觉（知识星球），已汇集上万人！

▲扫码加入星球学习

▲点击上方卡片，关注CVer公众号
整理不易，请赞和在看

http://mp.weixin.qq.com/s?__biz=MzUxNjcxMjQxNg==&mid=2247611423&idx=3&sn=31f3f507a6725cbc87b25441c3459bf5

CVer

一个专注于计算机视觉方向的公众号。分享计算机视觉、深度学习、人工智能、自动驾驶和高校等高质量内容。

最新文章

炼丹神器来了！ Kaggle大神强推！

ECCV 2024 | CityGaussian：VR/AR时代的城市重建新标杆

Nature子刊！ViTaM：全新的视觉 - 触觉联合记录和追踪系统

AAAI 2025 开奖倒计时！CVPR 2025、ICLR 2025 投稿微信群来了！

最大的Mamba和遥感微信群成立！

大学“一级教授”和“四级教授”的区别有多大？

中央发文：不合格博士生，退出！

顶刊TPAMI 2024！白翔团队提出：局部场景文字检索任务和新方法

仅仅一天，Gemini就夺回了GPT-4o拿走的头名！

AAAI 2025 即将开奖！附CVPR 2025、ICLR 2025 投稿微信群！

异常检测和缺陷检测微信群成立！

教育部公布：2025年考研人数，再降50万！

16岁中学生获正高职称，后续来了

可以封神了！原来找论文idea这么简单

NeurIPS 2024 Oral | NeuroClips：揭秘从脑信号重建高保真流畅视频

ICLR 2025 改分啦！ICLR 2025和CVPR 2025投稿微信群成立！

DeepSeek团队新作JanusFlow：1.3B大模型统一视觉理解和生成

年仅42岁！一高校青年教师病逝……

面试小米，惨不忍睹。。。

NeurIPS 2024 | 收敛加快8倍，准确率提升超30%！华科大提出MoE Jetpack框架

ACM MM 2024 | S2TD-Face：基于素描输入的精细3D人脸重建方法

CVPR 2025、ICLR 2025和AAAI 2025投稿微信群来了！

扩散模型和多模态微信群成立！

重磅！2024年全球高被引科学家名单出炉！

YOLO跌落神坛？新一代目标检测器有新突破

NeurIPS 2024 | Coupled Mamba：通过耦合SSM增强多模态融合

MMRel：多模态大模型时代的评测物体间关系理解新基准

ICASSP 2025 出分了！投稿群成立！附CVPR 、AAAI 2025交流群！

医学图像微信群来了！

本科生一作、研究生二作、教授母亲三作，浙大奖学金获得者论文被质疑，高校回应！

又一篇AI顶会！这个idea“简直杀疯了 ” ...

NeurIPS 2024 | 浙江大学提出SINE：通用分割新模型

哈佛大学 & MIT 招收实习生

ICASSP 2025 投稿交流群成立！

最大ReID和目标跟踪微信群来了！

巨星陨落！北京大学发讣告

超越YOLOv8还不够！这些目标检测开源项目又上新了

顶刊TPAMI 2024！清华黄高团队提出：高效图像识别的统一动态网络

重磅！CVPR 2025、ICLR 2025和AAAI 2025投稿微信群成立！

快加入！最大的目标检测和图像分割微信群来了！

打破纪录！中国科学家让薛定谔的猫活了23分钟

这6个岗位，大厂抢疯了！！

NeurIPS 2024 | CMU提出RLT：加速视频Transformer新方法

中国团队斩获EMNLP 2024最佳论文奖！主办方：明年苏州见！

ICLR 2025 开始Rebuttal！AAAI 2025和CVPR 2025投稿微信群成立！

多模态和扩散模型微信群来了！

“16岁中学生获正高职称”，后续来了

月薪49k！字节跳动校招开奖！

LeCun团队新作DINO-WM：预训练视觉特征的世界模型，超强规划能力！

又一OpenAI研究员离职！不相信OpenAI能造福世界，AGI使命无比困难

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

ACM MM 2024 | S2TD-Face：基于素描输入的精细3D人脸重建方法

AI/CV重磅干货，第一时间送达点击进入—>【Mamba/多模态/扩散】交流群

添加微信号：CVer2233，小助手会拉你进群！扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料，及最前沿应用！发论文/搞科研/涨薪，强烈推荐！

1 研究背景

2 研究内容

2.1 训练策略的研究

2.2 重建与素描草图细节笔触一致的精细三维人脸

2.3 精细三维人脸纹理控制模块

3 实验结果

3.1 定量对比实验

3.2 可视化结果

3.3 3D形状细节的表示方式

3.4 定性对比实验

何恺明在MIT授课的课件PPT下载

ECCV 2024 论文和代码下载

CVPR 2024 论文和代码下载

AI/CV重磅干货，第一时间送达
点击进入—>【Mamba/多模态/扩散】交流群

添加微信号：CVer2233，小助手会拉你进群！
扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料，及最前沿应用！发论文/搞科研/涨薪，强烈推荐！