3D大模型助力，15分钟即可训练高质量、个性化的数字人模型，代码已开放

科技 2024-11-01 14:30 江苏

点击蓝字

关注我们

关注并星标

从此不迷路

计算机视觉研究院

公众号ID｜计算机视觉研究院

学习群｜扫码在主页获取加入方式

论文标题：MimicTalk: Mimicking a personalized and expressive 3D talking face in minutes
论文链接：https://arxiv.org/pdf/2410.06734
项目主页：https://mimictalk.github.io/
代码链接：https://github.com/yerfor/MimicTalk

计算机视觉研究院专栏

Column of Computer Vision Institute

本文的作者主要来自于浙江大学和字节跳动。第一作者是浙江大学计算机学院的博士生叶振辉，导师为赵洲教授，主要研究方向是说话人视频合成，并在 NeurIPS、ICLR、ACL 等会议发表相关论文。共一作者是来自浙江大学计算机学院的硕士生钟添芸。

个性化精品数字人（Personalized Talking Face Generation）强调合成的数字人视频在感官上与真人具有极高的相似性（不管是说话人的外表还是神态）。目前业界主流的个性化精品数字人通常属于在单个目标人数据上从头训练的小模型，虽然这种小模型能够有效地学到说话人的外表和说话风格，这种做法存在低训练效率、低样本效率、低鲁棒性的问题。相比之下，近年来许多工作专注于单图驱动的通用数字人大模型，这些模型仅需单张图片输入即可完成数字人制作，但仍存在外表相似度较低、无法模仿目标人说话风格等问题。

为了连接个性化数字人小模型和单图驱动通用数字人大模型两个领域之间的空白，浙江大学与字节跳动提出了 MimicTalk 算法。通过（1）将单图驱动的通用 3D 数字人大模型 Real3D-Portrait (ICLR 2024) 适应到目标数字人的高效微调策略和（2）具有上下文学习能力的人脸动作生成模型，MimicTalk 可以生成相比原有方法更高质量、更具表现力的数字人视频。此外，单个数字人模型的训练时间可以被压缩到 15 分钟以内，相比现有最高效的同类方法快了 47 倍。

MimicTalk 算法被人工智能顶级会议 NeurIPS 2024 录用，目前已开放源代码和预训练权重。

话不多说直接看效果，以下视频中的数字人模型都通过从 3D 数字人大模型进行 1000 步微调（5 分钟训练时间）得到。

模型技术原理

深悉 MimicTalk 模型的内在原理，还要回到开头提到的个性化数字人两个核心目标：（1）外表上与真人相似；（2）说话风格上与真人相似。

MimicTalk 分别使用（1）基于通用 3D 数字人大模型微调的高质量人脸渲染器和（2）一个具有上下文学习能力的人脸动作生成模型来实现它们。

图 2. MimicTalk 包含一个高质量人脸渲染器（紫色）和一个能够模仿说话风格的动作生成器（蓝色）

对于第一个问题，传统方法通常从头训练一个小规模的 NeRF 模型来记忆目标人的外表特征，但这种做法通常导致较长的训练时间（数个小时）、较高的数据量要求（数分钟）、较低的鲁棒性（对极端条件无法输出正确的结果）。针对这一问题，团队首次提出采用一个单图驱动的通用 3D 数字人大模型作为基础模型，并提出了一个「动静结合」的高效率微调方案。

他们发现通用大模型的输出通常存在牙齿、头发等静态细节不足，且肌肉运动等动态细节不真实的问题。因此针对静态细节和动态细节的特性设计了动静结合的微调方案。

具体来说，研究者发现现有的 3D 数字人通用模型通常会将 3D 人脸的静态细节储存在一个 3D 人脸表征（tri-plane）中作为模型的输入，而 3D 人脸的动态细节，则通过模型内部的参数进行储存。因此，MimicTalk 在个性化数字人渲染器的训练过程中，不仅会更新储存静态细节的 3D 人脸表征，还通过 LoRA 技术对通用模型的参数进行了可拆卸的高效微调。

图 2. 将通用 3D 数字人大模型适应到单个目标人，动静结合的高效微调方案

在实现图像上与真人的高度相似后，下一个问题是如何生成与真人说话风格相似的面部动作。传统方法通常会额外训练一个说话风格编码器，但是由于模型内部信息瓶颈的存在通常会性能损失。与之相比，受启发大语言模型、语音合成等领域的启发，MimicTalk 首次提出从上下文中学习目标人说话风格的训练范式。在训练阶段，Flow Matching 模型通过语音轨道和部分未被遮挡的人脸动作轨道的信息，对被遮挡的人脸动作进行去噪。在推理阶段，给定任意音频 - 视频对作为说话人风格提示，模型都能生成模仿该说话风格的人脸动作。

图 3. 能在上下文中学习目标人说话风格的人脸动作生成模型

模型的应用前景

总体来看，MimicTalk 模型首次实现了高效率的个性化精品数字人视频合成。可以预见的是，随着技术的不断迭代、普及，在智能助手、虚拟现实、视频会议等多个应用场景中都将会出现虚拟人的身影。而借助 MimicTalk 算法，个性化高质量数字人的训练成本被「打了下去」，人们将会享受到更真实、更舒适的交互体验。随着各个领域的大模型技术的兴起，拥抱大模型的超强能力并与垂直领域中的特殊场景、需求相结合，已经成为了技术演进的大势所趋。而 MimicTalk 模型为后续基于数字人通用模型的个性化数字人算法研究工作提供了参考。但现阶段 MimicTalk 也并不是完美无缺的，由于依赖通用大模型的结果作为初始化，对基础模型的质量有较高的要求，此外从推理效率上看与现有小模型还存在一定差距。

总而言之，过去几年，随着个性化数字人技术的不断进步，口型精度、图像质量已然不断提高；而 MimicTalk 模型的提出，进一步解决了制约个性化数字人的训练成本问题。让我们一同期待虚拟人技术的加速发展，用户也将获得更加极致的视觉体验和生活便利。

END

转载请联系本公众号获得授权

计算机视觉研究院学习群等你加入！

ABOUT

计算机视觉研究院

计算机视觉研究院主要涉及深度学习领域，主要致力于目标检测、目标跟踪、图像分割、OCR、模型量化、模型部署等研究方向。研究院每日分享最新的论文算法新框架，提供论文一键下载，并分享实战项目。研究院主要着重”技术研究“和“实践落地”。研究院会针对不同领域分享实践过程，让大家真正体会摆脱理论的真实场景，培养爱动手编程爱动脑思考的习惯！

往期推荐

🔗

http://mp.weixin.qq.com/s?__biz=MzU0NTAyNTQ1OQ==&mid=2247539312&idx=1&sn=1a0e7d5ad39bfb70b32ed6c96f0899e6

计算机视觉研究院

计算机视觉研究院主要涉及AI研究和落地实践，主要致力于目标检测、目标跟踪、图像分割、OCR、模型量化、模型部署等研究方向。研究院每日分享最新的论文算法新框架，提供论文一键下载，并分享实战项目。研究院主要着重”技术研究“和“实践落地”！

最新文章

快速学会AI核心架构，Transformer！

大模型承重墙，去掉了就开始摆烂！苹果给出了「超级权重」

免费分享顶会的idea方法！！！

无卷积骨干网络：金字塔Transformer，提升目标检测/分割等任务精度（附源代码）

我用捡来的idea发了顶会！！！

揭示Transformer重要缺陷！北大提出傅里叶分析神经网络FAN，填补周期性特征建模缺陷

YoloV：视频中目标实时检测依然很棒（附源代码下载）

ICLR'25审稿质量历史最低？这么多全负正常么

NeurIPS 2024 | 无需训练，一个框架搞定开放式目标检测、实例分割

“计算机视觉研究院”商务合作

Yolo-Z：改进的YOLOv5用于小目标检测（附原论文下载）

多尺度特征融合：为检测学习更好的语义信息（附论文下载）

轻量级模型，重量级性能，TinyLlama、LiteLlama小模型火起来了

“计算机视觉研究院”商务合作

喜提 TPAMI 顶刊！！！

Token化一切，甚至网络！北大&谷歌&马普所提出TokenFormer，Transformer从来没有这么灵活过！

“计算机视觉研究院”商务合作

面了一个字节50k大佬，见识到了基础天花板！

PE-YOLO：解决黑夜中的目标检测难点

“计算机视觉研究院”商务合作

快速学会登上nature的热门算法，LSTM！

YOLO-S：小目标检测的轻量级、精确的类YOLO网络

OVO：在线蒸馏一次视觉Transformer搜索

2024新技术：远距离的小目标也可以准确检测

Fast YOLO：用于实时嵌入式目标检测（附论文下载）

魔改LSTM！性能直逼Transformer和Mamba

揭示Transformer重要缺陷！北大提出傅里叶分析神经网络FAN，填补周期性特征建模缺陷

改进的检测算法：用于高分辨率光学遥感图像目标检测

GitHub超火开发者路线图库有AI学习路线了！star数近30万

NeurIPS 2024 | 真实世界复杂任务，全新基准GTA助力大模型工具调用能力评测

今年顶会这情况。。。大家提前做准备吧！

取代Mamba，超越Transformer！扩展LSTM到数十亿参数

Drone-YOLO：一种有效的无人机图像目标检测

“计算机视觉研究院”商务合作

再见阿里，你好字节！

纯干货：Box Size置信度偏差会损害目标检测器（附源代码）

PE-YOLO：解决黑夜中的目标检测难点

245个目标检测开源项目合集，建议收藏！

YoloV：视频中目标实时检测依然很棒（附源代码下载）

利用先进技术保家卫国：深度学习进行小目标检测（适合初学者入门）

大型视觉语言模型OMG-LLaVA：图像级、目标级和像素级的推理和理解任务统一

PE-YOLO：解决黑夜中的目标检测难点

NeurIPS 2024 | 真实世界复杂任务，全新基准GTA助力大模型工具调用能力评测

人脸识别精度提升 | 基于Transformer的人脸识别（附源码）

YOLO-S：小目标检测的轻量级、精确的类YOLO网络

FP-DETR：通过完全预训练提升transformer目标检测器

3D大模型助力，15分钟即可训练高质量、个性化的数字人模型，代码已开放

顶会新方向！全新多模态大模型统一分割框架

微软新出框架：Transformer扩展到10亿token（附代码下载）

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉