PersonaTalk：无需训练即可创建数字人，视频口型编辑超SOTA

文摘 2024-11-11 18:00 北京

字节发布的PersonaTalk模型，可精准给视频进行AI配音的。该方案能不受原视频质量的影响，保障生成视频质量的同时兼顾 zero-shot 技术的便捷和稳定，可以通过非常便捷高效的方式用语音修改视频中人物的口型，完成高质量视频编辑，快速实现数字人视频制作以及口播内容的二次创作。

论文链接：https://arxiv.org/pdf/2409.05379

项目网页：https://grisoon.github.io/PersonaTalk

肖像来自学术数据集 HDTF

目前的视频改口型技术大致可以分为两类。一类是市面上最常见的定制化训练，需要用户首先提供 2-3mins 的人物视频数据，然后通过训练让模型对这段数据中的人物特征进行过拟合，最终实现该数据片段中人物口型的修改。这类方案在效果上相对成熟，但是需要耗费几个小时甚至几天的模型训练时间，成本较高，很难实现视频内容的快速生产；与此同时，这类方案对人物视频的质量要求往往偏高，如果视频中的人物口型动作不标准或者环境变化太复杂，训练后的效果会大打折扣。除了定制化训练之外，还有另一类 zero-shot 方案，可以通过大量数据来对模型进行预训练，让模型具备较强的泛化性，在实际使用的过程中不需要再针对特定人物去做模型微调，能做到即插即用，成功解决了定制化方案成本高，效果不鲁棒的问题。但这类方案大都把重点放在如何实现声音和口型的匹配上，往往忽略了视频生成的质量。这会导致一个重要的问题，最终生成的视频不论是在外貌等面部细节，还是说话的风格，跟本人会有明显的差异。

PersonaTalk 作为一项创新视频生成技术，构建了一个基于注意力机制的双阶段框架，实现了这两类方案优势的统一。

技术方案

为了达到上述目标，技术团队首先用一个风格感知的动画生成模块（Style-Aware Geometry Construction）在 3D 几何空间生成人物的口型动画序列；然后通过一个双分支并行的注意力模块（Dual-Attention Face Rendering）进行人像渲染，生成最终的视频。

肖像来自学术数据集 HDTF

Style-Aware Geometry Construction：这一阶段的目标是在 3D 几何空间中生成具备人物风格的人脸动画。除了通过常规的语音信号来控制生成结果，这里还从参考视频中提取说话者个性化的面部特征并分析出特征的统计特性，通过 Cross Attention 注入到模型中，来引导生成的动画具备说话者本人的面部运动风格。此外，文中还提出了一种 Hybrid 3D Reconstruction 方案，通过结合深度学习和迭代式优化的方法，来提升人脸三维重建的精度和稳定性。
Dual-Attention Face Rendering：在渲染过程中，作者团队创新性地设计了两个并行的注意力模块 Face-Attention 和 Lip-Attention，通过 Cross Attention 来融合 3D 动画和人物参考图特征，分别渲染脸部和嘴部的纹理。在推理过程中，文中还针对这两个模块分别设计了参考图挑选策略，其中人脸部分参考图从以当前帧为中心的一个滑动窗口中来获取，以此降低人脸纹理的采集和生成难度，确保视频画面的稳定性和保真度；口型部分则是先按照口型张幅大小对整个视频中的人脸进行排序，然后均匀挑选出不同张幅的口型图片组成一个集合，以确保口腔内的信息可以被完整性获取。

实验效果对比

在实验章节中，该研究从多个方面详细对比了 PersonaTalk 和其他市面上 SOTA 方案，以此来证明该方法的有效性。从视频效果和定量指标上看，PersonaTalk 在唇动同步、视觉质量与个性化特征保留方面均表现突出，明显优于其他 zero-shot 方法。

肖像来自学术数据集 HDTF 以及自有版权数据

同时，PersonaTalk 作为一个不需要额外训练和微调的方案，在视频结果的表现上甚至优于学术界最新的定制化训练方案。

肖像来自学术数据集 HDTF 及网络公开数据

此外，作者团队通过对目标用户进行问卷调查和访谈，收集了对 PersonaTalk 生成内容的反馈，结果显示大多数用户对视频质量感到满意，认为其足够逼真且高度还原了人物特征。

更多应用

该项研究可以应用在视频翻译、虚拟教师、AIGC 创作等多个场景。

以下数据均来自于网络公开数据或 AIGC 生成。

虚拟教师

原视频介绍 Deep Learning 课程

AIGC 创作

结论

PersonaTalk 通过注意力机制的双阶段框架，有效突破了已有视频口型编辑技术的瓶颈，可以用很低的成本来生成高质量的人物口播视频，实现了效果和效率的兼顾。

PersonaTalk 不仅具有广泛的应用前景，还为多领域的创新提供了新思路。无论是在娱乐、教育、广告等行业，都能实现更加个性化和互动式的用户体验。随着技术的不断发展，相信 PersonaTalk 将使视频内容以及数字人创作变得更加生动、真实，从而拉近虚拟世界与现实生活之间的距离。

通过整合先进的音频技术和深度学习算法，PersonaTalk 也正在开启一种全新的视听交互方式，让交流变得更加丰富与多元化。

安全说明

此工作仅以学术研究为目的，会严格限制模型的对外开放和使用权限，防止未经授权的恶意利用。文中使用的图片 / 视频均已注明来源，如有侵权，请联系作者及时删除。

永久福利直投简历

简历投递：join@speechhome.com

扫码关注我们

助力AI语音开发者的社区

http://mp.weixin.qq.com/s?__biz=MzI4OTQyNzA0Ng==&mid=2247533457&idx=1&sn=cbd6ec9d0ef723792be2edb4edd3a1b4

语音之家

助力AI语音开发者的社区

最新文章

上交大与上海人工智能研究所联合推出医学多语言模型，模型数据代码开源

CCF语音对话与听觉专委 “走进高校”系列活动—走进江苏大学

语音/音频处理学术速递[11.12]

诺奖AI成果开源了！ AlphaFold3代码人人可以免费下，Nature亲自撰文推荐

PersonaTalk：无需训练即可创建数字人，视频口型编辑超SOTA

智谱，让AI视频正式迈入“有声时代”

语音/音频处理学术速递[11.11]

AI语音招聘岗位合集

王仁华：“这是我们民族的事，应该自己闯出这条路！” | 先生

重磅！刚刚Sam Altman万字采访：AGI将在2025年实现，通往 AGI 的道路已经清晰可见

语音增强的跨域优化：并行还是级联？

文本图格式大一统！首个大规模文本边基准TEG-DB发布 | NeurIPS 2024

语音/音频处理学术速递[11.8]

【直播预告】Xmart•学生论坛丨刘濠赫：LDMs in audio decoding

港科大、中科大等推出最强扩散Transformer，「黑神话」级3A大作AI实时游戏生成！

语音/音频处理学术速递[11.7]

CNCC2024技术论坛“多模态大模型时代的语音音频技术：带来哪些机遇与挑战？”圆满举行

腾讯混元开源最大 MoE大模型

语音/音频处理学术速递[11.6]

技术沙龙预告丨揭秘新一代大规模声音克隆TTS模型MaskGCT

满血版o1倒计时！奥特曼完整专访流出：o系列疯狂迭代，马上起飞

语音/音频处理学术速递[11.5]

自回归量化连续语音合成，潜在扩散模型；多模态音频理解基准

倒计时3天，ISCSLP2024大会即将开幕！注册参会持续开放中

微软清华改进Transformer：用降噪耳机原理升级注意力，一作在线答疑

语音/音频处理学术速递[11.4]

AI语音招聘岗位合集

大规模、动态「语音增强/分离」新基准！清华发布移动音源仿真平台SonicSim，含950+小时训练数据

Meta发布全新后训练方式CGPO，编程水平直升5%

语音/音频处理学术速递[11.1]

刚刚，ChatGPT变身AI搜索免费用！OpenAI颠覆谷歌，搜索变天了

SiliconCloud上线Fish Audio：一站式开发端到端实时语音应用

o1驾驶无人机后空翻，OpenAI开发者日惊掉下巴！2分钟爆改代码写App

语音/音频处理学术速递[10.31]

MaskGCT：登上GitHub趋势榜榜首的TTS开源大模型

博士招生机会！

智源研究院发布千万级多模态指令数据集Infinity-MM：驱动开源模型迈向SOTA性能

语音/音频处理学术速递[10.30]

语音/音频处理学术速递[10.29]

新扩散模型OmniGen一统图像生成，架构还高度简化、易用

可在嘈杂环境中识别声音，新型液态声学传感器模拟鲸鱼额隆

超越Transformer，全面升级！MIT等华人团队发布通用时序TimeMixer++架构，8项任务全面领先

开放下载丨超自然对话语音合成数据集NCSSD

对话语音合成大模型GPT-Talker: Generative Expressive CSS

谷歌AI播客刚火，Meta就开源了平替，效果一言难尽

语音/音频处理学术速递[10.28]

AI语音招聘岗位合集

7B新王登基！Zamba 2完胜同级模型，推理效率比Llama 3提升20%，内存用量更少

语音/音频处理学术速递[10.25]

直播预告丨RTE2024 第十届实时互联网大会

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉