字节PersonaTalk：AI配音再颠覆每个声音人需了解

文摘 2024-11-19 17:02 北京

先看这段视频：

这段“电影声音网Filmsound.cn”合并的视频有成龙和霉霉，特别是霉霉的视频，在去年也有类似其它AI技术生成的，而字节PersonaTalk的AI又将其吻合度提升了一大截，达到了真正以假乱真的程度。而PersonaTalk是怎么做到的呢？

对于音频驱动的视觉配音，在合成准确的唇形同步的同时维护和突出演讲者的“角色”仍然是一个相当大的挑战，目前的AI视频配音口型技术大致可分为两种，一种是先基于大量数据模型训练，匹配到个人的口型上。缺点是只强调了口型，对面目表情和说话风格都有明显差异。另一种是定制训练，先提供人物视频素材，然后通过训练达到口型的修改。缺点是需要时间长，成本高，对素材品质要求高。这两种都无法更真实的实现面部表情神态的再创造，更多适用于单调、通用的无表情解说类场景应用。

PersonaTalk实现原理

PersonaTalk采用两阶段框架来实现高保真度和个性化的视觉配音。该技术通过风格感知的音频编码模块和双注意力面部渲染器，能够在合成准确的唇形同步的同时，保持和突出说话者的“个性”。它不仅能够捕捉说话者独特的说话风格，还能保留面部细节，这对于音频驱动的视觉配音来说目前还是一个相当大的挑战。

在这个基于注意力的两阶段框架中，在第一阶段，是一种风格感知的音频编码模块，通过交叉注意层将说话风格注入到音频特征中；然后，使用风格化的音频特征来驱动播放模板的几何形状以获得口型同步。

3D面部几何提取：

通过使用一个“混合几何估计方法”，将视频中的面部信息转化为3D面部几何数据，包括面部的形状、表情和姿态。
这种几何建模让嘴型的生成更加精准，也便于后续渲染个性化面部细节。

音频编码与风格注入：

利用预训练的音频编码器，将音频信号转化为特征表示。
通过从几何数据中提取的统计特征来学习说话者的个性化风格，并将其嵌入到音频特征中。这一步通过交叉注意力层来实现，使得生成的口型不仅同步，还带有个性化的说话风格。

生成口型同步的几何形状：

基于音频特征和3D几何信息，通过多层交叉注意力和自注意力机制，生成口型同步的面部几何。

在第二阶段，引入双注意力面部渲染器来渲染目标几何形状的纹理。它由两个并行的交叉注意力层组成，即 Lip-Attention 和 Face-Attention，分别从不同的参考帧中采样纹理来渲染整个脸部。通过创新设计，可以很好地保留复杂的面部细节。综合实验和用户研究证明了在视觉质量、口型同步准确性和角色保留方面优于其他最先进方法的优势。

双重注意力机制

（Dual-Attention Mechanism）

口部注意力：专注于嘴唇及相关区域的细节渲染，确保嘴型的精确同步和纹理清晰。
面部注意力：负责脸部其他部分的细节渲染，如脸颊、皮肤纹理、脸型轮廓等，以保持面部的整体一致性。
使用两种注意力机制，分别处理“嘴部”和“面部其他部分”的细节：

参考帧选择策略

在渲染过程中，会动态选择多个参考帧来采样嘴部和面部的纹理。为了减少模糊和闪烁现象，口部参考帧的选择会基于嘴巴张开程度排序，而面部参考帧则基于相邻帧的稳定性选择。

纹理解码

（Texture Decoding）

在完成纹理采样后，通过一个几何感知的纹理解码器将面部图像从特征空间解码到像素空间，确保面部细节的高度保真。

请看这两个案例：

作为一个通用框架， PersonaTalk可以像最先进的个人特定方法一样实现有竞争力的表现。

实际效果对比：

作为一个不需要额外训练和微调的方案，PersonaTalk在结果的表现上甚至优于学术界认为最强的定制化训练方案。

PersonaTalk的核心能力包括：

声音同步口型：

PersonaTalk能够确保在给视频添加新声音时，人物的嘴部动作与新语音的口型完全匹配。这意味着，无论视频中的人物是说话、微笑还是做出其他面部表情，他们的嘴唇动作都能与新的语音完美同步，就像他们真的在说出那些话一样。

保留人物特点：

在创建新视频内容时，PersonaTalk会尽量保留视频中人物的原有特点，包括他们的说话方式、脸型和表情等。这种保留个性特征的能力，使得使用PersonaTalk技术生成的视频能够保持高度的真实感和自然感，避免出现僵硬或不协调的情况。

适用于不同人物：

与传统的AI配音技术不同，PersonaTalk不需要大量的数据来单独训练每一个特定的人物。这使得该技术能够适应不同的人物和多样化的场景，为视频制作提供了更大的灵活性和便利性。

PersonaTalk的优势：

风格感知的音频编码模块：通过交叉注意力层将说话风格注入音频特征。
口形同步的几何生成：使用风格化音频特征驱动说话者模板几何形状，以获得唇形同步的几何形状。
双注意力面部渲染器：包含两个并行的交叉注意力层，分别从不同的参考帧中采样纹理，以渲染整个面部。
高质量的视觉呈现：通过创新设计，能够很好地保留复杂的面部细节，比如牙齿、面部轮廓、肤色、化妆、甚至光照等。
多语言翻译支持：能够处理包括英语、中文、德语、法语和日语在内的多种语言。
广泛的应用场景：适用于多媒体教学、动画制作和在线课程等多种场景。

PersonaTalk需求人群：

"PersonaTalk的目标受众包括视频制作者、动画师、在线教育提供者和多媒体内容创作者。这些用户通常需要将音频内容与人物形象同步，以提高内容的吸引力和专业性。PersonaTalk通过提供高质量的视觉配音，帮助他们创造出更加逼真和个性化的视听体验。"

PersonaTalk使用场景示例

视频制作者使用PersonaTalk为电影或视频添加逼真的唇形同步和个性化角色。

在线教育平台利用PersonaTalk为教学视频提供多语言配音，以吸引全球学生。

动画创作者使用PersonaTalk为动画角色创建自然和个性化的面部表情和唇形动作。

视频样例：

更多视频案例请点阅读原文或访问网站 https://www.filmsound.cn

PersonaTalk使用教程

1. 访问Github的PersonaTalk网页并下载相关代码。

2. 准备所需的音频文件和目标人物的面部模板。

3. 使用风格感知的音频编码模块处理音频文件，注入说话风格。

4. 利用唇形同步的几何生成模块，根据处理过的音频特征生成唇形同步的几何形状。

5. 使用双注意力面部渲染器渲染目标几何形状的纹理。

6. 调整参数以优化视觉质量、唇形同步准确性和个性保持。

7. 将生成的视觉配音应用到项目中。

PersonaTalk安全说明

仅以学术研究为目的，会严格限制模型的对外开放和使用权限，防止未经授权的恶意利用。

电影声音网Filmsound.cn观点：

PersonaTalk是配音领域的又一重大如破，对于一部分的动画配音、在线教学、演示直播等应用已经完全达到商业级别，但对于影视及真人的故事类内容，有大量人物及机位移动的这类内容生产目前还是难以胜任，但AI技术的进步速度真的太快了，让我们期待不久以后的更迭进步。

http://mp.weixin.qq.com/s?__biz=MzA5NjgzOTQ2Ng==&mid=2651222585&idx=1&sn=f02bd07c02686db19bcc65ffd1b0289f

Filmsound.cn电影声音网

电影声音FilmSound.cn（同期录音网 www.LocationSound.cn），中国影视录音专业性网站，提供即时更新的全面的业界信息，行业人士相互交流，促进影视录音行业的发展和进步

最新文章

Boom Library插件系列黑五狂欢来袭！打造专业音频处理新境界

AudioSourceRE 发布 DeMIX v6 重塑AI音干分离

3D音频工作站Audiocube发布v24.11更新发布v24.11更新

MyAudioFactory 发布失真消除器 ProAudioDeclipper v1.2升级

【周周乐儿】《角斗士2》原声赏析

面向声音制作人、DJ 和其他创意专业人士的新型笔记本Hub支架

Ginger Audio SPHERE 2 监听控制软件更新发布

LAION 发布新数据集以推进音频 AI 研究

iZotope RX11软件及升级闪促 SoundToys UVI 24黑五第五期

2024 TGA提名名单正式公布！

声优们也慌了，日本音频行业呼吁适当使用人工智能

2BPlayed 发布免费插件 - QFX Echo

Accentize黑五活动终于来了，跟上！

Schwabe Digital 发布 Gold Clip Pack 更新

Sound Devices 推出 A20-HH 数字无线手持麦克风

Warm Audio 推出全新 WA76 系列

新开始 Pro Tools 工程时应该做的 5 件事

黑五薅羊毛第三弹！肥波和Sonible带来重磅优惠!

Audix 推出限量版 D6 麦克风庆祝40周年纪念

字节PersonaTalk：AI配音再颠覆每个声音人需了解

免费插件 - Bertom 的立体声插件 Phantom Center 可分离LCR！

Wave Arts 发布 TrackPlug 7

Aurora DSP 推出 Monster 4000 Neural总线压缩器

这款屡获殊荣对白必用插件只需一折，黑五薅羊毛第二弹！McDSP

AI音频DAW Hit'n'Mix RipX 7.5发布

Gaudio Lab将推出视频 AI 音乐解决方案

Penteo v6.0.8 更新

第37届中国电影金鸡奖获奖名单公布！

【周周乐儿】《完美的日子》原声赏析

Cargo Cult Stemcell v2 多通道主干处理器插件发布

Wavealchemy 发布免费混响插件 - Magic 7

MyElectronics宣布推出适用于1~3台Mac mini M4（2024年版）的19英寸机架式安装架

Logic Pro 11.1 与Final Cut Pro 11更新发布增添众多AI功能

同期录音网24年黑五优惠第一弹来了

集成 Wi-Fi 在无线耳机中实现无损空间音频

Process Audio 推出 Ripple 创意延迟插件

Kiive Audio 和 AudioScape Engineering 推出 MK-609 压缩器插件

Saramonic 推出带时间码的2 通道无线麦克风系统

Sonarworks 宣布UA Apollo 监听校正支持

限免！复古风格Noiseash Backs EQ

Smart DSP 推出 Sublimer 音频增强器插件

DJ Swivel 推出 HitStrip 通道条插件

《星球大战：亡命之徒》：与Massive Entertainment游戏音频团队共同定义“无赖冒险”之声

全球人工智能音频处理软件市场规模、主要参与者的份额和预测

OSMIX 推出AI人工智能音频混音平台

Shy Audio 推出 Shy 90s 年代效果插件

新品发布 | WirelessMicro口袋无线领夹麦克风 | 随时随地，即刻开录

使用 Eleven Labs 的全新 AI 语音设计工具为任何应用创建 AI 语音

Acustica Audio 推出带有八个真空电子管仿真的饱和度插件

RJ Studios 将 MB3X Mastering Compressor 母带压缩更新至 v210

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

字节PersonaTalk：AI配音再颠覆 每个声音人需了解

字节PersonaTalk：AI配音再颠覆每个声音人需了解