字节推 AI 配音应用,口型同步Get,且与表情、说话风格完美结合(附5款AI配音应用)

创业   2024-10-28 18:33   北京  

作者袁博

来源AI先锋官


还记得去年由HeyGen生成传遍全网的霉霉讲中文、郭德纲用英语讲相声吗?

(延伸阅读:郭德纲“说”英文相声刷屏!解密继妙鸭相机后这个最新AI应用的爆款路径

现在,AI视频配音界又“杀”出一匹黑马。

它就是由字节跳动开发的PersonaTalk,一种专为实现高保真和个性化视觉配音的技术框架,也就是专门用来给视频人物进行AI配音。

先来看一组视频:



可以看到,它不仅能够让人物的嘴巴动作和声音完全同步,还能保持人物的个性特征,比如独特的说话风格和面部细节。

为了达到上述目标,PersonaTalk团队介绍了他们的技术方法,其共分为两大步骤,分别是几何构建和面部渲染。

1、风格感知几何构建:首先提取视频中说话者的三维面部几何信息,并通过混合几何估计法学习说话者的说话风格,将其嵌入音频特征。之后,使用交叉注意力机制将音频特征与几何特征结合,实现唇形同步。

2、双重注意力面部渲染:该阶段利用双重交叉注意力机制分别处理唇部和其他面部区域的纹理采样。唇部注意力从参考帧中提取与唇部相关的纹理,而面部注意力则负责生成其余的面部纹理,从而保留面部的精细细节。

也就是PersonaTalk 先用AI分析视频中人物的3D脸型,然后再对脸部进行细致的渲染,生成最终的视频。这样既保证嘴巴动得对,也能保留人物的脸部细节。

并且,从他的演示视频中还提到了,它支持多语种翻译视频。

例如:

泰勒斯威夫特翻译视频

原版英文

中文

德语

成龙翻译视频

原版英文

日语


法语

还包括动画配音。



从这些演示视频中可以看到,它在口型匹配、多语种翻译可以与此前的HeyGen“比划比划”。

但是在动画配音上感觉还是差点意思,给人一种比较“呆板”的感觉。

遗憾的是PersonaTalk现只发布了论文和项目地址,暂时还不知上手后效果如何。

论文链接:
https://arxiv.org/pdf/2409.05379

项目网页:
https://grisoon.github.io/PersonaTalk

不过,目前市面上可以实现口型匹配的AI配音工具还有很多,小编这就给大家推荐几款。


-1-
Sync Labs


Sync Labs是一款AI视频配音工具,使用AI技术实现了实时口型同步,支持用户将任何语言的音频与视频中的人物进行同步。Sync Labs支持多种语言,适用于电影、播客、游戏和动画等多种视频内容,开放API支持集成到各种应用和服务中。

地址:https://sync.so/


-2-
LipDub



LipDub是Captions推出的海外AI配音工具,能将视频实时转换成多达27种不同的语言。基于先进的AI技术,同步声音和口型,使视频看起来像是在用另一种语言自然地说话。打破了语言障碍,让内容创作者能轻松地与全球观众分享视频,实现跨文化交流。

主要特性包括实时录制和翻译、声音与口型的精准匹配高质量的多语言翻译以及便捷的分享功能。Lipdub致力于让沟通无界限,为全球用户提供了一个免费、易用的多语言视频内容创作平台。

使用方法:苹果AppStore应用商店内下载"Lipdub”。


-3-
Pika


此前,Pika推出了对口型功能——Lip Sync,该功能使视频中的角色或虚拟形象的口型能够与输入的文字或上传的音频同步,仿佛真实说话一般,有利于提高视频的真实感和生动性。

Pika还得到了AI语音生成平台ElevenLabs的技术支持。ElevenLabs为Lip Sync功能的语音生成部分提供了强大的技术支持和高质量的语音库。

(延伸阅读:花一万元让AI“复活”亲人?Pika这个小功能让你不花钱

地址:https://pika.art/


-4-
Pipio


该产品可以通过AI技术实现视频语音的自动配音和口型同步,同时可以轻松实现视频的多语种翻译,并保留原始音色并可以无缝地将说话者的唇部运动与新语言相匹配。

据介绍,其主要特点包括:33%以上的同步精度;媲美人工口型同步;无损视频分辨率;高保真语音翻译。

地址:https://app.pipio.ai/login


-5-
Linly-Dubbing


Linly-Dubbing是一个开源AI视频工具,支持配音、翻译、对口型,能自动将视频内容翻译成多种语言,并生成字幕。通过WhisperX和FunASR进行精准语音识别,基于Edge TTS、XTTS 和 CosyVoice 等技术进行高质量语音合成。Linly-Dubbing通过OpenAI API和Qwen模型等进行字幕翻译,并且通过声音分离技术和口型同步技术,视频配音自然流畅,对口型准确。用户可以上传视频,选择翻译语言,实现个性化的多语言配音。

GitHub地址:
https://github.com/Kedreamix/Linly-Dubbing

 .END.
扫码邀请进群,我们带你一起来玩转ChatGPT、GPT-4、文心一言、通义千问、讯飞星火等AI大模型,顺便学一些AI搞钱技能。



往期文章回顾


AI先锋官
AIGC大模型及应用精选与评测
 最新文章