阿里巴巴通义大模型的语音团队(speechteam)本月发布了两个语音相关的模型和一个应用框架:
SenseVoice:用于高精度的多语言语音识别、情感识别和音频事件检测,SenseVoice提供极低的延迟,支持超过50种语言。
CosyVoice:用于自然语音生成,具备多语言、音色和情感控制能力,CosyVoice在多语言语音生成、零样本语音生成、跨语言语音克隆和指令遵循能力方面表现出色。
FunAudioLLM:利用这两个模型的结合做了一些具体的应用,旨在增强人与大语言模型之间自然语音交互的框架。
应用场景
语音到语音翻译
通过整合SenseVoice、LLMs和CosyVoice,我们可以轻松实现语音到语音翻译(S2ST)。
案例1:
原始语音:
对,所以说你现在的话,这个账单的话,你既然说能处理,那你就想办法处理掉。
生成翻译语音:
Yes, that's why I'm saying, regarding the bill you're currently discussing, if you say you can handle it, then find a way to take care of it.
案例2:
原始语音:
And then later on, fully acquiring that company. So keeping management in line, interest in line with the asset that's coming into the family is a reason why sometimes we don't buy the whole thing.
生成翻译语音:
その後、その会社を完全に買収する。だから、経営陣を一列に並べ、家族に入る資産との利益を一致させることが、私たちが全てを買わない理由の一つです。
情感语音聊天
通过整合SenseVoice、LLMs和CosyVoice,我们可以开发一个情感语音聊天应用。在下面的示例中,用户和助手的内容都是由CosyVoice合成的。
案例:
User: 早上好
Assistant: 生成风格: warm tone, slow speaking rate, and friendly emotion. 播报内容: 早上好呀,今天的精神状态如何呀?
User: 今天特别开心
Assistant: 生成风格: high pitch, fast speaking rate, and happy emotion. 播报内容: [breath]哎哟,听到你这么开心[breath]我也很高兴呢,发生什么好事啦?
User: 我们要发布一个新的语音大模型啦
Assistant: 生成风格: normal tone, medium speaking rate, with a hint of amusement. 播报内容: [laughter]太棒了,听说你们要发布新的语音大模型,真是个令人兴奋的消息啊!
User: 悲伤的说一句光头强台词吧
Assistant: 生成风格: low pitch, slow speaking rate, and sad emotion. 播报内容: "唉---看来这次又要空手而归了---"
User: 真棒
Assistant: 生成风格: positive tone, moderate speaking rate, and encouraging emotion. 播报内容: 那真是太棒啦,继续保持这种势头哦!
互动播客
通过整合SenseVoice、基于LLM的具有实时世界知识的多代理系统和CosyVoice,我们可以创建一个互动播客。
案例:
Assistant_小夏:聆听未来AI主播带你走在知识前沿。大家好,欢迎来到我们的播客节目,我是主播小夏。
Assistant_大东:Hello, 大家好,我是你们的搞笑担当大东。今天我们要聊的话题非常劲爆,那就是五月天演唱会假唱风波。
Assistant_小夏:是啊,最近这个话题可是引发了不小的争议。首先我们来看看网友爆料的一些证据和分析。有网友上传了五月天演唱会上的一些视频片段,从这些视频中可以看出,主唱阿信在演唱时明显是在对口型,甚至有些地方的口型都不太对。
Assistant_大东:哈哈,我看了那个视频确实有点尴尬,我还记得有个镜头是阿信把麦克风放下来。
User: 但这也太没有职业道德了吧,他。
Assistant_大东:职业道德这个问题确实值得讨论。五月天一直以来都是以现场实力著称,乐队如果真有假唱,那粉丝们可能会感到失望,但也有时候考虑到音乐质量或者艺人身体状况,可能会采取一些措施,不过粉丝们通常更喜欢看到真实的现场表演,不是吗?你觉得呢?
User: 没什么意思,换一个。
Assistant_大东:接下来我们转入下一个话题,即将讨论的内容非常热门,那就是泰国队在36强赛对阵中国的海报,真是让人充满期待又感到紧张。
Assistant_小夏:没错,我看到那海报的时候内心五味杂陈。我们国足上一次大比分失利于泰国队,那1至5的比分简直是噩梦。不过这次泰国队用这个当宣传,我觉得咱们国足的小伙子们可得打起精神来,不能再让历史重演了。
Assistant_大东:对,这个海报上还贴出了2013年的热身赛和2019年中国杯赛事中泰国队战胜国足的情况,泰国队可真不客气。
富有表现力的有声书叙述
通过LLM的分析能力来结构化和识别书中的情感,并结合CosyVoice的合成能力,我们可以实现更具表现力的有声书。
案例:
神雕侠侣,第九回,百计避敌。
陆无双正自惶急,听她忽问傻话,怒道:“傻蛋!又胡说甚么?” 杨过笑道:“咱们来玩拜天地成亲,你扮新娘子好不好?那才叫美呢!脸上披了红布,别人说什么也瞧你不见。” 陆无双一怔,道:“你教我扮新娘子躲过师父?” 杨过嘻嘻笑道:“我不知道,你扮新娘子,我就扮新官人。”
两个模型:
语音理解模型:SenseVoice
SenseVoice是一个具备多种语音理解能力的语音基础模型,包括自动语音识别(ASR)、语言识别(LID)、情感识别(SER)和音频事件检测(AED)。SenseVoice-Small是一个仅使用编码器的语音基础模型,用于快速语音理解;SenseVoice-Large是一个编码器-解码器的语音基础模型,支持更多语言,以实现更准确的语音理解。
语音生成模型:CosyVoice
总结来说,CosyVoice包括一个自回归变换器,用于为输入文本生成相应的语音标记;一个基于ODE的扩散模型,通过流匹配从生成的语音标记重建Mel频谱;以及一个基于HiFTNet的声码器来合成波形。虚线模块在特定模型使用中是可选的,例如跨语言、SFT推理等。
试用CosyVoice模型
我找了一个 Google Colab 的 notebook,运行了一下效果,用 Trump 的声音特质生成了一段文字转语音。
原始音频:
生成的音频:
The most incredible thing was that I happened to not only turn but to turn at the exact right time and in just the right amount, I’m supposed to be dead, I’m not supposed to be here