阿里的语义识别模型SenseVoice和语音生成模型CosyVoice

文摘   2024-07-19 23:11   新加坡  

阿里巴巴通义大模型的语音团队(speechteam)本月发布了两个语音相关的模型和一个应用框架:

  1. SenseVoice:用于高精度的多语言语音识别、情感识别和音频事件检测,SenseVoice提供极低的延迟,支持超过50种语言。

  2. CosyVoice:用于自然语音生成,具备多语言、音色和情感控制能力,CosyVoice在多语言语音生成、零样本语音生成、跨语言语音克隆和指令遵循能力方面表现出色。

  3. FunAudioLLM:利用这两个模型的结合做了一些具体的应用,旨在增强人与大语言模型之间自然语音交互的框架。

应用场景

语音到语音翻译

通过整合SenseVoice、LLMs和CosyVoice,我们可以轻松实现语音到语音翻译(S2ST)。

案例1:

原始语音:
对,所以说你现在的话,这个账单的话,你既然说能处理,那你就想办法处理掉。

生成翻译语音:
Yes, that's why I'm saying, regarding the bill you're currently discussing, if you say you can handle it, then find a way to take care of it. 

案例2:

原始语音:
And then later on, fully acquiring that company. So keeping management in line, interest in line with the asset that's coming into the family is a reason why sometimes we don't buy the whole thing.

生成翻译语音:
その後、その会社を完全に買収する。だから、経営陣を一列に並べ、家族に入る資産との利益を一致させることが、私たちが全てを買わない理由の一つです。

情感语音聊天

通过整合SenseVoice、LLMs和CosyVoice,我们可以开发一个情感语音聊天应用。在下面的示例中,用户和助手的内容都是由CosyVoice合成的。

案例:

User: 早上好
Assistant: 生成风格: warm tone, slow speaking rate, and friendly emotion. 播报内容: 早上好呀,今天的精神状态如何呀?
User: 今天特别开心
Assistant: 生成风格: high pitch, fast speaking rate, and happy emotion. 播报内容: [breath]哎哟,听到你这么开心[breath]我也很高兴呢,发生什么好事啦?
User: 我们要发布一个新的语音大模型啦
Assistant: 生成风格: normal tone, medium speaking rate, with a hint of amusement. 播报内容: [laughter]太棒了,听说你们要发布新的语音大模型,真是个令人兴奋的消息啊!
User: 悲伤的说一句光头强台词吧
Assistant: 生成风格: low pitch, slow speaking rate, and sad emotion. 播报内容: "唉---看来这次又要空手而归了---"
User: 真棒
Assistant: 生成风格: positive tone, moderate speaking rate, and encouraging emotion. 播报内容: 那真是太棒啦,继续保持这种势头哦!


互动播客

通过整合SenseVoice、基于LLM的具有实时世界知识的多代理系统和CosyVoice,我们可以创建一个互动播客。

案例:

Assistant_小夏:聆听未来AI主播带你走在知识前沿。大家好,欢迎来到我们的播客节目,我是主播小夏。
Assistant_大东:Hello, 大家好,我是你们的搞笑担当大东。今天我们要聊的话题非常劲爆,那就是五月天演唱会假唱风波。
Assistant_小夏:是啊,最近这个话题可是引发了不小的争议。首先我们来看看网友爆料的一些证据和分析。有网友上传了五月天演唱会上的一些视频片段,从这些视频中可以看出,主唱阿信在演唱时明显是在对口型,甚至有些地方的口型都不太对。
Assistant_大东:哈哈,我看了那个视频确实有点尴尬,我还记得有个镜头是阿信把麦克风放下来。
User: 但这也太没有职业道德了吧,他。
Assistant_大东:职业道德这个问题确实值得讨论。五月天一直以来都是以现场实力著称,乐队如果真有假唱,那粉丝们可能会感到失望,但也有时候考虑到音乐质量或者艺人身体状况,可能会采取一些措施,不过粉丝们通常更喜欢看到真实的现场表演,不是吗?你觉得呢?
User: 没什么意思,换一个。
Assistant_大东:接下来我们转入下一个话题,即将讨论的内容非常热门,那就是泰国队在36强赛对阵中国的海报,真是让人充满期待又感到紧张。
Assistant_小夏:没错,我看到那海报的时候内心五味杂陈。我们国足上一次大比分失利于泰国队,那1至5的比分简直是噩梦。不过这次泰国队用这个当宣传,我觉得咱们国足的小伙子们可得打起精神来,不能再让历史重演了。
Assistant_大东:对,这个海报上还贴出了2013年的热身赛和2019年中国杯赛事中泰国队战胜国足的情况,泰国队可真不客气。


富有表现力的有声书叙述

通过LLM的分析能力来结构化和识别书中的情感,并结合CosyVoice的合成能力,我们可以实现更具表现力的有声书。

案例:

神雕侠侣,第九回,百计避敌。

  • 陆无双正自惶急,听她忽问傻话,怒道:“傻蛋!又胡说甚么?”
  • 杨过笑道:“咱们来玩拜天地成亲,你扮新娘子好不好?那才叫美呢!脸上披了红布,别人说什么也瞧你不见。”
  • 陆无双一怔,道:“你教我扮新娘子躲过师父?”
  • 杨过嘻嘻笑道:“我不知道,你扮新娘子,我就扮新官人。”


两个模型:

语音理解模型:SenseVoice

SenseVoice是一个具备多种语音理解能力的语音基础模型,包括自动语音识别(ASR)、语言识别(LID)、情感识别(SER)和音频事件检测(AED)。SenseVoice-Small是一个仅使用编码器的语音基础模型,用于快速语音理解;SenseVoice-Large是一个编码器-解码器的语音基础模型,支持更多语言,以实现更准确的语音理解。

语音生成模型:CosyVoice

总结来说,CosyVoice包括一个自回归变换器,用于为输入文本生成相应的语音标记;一个基于ODE的扩散模型,通过流匹配从生成的语音标记重建Mel频谱;以及一个基于HiFTNet的声码器来合成波形。虚线模块在特定模型使用中是可选的,例如跨语言、SFT推理等。

试用CosyVoice模型

我找了一个 Google Colab 的 notebook,运行了一下效果,用 Trump 的声音特质生成了一段文字转语音。

原始音频:

生成音频

The most incredible thing was that I happened to not only turn but to turn at the exact right time and in just the right amount, I’m supposed to be dead, I’m not supposed to be here

Renee 创业随笔
絮絮叨叨