2024年6月,由晴数智慧(Magic Data)联合西北工业大学音频语音与语言处理研究组(ASLP@NPU)、新加坡资讯通讯研究院(I2R)、深圳大数据研究院(SRIBD)、香港中文大学(深圳)等多家单位在2024年中文口语语言处理国际会议(ISCSLP2024)上推出了对话语音克隆挑战赛(Conversational Voice Clone Challenge — CoVoC)。
自开展以来,共收到六十多支参赛队伍注册报名,包括腾讯、微软、虎牙、bilibili、清华大学、昆山杜克大学、中山大学、上海交通大学、CVTE、荣耀、平安、马上消费、北京邮电大学、吉利汽车研究院等,最终提交了12个系统。
2024年7月12日,主办方正式公布本次挑战赛成绩排名。
竞赛结果与排名
1、限制赛道(Constrained Track)
排名 | 参赛团队 | 成绩 | 参赛单位 |
1 | we are NPC | 3.71 | —— |
2 | Fish Audio Team | 3.63 | Fish Audio |
3 | THU-HCSI | 3.61 | Tsinghua University |
2、无限制赛道(Unconstrained Track)
排名 | 参赛团队 | 成绩 | 参赛单位 |
1 | MASTER | 3.83 | Tencent |
2 | C-TTS | 3.77 | CVTE |
3 | Orion | 3.75 | Microsoft |
完整榜单及打分详情👇
https://www.magicdatatech.com/iscslp-2024
挑战赛背景
文语转换(TTS)旨在生成听起来尽可能自然且类似人类的语音。随着语音合成技术的飞速发展,合成音频的质量和自然度得到了显著的提高,促进了TTS系统在诸多场景中的广泛应用。大规模数据和大模型(LLM、Diffusion)的应用(例如:VALL-E,NaturalSpeech,TorToise等)让零样本TTS (Zero-shot TTS)在生成质量以及音色相似度上取得显著突破,引起了学术界和工业界的广泛关注。同时,合成语音的自然度达到真人水平。OpenAI、11Labs、微软和字节等科技巨头均已上线超自然的对话TTS。然而,语音生成中自发行为和对话方面尚未得到充分研究。具体而言,主要挑战在于如何有效控制生成语音中的韵律细节,以区分自发语音和朗读语音间的多样化和复杂自发行为。大规模TTS系统具有强大的上下文学习能力,有望在零样本TTS以及对话场景中取得更好的效果。但在零样本TTS研究领域,当下各个方案采用的训练/测试数据集无法完全对齐,以及缺乏效果的标准评估。这一问题阻碍了不同系统间的直接对比,使得公平评估各种系统的性能变得十分迫切。
为了推动零样本场景下富有表现力的、具有自发行为风格的语音合成技术的发展,我们在2024年中文口语语言处理国际会议(ISCSLP2024)上推出对话语音克隆挑战赛(Conversational Voice Clone Challenge — CoVoC)。该赛事基于多个训练数据集,包括1万小时的WenetSpeech4TTS数据集,180小时的普通话自然对话语音数据以及100小时的高质量口语对话数据。此外,我们将提供一个标准测试数据集,包括多个克隆说话人和多样化的文本,旨在提供一个中文音色克隆的测试基准。
赛道
CoVoC挑战设有两个赛道。
限制赛道:在训练阶段只允许使用上述提及的语料库。如果系统中使用了预训练模型,也必须是开源模型,并且使用的模型情况必须在最终提交中清楚地说明。在这个赛道中,排名靠前的团队将被邀请提交论文到ISCSLP会议中。
无限制赛道:除了我们提供的数据外,其他开源或内部语料库都可以在训练阶段使用。参赛者应该在与提交的技术报告中清楚描述所使用的数据规模和情况。参与这个赛道的团队需要填写一个表格,提供有关方案的详细信息。
组织者
谢磊,西北工业大学
张晴晴,晴数智慧
王帅,深圳大数据研究院(SRIBD)
罗磊,晴数智慧
董明会,新加坡资讯通讯研究院 (I2R)
薛浏蒙,香港中文大学(深圳)
姚继珣,西北工业大学
郭大可,西北工业大学
李函昭,西北工业大学
夏康翔,西北工业大学