挑战赛结果公布 | ISCSLP2024 对话语音克隆挑战赛（CoVoC）

文摘 2024-07-16 11:14 陕西

2024年6月，由晴数智慧(Magic Data)联合西北工业大学音频语音与语言处理研究组(ASLP@NPU)、新加坡资讯通讯研究院(I2R)、深圳大数据研究院(SRIBD)、香港中文大学(深圳)等多家单位在2024年中文口语语言处理国际会议(ISCSLP2024)上推出了对话语音克隆挑战赛(Conversational Voice Clone Challenge — CoVoC)。

自开展以来，共收到六十多支参赛队伍注册报名，包括腾讯、微软、虎牙、bilibili、清华大学、昆山杜克大学、中山大学、上海交通大学、CVTE、荣耀、平安、马上消费、北京邮电大学、吉利汽车研究院等，最终提交了12个系统。

2024年7月12日，主办方正式公布本次挑战赛成绩排名。

竞赛结果与排名

1、限制赛道（Constrained Track）

排名	参赛团队	成绩	参赛单位
1	we are NPC	3.71	——
2	Fish Audio Team	3.63	Fish Audio
3	THU-HCSI	3.61	Tsinghua University

2、无限制赛道（Unconstrained Track）

排名	参赛团队	成绩	参赛单位
1	MASTER	3.83	Tencent
2	C-TTS	3.77	CVTE
3	Orion	3.75	Microsoft

完整榜单及打分详情👇

https://www.magicdatatech.com/iscslp-2024

挑战赛背景

文语转换（TTS）旨在生成听起来尽可能自然且类似人类的语音。随着语音合成技术的飞速发展，合成音频的质量和自然度得到了显著的提高，促进了TTS系统在诸多场景中的广泛应用。大规模数据和大模型（LLM、Diffusion）的应用（例如：VALL-E，NaturalSpeech，TorToise等）让零样本TTS （Zero-shot TTS）在生成质量以及音色相似度上取得显著突破，引起了学术界和工业界的广泛关注。同时，合成语音的自然度达到真人水平。OpenAI、11Labs、微软和字节等科技巨头均已上线超自然的对话TTS。然而，语音生成中自发行为和对话方面尚未得到充分研究。具体而言，主要挑战在于如何有效控制生成语音中的韵律细节，以区分自发语音和朗读语音间的多样化和复杂自发行为。大规模TTS系统具有强大的上下文学习能力，有望在零样本TTS以及对话场景中取得更好的效果。但在零样本TTS研究领域，当下各个方案采用的训练/测试数据集无法完全对齐，以及缺乏效果的标准评估。这一问题阻碍了不同系统间的直接对比，使得公平评估各种系统的性能变得十分迫切。

为了推动零样本场景下富有表现力的、具有自发行为风格的语音合成技术的发展，我们在2024年中文口语语言处理国际会议（ISCSLP2024）上推出对话语音克隆挑战赛(Conversational Voice Clone Challenge — CoVoC)。该赛事基于多个训练数据集，包括1万小时的WenetSpeech4TTS数据集，180小时的普通话自然对话语音数据以及100小时的高质量口语对话数据。此外，我们将提供一个标准测试数据集，包括多个克隆说话人和多样化的文本，旨在提供一个中文音色克隆的测试基准。

赛道

CoVoC挑战设有两个赛道。

限制赛道：在训练阶段只允许使用上述提及的语料库。如果系统中使用了预训练模型，也必须是开源模型，并且使用的模型情况必须在最终提交中清楚地说明。在这个赛道中，排名靠前的团队将被邀请提交论文到ISCSLP会议中。

无限制赛道：除了我们提供的数据外，其他开源或内部语料库都可以在训练阶段使用。参赛者应该在与提交的技术报告中清楚描述所使用的数据规模和情况。参与这个赛道的团队需要填写一个表格，提供有关方案的详细信息。

组织者

谢磊，西北工业大学
张晴晴，晴数智慧
王帅，深圳大数据研究院（SRIBD）
罗磊，晴数智慧
董明会，新加坡资讯通讯研究院（I2R）
薛浏蒙，香港中文大学（深圳）
姚继珣，西北工业大学
郭大可，西北工业大学
李函昭，西北工业大学
夏康翔，西北工业大学

http://mp.weixin.qq.com/s?__biz=MzA3NTQzNzM1Ng==&mid=2648428118&idx=1&sn=e0e67b10b5af6fbfa07726b552a45f12

音频语音与语言处理研究组

发布关于音频语音与语言处理研究组的最新研究成果、技术分享、新闻动态和活动等。

最新文章

IEEE SPL | StreamVoice+：端到端流式零样本语音转换

西工大ASLP实验室第五届年度聚会在西安成功举办！

这个国庆假期圈儿里都发生了啥？听一段对话缓(Jia?)解(Ju?)你的焦虑。

IEEE SLT2024 ｜ DualSep：用于实时车载语音分离的轻量级双编码器卷积递归网络

IEEE SLT2024 | StutteringSpeech：普通话口吃事件检测和自动语音识别挑战赛总结

IEEE SLT2024 | 源说话人追踪挑战赛（SSTC）NPU-TeleAI 联队冠军方案分享

科研快讯｜IEEE TASLP：音色和风格灵活组合的零样本音色克隆模型U-Style

IEEE SLT2024 | 低资源构音障碍语音唤醒挑战赛（LRDWWS）ASLP-小米联队冠军方案

INTERSPEECH2024 | SCDNet: 基于自监督学习表征的说话人转换检测

喜报！西工大-腾讯联队在CHiME-8 NOTSOFAR与MMCSG竞赛中取得佳绩

ACM MM | UniStyle: 联合说话风格描述和风格化语音生成的风格建模

INTERSPEECH2024 | 迈向无需复习低遗忘的语音识别模型微调：基于LoRA和Whisper的探究

INTERSPEECH 2024｜基于转录提示的高效音频大语言模型鲁棒语音识别

INTERSPEECH2024|文本和上下文感知的高表现力有声书合成

喜报！西工大ASLP实验室夺冠NCMMSC2024第二届视觉语音识别挑战赛

INTERSPEECH2024 | Vec-Tok-VC+: 双重训练策略下基于渐进式损失约束和残差增强的鲁棒零样本语音转换

INTERSPEECH2024 | 利用分层韵律建模实现富有表现力的零样本语音合成

IEEE SPL | Distil-DCCRN：利用特征知识蒸馏技术的小型DCCRN语音增强模型

INTERSPEECH2024 | AS-70: 用于语音识别和口吃事件检测的中文口吃语音数据集

INTERSPEECH2024 | RaD-Net 2：基于因果性蒸馏和复数轴向自注意力机制的两阶段音质修复模型

IEEE SPL | MMGER：利用大语言模型改进口音和语音识别的多模态多粒度生成式错误纠正方法

INTERSPEECH2024 | BS-PLCNet2: 利用模型内蒸馏的两阶段分频带丢包补偿网络

INTERSPEECH2024 | FreeV: 使用梅尔滤波器的伪逆矩阵，一行代码提升声码器性能

INTERSPEECH2024 | DualVC 3：利用LM生成伪上下文的端到端低延迟流式语音转换

Speech Com | Whisper-SV：将Whisper自适应于低数据资源的说话人验证

Interspeech2024｜基于离散语音单元的流式解码器语音识别

挑战赛结果公布 | ISCSLP2024 对话语音克隆挑战赛（CoVoC）

INTERSPEECH2024 | WenetSpeech4TTS: 12800小时中文大规模语音生成模型训练数据集

INTERSPEECH2024 | Single-Codec: 面向高性能语音合成的单码本语音编解码器

Demo | 基于大模型的超拟人TTS

2024年ASLP实验室“人工智能落地计划”暑期实习开启报名啦！

NPU-ASLP实验室14篇论文被Interspeech2024 录用

ACL2024 | StreamVoice：基于流式上下文感知语言建模的实时零样本语音转换

ISCSLP2024 对话语音克隆挑战赛（CoVoC）

IEEE TASLP | 基于奇异值分解辅助矩阵的说话人匿名

IEEE TASLP | 基于多层级时序-通道说话人检索的零样本语音转换

GPT-4o, 语音的 ChatGPT 时刻终于来了！

ICME2024｜利用多编码器和多系统融合提高唇语识别性能

ICME2024｜利用自监督模型层级表征进行多语种语音识别

基于LLM的语音识别——在1.1万小时开源中文数据上的探索

ICME2024 | 基于半监督对比学习的表现力语音合成

IEEE TASLP | 基于文本-语音跨模态表征的对话语音识别

IEEE TASLP | METTS：基于跨说话人跨语种情感迁移的多语种情感语音合成

ICASSP2024 | ICMC-ASR 车载多通道语音识别挑战赛总结

ICASSP2024 | 面向多种阵列拓扑的多通道语音识别模型：自动通道选择和空间特征融合

ICASSP2024 | MLCA-AVSR: 基于多层交叉注意力机制的视听语音识别

ICASSP2024 | SELM: 基于离散表征和语言模型的语音增强

ASLP实验室祝您新春快乐～～ 1+10+13+58+68 = 成果丰硕的一年！

ICASSP2024 | 基于音频质量的多策略目标说话人提取

ICASSP2024 | SponTTS: 面向自发风格的语音合成与风格迁移

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉