明星声纹总动员:CNSRC 2022 说话人识别竞赛开发集和基线系统发布

文摘   科技   2022-02-23 20:33  

CNSRC 2022 (CN-Celeb Speaker Recognition Challenge 2022) 是由 Odyssey 2022 组委会发起,由清华大学、厦门大学、希尔贝壳公司联合承办的说话人识别竞赛。本次竞赛的核心目的是验证当前说话人识别 (或称声纹识别) 技术在实际复杂场景下的真实可用性。日前,竞赛组织者公布了开发数据集 (Development Set),并推出了两套完整的基线系统,分别基于厦门大学的 ASV-Subtools 工具和清华大学的 Sunine 工具。详细信息请访问竞赛官网 http://cnceleb.org/competition



说话人识别的真实性能

说话人识别是一种便捷、安全的身份认识方式,具有非接触、低隐私、真意图等优势。然而在实际应用中,用户体验到的说话人识别性能往往与标准评测集 (如SITW, VoxSRC) 得到的识别率有明显差距。说话人识别性能到底如何,能否达到实用标准,成为业界广泛关注的问题。


CNSRC 2022 目的即是测试说话人识别系统在实际复杂场景下的真实性能,并甄选出适应于实际应用场景的有效算法。该评测竞赛基于清华大学语音语言技术中心发布的多场景中文明星数据库 CN-Celeb [1,2]。该数据库包含了互联网公开可下载的 3000 位中国明星的声音数据,覆盖访谈、演讲、歌唱、影视、文娱等多种复杂场景。同时,同一个明星有可能出现在多个场景下,因此具有大量跨场景识别案例。CN-Celeb 是目前已知最为复杂的说话人数据库,是验证说话人识别系统实际性能的金标准。关于 CN-Celeb 的更多信息,可访问数据库官网 http://cnceleb.org



CN-Celeb 标准评测集上的等错误率 (EER) 在 10% 左右。其中,跨场景测试的等错误率可达 35% 以上。这一性能远低于 SITW、VoxSRC 等相关主流评测集的结果,也远高于实际应用中可容忍的性能上界。这意味着当前主流说话人识别技术在真实场景下还具有很大的性能差距。确认这一差距,并甄选出有效的算法以缩小这一差距,从而使说话人识别技术真正走向实用,是 CNSRC 2022 竞赛的基本目标。


CNSRC 2022 简介

CNSRC 2022 设定了两个任务说话人确认 (Speaker Verification) 和说话人检出 (Speaker Retrieval)。前者验证测试语音是否属于某一声称说话人;后者从50万背景语音中检出目标说话人的10句发音。对于说话人确认任务,依训练数据不同,又分为固定赛道 (Fixed Track) 和开放赛道 (Open Track),前者仅允许使用 CN-Celeb 作为训练集,目的是验证算法先进性;后者可利用任何数据进行训练,目的是验证当前技术能达到的性能下界。对于说话人检出任务,仅设立开放赛道 (Open Track),可利用任何数据进行训练。


CNSRC 2022 时间安排如下:

2月中旬    报名系统开放

2月下旬    任务2 (说话人检出) 开发集数据开放

2月下旬    基线系统开放

3月中旬    任务2 (说话人检出) 测试集数据开放

3月中旬    结果提交系统开放, LeaderBoard 开放

5月中旬    结果提交截止

5月下旬    系统技术描述提交截止,Odyssey 2022 论文提交截止

6月下旬    举办 CNSRC 2022 Workshop,竞赛结果发布


CNSRC 2022 对所有个人和单位免费开放,并允许参赛者在结果展示中选择匿名。同时,组织者鼓励参赛队伍在 Odyssey 2022 上以论文形式提交系统技术报告 (截止时间5月下旬)。竞赛自2月中旬开始接受报名,目前已有近50余支海内外队伍注册参赛。竞赛报名将持续到5月中旬,欢迎对说话人识别技术感兴趣的单位和个人参与。报名可扫如下二维码,或访问竞赛官网 http://cnceleb.org/competition



[1] Y. Fan, J.W. Kang, L.T. Li, K.C. Li, H.L. Chen, S.T. Cheng, P.Y. Zhang, Z.Y. Zhou, Y.Q. Cai, D. Wang, CN-Celeb: A Challenging Chinese Speaker Recognition Dataset, ICASSP, 2020.

[2] L.T. Li, R.Q. Liu, J.W. Kang, Y. Fan, H. Cui, Y.Q. Cai, R. Vipperla, T.F. Zheng, D. Wang, CN-Celeb: Multi-Genre Speaker Recognition, Speech Communication, 2022.

清语赋
清华大学语音语言团队 (CSLT) 科研学术分享和日常生活百态
 最新文章