明星声纹总动员：CNSRC 2022 说话人识别竞赛启动

文摘科技 2022-01-30 17:19

由 Odyssey 2022 组委会发起，清华大学、厦门大学、希尔贝壳公司共同主办的 CNSRC 2022 说话人识别竞赛即日启动，接受报名。

说话人识别是一种基于声音来判断说话人身份的生物认证技术，具有低成本、弱隐私、无接触等优点，在金融、安防、司法等领域有着广泛应用前景。近年来，随着深度学习技术的进步和大数据的积累，说话人识别取得显著进展，在若干评测集上取得了极高的精度。然而，这些评测集难以模拟实际应用场景的复杂性，得到的评测结果往往与实际真实性能严重不符。因此，当前说话人识别在实际复杂场景下的真实性能到底如何，到目前为止还没有明确的结论。

CNSRC 2022 (CN-Celeb Speaker Recognition Challenge 2022) 目的是验证当前说话人识别技术在实际复杂场景下的真实可用性。本次评测基于清华大学语音语言技术中心发布的多场景中文明星数据库 CN-Celeb [1,2]。该数据库包含了互联网公开可下载的 3000 位中国明星的声音数据，覆盖访谈、演讲、歌唱、影视、文娱等多种复杂场景。CN-Celeb 是目前已知最为复杂的说话人数据库，是验证说话人识别系统实际性能的金标准。关于 CN-Celeb 的更多信息，可访问数据库官网 http://cnceleb.org 。

图1 CN-Celeb 数据库官网 http://cnceleb.org

当前主流说话人识别技术在 CN-Celeb 标准评测集上的等错误率 (EER) 在 10% 左右。其中，跨场景测试的等错误率可达 35% 以上。这一性能远低于 SITW、VoxSRC 等相关主流评测集的结果，也远低于实际应用中可容忍的性能下界。CNSRC 2022 说话人识别竞赛的目的是基于这一复杂数据集，确定当前说话人识别技术在真实场景下的真实性能，甄别各种技术面对多复杂场景的实际有效性，探索提高说话人识别系统真实可用性的数据方法和模型方法。和以往类似评测相比，CNSRC 2022 具有极高的挑战性。

图2 基于 Kaldi x-vector 系统在不同场景下的性能

每行对应一个注册场景，每列对应一个测试场景 [2]

CNSRC 2022 共设有两个任务：说话人确认 (Speaker Verification) 和说话人检出 (Speaker Retrieval)；前者验证测试语音是否属于某一声称说话人，后者从50万背景语音中检出目标说话人的10句发音。每个任务依训练数据不同，又分为固定赛道 (Fixed Track) 和开放赛道 (Open Track)，前者仅允许使用 CN-Celeb 作为训练集，目的是验证算法先进性；后者可利用任何数据进行训练，目的是验证当前技术能达到的性能上界。厦门大学、清华大学将分别提供两套基线系统，供参赛者作为对比参考。

CNSRC 2022 对任何个人和机构开放，并鼓励参赛者基于其竞赛系统形成论文在Odyssey 2022 上发表。目前，竞赛官网已经启动并接受报名。关于竞赛规则、时间节点、论文发表等更多信息，可扫描下方二维码进入竞赛官网，或在浏览器中访问网址 http://cnceleb.org/competition 。

[1] Y. Fan, J.W. Kang, L.T. Li, K.C. Li, H.L. Chen, S.T. Cheng, P.Y. Zhang, Z.Y. Zhou, Y.Q. Cai, D. Wang, CN-Celeb: A Challenging Chinese Speaker Recognition Dataset, ICASSP, 2020.

[2] L.T. Li, R.Q. Liu, J.W. Kang, Y. Fan, H. Cui, Y.Q. Cai, R. Vipperla, T.F. Zheng, D. Wang, CN-Celeb: Multi-Genre Speaker Recognition, Speech Communication, 2022.

http://mp.weixin.qq.com/s?__biz=MzI2MzU4NDI4NA==&mid=2247485586&idx=1&sn=c4b77e1ee8ac9dd4b9338c23d68df2c0

清语赋

清华大学语音语言团队 (CSLT) 科研学术分享和日常生活百态

中文读唇总动员：CNVSRC 2024 研讨会圆满落幕

中文读唇总动员：CNVSRC 2024 研讨会将于本周五开幕

《人工智能通识课讲义》全面升级，开放下载

中文读唇总动员：CNVSRC 2024 中文连续视觉语音识别挑战赛 Leaderboard 开放

中文读唇总动员：第二届视觉语音识别挑战赛 CNVSRC 2024 启动

【AI100问(19)】人工智能是大杂烩吗？

中文读唇总动员：CNVSRC 2023 研讨会圆满落幕

中文读唇总动员：CNVSRC 2023 研讨会本周六晚开幕

中文读唇总动员：CNVSRC 2023 中文连续视觉语音识别挑战赛 Leaderboard开放

学术简讯 | Pattern Recognition：最大化高斯性准则

中文读唇总动员：CNVSRC 2023 中文连续视觉语音识别挑战赛评测集开放

中文读唇总动员：CNVSRC 2023 视觉语音识别挑战赛启动

学术简讯 | CN-Celeb-AV: 多场景视听多模态数据集发布

学术简讯 |《图解人工智能》正式出版

学术简讯 | CN-CVS：大规模普通话视听多模态数据集公开发布

明星声纹总动员：CNSRC 2022 说话人识别竞赛全栈资源发布

学术简讯 | 基于随机循环一致性准则的语音信息分解工作获 Odyssey 最佳学生论文奖

明星声纹挑战赛 CNSRC 2022 收官，上海交大、国音智能、北理工拔得头筹

明星声纹总动员：CNSRC 2022 声纹识别竞赛研讨会即将召开

明星声纹总动员：CNSRC 2022 系统技术报告提交与 Odyssey 2022 特殊议题征稿

O-COCOSDA 2022 征稿

明星声纹总动员：CNSRC 2022 说话人识别竞赛 Leaderboard 开放

明星声纹总动员：CNSRC 2022 说话人识别竞赛开发集和基线系统发布

明星声纹总动员：CNSRC 2022 说话人识别竞赛启动

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉