12月9日晚,NCMMSC-CNVSRC 2023 学术研讨会在苏州召开的第十八届全国人机语音通讯学术会议(NCMMSC 2023)举办,会上公布了本次视觉语音识别竞赛 CNVSRC 2023 的最终结果,并举行颁奖仪式。
本次竞赛由 NCMMSC 2023组委会发起,由清华大学、北京邮电大学、海天瑞声、语音之家联合主办。竞赛的核心目的是验证当前视觉语音识别(或称唇语识别)技术在大词表连续识别场景下的性能。
本次竞赛共吸引了85支海内外队伍参赛。历经近三个月的角逐,来自西工大ASLP-理想汽车、内蒙古大学、红西瓜半导体、成者科技、北京邮电大学、同花顺等单位的参赛队伍获得佳绩。详细赛事结果及报告视频将公布在竞赛官网,敬请关注:http://cnceleb.org/competition
各任务及赛道的排名如下:
T1 Single-speaker VSR - Fixed Track 赛道 | |
1 | T237 西工大ASLP-理想汽车 NPU-ASLP-LiAuto |
2 | T266 红西瓜半导体 GUA Speech |
3 | T290 成者科技 CZUR |
4 | T238 北京邮电大学 VII |
5 | T267 同花顺语音组 RoyalFlush |
T1 Single-speaker VSR - Open Track 赛道 | |
1 | T237 西工大ASLP-理想汽车 NPU-ASLP-LiAuto |
T2 Multi-speaker VSR - Fixed Track 赛道 | |
1 | T244 内蒙古大学 DayDayUp |
2 | T267 同花顺语音组 RoyalFlush |
T2 Multi-speaker VSR - Open Track 赛道 | |
1 | T237 西工大ASLP-理想汽车 NPU-ASLP-LiAuto |
2 | T244 内蒙古大学 DayDayUp |
清华大学王东老师主持技术交流会,海天瑞声副总经理、COO 李科和语音之家创始人&CEO卜辉共同为四个竞赛任务的队伍颁奖,清华大学陈琛同学分享了基线系统与技术报告。
清华大学王东老师主持技术交流会
海天瑞声副总经理、COO 李科介绍海天瑞声并主持颁奖
语音之家创始人&CEO卜辉主持颁奖
清华大学陈琛同学分享基线系统与技术报告
西工大ASLP-理想汽车、内蒙古大学、红西瓜半导体、北京邮电大学 团队代表领奖
西工大ASLP-理想汽车团队代表分享
红西瓜半导体团队代表分享
北京邮电大学团队代表分享
同花顺团队代表线上分享
参会人员合影
CNVSRC 2023 组委会成员和其他工作人员
视觉语音识别,也称唇语识别,是一项通过口唇动作来推断发音内容的技术。该技术在公共安全、助老助残、视频验真等领域具有重要应用。当前,唇语识别的研究方兴未艾,虽然在独立词、短语等识别上取得了长足进展,但在大词表连续识别方面仍面临巨大挑战。特别是对于中文而言,由于缺乏相应的数据资源,该领域的研究进展受到了限制。为此,清华大学在2023年发布了CN-CVS数据集[1],成为首个大规模的中文视觉语音识别数据库,为进一步推动大词表连续视觉语音识别 (LVCVSR) 提供了可能。关于CN-CVS数据集的更多信息,可访问数据库官网 http://cnceleb.org。
本次竞赛中许多参赛队伍在唇语识别任务上实现了系统性能的显著提升,其中最佳成绩相较于基线系统实现了超过20%的相对性能提升。参赛者们在唇语识别系统的各个组成部分中都提出了令人耳目一新的创新方案,为进一步推进中文大词表连续视觉语音识别的研究提供了新思路、新方法。
[1] C. Chen, D. Wang, T.F. Zheng, CN-CVS: A Mandarin Audio-Visual Dataset for Large Vocabulary Continuous Visual to Speech Synthesis, ICASSP, 2023.