8月16日上午,NCMMSC-CNVSRC 2024 学术研讨会在乌鲁木齐召开的第十九届全国人机语音通讯学术会议(NCMMSC 2024)上举行。会上公布了本次视觉语音识别竞赛 CNVSRC 2024 的最终结果,并举行了颁奖仪式。
本次竞赛吸引了45支海内外队伍参赛,历经近三个月的角逐,西北工业大学、内蒙古大学、武汉大学等队伍表现突出,名列前茅。本次研讨会PPT可由此链接下载:PPT_CNVSRC2024.pdf。详细赛事结果及报告视频将发布在竞赛官网,敬请关注:http://cnceleb.org/competition
CNVSRC 2024 排行榜
T1 Single-speaker VSR - Fixed Track 赛道 | |
1 | T237 西北工业大学 FlySpeech |
2 | T244 内蒙古大学 Dream Boy |
T1 Single-speaker VSR - Open Track 赛道 | |
1 | 匿名提交 |
2 | T237 西北工业大学 FlySpeech |
T2 Multi-speaker VSR - Fixed Track 赛道 | |
1 | T237 西北工业大学 FlySpeech |
2 | 匿名提交 |
3 | T244 内蒙古大学 Dream Boy |
T2 Multi-speaker VSR - Open Track 赛道 | |
1 | T237 西北工业大学 FlySpeech |
2 | 匿名提交 |
3 | T405 武汉大学 Sophin |
本次研讨会由清华大学王东教授主持。海天瑞声CMO王潇蔓女士和语音之家创始人兼CEO卜辉先生为获奖团队颁奖。北京邮电大学刘泽华同学分享了基线系统与技术报告,三支优秀参赛队伍代表还受邀分享了他们的技术方案和赛事经验。
海天瑞声CMO王潇蔓致辞并主持颁奖
语音之家创始人兼CEO卜辉致辞并主持颁奖
北京邮电大学刘泽华同学分享基线系统与技术报告
西北工业大学、内蒙古大学、武汉大学团队代表领奖
西北工业大学团队代表技术分享
内蒙古大学团队代表线上技术分享
武汉大学团队代表线上技术分享
参会人员合影
视觉语音识别,也称唇语识别,是一项通过口唇动作来推断发音内容的技术。该技术在公共安全、助老助残、视频验真等领域具有重要应用。当前,唇语识别的研究方兴未艾,虽然在独立词、短语等识别上取得了长足进展,但在大词表连续识别方面仍面临巨大挑战。特别是对于中文而言,由于缺乏相应的数据资源,该领域的研究进展受到了限制。为此,清华大学在2023年发布了 CN-CVS 数据集[1],成为首个大规模的中文视觉语音识别数据库,为进一步推动大词表连续视觉语音识别 (LVCVSR) 提供了可能,并于同年举办了 CNVSRC 2023 竞赛[2],推动了唇语识别在中文领域的进展。