中文读唇总动员：CNVSRC 2024 研讨会圆满落幕

文摘科技 2024-08-17 21:18 新疆

8月16日上午，NCMMSC-CNVSRC 2024 学术研讨会在乌鲁木齐召开的第十九届全国人机语音通讯学术会议（NCMMSC 2024）上举行。会上公布了本次视觉语音识别竞赛 CNVSRC 2024 的最终结果，并举行了颁奖仪式。

本次竞赛由 NCMMSC 2024 组委会发起，清华大学、北京邮电大学、海天瑞声和语音之家联合主办。竞赛旨在检验当前视觉语音识别（或称唇语识别）技术在中文大词表连续识别场景下的表现。

本次竞赛吸引了45支海内外队伍参赛，历经近三个月的角逐，西北工业大学、内蒙古大学、武汉大学等队伍表现突出，名列前茅。本次研讨会PPT可由此链接下载:PPT_CNVSRC2024.pdf。详细赛事结果及报告视频将发布在竞赛官网，敬请关注：http://cnceleb.org/competition

CNVSRC 2024 排行榜

T1 Single-speaker VSR - Fixed Track 赛道
1	T237 西北工业大学 FlySpeech
2	T244 内蒙古大学 Dream Boy
T1 Single-speaker VSR - Open Track 赛道
1	匿名提交
2	T237 西北工业大学 FlySpeech
T2 Multi-speaker VSR - Fixed Track 赛道
1	T237 西北工业大学 FlySpeech
2	匿名提交
3	T244 内蒙古大学 Dream Boy
T2 Multi-speaker VSR - Open Track 赛道
1	T237 西北工业大学 FlySpeech
2	匿名提交
3	T405 武汉大学 Sophin

本次研讨会由清华大学王东教授主持。海天瑞声CMO王潇蔓女士和语音之家创始人兼CEO卜辉先生为获奖团队颁奖。北京邮电大学刘泽华同学分享了基线系统与技术报告，三支优秀参赛队伍代表还受邀分享了他们的技术方案和赛事经验。

清华大学王东教授主持技术交流会

海天瑞声CMO王潇蔓致辞并主持颁奖

语音之家创始人兼CEO卜辉致辞并主持颁奖

北京邮电大学刘泽华同学分享基线系统与技术报告

西北工业大学、内蒙古大学、武汉大学团队代表领奖

西北工业大学团队代表技术分享

内蒙古大学团队代表线上技术分享

武汉大学团队代表线上技术分享

‍参会人员合影

CNVSRC 2024 组委会成员

视觉语音识别

视觉语音识别，也称唇语识别，是一项通过口唇动作来推断发音内容的技术。该技术在公共安全、助老助残、视频验真等领域具有重要应用。当前，唇语识别的研究方兴未艾，虽然在独立词、短语等识别上取得了长足进展，但在大词表连续识别方面仍面临巨大挑战。特别是对于中文而言，由于缺乏相应的数据资源，该领域的研究进展受到了限制。为此，清华大学在2023年发布了 CN-CVS 数据集[1]，成为首个大规模的中文视觉语音识别数据库，为进一步推动大词表连续视觉语音识别 (LVCVSR) 提供了可能，并于同年举办了 CNVSRC 2023 竞赛[2]，推动了唇语识别在中文领域的进展。

为了进一步推动这一研究方向，清华大学联合北京邮电大学、海天瑞声和语音之家在 NCMMSC 2024 继续举办了中文连续视觉语音识别挑战赛 (Chinese Continuous Visual Speech Recognition Challenge 2024, CNVSRC 2024)。本次竞赛中，许多参赛队伍在唇语识别任务上实现了系统性能的显著提升，其中最佳成绩相较于基线系统提升了超过30%。此外，与 CNVSRC 2023 相比，2024年各赛道的成绩均有明显进步。各支参赛队伍提出了诸多创新方案，为中文大词表连续视觉语音识别研究提供了新的思路和方法。

[1] C. Chen, D. Wang, T.F. Zheng, CN-CVS: A Mandarin Audio-Visual Dataset for Large Vocabulary Continuous Visual to Speech Synthesis, ICASSP, 2023.

[2] C. Chen, Z. Liu, X. Li, L. Li, D. Wang, CNVSRC 2023: The First Chinese Continuous Visual Speech Recognition Challenge, INTERSPEECH, 2024.

http://mp.weixin.qq.com/s?__biz=MzI2MzU4NDI4NA==&mid=2247485904&idx=1&sn=67662e81f09fe0368e8cf7d8d0ca3d28

清语赋

清华大学语音语言团队 (CSLT) 科研学术分享和日常生活百态

中文读唇总动员：CNVSRC 2024 研讨会圆满落幕

中文读唇总动员：CNVSRC 2024 研讨会将于本周五开幕

《人工智能通识课讲义》全面升级，开放下载

中文读唇总动员：CNVSRC 2024 中文连续视觉语音识别挑战赛 Leaderboard 开放

中文读唇总动员：第二届视觉语音识别挑战赛 CNVSRC 2024 启动

【AI100问(19)】人工智能是大杂烩吗？

中文读唇总动员：CNVSRC 2023 研讨会圆满落幕

中文读唇总动员：CNVSRC 2023 研讨会本周六晚开幕

中文读唇总动员：CNVSRC 2023 中文连续视觉语音识别挑战赛 Leaderboard开放

学术简讯 | Pattern Recognition：最大化高斯性准则

中文读唇总动员：CNVSRC 2023 中文连续视觉语音识别挑战赛评测集开放

中文读唇总动员：CNVSRC 2023 视觉语音识别挑战赛启动

学术简讯 | CN-Celeb-AV: 多场景视听多模态数据集发布

学术简讯 |《图解人工智能》正式出版

学术简讯 | CN-CVS：大规模普通话视听多模态数据集公开发布

明星声纹总动员：CNSRC 2022 说话人识别竞赛全栈资源发布

学术简讯 | 基于随机循环一致性准则的语音信息分解工作获 Odyssey 最佳学生论文奖

明星声纹挑战赛 CNSRC 2022 收官，上海交大、国音智能、北理工拔得头筹

明星声纹总动员：CNSRC 2022 声纹识别竞赛研讨会即将召开

明星声纹总动员：CNSRC 2022 系统技术报告提交与 Odyssey 2022 特殊议题征稿

O-COCOSDA 2022 征稿

明星声纹总动员：CNSRC 2022 说话人识别竞赛 Leaderboard 开放

明星声纹总动员：CNSRC 2022 说话人识别竞赛开发集和基线系统发布

明星声纹总动员：CNSRC 2022 说话人识别竞赛启动

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉