喜报!西工大ASLP实验室夺冠NCMMSC2024第二届视觉语音识别挑战赛

文摘   科技   2024-08-17 16:26   陕西  

第二届中文连续视觉语音识别挑战赛(Chinese Continuous Visual Speech Recognition Challenge, CNVSRC 2024)是由2024全国人机语音通讯学术会议(NCMMSC 2024)组委会发起,由清华大学、北京邮电大学、海天瑞声、语音之家联合承办的一项全国性视觉语音识别竞赛,旨在探究在录音室朗读语音和互联网语音两种场景下大词汇连续视觉语音识别的性能。相较于第一届,CNVSRC 2024提供了更强的固定赛道基线系统,同时对于开放赛道提供了额外200小时左右的音视频语音数据,吸引了众多单位参加。

第二届中文连续视觉语音识别挑战赛(CNVSRC 2024)研讨会作为NCMMSC 2024的特殊议题,于北京时间8月16日上午10点在新疆乌鲁木齐明园新时代大酒店举办。研讨会上汇集了来自语音识别、视觉语音识别、计算听觉等领域的众多研究人员。CNVSRC 2024作为研讨会的焦点,共包含了两个任务,即单说话人视觉语音识别(single-speaker VSR)任务以及多说话人视觉语音识别(multi-speaker VSR)。同时每个任务又包含两个赛道,分别是限制使用数据集CN-CVS以及验证集来构建系统的固定赛道(fixed track)和不限制使用任何资源的开放赛道(open track)。

据竞赛官方宣布的竞赛结果,由王贺、谢磊教授组成的西工大音频语音与语言处理研究组团队(队名:NPU-ASLP)分别在单说话人VSR固定赛道、多说话人VSR的固定以及开放赛道,三个赛道上均取得了第一名的成绩,同时在评价指标CER上明显优于其他参赛队伍,在单说话人VSR的开放赛道上位列第二名。研讨会上,王贺同学代表团队受邀介绍了冠军方案。这是继上届竞赛获得三个赛道冠军之后,实验室在该赛事上再次问鼎。

喜报!西工大ASLP-理想汽车联队夺冠NCMMSC2023视觉语音识别竞赛

图1 主办方为实验室团队颁奖

图 2 王贺同学代表团队介绍冠军方案

NPU-ASLP团队提交的视觉语音识别系统框架如图3所示。视觉语音识别系统整体上采用了联合CTC/attention的端到端架构。在数据处理阶段,队伍生成了4种尺度下的训练数据来构建多尺度的视觉语音识别系统,分辨率分别为80、96、112以及128。在数据增广方面,队伍沿用了上届冠军方案中的三倍速度扰动(静态增广策略)以及训练过程中对视频数据进行随机水平翻转、旋转、颜色变换的动态增广策略。视频前端上,基于上届效果出色的ResNet3D模型,设计了Enhanced ResNet3D模型(图4)。与ResNet3D不同之处在于,Enhanced ResNet3D相邻ResNet块之间利用步长为2的三维卷积代替最大池化(Maxpooling)进行视频宽高下采样,其次Enhanced ResNet3D建模单元数目参考经典网络ResNet50,具备更深的网络结构和更高的视频特征建模能力。编码器上,使用目前主流的Conformer、Branchformer以及E-Branchformer分别进行系统构建。训练策略上,采用训练集训练+验证集微调的两阶段策略,并使用ROVER技术对分别对两阶段模型结果进行迭代融合最终提交的系统在单说话人任务上达到30.47%的CER(相较于上届降低12.3%),在多说话人任务上达到34.30%的CER(相较于上届降低16.4%)。按照竞赛以CER指标作为排名的规则,实验室提交的系统获得CNVSRC 2024单说话人任务固定赛道,多说话人任务固定和开放赛道,共计四个赛道中的三个赛道冠军,以及单说话人任务开放赛道亚军。

图3 NPU-ASLP团队提交的视觉语音识别系统框架

图4 Enhanced ResNet3D模型

更多内容:

竞赛官方网站:http://cnceleb.org/competition

系统描述论文:https://arxiv.org/abs/2408.02369



欢迎关注ASLP实验室微信公众号,获取更多语音研究相关资讯!

“打造最开放、最前沿、最落地的人工智能实验室”


音频语音与语言处理研究组
发布关于音频语音与语言处理研究组的最新研究成果、技术分享、新闻动态和活动等。
 最新文章