自动唇语识别(Automatic Lip Reading, ALR)旨在从说话人的无声唇语动作视频自动识别出说话内容。目前的主流唇语识别方法只使用单个视觉编码器来建模单尺度的输入视频。本文提出通过融合多尺度视频数据和多编码器系统来增强唇语识别性能。具体来说,我们首先引入了一种基于说话人面部尺寸的多尺度唇动提取算法,并设计了增强的ResNet3D视觉前端(VFE)来提取不同尺度的唇部特征。对于多编码器,除主流的Transformer和Conformer,还使用了最近提出的Branchformer和E-Branchformer作为视觉编码器。实验探讨了不同唇动视频数据尺度和编码器对ALR系统性能的影响,并利用ROVER融合了所有ALR系统转录得到的结果。最后,本文方案在ICME 2024 对话场景中文唇语识别挑战赛(ChatCLR)目标说话人唇语识别赛道(Task2)中获得了第二名的优异成绩,与官方基线相比,在测试集上的字符错误率(CER)绝对降低了21.52%。
论文题目:Enhancing Lip Reading with Multi-Scale Video and Multi-Encoder
作者列表:王贺,郭鹏程,万旭成,周欢,谢磊
合作单位:华为
ChatCLR竞赛:https://mispchallenge.github.io/ICME2024/index.html
扫码直接看论文
背景动机
为了推动通用中文唇语识别研究,ICME 2024 聊天场景中文唇语识别挑战赛(ChatCLR)应运而出。其中,目标说话人唇语识别赛道(Task2)旨在设计用于自由对话场景中的唇语识别,发布了超过100小时的远场实拍音视频数据。本文详细介绍了我们提出的唇语识别方法,该方法构建并融合了多个具有不同视觉编码器以及不同尺度唇动视频数据的ALR系统。我们根据说话人脸部的大小和嘴唇位置设计了6个不同的嘴唇关注区域(ROI)。基于我们之前的工作 [9, 10],提出了一个基于ResNet框架和三维卷积的Enhanced ResNet3D视觉前端(VFE)模块,更好地提取视频数据特征。此外,我们引入最近提出的Branchformer和EBranchformer编码器作为视觉建模主干,构建了使用不同尺度视频数据的多样化ALR系统。最后,采用ROVER [11]来融合所有ALR系统的转录结果。总的来说,我们的贡献如下:
引入了一种基于说话人脸部大小提取多尺度嘴唇动作视频的算法。
提出了一个基于ResNet和三维卷积的Ehanced ResNet3D视觉前端模块。
系统地比较了不同视觉编码器和视频数据尺度对ALR性能的影响。
方案在ICME2024 ChatCLR赛道2测试集上的字符错误率(CER)比基线绝对降低了21.52%,取得了赛道第二名的优异成绩。
提出的方案
多尺度唇动数据提取
Enhanced ResNet3D 视觉前端
图2 (a) 提出的Ehanced ResNet3D 视觉前端和 (b) 其基本模块
多系统构建和融合
图3展示了基于多尺度唇动视频数据和多系统融合的唇语识别方案。一方面,为了尽可能构建多样化的ALR系统,我们通过使用相同的视觉编码器但不同尺度的视频数据构建ALR系统。另一方面,我们固定使用一个尺度的视频数据,但是变化视觉编码器。在本文中,我们同时采用了这两种策略,并且都取得了可观的收益。每个ALR系统还存在一些共性:它们都使用我们提出的Enhanced ResNet3D视觉前端模块从原始唇动视频中提取特征,并且都采用基于Transformer的解码器进行文本转录。模型损失定义如下:
图3 提出的用于自动唇语识别的多系统融合方案
实验
数据处理
数据增强:在训练过程中,我们随机地对每批视频数据应用各种动态数据增强组合,包括旋转、水平翻转、灰度和颜色扰动。另外,为了提高ALR系统的鲁棒性,我们对训练集视频应用0.9、1.0、1.1三倍速度扰动。
模型配置
为了构建多样化的ALR系统,我们在训练和推理过程中使用不同尺度的唇动视频和视觉编码器。对于Branchformer编码器,我们将attention维度设置为256,编码器层数为24,dropout设置为0.2,cgmlp线性单元设置为2048,其中卷积核为31。E-Branchformer包括12个编码器层,其余设置与Branchformer相同。为了与当前主流的Transformer和Conformer编码器进行公平比较,我们进一步调整了它们的参数以确保不同编码器具有相似的参数大小。具体而言,我们使用了一个24层的Transformer和一个11层的Conformer,两者的前馈网络维度均为2048。所有系统都使用Enhanced ResNet3D视觉前端进行特征提取。四个ResNet3D块分别具有3、4、6和3个基本模块,特征维度分别为32、54、128和256。所有ALR系统中的解码器均采用了6层Transformer,attention维度为256,dropout为0.2。
训练策略
结果与分析
不同视觉编码器性能探索
为了探究不同视觉编码器对ALR系统性能的影响,我们在3个视频数据尺度(0.6、1.0和1.5)上进行了比较实验。表1显示了详细的实验结果。在0.6和1.0数据尺度上,基于Branchformer(S4、S9)和E-Branchformer(S3、S8)编码器的ALR系统表现类似,其中Branchformer在0.6和1.0尺度的测试集上的CER仅分别降低了0.42%和0.04%。然而,与主流的Transformer(S1、S6)和Conformer(S2、S7)相比,Branchformer在0.6尺度上实现了显著改善,CER分别降低了1.74%和1.27%,在1.0尺度上分别降低了2.16%和1.57%。在1.5尺度上,Branchformer(S14)的优势更为显著,与E-Branchformer(S13)、Conformer(S12)和Transformer(S11)相比,在测试集上的CER分别降低了1.05%、1.95%和3.41%。总之,基于Branchformer编码器的ALR系统表现最佳,其次是E-Branchformer,相对于主流的Transformer和Conformer编码器有显著优势。
表1 ALR系统和ROVER融合系统在验证集(Dev)和测试集(Eval)上的CER(%)结果
不同唇动视频尺寸探索
多系统融合带来的收益
消融实验
表2 消融实验在验证集(Dev)和测试集(Eval)上的CER(%)结果
参考文献
[1] Yong-Hyeok Lee, Dong-Won Jang, Jae-Bin Kim, RaeHong Park, and Hyung-Min Park, “Audio-visual Speech Recognition based on Dual Cross-modality Attentions with the Transformer Model,” Applied Sciences, vol. 10, no. 20, pp. 7263, 2020.
[2] Dmitriy Serdyuk, Otavio Braga, and Olivier Siohan, “Transformer-based Video Front-ends for AudioVisual Speech Recognition for Single and Multi-person Video,” arXiv preprint arXiv:2201.10439, 2022.
[3] Oscar Chang, Hank Liao, Dmitriy Serdyuk, Ankit Shahy, and Olivier Siohan, “Conformer is All You Need for Visual Speech Recognition,” in Proc. ICASSP. IEEE, 2024, pp. 10136–10140.
[4] Pingchuan Ma, Alexandros Haliassos, Adriana Fernandez-Lopez, Honglie Chen, et al., “Auto-AVSR: Audio-Visual Speech Recognition with Automatic Labels,” in Proc. ICASSP. IEEE, 2023, pp. 1–5.
[5] Hang Chen, Hengshun Zhou, Jun Du, Chin-Hui Lee, Jingdong Chen, Shinji Watanabe, Sabato Marco Siniscalchi, Odette Scharenborg, et al., “The first Multimodal Information based Speech Processing (MISP) Challenge: Data, Tasks, Baselines and Results,” in Proc. ICASSP. IEEE, 2022, pp. 9266–9270.
[6] Zhe Wang, Shilong Wu, Hang Chen, Mao-Kui He, Jun Du, Chin-Hui Lee, Jingdong Chen, et al., “The Multimodal Information based Speech Processing (MISP) 2022 Challenge: Audio-Visual Diarization and Recognition,” in Proc. ICASSP. IEEE, 2023, pp. 1–5.
[7] Shilong Wu, Chenxi Wang, Hang Chen, Yusheng Dai, Chenyue Zhang, Ruoyu Wang, Hongbo Lan, Jun Du, Chin-Hui Lee, Jingdong Chen, et al., “The Multimodal Information based Speech Processing (MISP) 2023 Challenge: Audio-Visual Target Speaker Extraction,” in Proc. ICASSP. IEEE, 2024, pp. 8351–8355.
[8] Chen Chen, Dong Wang, and Thomas Fang Zheng, “CN-CVS: A Mandarin Audio-Visual Dataset for Large Vocabulary Continuous Visual to Speech Synthesis,” in Proc. ICASSP. IEEE, 2023, pp. 1–5.
[9] He Wang, Pengcheng Guo, Pan Zhou, and Lei Xie, “MLCA-AVSR: Multi-Layer Cross Attention Fusion Based Audio-Visual Speech Recognition,” in Proc. ICASSP, 2024, pp. 8150–8154.
[10] He Wang, Pengcheng Guo, Wei Chen, Pan Zhou, and Lei Xie, “The NPU-ASLP-LiAuto System Description for Visual Speech Recognition in CNVSRC 2023,” arXiv preprint arXiv:2401.06788, 2024.
[11] Jonathan G Fiscus, “A Post-processing System to Yield Reduced Word Error Rates: Recognizer output voting error reduction (ROVER),” in Proc. ASRU. IEEE, 1997, pp. 347–354.
[12] Yuanhang Zhang, Shuang Yang, Jingyun Xiao, Shiguang Shan, and Xilin Chen, “Can we read speech beyond the lips? Rethinking ROI Selection for Deep Visual Speech Recognition,” in 2020 15th IEEE International Conference on Automatic Face and Gesture Recognition (FG 2020). IEEE, 2020, pp. 356–363.
欢迎关注ASLP实验室微信公众号,获取更多语音研究相关资讯!
“打造最开放、最前沿、最落地的人工智能实验室”