ICME2024|利用多编码器和多系统融合提高唇语识别性能

文摘   科技   2024-05-13 19:09   陕西  
自动唇语识别(Automatic Lip Reading, ALR)旨在从说话人的无声唇语动作视频自动识别出说话内容。目前的主流唇语识别方法只使用单个视觉编码器来建模单尺度的输入视频。本文提出通过融合多尺度视频数据和多编码器系统来增强唇语识别性能。具体来说,我们首先引入了一种基于说话人面部尺寸的多尺度唇动提取算法,并设计了增强的ResNet3D视觉前端(VFE)来提取不同尺度的唇部特征。对于多编码器,除主流的Transformer和Conformer,还使用了最近提出的Branchformer和E-Branchformer作为视觉编码器。实验探讨了不同唇动视频数据尺度和编码器对ALR系统性能的影响,并利用ROVER融合了所有ALR系统转录得到的结果。最后,本文方案在ICME 2024 对话场景中文唇语识别挑战赛(ChatCLR)目标说话人唇语识别赛道(Task2)中获得了第二名的优异成绩,与官方基线相比,在测集上的字符错误率(CER)绝对降低了21.52%。

论文题目:Enhancing Lip Reading with Multi-Scale Video and Multi-Encoder

作者列表:王贺,郭鹏程,万旭成,周欢,谢磊

合作单位:华为

论文预印版:https://arxiv.org/abs/2404.05466

ChatCLR竞赛:https://mispchallenge.github.io/ICME2024/index.html

发表论文截图

扫码直接看论文

背景动机

随着深度学习技术的发展,语音识别(ASR)已经取得了显著的进步,在许多开源基准测试中已经达到甚至超过了人类水平。然而,在现实世界场景中,如家庭聚会、鸡尾酒会或多人会议等嘈杂背景或远距离录音条件下,ASR系统的性能往往会明显下降。此外,在无声语音接口或辅助语音障碍人群的应用中,自动唇语识别(ALR)越来越受到学术界和工业界研究者的关注。
目前,已经有许多针对ALR或音将视觉特征整合到ASR系统中的视听语音识别(AVSR)研究。在研究初期,Transformer凭借其强大的序列建模能力被广泛用作许多研模主干 [1, 2]。然而,随着Conformer的提出,其逐渐取代了Transformer,成为无论在ALR [3]还是AVSR [4]研究中的主流选择。尽管近几年出现了大量ALR或AVSR的研究,但大多集中在英语上,对中文唇语识别的研究甚少。造成这一现象的一个重要原因,便是缺乏一个具有一定规模的中文唇语识别数据集。自2021年起,多模态信息语音处理(MISP)挑战系列 [5, 6, 7]已成功举办三届,推动了中文音视频语音信号处理研究,并发布了具有挑战性的中文音视频数据集。此外,2023年中文连续视觉语音识别挑战赛(CNVSRC)的成功举办,进一步促进了中文唇语识别的研究,同时发布了更大量(超过300小时)的中文音视频数据集 [8]。然而,由于其数据来源范围主要是专业播音员、演讲者或博主,对于面向大众的通用唇语识别具有一定的局限性。
喜报!西工大ASLP-理想汽车联队夺冠NCMMSC2023视觉语音识别竞赛

为了推动通用中文唇语识别研究,ICME 2024 聊天场景中文唇语识别挑战赛(ChatCLR)应运而出。其中,目标说话人唇语识别赛道(Task2)旨在设计用于自由对话场景中的唇语识别,发布了超过100小时的远场实拍音视频数据。本文详细介绍了我们提出的唇语识别方法,该方法构建并融合了多个具有不同视觉编码器以及不同尺度唇动视频数据的ALR系统。我们根据说话人脸部的大小和嘴唇位置设计了6个不同的嘴唇关注区域(ROI)。基于我们之前的工作 [9, 10],提出了一个基于ResNet框架和三维卷积的Enhanced ResNet3D视觉前端(VFE)模块,更好地提取视频数据特征。此外,我们引入最近提出的Branchformer和EBranchformer编码器作为视觉建模主干,构建了使用不同尺度视频数据的多样化ALR系统。最后,采用ROVER [11]来融合所有ALR系统的转录结果。总的来说,我们的贡献如下:

  • 引入了一种基于说话人脸部大小提取多尺度嘴唇动作视频的算法。

  • 提出了一个基于ResNet和三维卷积的Ehanced ResNet3D视觉前端模块。

  • 系统地比较了不同视觉编码器和视频数据尺度对ALR性能的影响。

  • 方案在ICME2024 ChatCLR赛道2测试集上的字符错误率(CER)比基线绝对降低了21.52%,取得了赛道第二名的优异成绩。

提出的方案

多尺度唇动数据提取

目前许多研究 [10, 12]表明,唇语识别系统的性能不仅取决于说话人嘴唇的运动。脸颊、下巴甚至额头的视觉信息可以提高识别准确性。此外,根据我们在CNVSRC 2023中提出的冠军方案 [10],围绕嘴唇的视频的感受野的增加会提高ALR系统的性能。然而,我们当时通过对每个视频帧的唇部ROI进行固定的尺寸调整(从48到112)的方法没有考虑到所有说话人脸部大小或摄像机与说话人之间的距离的差异。这样会导致即使使用相同的裁剪大小,可能导致所获得的不同说话人的唇动视频涵盖的面部区域不一致的问题。
因此,我们设计了一种基于视频中说话人脸部大小的唇动提取方法。官方的ChatCLR数据集几乎提供了每个视频帧上所有说话人脸部和唇部的坐标。对于具有总帧数  的说话人  的视频序列(每秒25帧),我们将  定义为成功检测到说话人脸部和唇部的帧数(  )。第  个检测到的脸的左上角和右下角的坐标分别定义为  和  。因此,裁剪大小  ,即正方形唇部ROI的边长,可以表示为:
  
其中  为缩放系数;在本文中,我们一共设置了6个不同的缩放系数:0.6, 0.8, 1.0, 1.25, 1.5以及1.75。
由于采用以唇为中心的策略来提取唇动视频,一旦确定了每个帧的唇中心坐标,就可以确定唇ROI。我们将说话人  在第  帧中检测到的唇部的左上角和右下角坐标分别定义为  和  。计算每帧的说话人呢唇部中心坐标(  )的公式为:
  
在说话人的脸部被遮挡或者没有朝向摄像头的情况下,检测唇部就变得尤为困难,存在嘴唇坐标信息缺失的情况。为了解决这一问题,对于未成功检测到唇部的帧,我们会在时间维度上向前或向后搜索最近的成功检测到的唇部坐标进行补充。这样可以使我们尽可能准确地计算每一帧的中心坐标,并提取唇动视频数据。不过,如果视频片段中脸部或唇部的检测率未超过50%,将会被丢弃。在任何尺度下提取的所有唇动数据都将缩放至112  112。

图1 来自ChatCLR训练集中的两位说话人S217(顶部)和S443(底部)的多尺度嘴唇运动视频示例
图1展示了在不同的缩放系数下,提取到的两位说话人的唇动视频。可以观察到,当缩放系数设置为0.6或0.8时,提取的唇动数据几乎只包含说话人的嘴唇。随着缩放系数的增加,下巴、脸颊、鼻子和眼睛等区域会逐渐进入以嘴唇为中心的ROI。

Enhanced ResNet3D 视觉前端

图2展示了我们提出的Enhanced ResNet3D视觉前端的详细结构。总体模块设计受经典图像特征提取网络ResNet的启发,不同之处在于我们用三维卷积(Conv3D)替换了ResNet中的二维卷积,建模输入的三维视频数据。Ehanced ResNet3D视觉前端主要由三个部分组成,即用于将输入视频数据的特征通道映射到更高维度的Input Conv3D,用于在最终对视频高宽维度进行平均的AvgPooling,以及中间部分中建模视觉特征的ResNet3D堆叠模块。ResNet3D的每一层都由几个基本模块组成,如图2(b)所示。这些基本模块主要由堆叠的Conv3D和归一化组成,构成视频特征建模单元。此外,每个ResNet3D块中的第一个基本模块对输入的视觉特征进行高度和宽度上的两倍下采样,并映射到更高的特征通道。

图2  (a) 提出的Ehanced ResNet3D 视觉前端和 (b) 其基本模块

多系统构建和融合

图3展示了基于多尺度唇动视频数据和多系统融合的唇语识别方案。一方面,为了尽可能构建多样化的ALR系统,我们通过使用相同的视觉编码器但不同尺度的视频数据构建ALR系统。另一方面,我们固定使用一个尺度的视频数据,但是变化视觉编码器。在本文中,我们同时采用了这两种策略,并且都取得了可观的收益。每个ALR系统还存在一些共性:它们都使用我们提出的Enhanced ResNet3D视觉前端模块从原始唇动视频中提取特征,并且都采用基于Transformer的解码器进行文本转录。模型损失定义如下:

  
其中  是从编码器输出计算的CTC损失,用于学习编码器输出和文本标签之间在时间维度的对齐信息;  是从解码器输出和文本标签计算的交叉熵(CE)损失。  是一个可调节的超参数,在本文中设置为0.3。训练所有ALR系统后,我们可以获得由不同ALR系统转录得到的文本。最后,我们使用ROVER,一个后识别过程,通过迭代动态规划对所有转录结果进行融合,构建一个单一的、最小成本单词转换网络(WTN)。通过自动重新评分,或者说“投票”的过程搜索最终的WTN,并获得错误率最低的文本序列,作为最终的文本输出。

图3 提出的用于自动唇语识别的多系统融合方案

实验

数据处理

数据集:本文中所有的ALR系统都是使用ChatCLR挑战赛任务2发布的训练和开发数据集构建的。训练、开发和测试集分别包括110.95小时、4.5小时和2.41小时的自由对话视频数据。录制设备为一台分辨率为1080P的摄像头,配有120度广角镜头,距离说话人3到5米,同时录制每个说话人的面部信息。对于所有录制的视频数据,挑战赛官方提供了几乎每一帧所有说话人的脸部和嘴唇坐标。

数据增强:在训练过程中,我们随机地对每批视频数据应用各种动态数据增强组合,包括旋转、水平翻转、灰度和颜色扰动。另外,为了提高ALR系统的鲁棒性,我们对训练集视频应用0.9、1.0、1.1三倍速度扰动。

模型配置

为了构建多样化的ALR系统,我们在训练和推理过程中使用不同尺度的唇动视频和视觉编码器。对于Branchformer编码器,我们将attention维度设置为256,编码器层数为24,dropout设置为0.2,cgmlp线性单元设置为2048,其中卷积核为31。E-Branchformer包括12个编码器层,其余设置与Branchformer相同。为了与当前主流的Transformer和Conformer编码器进行公平比较,我们进一步调整了它们的参数以确保不同编码器具有相似的参数大小。具体而言,我们使用了一个24层的Transformer和一个11层的Conformer,两者的前馈网络维度均为2048。所有系统都使用Enhanced ResNet3D视觉前端进行特征提取。四个ResNet3D块分别具有3、4、6和3个基本模块,特征维度分别为32、54、128和256。所有ALR系统中的解码器均采用了6层Transformer,attention维度为256,dropout为0.2。

训练策略

每个ALR系统均使用Adam优化器进行50轮的训练,学习率为0.001,权重衰减系数为1e-6,并在前5轮中采用线性warmup策略。训练结束后,我们将验证集上最低损失的前20个模型进行平均,作为验证集的解码模型和微调阶段的初始模型。对于微调阶段,我们使用训练集中与测试集相同的说话人数据,以及验证集数据的90%作为训练数据,剩余的10%作为微调验证集。学习率设置为5e-4,使用Adam优化器进行线性预热5轮,共进行20轮的微调。最后,我们将微调验证集上损失最低的前10个模型进行平均,作为测试集的解码模型。

结果与分析

不同视觉编码器性能探索

为了探究不同视觉编码器对ALR系统性能的影响,我们在3个视频数据尺度(0.6、1.0和1.5)上进行了比较实验。表1显示了详细的实验结果。在0.6和1.0数据尺度上,基于Branchformer(S4、S9)和E-Branchformer(S3、S8)编码器的ALR系统表现类似,其中Branchformer在0.6和1.0尺度的测试集上的CER仅分别降低了0.42%和0.04%。然而,与主流的Transformer(S1、S6)和Conformer(S2、S7)相比,Branchformer在0.6尺度上实现了显著改善,CER分别降低了1.74%和1.27%,在1.0尺度上分别降低了2.16%和1.57%。在1.5尺度上,Branchformer(S14)的优势更为显著,与E-Branchformer(S13)、Conformer(S12)和Transformer(S11)相比,在测试集上的CER分别降低了1.05%、1.95%和3.41%。总之,基于Branchformer编码器的ALR系统表现最佳,其次是E-Branchformer,相对于主流的Transformer和Conformer编码器有显著优势。

表1 ALR系统和ROVER融合系统在验证集(Dev)和测试集(Eval)上的CER(%)结果

不同唇动视频尺寸探索

正如上一小节分析,基于Branchformer编码器的ALR系统表现最佳。因此,我们将Branchformer作为视觉编码器,进行了数据尺度对比实验,包括6个数据尺度:0.6、0.8、1.0、1.25、1.5和1.75。结果如表1所示。可以观察到,在0.6到1.5的数据尺度范围内,用于模型训练和推理的唇动视频数据尺度越大,ALR系统的性能越好。基于1.5尺度数据构建的Branchformer编码器系统(S14)与使用0.6尺度数据的系统(S4)相比,在测试集上的CER降低了4.31%。然而,随着数据尺度从1.5增加到1.75,基于Branchformer(S16)和EBranchformer(S15)编码器的ALR系统性能有所回退,在测试集上的CER分别增加了0.39%和0.16%。综上,在相同的视觉编码器下,基于1.5尺度的唇动视频数据构建的ALR系统表现最佳。

多系统融合带来的收益

为了全面展示基于ROVER的多系统融合带来的收益,如表1所示,我们不仅融合所有ALR系统(R5),还融合使用不同编码器构建的ALR系统(R1、R2、R3),以及使用相同编码器但不同尺度数据构建的ALR系统(R4)。首先,我们对基于四种视觉编码器构建的0.6尺度视频数据的ALR系统进行融合。融合结果R1与0.6尺度上表现最佳的ALR系统(S4)相比,在测试集上的CER降低了2.72%。类似地,融合所有基于1.0尺度(R2)和1.5尺度数据(R3)构建的ALR系统,与1.0尺度(S9)和1.5尺度(S14)上表现最佳的系统相比,CER分别减低了2.69%和1.98%的。此外,基于Branchformer编码器构建但使用不同尺度数据的所有ALR系统的融合结果(R4)与最佳系统(S14)相比,CER减少了1.98%。这些结果充分表明,无论是对于使用不同视觉编码器还是不同数据尺度构建的ALR系统,通过ROVER进行文本融合都可以取得显著的改进。最后,融合所有ALR系统的结果(R5)在测试集上取得78.17%的CER,与表现最佳的单系统(S14)相比,降低了3.39%。

消融实验

为了验证提出的Enhanced ResNet3D视觉前端、数据增强、速度扰动和微调的有效性,我们基于Branchformer编码器使用1.5尺度视频数据进行了消融实验。消融结果如表2所示。A0是基于我们之前提出的ResNet3D视觉前端和Branchformer的ALR系统,我们在ChatCLR挑战赛数据集上进行了复现。而A1则用我们提出的Enhanced ResNet3D视觉前端,测试集上的CER相对于A0降低了1.48%。值得注意的是,进一步采用随机数据增强策略的系统A2和A1的结果进行比较,测试集上的CER显著降低了3.61%。此外,对训练集进行速度扰动后,系统A3相对于A2也实现了1.4%的CER减小。最后,在与测试集相同说话人的训练集数据和验证集数据的90%进行微调后,系统S14实现了最佳的单系统性能,与A3相比,将测试集上的CER进一步降低了0.88%。

表2 消融实验在验证集(Dev)和测试集(Eval)上的CER(%)结果

参考文献

[1] Yong-Hyeok Lee, Dong-Won Jang, Jae-Bin Kim, RaeHong Park, and Hyung-Min Park, “Audio-visual Speech Recognition based on Dual Cross-modality Attentions with the Transformer Model,” Applied Sciences, vol. 10, no. 20, pp. 7263, 2020.

[2] Dmitriy Serdyuk, Otavio Braga, and Olivier Siohan, “Transformer-based Video Front-ends for AudioVisual Speech Recognition for Single and Multi-person Video,” arXiv preprint arXiv:2201.10439, 2022.

[3] Oscar Chang, Hank Liao, Dmitriy Serdyuk, Ankit Shahy, and Olivier Siohan, “Conformer is All You Need for Visual Speech Recognition,” in Proc. ICASSP. IEEE, 2024, pp. 10136–10140.

[4] Pingchuan Ma, Alexandros Haliassos, Adriana Fernandez-Lopez, Honglie Chen, et al., “Auto-AVSR: Audio-Visual Speech Recognition with Automatic Labels,” in Proc. ICASSP. IEEE, 2023, pp. 1–5.

[5] Hang Chen, Hengshun Zhou, Jun Du, Chin-Hui Lee, Jingdong Chen, Shinji Watanabe, Sabato Marco Siniscalchi, Odette Scharenborg, et al., “The first Multimodal Information based Speech Processing (MISP) Challenge: Data, Tasks, Baselines and Results,” in Proc. ICASSP. IEEE, 2022, pp. 9266–9270.

[6] Zhe Wang, Shilong Wu, Hang Chen, Mao-Kui He, Jun Du, Chin-Hui Lee, Jingdong Chen, et al., “The Multimodal Information based Speech Processing (MISP) 2022 Challenge: Audio-Visual Diarization and Recognition,” in Proc. ICASSP. IEEE, 2023, pp. 1–5.

[7] Shilong Wu, Chenxi Wang, Hang Chen, Yusheng Dai, Chenyue Zhang, Ruoyu Wang, Hongbo Lan, Jun Du, Chin-Hui Lee, Jingdong Chen, et al., “The Multimodal Information based Speech Processing (MISP) 2023 Challenge: Audio-Visual Target Speaker Extraction,” in Proc. ICASSP. IEEE, 2024, pp. 8351–8355.

[8] Chen Chen, Dong Wang, and Thomas Fang Zheng, “CN-CVS: A Mandarin Audio-Visual Dataset for Large Vocabulary Continuous Visual to Speech Synthesis,” in Proc. ICASSP. IEEE, 2023, pp. 1–5.

[9] He Wang, Pengcheng Guo, Pan Zhou, and Lei Xie, “MLCA-AVSR: Multi-Layer Cross Attention Fusion Based Audio-Visual Speech Recognition,” in Proc. ICASSP, 2024, pp. 8150–8154.

[10] He Wang, Pengcheng Guo, Wei Chen, Pan Zhou, and Lei Xie, “The NPU-ASLP-LiAuto System Description for Visual Speech Recognition in CNVSRC 2023,” arXiv preprint arXiv:2401.06788, 2024.

[11] Jonathan G Fiscus, “A Post-processing System to Yield Reduced Word Error Rates: Recognizer output voting error reduction (ROVER),” in Proc. ASRU. IEEE, 1997, pp. 347–354.

[12] Yuanhang Zhang, Shuang Yang, Jingyun Xiao, Shiguang Shan, and Xilin Chen, “Can we read speech beyond the lips? Rethinking ROI Selection for Deep Visual Speech Recognition,” in 2020 15th IEEE International Conference on Automatic Face and Gesture Recognition (FG 2020). IEEE, 2020, pp. 356–363.



欢迎关注ASLP实验室微信公众号,获取更多语音研究相关资讯!

“打造最开放、最前沿、最落地的人工智能实验室”


音频语音与语言处理研究组
发布关于音频语音与语言处理研究组的最新研究成果、技术分享、新闻动态和活动等。
 最新文章