IEEE SPL | MMGER:利用大语言模型改进口音和语音识别的多模态多粒度生成式错误纠正方法

文摘   科技   2024-08-01 09:30   陕西  
语音识别(ASR)作为可以准确高效转录语音的技术,已经取得了长足进步。但是当遇到口音等特殊语音条件时,识别错误率急剧攀升。语言模型(LM)可以利用ASR产生的假设(hypothesis)完成错误纠正。最近的一些工作利用大语言模型(LLM)卓越的文本理解能力,提出了一种生成式错误纠正(GER)的方法,用以更好地挖掘ASR假设中的语言信息。

最近,西北工业大学音频语音与语言处理研究组(ASLP@NPU)与华为合作的论文“MMGER: Multi-modal and Multi-granularity Generative Error Correction with LLM for Joint Accent and Speech Recognition”被重要期刊IEEE Signal Processing Letters接收。该论文在GER系列工作的基础上,探究了其在具有挑战性口音语音场景中的应用。具体来说,该论文提出了一种可以加入到联合语音识别和口音识别(ASR-AR)训练的多模态多粒度生成式错误纠正方法MMGER,在中文多口音数据集KeSpeech上,MMGER比标准基线模型的口音识别准确率相对提高了26.72%,语音识别字错误率相对降低了27.55%,达到了KeSpeech数据集上当前最低字错误率。现对该论文进行简要的解读。

论文题目:MMGER: Multi-modal and Multi-granularity Generative Error Correction with LLM for Joint Accent and Speech Recognition

作者列表:穆秉甡,万旭成,郑乃君,周欢,谢磊

发表期刊:IEEE Signal Processing Letters

合作单位:华为

论文原文:https://ieeexplore.ieee.org/document/10607842

论文预印版:https://arxiv.org/abs/2405.03152v1

发表论文截图

扫码直接看论文

背景动机

尽管近年来语音识别(ASR)的能力取得了长足的进步,但是当ASR面对复杂的声学条件如背景噪声以及口音时会产生很多错误。语言模型重打分方法(LM Rescoring)已经广泛应用于ASR解码中以提升ASR性能。此外,LM也通过利用ASR产生最佳假设(1-best)或者N个最佳假设(N-best)完成ASR纠错。最近的工作利用大语言模型(LLM)卓越的文本理解能力,提出了一种生成式错误纠正的框架(Generative Error Correction,GER)[1,2,3,4],以更好地挖掘ASR产生的N-best假设中的语言信息。通过参数高效的LLM微调,GER在学习从假设到转录的映射方面表现出了卓越的性能,显著优于传统的LM Rescoring方法。

尽管GER具有显著的性能,但是其具有一定的局限性。首先,GER本质上是一个级联系统,先通过WavLM[5]和Whisper[6]等语音基础模型生成N-best假设,然后通过LLM学习这些假设与真实转录之间的映射。通过这种方式产生的N-best假设是固定的,可能会限制GER的性能以及泛化能力。其次,GER仅利用N-best假设中的语言信息来预测转录,缺乏对语音中声学信息的利用。

本论文探究了GER在具有挑战性的口音语音场景中的应用。口音发音作为标准发音的偏差,受到说话者的教育背景、地理区域以及母语等因素的影响。最近的研究发现多口音挑战可以同时从声学和语言学两方面解决,联合ASR和口音识别(AR)的多任务学习框架(ASR-AR)已经成为一个广泛应用的解决方案[7]。该框架通常由一个共享编码器和两个分支组成,一个分支用于ASR任务,另一个分支用于AR任务。一方面,同时利用声学信息和来自ASR分支的语言学信息可以有效提高AR性能;另一方面,AR任务中的口音信息可以帮助ASR适应发音或者语言的变化,从而增强ASR在口音语音的性能。

为此,本论文提出了一种利用多模态纠错和多粒度纠错的ASR-AR GER模型MMGER,在多口音普通话数据集KeSpeech[8]上验证了该方法的有效性,与标准基线模型相比,MMGER的口音识别准确率(AR ACC)相对提高了26.72%,语音识别字错误率(ASR CER)相对降低了27.55%,获得了KeSpeech数据集上最低的CER。

提出的方案

总体概述

MMGER的总体结构如图1所示,包含一个多任务ASR-AR学习模块、一个多模态纠错模块、一个多粒度纠错模块以及一个冻结的LLM。受到Whisper的启发,我们使用了五个特殊标志(special token),分别是  、  、  、  和  ,代表多模态纠错的开始与结束、多粒度纠错的开始与结束以及转录。此外,我们还在多任务ASR-AR学习模块中探究了三种声学信息和语言学信息融合的方法,以获取更好的AR性能。

图1 MMGER总体结构图

多任务ASR-AR学习

多任务ASR- AR学习模块由共享编码器、CTC解码器、AR信息融合模块以及AR编码器组成。多任务ASR-AR学习中ASR任务的作用是提供动态变化的1-best假设。具体来说,共享编码器的输出通过CTC解码器和CTC贪心搜索(greedy search)后得到该语音的1-best假设,并且由于共享编码器以及CTC解码器的参数在训练期间是更新的,所以1-best假设是动态变化的。ASR任务的损失函数为: 
 其中, 是语音的FBank特征, 是通过CTC分词器标记化后的抄本,CTC解码器是一个线性映射层,将共享编码器的输出 的特征维度映射到CTC字典大小。
此外,AR任务的目标是提供语音的口音嵌入,口音嵌入可以通过声学信息和语言信息共同得到。为此,我们选择使用共享编码器多个中间层特征的组合作为声学信息 ,使用通过LLM分词器标记化的1-best假设作为语言学信息 。声学信息和语言学信息可以分别通过以下公式获得: 

其中, 是共享编码器中间层的编号, 指的是删除假设中的空白和重复标记。我们在AR信息融合部分探究了三种声学信息和语言学信息融合方法,分别是相加融合、拼接融合以及注意力融合。图2展示了三种融合方法的结构图。

图2 三种多模态信息融合方法结构图

AR任务的准确率与口音嵌入的质量呈正相关关系,我们要想得到更高质量的口音嵌入,就必须让AR准确率尽可能高,于是我们选择使用单独的损失函数指导AR任务:  其中, 是口音标签。我们使用AR编码器的中间结果作为口音嵌入。

多模态纠错

口音发音和标准发音之间的声学差异会导致ASR假设与转录之间出现语言差异,由此可见,这种声学偏差和语言偏差可以共同构成口音的多模态表征。受Qwen-audio[9]的启发,我们使用适配器将ASR编码器提取的语音嵌入对齐到LLM需要的文本模态。于是,我们使用经过模态对齐后的语音嵌入 作为口音的声学偏差。此外,我们将没有去除空白和重复标记的字符级1-best假设作为语言偏差。这两种偏差是强制对齐的,因为声学偏差的帧数与语言偏差的字符数一致。我们通过LLM分词器将语言偏差中的每一个字符进行单独标记化后再重新拼接,得到最终的语言偏差 。值得注意的是,声学偏差与语言偏差 的长度依旧是一致的。我们将两种偏差沿着特征维度进行拼接便可以得到口音的多模态表征 ,口音的多模态表征可以完成细粒度的多模态纠错,即我们希望每个字符可以根据对应帧的语音特征完成纠错。口音的声学偏差、语言偏差以及口音的多模态表征分别通过以下公式获得: 

多粒度纠错

由于口音的语言偏差是由LLM分词器将1-best假设中的每个字符标记化后再拼接组成的,这会导致口音的语言偏差中全局语言信息的丢失,即语义信息的丢失。然而,全局语言信息对于ASR纠错来说至关重要。因此我们在细粒度的帧级别多模态纠错的基础上,通过利用经过去除空白和重复标记的1-best假设来补充全局语言信息。具体来说,我们直接将该1-best假设经过LLM分词器进行标记化得到 ,而不是像口音的语言偏差一样将未经过正则化的1-best假设中的每个标记依次通过LLM分词器,这样可以保留1-best假设中的全局语言信息,以实现粗粒度的话语级别多粒度纠错。 和 的结合即为多粒度纠错。全局语言信息可以通过以下公式获得: 

冻结的LLM
输入给冻结的LLM的prompt遵循以下规则:   其中五个special tokens是可训练的嵌入,  表示语音对应的抄本。我们将特定口音的帧级别多模态表征、正则化的包含全局语言信息的1-best假设以及高质量口音嵌入输入到LLM中,通过端到端训练,利用LLM强大的语言理解能力,完成多模态纠错和多粒度纠错。

最后,MMGER总的损失函数由LLM的损失函数 、CTC损失函数 以及AR损失函数组成,可以写成以下形式: 

 其中, 和 为可调整的超参数。

实验结果

表1展示了MMGER在KeSpeech验证集和测试集上的结果。实验A1-A5探究了多任务ASR-AR学习模块中AR融合部分使用不同模态信息以及不同融合方法对MMGER性能的影响。实验A1和A2仅使用单模态信息,在AR ACC和ASR CER两个指标上均略差于使用双模态信息的实验A3-A5。实验A3-A5探究了多模态信息不同融合方式的影响,可以发现三种融合方式在AR ACC以及ASR CER这两个指标上性能相近。我们还可以发现,AR ACC与ASR CER存在一定的相关性,即AR ACC越高,说明产生的口音嵌入质量越高,就会导致更低的ASR CER。实验G1-G2和实验M1-M2分别验证了多粒度纠错和多模态纠错的有效性。
表1 MMGER在KeSpeech验证集和测试集上的ACC(%)与CER(%)结果。CER结果的格式为:所有语音的CER/口音语音的CER

表2展示了MMGER和其他模型在KeSpeech验证集和测试集上的结果。我们比较了ASR模型加LM Rescoring的方案与MMGER的性能差距,发现MMGER基本都优于LM Rescoring的方案。此外,我们用LLM替换了传统ASR以及多任务ASR-AR的解码器,得到了基于LLM的ASR与基于LLM的ASR-AR方案的结果,MMGER的性能依旧由于上述方案。
表2 MMGER与其他模型在KeSpeech验证集和测试集上的ACC(%)与CER(%)结果

表3进行了案例分析,分别选择了兰银口音和东北口音的普通话例子,展示了这些例子通过CTC贪婪搜索的解码结果与在此基础上使用MMGER所带来的改进。
表3 MMGER的案例分析

结论

在这篇论文中,我们提出了一种利用多模态纠错和多粒度纠错的ASR-AR GER模型MMGER。多任务ASR-AR学习模块用来生成动态的1-best假设以及口音嵌入,消除了GER中使用固定N-best假设的限制,促进模型适应特定口音的声学和语言变化。我们还将帧级别的口音声学偏差以及语言偏差拼接起来完成细粒度的多模态纠错,在此基础上,我们通过正则化的1-best假设中包含的全局语言信息来实现话语级别的粗粒度纠错。最后,我们在多口音普通话数据集KeSpeech上验证了MMGER方案的有效性。

参考文献

[1] Chen Chen, Yuchen Hu, Chao-Han Huck Yang, Sabato Marco Siniscalchi, Pin-Yu Chen, and Eng-Siong Chng, “Hyporadise: An open baseline for generative speech recognition with large language models,” Advances in Neural Information Processing Systems, vol. 36, 2024.

[2] Chen Chen, Yuchen Hu, Chao-Han Huck Yang, Hexin Liu, Sabato Marco Siniscalchi, and Eng Siong Chng, “Generative error correction for code-switching speech recognition using large language models,” arXiv preprint arXiv:2310.13013, 2023.

[3] Chen Chen, Ruizhe Li, Yuchen Hu, Sabato Marco Siniscalchi, Pin-Yu Chen, EngSiong Chng, and Chao-Han Huck Yang, “It’s never too late: Fusing acoustic information into large language models for automatic speech recognition,” in Proc. ICLR, 2024.

[4] Yuchen Hu, Chen Chen, Chao-Han Huck Yang, Ruizhe Li, Chao Zhang, Pin-Yu Chen, and Eng Siong Chng, “Large language models are efficient learners of noise-robust speech recognition,” in Proc. ICLR, 2024.

[5] Sanyuan Chen, Chengyi Wang, Zhengyang Chen, Yu Wu, Shujie Liu, Zhuo Chen, Jinyu Li, Naoyuki Kanda, Takuya Yoshioka, Xiong Xiao, et al., “Wavlm: Large-scale self-supervised pre-training for full stack speech processing,” IEEE Journal of Selected Topics in Signal Processing, vol. 16, pp. 1505–1518, 2022.

[6] Alec Radford, Jong Wook Kim, Tao Xu, Greg Brockman, Christine McLeavey, and Ilya Sutskever, “Robust speech recognition via large-scale weak supervision,” in Proc. ICML, 2023, pp. 28492–28518.

[7] Qijie Shao, Pengcheng Guo, Jinghao Yan, Pengfei Hu, and Lei Xie, “Decoupling and Interacting Multi-Task Learning Network for Joint Speech and Accent Recognition,” IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 32, pp. 459–470, 2023.

[8] Zhiyuan Tang, Dong Wang, Yanguang Xu, Jianwei Sun, Xiaoning Lei, Shuaijiang Zhao, Cheng Wen, Xingjun Tan, Chuandong Xie, Shuran Zhou, et al., “Kespeech: An open source speech dataset of mandarin and its eight subdialects,” in Proc. NeurIPS Datasets and Benchmarks Track, 2021.

[9] Yunfei Chu, Jin Xu, Xiaohuan Zhou, Qian Yang, Shiliang Zhang, Zhijie Yan, Chang Zhou, and Jingren Zhou, “Qwen-audio: Advancing universal audio understanding via unified large-scale audio-language models,” arXiv preprint arXiv:2311.07919, 2023.




欢迎关注ASLP实验室微信公众号,获取更多语音研究相关资讯!

“打造最开放、最前沿、最落地的人工智能实验室”


音频语音与语言处理研究组
发布关于音频语音与语言处理研究组的最新研究成果、技术分享、新闻动态和活动等。
 最新文章