基于LLM的语音识别——在1.1万小时开源中文数据上的探索

文摘   科技   2024-05-06 12:05   陕西  


论文题目: Unveiling the Potential of LLM-Based ASR on Chinese Open-Source Datasets
作者列表: 耿雪龙,徐天翼,魏坤,穆秉甡,薛鸿飞,王贺,李泱泽,郭鹏程,戴宇航,李龙豪,邵明辰,谢磊
论文预印版: https://arxiv.org/abs/2405.02132

论文截图

扫码直接看论文

背景动机

大语言模型(LLM)在人工智能领域扮演着重要角色,特别是在理解和生成人类语言的能力方面表现突出。研究人员利用LLM的优势,探索将其与语音识别(ASR)等技术相结合的可能性,并已在多个应用场景中取得显著成效。ASR是同时依赖于声学和语言建模的任务,常用的语言模型包括n-gram和神经网络语言模型(NNLM)[1]。当下,LLM在训练数据规模和模型尺寸上的优势,为ASR的语言建模提供了新的尝试机会。

研究人员在集成LLM与ASR系统方面的工作主要分为两种策略。第一种是将LLM作为事先训练好的ASR模型的补充,利用LLM处理ASR输出的文本,以进行下游任务提示或纠正ASR结果。但这种方法可能忽略了声学信息,增加了错误传递的风险。第二种策略是采用音频-文本跨模态LLM,通过语音编码器网络处理语音并生成嵌入信息,然后输入到用于解码的LLM中。这种方法旨在更紧密地结合声学线索和语言上下文,以提高语音识别的准确性。当前,将语音基座模型(speech foundation model)与LLM结合的Speech Encoder + LLM-Decoder框架已成为主流,例如,SALMONN [2]利用Whisper [3]提取语义内容。BEATs提取音频事件信息进而实现了对人声、音乐和声音事件的综合感知能力。Qwen-Audio [4]将Whisper作为编码器,通过结构化任务指令优化不同任务的性能。SLAM-ASR [5] 在仅训练连接层的情况下,在960小时的英文librispeech任务上取得了SOTA性能。

本研究旨在探索Speech Foundation Encoder + LLM-Decoder范式在大规模开源中文数据集上的潜力。在超过11000小时的中文语音数据上评估了不同连接层、不同语音编码器和不同LLM对中文语音识别性能的影响。并采用三阶段训练方法,提升声学与文本模态间的对齐效果。在当前实验配置下的主要结论包括:

  • 语音编码器:Whisper在鲁棒性方面表现优异,但相较于HuBERT[6]的可塑性较低。

  • 连接层:在中文语音识别任务上,Transformer作为连接层的能力超过Qformer。

  • LLM:LLM集成的ASR系统在中文语音识别上的性能与LLM本身在中文任务上的表现正相关。

  • 训练方法:三阶段训练策略整合了语音基座模型的预训练声学建模与语言建模能力,并使得我们模型最终在AISHELL-1、Test_Net和Test_Meeting测试集上取得了SOTA性能。

模型结构

如图1所示,模型整体上由一个音频编码器和LLM组成。 对于每个样本,在训练过程中我们假设文本提示prompt(即“转录如下语音”)、语音语句以及相应的转录抄本分别表示为  我们使用LLM的量化器和嵌入矩阵对提示和文本进行标记,得到特征向量序列  :
  
  
对于输入语音  ,我们首先通过语音编码器来提取特征,从而获得编码器输出  ,记为:
  
然后,将  传递给连接模块,再经过线性层,得到与LLM输入相同维数的特征序列  :
  

其中,连接模块输出的特征维数与语音编码器输出的特征维数相同,线性层负责将特征维数映射到LLM的嵌入维数。

最后,我们拼接  得到最终特征,并将其输入给LLM,最终得到识别结果  ,记为:
  
图1: 模型整体结构图

实验

实验数据

训练数据用WenetSpeech(10000小时), AISHELL-1(178小时),AISHELL-2(1000小时), AISHELL-4(120小时)。在9个公开测试集和2个内部挑战测试集上分别进行了测试。具体数据情况如表1所示。

  表1: 训练数据和测试数据

训练策略

我们引入了一个三阶段的训练策略,以增强模型对齐声学和文本信息的能力。最初,我们尝试在训练过程中同时解冻语音编码器、连接模块和LLM的LoRA矩阵。但是这导致了模型收敛失败,最后的性能较差,如表2所示。我们猜测这是因为我们的数据集与用于训练编码器和LLM的数据相比相对较小,这导致LLM中的语音和文本表示之间的不匹配。本文利用一种三阶段训练方法来缓解这个问题:首先只训练连接模块,冻结所有其他组件,旨在训练连接模块使其在声学和文本模态之间快速对齐。其次,我们解冻编码器,只关注编码器,这使语音编码器适应我们的数据集。最后,用LoRA(低秩自适应)对LLM进行微调从而使LLM输出适应ASR转录的风格。

连接模块

对于连接模块,我们分别探索了Qformer和Transformer作为连接模块带来的不同影响。 我们将它们的参数量调整为一致的51M,并分别与HuBERT(语音编码器)和Atom(LLM)组合在一起,仅训练连接模块并训练一轮,得到的结果如表2所示。Transformer展现出来的性能显著超过了Qformer, 说明了在语音识别任务上, Tranformer的学习能力优于Qformer。

  表2:不同连接模块的对比

语音编码器

接着我们对语音编码器进行了对比。我们分别选取了有监督模型的代表Whisper和无监督模型的代表HuBERT。我们使用Whisper的large-v2版本,其模型参数量为640M,特征维度为1280,我们使用表1中的训练数据对它进行全量参数微调使其更加偏向中文领域。HuBERT使用large版本,其参数量为317M,特征维度为1024,我们使用实验室与腾讯合作开源的基于WenetSpeech数据集训练的HuBERT(如下推文)。我们固定连接模块为Transformer,LLM为Atom, 先仅训练连接层一轮,再仅训练语音编码器两轮,所得结果如表3所示。

找不到中文语音预训练模型?中文版 Wav2vec 2.0和HuBERT来了,腾讯游戏知几AI团队和西工大ASLP组联合出品

实验发现,在域内测试集上,HuBERT的表现均优于Whisper, 而在域外测试集上该现象变得不再明显,在偏离训练数据所在域的极端测试集(儿童语音且强噪干扰、重口音)上Whisper的表现远胜于HuBERT。 这说明Whisper的鲁棒性更高(因为见过超多训练数据),但是灵活性较弱,即少量的训练数据较难让Whisper适配到目标域的语音上。 而HuBERT的灵活性更高,可以在特定域内学得很好,但在鲁棒性和扩展性方面还有待提高,当然,数据规模加大后,期待其鲁棒性会变好。
  表3: 不同语音编码器的对比

LLM

最后我们对Atom-7B 和百川-7B-chat两个7B的LLM进行了对比。 我们固定语音编码器为HuBERT, 连接层为Transformer, 并仅解冻连接层进行了训练,训练轮数均为1个epoch。结果如表4所示。

实验结果表明,更精通中文领域的百川模型取得了更佳的性能。这说明了LLM可以在语音识别任务中发挥的性能往往与其在特定语言领域的性能成正比。这种趋势说明了LLM在处理与其训练数据相匹配的语言时,能够更有效地理解和生成语言,从而提高相关任务的性能。
  表4: 不同LLM的对比

最佳组合

我们将HuBERT、Transformer和Baichuan-7B-chat组合在一起,采用三阶段训练策略进行训练,训练数据为表1中的11000小时数据。具体而言,我们仅解冻Transformer训练1个epoch,接着仅解冻HuBERT训练2个epoch,最后我们仅解冻LLM的LoRA矩阵训练2个epoch。得到的最终模型在AISHELL-1、Test_Net和Test_Meeting上取得了最佳性能,同时我们与之前在这些测试集上取得SOTA的模型(Paraformer-large [7] 和Qwen-audio)分别进行了比较,其中Paraformer在60000小时的中文数据上训练得到,Qwen-audio在30000小时中文数据上训练得到,同时还有基于Whisper-large的v2(使用表1中的训练数据)和v3版本(Wenet团队使用WenetSpeech数据集Finetune版本)的全量参数微调后的结果,具体结果如表5所示。

表5: 与主流模型的对比

参考文献

[1] C. Shan, C. Weng, G. Wang, D. Su, M. Luo, D. Yu, and L. Xie, “Component Fusion: Learning Replaceable Language Model Component for End-to-end Speech Recognition System,” in ICASSP, 2019.

[2] C. Tang, W. Yu, G. Sun, X. Chen, T. Tan, W. Li, L. Lu, Z. Ma, and C. Zhang, “SALMONN: Towards Generic Hearing Abilities for Large Language Models,” 2023.

[3]  A. Radford, J. W. Kim, T. Xu, G. Brockman, C. McLeavey, and I. Sutskever, “Robust Speech Recognition via Large-Scale Weak Supervision,” in ICML, 2023.

[4] Y. Chu, J. Xu, X. Zhou, Q. Yang, S. Zhang, Z. Yan, C. Zhou, and J. Zhou, “Qwen-Audio: Advancing Universal Audio Understanding via Unified Large-Scale Audio-Language Models,”  2023.

[5] Z. Ma, G. Yang, Y. Yang, Z. Gao, J. Wang, Z. Du, F. Yu, Q. Chen, S. Zheng, S. Zhang, and X. Chen, “An Embarrassingly Simple Approach for LLM with Strong ASR Capacity,”  2024.

[6] W. Hsu, B. Bolte, Y. H. Tsai, K. Lakhotia, R. Salakhutdinov, and A. Mohamed, “HuBERT: Self-Supervised Speech Representation Learning by Masked Prediction of Hidden Units,” ACM, 2021.

[7]  Zhifu Gao, Shiliang Zhang, Ian McLoughlin, Zhijie Yan, “Paraformer: Fast and Accurate Parallel Transformer for Non-autoregressive End-to-End Speech Recognition,” in Interspeech, 2022.


欢迎关注ASLP实验室微信公众号,获取更多语音研究相关资讯!

“打造最开放、最前沿、最落地的人工智能实验室”



音频语音与语言处理研究组
发布关于音频语音与语言处理研究组的最新研究成果、技术分享、新闻动态和活动等。
 最新文章