论文截图
扫码直接看论文
背景动机
研究人员在集成LLM与ASR系统方面的工作主要分为两种策略。第一种是将LLM作为事先训练好的ASR模型的补充,利用LLM处理ASR输出的文本,以进行下游任务提示或纠正ASR结果。但这种方法可能忽略了声学信息,增加了错误传递的风险。第二种策略是采用音频-文本跨模态LLM,通过语音编码器网络处理语音并生成嵌入信息,然后输入到用于解码的LLM中。这种方法旨在更紧密地结合声学线索和语言上下文,以提高语音识别的准确性。当前,将语音基座模型(speech foundation model)与LLM结合的Speech Encoder + LLM-Decoder框架已成为主流,例如,SALMONN [2]利用Whisper [3]提取语义内容。BEATs提取音频事件信息进而实现了对人声、音乐和声音事件的综合感知能力。Qwen-Audio [4]将Whisper作为编码器,通过结构化任务指令优化不同任务的性能。SLAM-ASR [5] 在仅训练连接层的情况下,在960小时的英文librispeech任务上取得了SOTA性能。
本研究旨在探索Speech Foundation Encoder + LLM-Decoder范式在大规模开源中文数据集上的潜力。在超过11000小时的中文语音数据上评估了不同连接层、不同语音编码器和不同LLM对中文语音识别性能的影响。并采用三阶段训练方法,提升声学与文本模态间的对齐效果。在当前实验配置下的主要结论包括:
语音编码器:Whisper在鲁棒性方面表现优异,但相较于HuBERT[6]的可塑性较低。
连接层:在中文语音识别任务上,Transformer作为连接层的能力超过Qformer。
LLM:LLM集成的ASR系统在中文语音识别上的性能与LLM本身在中文任务上的表现正相关。
训练方法:三阶段训练策略整合了语音基座模型的预训练声学建模与语言建模能力,并使得我们模型最终在AISHELL-1、Test_Net和Test_Meeting测试集上取得了SOTA性能。
模型结构
其中,连接模块输出的特征维数与语音编码器输出的特征维数相同,线性层负责将特征维数映射到LLM的嵌入维数。
实验
实验数据
训练数据用WenetSpeech(10000小时), AISHELL-1(178小时),AISHELL-2(1000小时), AISHELL-4(120小时)。在9个公开测试集和2个内部挑战测试集上分别进行了测试。具体数据情况如表1所示。
训练策略
我们引入了一个三阶段的训练策略,以增强模型对齐声学和文本信息的能力。最初,我们尝试在训练过程中同时解冻语音编码器、连接模块和LLM的LoRA矩阵。但是这导致了模型收敛失败,最后的性能较差,如表2所示。我们猜测这是因为我们的数据集与用于训练编码器和LLM的数据相比相对较小,这导致LLM中的语音和文本表示之间的不匹配。本文利用一种三阶段训练方法来缓解这个问题:首先只训练连接模块,冻结所有其他组件,旨在训练连接模块使其在声学和文本模态之间快速对齐。其次,我们解冻编码器,只关注编码器,这使语音编码器适应我们的数据集。最后,用LoRA(低秩自适应)对LLM进行微调从而使LLM输出适应ASR转录的风格。
连接模块
表2:不同连接模块的对比
语音编码器
接着我们对语音编码器进行了对比。我们分别选取了有监督模型的代表Whisper和无监督模型的代表HuBERT。我们使用Whisper的large-v2版本,其模型参数量为640M,特征维度为1280,我们使用表1中的训练数据对它进行全量参数微调使其更加偏向中文领域。HuBERT使用large版本,其参数量为317M,特征维度为1024,我们使用实验室与腾讯合作开源的基于WenetSpeech数据集训练的HuBERT(如下推文)。我们固定连接模块为Transformer,LLM为Atom, 先仅训练连接层一轮,再仅训练语音编码器两轮,所得结果如表3所示。
找不到中文语音预训练模型?中文版 Wav2vec 2.0和HuBERT来了,腾讯游戏知几AI团队和西工大ASLP组联合出品
LLM
最后我们对Atom-7B 和百川-7B-chat两个7B的LLM进行了对比。 我们固定语音编码器为HuBERT, 连接层为Transformer, 并仅解冻连接层进行了训练,训练轮数均为1个epoch。结果如表4所示。
最佳组合
表5: 与主流模型的对比
参考文献
[1] C. Shan, C. Weng, G. Wang, D. Su, M. Luo, D. Yu, and L. Xie, “Component Fusion: Learning Replaceable Language Model Component for End-to-end Speech Recognition System,” in ICASSP, 2019.
[2] C. Tang, W. Yu, G. Sun, X. Chen, T. Tan, W. Li, L. Lu, Z. Ma, and C. Zhang, “SALMONN: Towards Generic Hearing Abilities for Large Language Models,” 2023.
[3] A. Radford, J. W. Kim, T. Xu, G. Brockman, C. McLeavey, and I. Sutskever, “Robust Speech Recognition via Large-Scale Weak Supervision,” in ICML, 2023.
[4] Y. Chu, J. Xu, X. Zhou, Q. Yang, S. Zhang, Z. Yan, C. Zhou, and J. Zhou, “Qwen-Audio: Advancing Universal Audio Understanding via Unified Large-Scale Audio-Language Models,” 2023.
[5] Z. Ma, G. Yang, Y. Yang, Z. Gao, J. Wang, Z. Du, F. Yu, Q. Chen, S. Zheng, S. Zhang, and X. Chen, “An Embarrassingly Simple Approach for LLM with Strong ASR Capacity,” 2024.
[6] W. Hsu, B. Bolte, Y. H. Tsai, K. Lakhotia, R. Salakhutdinov, and A. Mohamed, “HuBERT: Self-Supervised Speech Representation Learning by Masked Prediction of Hidden Units,” ACM, 2021.
[7] Zhifu Gao, Shiliang Zhang, Ian McLoughlin, Zhijie Yan, “Paraformer: Fast and Accurate Parallel Transformer for Non-autoregressive End-to-End Speech Recognition,” in Interspeech, 2022.
欢迎关注ASLP实验室微信公众号,获取更多语音研究相关资讯!
“打造最开放、最前沿、最落地的人工智能实验室”