基于单解码器(Decoder-only)的 LLM[1,2,3,4] 彻底改变了自然语言处理(NLP)领域。由于 LLM能够捕获复杂的语言模式和上下文信息,在机器翻译、情感分析、文本生成等 NLP 任务上取得了令人印象深刻的效果。在此背景下,最近的大量研究旨在通过一个统一的大规模 Audio-LLM 创建文本和音频的无缝集成,使模型能够处理这些模态内部和之间的各种任务。尽管统一的音频模型在语音翻译和语音理解等任务中表现出相当大的潜力,但与经过良好微调的专家模型相比,它们在语音识别任务中的性能仍然缺乏鲁棒性,特别是在具有复杂声学环境的语音中表现出的幻觉和重复问题,引入了大量的替换和插入错误。 近期,西工大音频语音与语言处理研究组(ASLP@NPU)和腾讯合作论文“A Transcription Prompt-based Efficient Audio Large Language Model for Robust Speech Recognition”被语音领域旗舰会议Interspeecch 2024接收。该论文提出了一种基于转写提示的 Audio-LLM,通过结合 ASR 专家模型的转录结果作为文本提示,有效抑制 Audio-LLM 在 ASR 任务中的幻觉现象。同时提出一种联合自回归与非自回归解码的策略,彻底解决 LLM 解码时的重复问题。本文将对该文章进行简要的解读。
作者列表:李泱泽,王雄,曹松军,张一珂,马龙,谢磊
合作单位:腾讯
论文链接:https://arxiv.org/abs/2408.09491
相关链接:NPU-ASLP实验室14篇论文被Interspeech2024 录用
发表论文截图
扫码直接看论文
背景动机
尽管目前有大量 Audio-LLM[5, 6, 7, 8, 9, 10, 11, 12] 模型在语音翻译和语音理解等任务中显示出相当大的潜力,但与经过良好调优的专家模型相比,它们在语音识别任务中的性能仍然缺乏鲁棒性,特别是在具有复杂声学环境的语音中。我们观察到基于 LLM 的框架引入的以下问题导致了 Audio-LLM 语音识别性能的下降。第一个问题是,LLM 丰富的知识和联想能力可以对识别结果进行语义校正,但同时也可能引入替换错误。第二种是 Auio-LLM 将导致语音识别任务中自回归解码过程中的文本片段重复。这会导致许多插入错误,并使识别结果难以理解。尽管上述问题可以在 NLP 任务中使用温度、top-p[13]/top-k[14] 等常见策略来解决,但由于识别任务需要准确的转录,上述方法难以直接应用。因此目前在语音识别中对上述问题还没有有效的解决方案。
造成上述问题的主要原因是,以往的工作往往只通过预训练的 ASR 编码器引入语音模态,而忽略了语音的文本模态信息,并且没有通过针对语音识别任务的特定设计来缓解 LLM 的幻觉。在本文中,受 GER[15, 16,17] 等工作的启发,即利用 LLM 对 ASR 转录本进行后处理也可以提高识别性能,提出了一种基于转录提示的 Audio-LLM,它结合了从 ASR 调优专家模型中获得的语音和文本模态的信息,以提高 Audio-LLM 模型的语音识别性能。
方案
如图1所示,我们引入了一个转录标记器来提供输入语音的转录提示。在本文中,标记器是使用 CTC 损失的 ASR 预训练模型。该标记器将输入语音通过 CTC[18] 贪婪搜索解码为文本,然后通过 LLM 的文本嵌入层将文本转换为离散的语义表示。
图1 整体结构图
训练策略
通过将标记器生成的转录放入提示中,损失函数 如式(3)所示,其中转录提示
在训练阶段,为了避免模型对转录提示的过度拟合,我们使用超参数
解码
非自回归(NAR)解码
通过引入由标记器解码的转录提示,我们提出了一种快速的非自回归解码方法。如图2所示,我们将由 LLM 预测的上下文
图2 非自回归解码示意图
在非自回归解码方法中,任务可以被描述为 LLM 修改转录提示,充当纠错模型。由于预测文本序列的长度仅取决于转录提示的长度,因此这种方法将避免重复问题。
混合自回归-非自回归(Hybrid AR NAR)解码
虽然非自回归解码方法可以解决重复问题,但 LLM 的能力受到转录提示固定长度的限制。为了结合自回归和非自回归解码方法的优点,我们提出了一种如 Algorithm 1 所示的混合自回归-非自回归解码方法。这种混合方法使用解码长度限制超参数 确定 AR 解码方法中是否存在重复等问题,然后在触发条件时使用非自回归解码结果。在本文中,超参数被经验性地设置为1.5。
实验
实验设置
数据 我们使用 WenetSpeech[19] 语料库评估提出的方法,包含超过10000小时的高质量标记普通话语音,这些语音来自YouTube和播客,涵盖了不同的说话风格、场景、领域、主题和噪音环境。此外,我们使用干净数据集 AISHELL-1[20] 来确认模型的域外性能。
大语言模型 Qwen-7B[4]。
评估指标 采用字错误率WER(Char Error Rate)。
实验结果
表1 各种模型在 Test_Net、Test_Meeting 和 Test_aishell 上的CER(%)
(RTF 被计算为总推理时间与评估集总持续时间的比值)
参考文献
[1] OpenAI, “GPT-4 technical report,” CoRR, vol. abs/2303.08774, 2023.
[2] H. Touvron, T. Lavril, G. Izacard, X. Martinet, M. Lachaux, T. Lacroix, B. Rozi` ere, N. Goyal, E. Hambro, F. Azhar, A. Rodriguez, A. Joulin, E. Grave, and G. Lample, “Llama: Open and efficient foundation language models,” CoRR, vol. abs/2302.13971, 2023.
[3] A. Chowdhery, S. Narang, J. Devlin, M. Bosma, G. Mishra, A. Roberts, P. Barham, H. W. Chung, C. Sutton, S. Gehrmann, P. Schuh, K. Shi, S. Tsvyashchenko, J. Maynez, A. Rao, P. Barnes, Y. Tay, N. Shazeer, V. Prabhakaran, E. Reif et al., “Palm: Scaling language modeling with pathways,” J. Mach. Learn. Res., vol. 24, pp. 240:1–240:113, 2023.
[4] J. Bai, S. Bai, Y. Chu, Z. Cui, K. Dang, X. Deng, Y. Fan, W. Ge, Y. Han, F. Huang, B. Hui, L. Ji, M. Li, J. Lin, R. Lin, D. Liu, G. Liu, C. Lu, K. Lu, J. Ma et al., “Qwen technical report,” CoRR, vol. abs/2309.16609, 2023.
[5] D. Zhang, S. Li, X. Zhang, J. Zhan, P. Wang, Y. Zhou, and X. Qiu, “Speechgpt: Empowering large language models with intrinsic cross-modal conversational abilities,” in Conference on Empirical Methods in Natural Language Processing, EMNLP 2023, H. Bouamor, J. Pino, and K. Bali, Eds. Association for Computational Linguistics, 2023, pp. 15 757–15 773.
[6] P. K. Rubenstein, C. Asawaroengchai, D. D. Nguyen, A. Bapna, Z. Borsos, F. de Chaumont Quitry, P. Chen, D. E. Badawy, W. Han, E. Kharitonov, H. Muckenhirn, D. Padfield, J. Qin, D. Rozenberg, T. N. Sainath, J. Schalkwyk, M. Sharifi, M. T. Ramanovich, M. Tagliasacchi, A. Tudor et al., “Audiopalm: A large language model that can speak and listen,” CoRR, vol. abs/2306.12925, 2023.
[7] M. Wang, W. Han, I. Shafran, Z. Wu, C. Chiu, Y. Cao, N. Chen, Y. Zhang, H. Soltau, P. K. Rubenstein, L. Zilka, D. Yu, G. Pundak, N. Siddhartha, J. Schalkwyk, and Y. Wu, “SLM: bridge the thin gap between speech and text foundation models,” in Automatic Speech Recognition and Understanding Workshop, ASRU 2023. IEEE, 2023, pp. 1–8.
[8] C. Tang, W. Yu, G. Sun, X. Chen, T. Tan, W. Li, L. Lu, Z. Ma, and C. Zhang, “SALMONN: towards generic hearing abilities for large language models,” CoRR, vol. abs/2310.13289, 2023. [9] Y. Chu, J. Xu, X. Zhou, Q. Yang, S. Zhang, Z. Yan, C. Zhou, and J. Zhou, “Qwen-audio: Advancing universal audio understanding via unified large-scale audio-language models,” CoRR, vol. abs/2311.07919, 2023.
[10] J. Wang, Z. Du, Q. Chen, Y. Chu, Z. Gao, Z. Li, K. Hu, X. Zhou, J. Xu, Z. Ma, W. Wang, S. Zheng, C. Zhou, Z. Yan, and S. Zhang, “Lauragpt: Listen, attend, understand, and regenerate audio with GPT,” CoRR, vol. abs/2310.04673, 2023.
[11] Y. Shen, K. Song, X. Tan, D. Li, W. Lu, and Y. Zhuang, “Hugginggpt: Solving AI tasks with chatgpt and its friends in huggingface,” CoRR, vol. abs/2303.17580, 2023.
[12] T. Wang, L. Zhou, Z. Zhang, Y. Wu, S. Liu, Y. Gaur, Z. Chen, J. Li, and F. Wei, “Viola: Unified codec language models for speech recognition, synthesis, and translation,” CoRR, vol. abs/2305.16107, 2023.
[13] A. Holtzman, J. Buys, L. Du, M. Forbes, and Y. Choi, “The curious case of neural text degeneration,” in International Conference on Learning Representations, ICLR 2020. OpenReview.net, 2020.
[14] A. Fan, M. Lewis, and Y. N. Dauphin, “Hierarchical neural story generation,” in Annual Meeting of the Association for Computational Linguistics, ACL 2018, I. Gurevych and Y. Miyao, Eds. Association for Computational Linguistics, 2018, pp. 889–898.
[15] C. H. Yang, Y. Gu, Y. Liu, S. Ghosh, I. Bulyko, and A. Stolcke, “Generative speech recognition error correction with large language models and task-activating prompting,” in Automatic Speech Recognition and Understanding Workshop, ASRU 2023. IEEE, 2023, pp. 1–8.
[16] C. Chen, Y. Hu, C. H. Yang, S. M. Siniscalchi, P. Chen, and C. E. Siong, “Hyporadise: An open baseline for generative speech recognition with large language models,” in Annual Conference on Neural Information Processing Systems, NeurIPS 2023, A. Oh, T. Naumann, A. Globerson, K. Saenko, M. Hardt, and S. Levine, Eds., 2023.
[17] Y. Hu, C. Chen, C.-H. H. Yang, R. Li, C. Zhang, P.-Y. Chen, and E. S. Chng, “Large language models are efficient learners of noise-robust speech recognition,” in International Conference on Learning Representations, ICLR 2024. OpenReview.net, 2024.
[18] A. Graves, S. Fern ́ andez, F. J. Gomez, and J. Schmidhuber, “Connectionist temporal classification: labelling unsegmented sequence data with recurrent neural networks,” in International Conference on Machine Learning, ICML 2006, ser. ACM International Conference Proceeding Series, W. W. Cohen and A. W. Moore, Eds., vol. 148. ACM, 2006, pp. 369–376.
[19] B. Zhang, H. Lv, P. Guo, Q. Shao, C. Yang, L. Xie, X. Xu, H. Bu, X. Chen, C. Zeng, D. Wu, and Z. Peng, “WENETSPEECH: A 10000+ hours multi-domain mandarin corpus for speech recognition,” in International Conference on Acoustics, Speech and Signal Processing, ICASSP 2022. IEEE, 2022, pp. 6182–6186.
[20] H. Bu, J. Du, X. Na, B. Wu, and H. Zheng, “AISHELL-1: an open-source Mandarin speech corpus and a speech recognition baseline,” in Conference of the Oriental Chapter of the International Coordinating Committee on Speech Databases and Speech I/O Systems and Assessment, O-COCOSDA 2017. IEEE, 2017, pp. 1–5.
欢迎关注ASLP实验室微信公众号,获取更多语音研究相关资讯!
“打造最开放、最前沿、最落地的人工智能实验室”