INTERSPEECH 2024|基于转录提示的高效音频大语言模型鲁棒语音识别

文摘   科技   2024-08-22 09:30   陕西  
基于单解码器(Decoder-only)的 LLM[1,2,3,4] 彻底改变了自然语言处理(NLP)领域。由于 LLM能够捕获复杂的语言模式和上下文信息,在机器翻译、情感分析、文本生成等 NLP 任务上取得了令人印象深刻的效果。在此背景下,最近的大量研究旨在通过一个统一的大规模 Audio-LLM 创建文本和音频的无缝集成,使模型能够处理这些模态内部和之间的各种任务。尽管统一的音频模型在语音翻译和语音理解等任务中表现出相当大的潜力,但与经过良好微调的专家模型相比,它们在语音识别任务中的性能仍然缺乏鲁棒性,特别是在具有复杂声学环境的语音中表现出的幻觉和重复问题,引入了大量的替换和插入错误。

近期,西工大音频语音与语言处理研究组(ASLP@NPU)和腾讯合作论文“A Transcription Prompt-based Efficient Audio Large Language Model for Robust Speech Recognition”被语音领域旗舰会议Interspeecch 2024接收。该论文提出了一种基于转写提示的 Audio-LLM,通过结合 ASR 专家模型的转录结果作为文本提示,有效抑制 Audio-LLM 在 ASR 任务中的幻觉现象。同时提出一种联合自回归与非自回归解码的策略,彻底解决 LLM 解码时的重复问题。本文将对该文章进行简要的解读。

论文标题:A Transcription Prompt-based Efficient Audio Large Language Model for Robust Speech Recognition

作者列表:李泱泽,王雄,曹松军,张一珂,马龙,谢磊

合作单位:腾讯

论文链接:https://arxiv.org/abs/2408.09491


相关链接:NPU-ASLP实验室14篇论文被Interspeech2024 录用


发表论文截图

扫码直接看论文

背景动机

尽管目前有大量 Audio-LLM[5, 6, 7, 8, 9, 10, 11, 12] 模型在语音翻译和语音理解等任务中显示出相当大的潜力,但与经过良好调优的专家模型相比,它们在语音识别任务中的性能仍然缺乏鲁棒性,特别是在具有复杂声学环境的语音中。我们观察到基于 LLM 的框架引入的以下问题导致了 Audio-LLM 语音识别性能的下降。第一个问题是,LLM 丰富的知识和联想能力可以对识别结果进行语义校正,但同时也可能引入替换错误。第二种是 Auio-LLM 将导致语音识别任务中自回归解码过程中的文本片段重复。这会导致许多插入错误,并使识别结果难以理解。尽管上述问题可以在 NLP 任务中使用温度、top-p[13]/top-k[14] 等常见策略来解决,但由于识别任务需要准确的转录,上述方法难以直接应用。因此目前在语音识别中对上述问题还没有有效的解决方案。

造成上述问题的主要原因是,以往的工作往往只通过预训练的 ASR 编码器引入语音模态,而忽略了语音的文本模态信息,并且没有通过针对语音识别任务的特定设计来缓解 LLM 的幻觉。在本文中,受 GER[15, 16,17] 等工作的启发,即利用 LLM 对 ASR 转录本进行后处理也可以提高识别性能,提出了一种基于转录提示的 Audio-LLM,它结合了从 ASR 调优专家模型中获得的语音和文本模态的信息,以提高 Audio-LLM 模型的语音识别性能。

方案

如图1所示,我们引入了一个转录标记器来提供输入语音的转录提示。在本文中,标记器是使用 CTC 损失的 ASR 预训练模型。该标记器将输入语音通过 CTC[18] 贪婪搜索解码为文本,然后通过 LLM 的文本嵌入层将文本转换为离散的语义表示。

图1 整体结构图

训练策略

对于 Audio-LLM 的语音识别任务,训练阶段需要表示为  的配对数据,其中 x 表示语音输入, y 表示相应的文本序列 。如式(1)和式(2)所示,训练期间的主要目标是在给定上文标记序列 和高维表示 的情况下,最大化下一个文本标记 的概率 。其中高维表示 由语音编码器和适配器生成, 是要优化的损失函数。

                         (1)
  (2)

通过将标记器生成的转录放入提示中,损失函数 如式(3)所示,其中转录提示  。

  (3)

在训练阶段,为了避免模型对转录提示的过度拟合,我们使用超参数  和一个随机生成数 p 来控制当前训练批是否添加转录提示,如式(4)所示。

                    (4)

解码

非自回归(NAR)解码

通过引入由标记器解码的转录提示,我们提出了一种快速的非自回归解码方法。如图2所示,我们将由 LLM 预测的上下文  替换为由标记器预测的  。然后我    们可以执行非自回归解码方法,在式(5)中描述的一步中生成预测文本序列 

  (5)

图2 非自回归解码示意图

在非自回归解码方法中,任务可以被描述为 LLM 修改转录提示,充当纠错模型。由于预测文本序列的长度仅取决于转录提示的长度,因此这种方法将避免重复问题。

混合自回归-非自回归(Hybrid AR NAR)解码

虽然非自回归解码方法可以解决重复问题,但 LLM 的能力受到转录提示固定长度的限制。为了结合自回归和非自回归解码方法的优点,我们提出了一种如 Algorithm 1 所示的混合自回归-非自回归解码方法。这种混合方法使用解码长度限制超参数 确定 AR 解码方法中是否存在重复等问题,然后在触发条件时使用非自回归解码结果。在本文中,超参数被经验性地设置为1.5。

实验

实验设置

  • 数据 我们使用 WenetSpeech[19] 语料库评估提出的方法,包含超过10000小时的高质量标记普通话语音,这些语音来自YouTube和播客,涵盖了不同的说话风格、场景、领域、主题和噪音环境。此外,我们使用干净数据集 AISHELL-1[20] 来确认模型的域外性能。

  • 大语言模型 Qwen-7B[4]。

  • 评估指标 采用字错误率WER(Char Error Rate)。

实验结果

为了分析转录提示对 Audio-LLM 的影响,如表1所示,我们首先设置了两个基线模型 Conformer-W1 和 Qwen Audio。Conformer-W1 在 WenetSpeech上 进行训练,其设置与基于 CTC 的转录标记器相同。Qwen-Audio[9] 是一个最近开源的一个 Audio-LLM,实现了最先进的语音识别性能。我们提出的基于转录提示的 Audio-LLM 的结果如表1所示。从结果来看,对于  意味着在训练阶段不使用转录提示)的 Audio-LLM 和 Qwen-Audio 由于 LLM 幻觉和重复问题导致在 Test_Net 上的结果较差。在我们引入  的转录提示后,与  的模型相比,Audio-LLM 在评估集上有了显著改进。此外,我们还比较了不同解码方法的效果,我们提出的 Hybrid AR NAR 解码方法将在解码阶段为 Audio-LLM 带来额外的改进。此外,我们设计了一个  的消融实验,以证明过度依赖转录提示可能会对 Audio-LLM 产生不利影响。

表1 各种模型在 Test_Net、Test_Meeting 和 Test_aishell 上的CER(%)

(RTF 被计算为总推理时间与评估集总持续时间的比值)

为了进一步分析转录提示的详细影响,如表2所示,我们列出了插入、删除和替换错误。结果表明,  的模型在三种类型上的误差比  的模型小,使用 NAR 解码方法后,插入误差大大降低。这表明转录提示可以抑制其在语音识别任务中的过度生成能力。此外,所提出的 Hybrid AR NAR 解码方法将进一步减少替换错误,这表明 CTC 转录提示可以提高 Audio-LLM 的模态对齐能力。值得一提的是,Hybrid AR NAR 解码方法允许在出现重复问题时更早地截断 AR 解码,从而实现比 AR 解码方法更低的 RTF。
表2 Test_Net 上不同方法插入、删除和替换错误的比较

我们将句子级解码重复率(DRR)定义为属于重复问题的句子数量除以评估集的总数,以衡量重复问题的严重性。如表3所示,在引入转录提示和 Hybrid AR NAR 解码方法后,DRR 将逐步降低到0,这意味着重复问题完全解决了。与现有的方法相比,我们展示了使用 top-3 解码策略的结果,解码问题重复似乎得到了有效缓解,但导致了不可接受的 CER 增加,主要是因为 ASR 任务是分类任务而不是生成任务。
表3 每个模型的句子级解码重复率(DRR(‰))

为了进一步评估转录提示如何影响 Audio-LLM,我们提供了由与训练期间不同的另一个标记器生成的转录提示。如表4所示,Conformer-A1 表示使用 AISHELL-1 语料库训练的 ASR 专家模型。结果表明,不同的标记器会将 Audio-LLM 引导到相关域,证明我们提出的方法具有实现域自适应的鲁棒性。
表4 在 Test_Net 和 AISHELL-1 上对不同模型的CER(%)进行比较

参考文献

[1] OpenAI, “GPT-4 technical report,” CoRR, vol. abs/2303.08774, 2023.

[2] H. Touvron, T. Lavril, G. Izacard, X. Martinet, M. Lachaux, T. Lacroix, B. Rozi` ere, N. Goyal, E. Hambro, F. Azhar, A. Rodriguez, A. Joulin, E. Grave, and G. Lample, “Llama: Open and efficient foundation language models,” CoRR, vol. abs/2302.13971, 2023.

[3] A. Chowdhery, S. Narang, J. Devlin, M. Bosma, G. Mishra, A. Roberts, P. Barham, H. W. Chung, C. Sutton, S. Gehrmann, P. Schuh, K. Shi, S. Tsvyashchenko, J. Maynez, A. Rao, P. Barnes, Y. Tay, N. Shazeer, V. Prabhakaran, E. Reif et al., “Palm: Scaling language modeling with pathways,” J. Mach. Learn. Res., vol. 24, pp. 240:1–240:113, 2023.

[4] J. Bai, S. Bai, Y. Chu, Z. Cui, K. Dang, X. Deng, Y. Fan, W. Ge, Y. Han, F. Huang, B. Hui, L. Ji, M. Li, J. Lin, R. Lin, D. Liu, G. Liu, C. Lu, K. Lu, J. Ma et al., “Qwen technical report,” CoRR, vol. abs/2309.16609, 2023.

[5] D. Zhang, S. Li, X. Zhang, J. Zhan, P. Wang, Y. Zhou, and X. Qiu, “Speechgpt: Empowering large language models with intrinsic cross-modal conversational abilities,” in Conference on Empirical Methods in Natural Language Processing, EMNLP 2023, H. Bouamor, J. Pino, and K. Bali, Eds. Association for Computational Linguistics, 2023, pp. 15 757–15 773.

[6] P. K. Rubenstein, C. Asawaroengchai, D. D. Nguyen, A. Bapna, Z. Borsos, F. de Chaumont Quitry, P. Chen, D. E. Badawy, W. Han, E. Kharitonov, H. Muckenhirn, D. Padfield, J. Qin, D. Rozenberg, T. N. Sainath, J. Schalkwyk, M. Sharifi, M. T. Ramanovich, M. Tagliasacchi, A. Tudor et al., “Audiopalm: A large language model that can speak and listen,” CoRR, vol. abs/2306.12925, 2023.

[7] M. Wang, W. Han, I. Shafran, Z. Wu, C. Chiu, Y. Cao, N. Chen, Y. Zhang, H. Soltau, P. K. Rubenstein, L. Zilka, D. Yu, G. Pundak, N. Siddhartha, J. Schalkwyk, and Y. Wu, “SLM: bridge the thin gap between speech and text foundation models,” in Automatic Speech Recognition and Understanding Workshop, ASRU 2023. IEEE, 2023, pp. 1–8.

[8] C. Tang, W. Yu, G. Sun, X. Chen, T. Tan, W. Li, L. Lu, Z. Ma, and C. Zhang, “SALMONN: towards generic hearing abilities for large language models,” CoRR, vol. abs/2310.13289, 2023. [9] Y. Chu, J. Xu, X. Zhou, Q. Yang, S. Zhang, Z. Yan, C. Zhou, and J. Zhou, “Qwen-audio: Advancing universal audio understanding via unified large-scale audio-language models,” CoRR, vol. abs/2311.07919, 2023.

[10] J. Wang, Z. Du, Q. Chen, Y. Chu, Z. Gao, Z. Li, K. Hu, X. Zhou, J. Xu, Z. Ma, W. Wang, S. Zheng, C. Zhou, Z. Yan, and S. Zhang, “Lauragpt: Listen, attend, understand, and regenerate audio with GPT,” CoRR, vol. abs/2310.04673, 2023.

[11] Y. Shen, K. Song, X. Tan, D. Li, W. Lu, and Y. Zhuang, “Hugginggpt: Solving AI tasks with chatgpt and its friends in huggingface,” CoRR, vol. abs/2303.17580, 2023.

[12] T. Wang, L. Zhou, Z. Zhang, Y. Wu, S. Liu, Y. Gaur, Z. Chen, J. Li, and F. Wei, “Viola: Unified codec language models for speech recognition, synthesis, and translation,” CoRR, vol. abs/2305.16107, 2023.

[13] A. Holtzman, J. Buys, L. Du, M. Forbes, and Y. Choi, “The curious case of neural text degeneration,” in International Conference on Learning Representations, ICLR 2020. OpenReview.net, 2020.

[14] A. Fan, M. Lewis, and Y. N. Dauphin, “Hierarchical neural story generation,” in Annual Meeting of the Association for Computational Linguistics, ACL 2018, I. Gurevych and Y. Miyao, Eds. Association for Computational Linguistics, 2018, pp. 889–898.

[15] C. H. Yang, Y. Gu, Y. Liu, S. Ghosh, I. Bulyko, and A. Stolcke, “Generative speech recognition error correction with large language models and task-activating prompting,” in Automatic Speech Recognition and Understanding Workshop, ASRU 2023. IEEE, 2023, pp. 1–8. 

[16] C. Chen, Y. Hu, C. H. Yang, S. M. Siniscalchi, P. Chen, and C. E. Siong, “Hyporadise: An open baseline for generative speech recognition with large language models,” in Annual Conference on Neural Information Processing Systems, NeurIPS 2023, A. Oh, T. Naumann, A. Globerson, K. Saenko, M. Hardt, and S. Levine, Eds., 2023.

[17] Y. Hu, C. Chen, C.-H. H. Yang, R. Li, C. Zhang, P.-Y. Chen, and E. S. Chng, “Large language models are efficient learners of noise-robust speech recognition,” in International Conference on Learning Representations, ICLR 2024. OpenReview.net, 2024.

[18] A. Graves, S. Fern ́ andez, F. J. Gomez, and J. Schmidhuber, “Connectionist temporal classification: labelling unsegmented sequence data with recurrent neural networks,” in International Conference on Machine Learning, ICML 2006, ser. ACM International Conference Proceeding Series, W. W. Cohen and A. W. Moore, Eds., vol. 148. ACM, 2006, pp. 369–376.

[19] B. Zhang, H. Lv, P. Guo, Q. Shao, C. Yang, L. Xie, X. Xu, H. Bu, X. Chen, C. Zeng, D. Wu, and Z. Peng, “WENETSPEECH: A 10000+ hours multi-domain mandarin corpus for speech recognition,” in International Conference on Acoustics, Speech and Signal Processing, ICASSP 2022. IEEE, 2022, pp. 6182–6186.

[20] H. Bu, J. Du, X. Na, B. Wu, and H. Zheng, “AISHELL-1: an open-source Mandarin speech corpus and a speech recognition baseline,” in Conference of the Oriental Chapter of the International Coordinating Committee on Speech Databases and Speech I/O Systems and Assessment, O-COCOSDA 2017. IEEE, 2017, pp. 1–5.




欢迎关注ASLP实验室微信公众号,获取更多语音研究相关资讯!

“打造最开放、最前沿、最落地的人工智能实验室”


音频语音与语言处理研究组
发布关于音频语音与语言处理研究组的最新研究成果、技术分享、新闻动态和活动等。
 最新文章