INTERSPEECH 2024｜基于转录提示的高效音频大语言模型鲁棒语音识别

文摘科技 2024-08-22 09:30 陕西

基于单解码器（Decoder-only）的 LLM[1,2,3,4] 彻底改变了自然语言处理(NLP)领域。由于 LLM能够捕获复杂的语言模式和上下文信息，在机器翻译、情感分析、文本生成等 NLP 任务上取得了令人印象深刻的效果。在此背景下，最近的大量研究旨在通过一个统一的大规模 Audio-LLM 创建文本和音频的无缝集成，使模型能够处理这些模态内部和之间的各种任务。尽管统一的音频模型在语音翻译和语音理解等任务中表现出相当大的潜力，但与经过良好微调的专家模型相比，它们在语音识别任务中的性能仍然缺乏鲁棒性，特别是在具有复杂声学环境的语音中表现出的幻觉和重复问题，引入了大量的替换和插入错误。

近期，西工大音频语音与语言处理研究组（ASLP@NPU）和腾讯合作论文“A Transcription Prompt-based Efficient Audio Large Language Model for Robust Speech Recognition”被语音领域旗舰会议Interspeecch 2024接收。该论文提出了一种基于转写提示的 Audio-LLM，通过结合 ASR 专家模型的转录结果作为文本提示，有效抑制 Audio-LLM 在 ASR 任务中的幻觉现象。同时提出一种联合自回归与非自回归解码的策略，彻底解决 LLM 解码时的重复问题。本文将对该文章进行简要的解读。

论文标题：A Transcription Prompt-based Efficient Audio Large Language Model for Robust Speech Recognition

作者列表：李泱泽，王雄，曹松军，张一珂，马龙，谢磊

合作单位：腾讯

论文链接：https://arxiv.org/abs/2408.09491

发表论文截图

扫码直接看论文

背景动机

尽管目前有大量 Audio-LLM[5, 6, 7, 8, 9, 10, 11, 12] 模型在语音翻译和语音理解等任务中显示出相当大的潜力，但与经过良好调优的专家模型相比，它们在语音识别任务中的性能仍然缺乏鲁棒性，特别是在具有复杂声学环境的语音中。我们观察到基于 LLM 的框架引入的以下问题导致了 Audio-LLM 语音识别性能的下降。第一个问题是，LLM 丰富的知识和联想能力可以对识别结果进行语义校正，但同时也可能引入替换错误。第二种是 Auio-LLM 将导致语音识别任务中自回归解码过程中的文本片段重复。这会导致许多插入错误，并使识别结果难以理解。尽管上述问题可以在 NLP 任务中使用温度、top-p[13]/top-k[14] 等常见策略来解决，但由于识别任务需要准确的转录，上述方法难以直接应用。因此目前在语音识别中对上述问题还没有有效的解决方案。

造成上述问题的主要原因是，以往的工作往往只通过预训练的 ASR 编码器引入语音模态，而忽略了语音的文本模态信息，并且没有通过针对语音识别任务的特定设计来缓解 LLM 的幻觉。在本文中，受 GER[15, 16,17] 等工作的启发，即利用 LLM 对 ASR 转录本进行后处理也可以提高识别性能，提出了一种基于转录提示的 Audio-LLM，它结合了从 ASR 调优专家模型中获得的语音和文本模态的信息，以提高 Audio-LLM 模型的语音识别性能。

方案

如图1所示，我们引入了一个转录标记器来提供输入语音的转录提示。在本文中，标记器是使用 CTC 损失的 ASR 预训练模型。该标记器将输入语音通过 CTC[18] 贪婪搜索解码为文本，然后通过 LLM 的文本嵌入层将文本转换为离散的语义表示。

图1 整体结构图

训练策略

对于 Audio-LLM 的语音识别任务，训练阶段需要表示为

(\mathbf{x}, \mathbf{y})

的配对数据，其中 x 表示语音输入， y 表示相应的文本序列。如式(1)和式(2)所示，训练期间的主要目标是在给定上文标记序列和高维表示的情况下，最大化下一个文本标记的概率。其中高维表示由语音编码器和适配器生成，是要优化的损失函数。

\mathbf{H}_s=\operatorname{Adapter}(\operatorname{Encoder}(\mathbf{x}))

（1）

\mathcal{L}_{\text{CE}}=-\sum_{n=0}^{N-1}\log\mathcal{P}_{LLM}\left(y_{n} \mid \mathbf{y}_{<n}, \mathbf{H}_s;\Theta_{\text{LLM}}\right)

（2）

通过将标记器生成的转录放入提示中，损失函数如式(3)所示，其中转录提示 $\mathbf{y}_{\text{prompt}}=\operatorname{Tokenizer}\left(\mathbf{x}\right)$ 。

$\mathcal{L}_{\text{CE\_prompt}}=-\sum_{n=0}^{N-1}\log\mathcal{P}_{LLM}\left(y_{n} \mid \mathbf{y}_{<n},\mathbf{y}_{\text{prompt}}, \mathbf{H}_s;\Theta_{\text{LLM}}\right)$ （3）

在训练阶段，为了避免模型对转录提示的过度拟合，我们使用超参数 $\lambda\in[0, 1]$ 和一个随机生成数 p 来控制当前训练批是否添加转录提示，如式（4）所示。

$\mathcal{L}=\left\{\begin{matrix} \mathcal{L}_{\text{CE\_prompt}}&&,p\leqslant \lambda\\ \mathcal{L}_{\text{CE}} && ,p>\lambda \end{matrix}\right.$ （4）

解码

非自回归(NAR)解码

通过引入由标记器解码的转录提示，我们提出了一种快速的非自回归解码方法。如图2所示，我们将由 LLM 预测的上下文 $\mathbf{y}_{<n}$ 替换为由标记器预测的 ${y}_{\text{prompt}<n}$ 。然后我们可以执行非自回归解码方法，在式(5)中描述的一步中生成预测文本序列。

$\mathbf{y}^{\ast }={\underset{\mathbf{y}}{\text{argmax}}}\text{ }\mathbf{LLM}( \mathbf{y}_{\text{prompt}}, \mathbf{H}_s;\Theta_{\text{LLM}})$ （5）

图2 非自回归解码示意图

在非自回归解码方法中，任务可以被描述为 LLM 修改转录提示，充当纠错模型。由于预测文本序列的长度仅取决于转录提示的长度，因此这种方法将避免重复问题。

混合自回归-非自回归(Hybrid AR NAR)解码

虽然非自回归解码方法可以解决重复问题，但 LLM 的能力受到转录提示固定长度的限制。为了结合自回归和非自回归解码方法的优点，我们提出了一种如 Algorithm 1 所示的混合自回归-非自回归解码方法。这种混合方法使用解码长度限制超参数确定 AR 解码方法中是否存在重复等问题，然后在触发条件时使用非自回归解码结果。在本文中，超参数被经验性地设置为1.5。

实验

实验设置

数据我们使用 WenetSpeech[19] 语料库评估提出的方法，包含超过10000小时的高质量标记普通话语音，这些语音来自YouTube和播客，涵盖了不同的说话风格、场景、领域、主题和噪音环境。此外，我们使用干净数据集 AISHELL-1[20] 来确认模型的域外性能。
大语言模型 Qwen-7B[4]。
评估指标 采用字错误率WER（Char Error Rate）。

实验结果

为了分析转录提示对 Audio-LLM 的影响，如表1所示，我们首先设置了两个基线模型 Conformer-W1 和 Qwen Audio。Conformer-W1 在 WenetSpeech上进行训练，其设置与基于 CTC 的转录标记器相同。Qwen-Audio[9] 是一个最近开源的一个 Audio-LLM，实现了最先进的语音识别性能。我们提出的基于转录提示的 Audio-LLM 的结果如表1所示。从结果来看，对于

\lambda=0

意味着在训练阶段不使用转录提示)的 Audio-LLM 和 Qwen-Audio 由于 LLM 幻觉和重复问题导致在 Test_Net 上的结果较差。在我们引入

\lambda=0.5

的转录提示后，与

\lambda=0

的模型相比，Audio-LLM 在评估集上有了显著改进。此外，我们还比较了不同解码方法的效果，我们提出的 Hybrid AR NAR 解码方法将在解码阶段为 Audio-LLM 带来额外的改进。此外，我们设计了一个

\lambda=1.0

的消融实验，以证明过度依赖转录提示可能会对 Audio-LLM 产生不利影响。

表1 各种模型在 Test_Net、Test_Meeting 和 Test_aishell 上的CER(%)

(RTF 被计算为总推理时间与评估集总持续时间的比值)

为了进一步分析转录提示的详细影响，如表2所示，我们列出了插入、删除和替换错误。结果表明，

\lambda=0.5

的模型在三种类型上的误差比

\lambda=0.0

的模型小，使用 NAR 解码方法后，插入误差大大降低。这表明转录提示可以抑制其在语音识别任务中的过度生成能力。此外，所提出的 Hybrid AR NAR 解码方法将进一步减少替换错误，这表明 CTC 转录提示可以提高 Audio-LLM 的模态对齐能力。值得一提的是，Hybrid AR NAR 解码方法允许在出现重复问题时更早地截断 AR 解码，从而实现比 AR 解码方法更低的 RTF。

表2 Test_Net 上不同方法插入、删除和替换错误的比较

我们将句子级解码重复率(DRR)定义为属于重复问题的句子数量除以评估集的总数，以衡量重复问题的严重性。如表3所示，在引入转录提示和 Hybrid AR NAR 解码方法后，DRR 将逐步降低到0，这意味着重复问题完全解决了。与现有的方法相比，我们展示了使用 top-3 解码策略的结果，解码问题重复似乎得到了有效缓解，但导致了不可接受的 CER 增加，主要是因为 ASR 任务是分类任务而不是生成任务。

表3 每个模型的句子级解码重复率(DRR(‰))

为了进一步评估转录提示如何影响 Audio-LLM，我们提供了由与训练期间不同的另一个标记器生成的转录提示。如表4所示，Conformer-A1 表示使用 AISHELL-1 语料库训练的 ASR 专家模型。结果表明，不同的标记器会将 Audio-LLM 引导到相关域，证明我们提出的方法具有实现域自适应的鲁棒性。

表4 在 Test_Net 和 AISHELL-1 上对不同模型的CER(%)进行比较

参考文献

[1] OpenAI, “GPT-4 technical report,” CoRR, vol. abs/2303.08774, 2023.

[2] H. Touvron, T. Lavril, G. Izacard, X. Martinet, M. Lachaux, T. Lacroix, B. Rozi` ere, N. Goyal, E. Hambro, F. Azhar, A. Rodriguez, A. Joulin, E. Grave, and G. Lample, “Llama: Open and efficient foundation language models,” CoRR, vol. abs/2302.13971, 2023.

[3] A. Chowdhery, S. Narang, J. Devlin, M. Bosma, G. Mishra, A. Roberts, P. Barham, H. W. Chung, C. Sutton, S. Gehrmann, P. Schuh, K. Shi, S. Tsvyashchenko, J. Maynez, A. Rao, P. Barnes, Y. Tay, N. Shazeer, V. Prabhakaran, E. Reif et al., “Palm: Scaling language modeling with pathways,” J. Mach. Learn. Res., vol. 24, pp. 240:1–240:113, 2023.

[4] J. Bai, S. Bai, Y. Chu, Z. Cui, K. Dang, X. Deng, Y. Fan, W. Ge, Y. Han, F. Huang, B. Hui, L. Ji, M. Li, J. Lin, R. Lin, D. Liu, G. Liu, C. Lu, K. Lu, J. Ma et al., “Qwen technical report,” CoRR, vol. abs/2309.16609, 2023.

[5] D. Zhang, S. Li, X. Zhang, J. Zhan, P. Wang, Y. Zhou, and X. Qiu, “Speechgpt: Empowering large language models with intrinsic cross-modal conversational abilities,” in Conference on Empirical Methods in Natural Language Processing, EMNLP 2023, H. Bouamor, J. Pino, and K. Bali, Eds. Association for Computational Linguistics, 2023, pp. 15 757–15 773.

[6] P. K. Rubenstein, C. Asawaroengchai, D. D. Nguyen, A. Bapna, Z. Borsos, F. de Chaumont Quitry, P. Chen, D. E. Badawy, W. Han, E. Kharitonov, H. Muckenhirn, D. Padfield, J. Qin, D. Rozenberg, T. N. Sainath, J. Schalkwyk, M. Sharifi, M. T. Ramanovich, M. Tagliasacchi, A. Tudor et al., “Audiopalm: A large language model that can speak and listen,” CoRR, vol. abs/2306.12925, 2023.

[7] M. Wang, W. Han, I. Shafran, Z. Wu, C. Chiu, Y. Cao, N. Chen, Y. Zhang, H. Soltau, P. K. Rubenstein, L. Zilka, D. Yu, G. Pundak, N. Siddhartha, J. Schalkwyk, and Y. Wu, “SLM: bridge the thin gap between speech and text foundation models,” in Automatic Speech Recognition and Understanding Workshop, ASRU 2023. IEEE, 2023, pp. 1–8.

[8] C. Tang, W. Yu, G. Sun, X. Chen, T. Tan, W. Li, L. Lu, Z. Ma, and C. Zhang, “SALMONN: towards generic hearing abilities for large language models,” CoRR, vol. abs/2310.13289, 2023. [9] Y. Chu, J. Xu, X. Zhou, Q. Yang, S. Zhang, Z. Yan, C. Zhou, and J. Zhou, “Qwen-audio: Advancing universal audio understanding via unified large-scale audio-language models,” CoRR, vol. abs/2311.07919, 2023.

[10] J. Wang, Z. Du, Q. Chen, Y. Chu, Z. Gao, Z. Li, K. Hu, X. Zhou, J. Xu, Z. Ma, W. Wang, S. Zheng, C. Zhou, Z. Yan, and S. Zhang, “Lauragpt: Listen, attend, understand, and regenerate audio with GPT,” CoRR, vol. abs/2310.04673, 2023.

[11] Y. Shen, K. Song, X. Tan, D. Li, W. Lu, and Y. Zhuang, “Hugginggpt: Solving AI tasks with chatgpt and its friends in huggingface,” CoRR, vol. abs/2303.17580, 2023.

[12] T. Wang, L. Zhou, Z. Zhang, Y. Wu, S. Liu, Y. Gaur, Z. Chen, J. Li, and F. Wei, “Viola: Unified codec language models for speech recognition, synthesis, and translation,” CoRR, vol. abs/2305.16107, 2023.

[13] A. Holtzman, J. Buys, L. Du, M. Forbes, and Y. Choi, “The curious case of neural text degeneration,” in International Conference on Learning Representations, ICLR 2020. OpenReview.net, 2020.

[14] A. Fan, M. Lewis, and Y. N. Dauphin, “Hierarchical neural story generation,” in Annual Meeting of the Association for Computational Linguistics, ACL 2018, I. Gurevych and Y. Miyao, Eds. Association for Computational Linguistics, 2018, pp. 889–898.

[15] C. H. Yang, Y. Gu, Y. Liu, S. Ghosh, I. Bulyko, and A. Stolcke, “Generative speech recognition error correction with large language models and task-activating prompting,” in Automatic Speech Recognition and Understanding Workshop, ASRU 2023. IEEE, 2023, pp. 1–8.

[16] C. Chen, Y. Hu, C. H. Yang, S. M. Siniscalchi, P. Chen, and C. E. Siong, “Hyporadise: An open baseline for generative speech recognition with large language models,” in Annual Conference on Neural Information Processing Systems, NeurIPS 2023, A. Oh, T. Naumann, A. Globerson, K. Saenko, M. Hardt, and S. Levine, Eds., 2023.

[17] Y. Hu, C. Chen, C.-H. H. Yang, R. Li, C. Zhang, P.-Y. Chen, and E. S. Chng, “Large language models are efficient learners of noise-robust speech recognition,” in International Conference on Learning Representations, ICLR 2024. OpenReview.net, 2024.

[18] A. Graves, S. Fern ́ andez, F. J. Gomez, and J. Schmidhuber, “Connectionist temporal classification: labelling unsegmented sequence data with recurrent neural networks,” in International Conference on Machine Learning, ICML 2006, ser. ACM International Conference Proceeding Series, W. W. Cohen and A. W. Moore, Eds., vol. 148. ACM, 2006, pp. 369–376.

[19] B. Zhang, H. Lv, P. Guo, Q. Shao, C. Yang, L. Xie, X. Xu, H. Bu, X. Chen, C. Zeng, D. Wu, and Z. Peng, “WENETSPEECH: A 10000+ hours multi-domain mandarin corpus for speech recognition,” in International Conference on Acoustics, Speech and Signal Processing, ICASSP 2022. IEEE, 2022, pp. 6182–6186.

[20] H. Bu, J. Du, X. Na, B. Wu, and H. Zheng, “AISHELL-1: an open-source Mandarin speech corpus and a speech recognition baseline,” in Conference of the Oriental Chapter of the International Coordinating Committee on Speech Databases and Speech I/O Systems and Assessment, O-COCOSDA 2017. IEEE, 2017, pp. 1–5.

欢迎关注ASLP实验室微信公众号，获取更多语音研究相关资讯！

“打造最开放、最前沿、最落地的人工智能实验室”

http://mp.weixin.qq.com/s?__biz=MzA3NTQzNzM1Ng==&mid=2648428772&idx=1&sn=f1884ac206c5dcc982d0db1855d0084e

音频语音与语言处理研究组

发布关于音频语音与语言处理研究组的最新研究成果、技术分享、新闻动态和活动等。

最新文章

IEEE SPL | StreamVoice+：端到端流式零样本语音转换

西工大ASLP实验室第五届年度聚会在西安成功举办！

这个国庆假期圈儿里都发生了啥？听一段对话缓(Jia?)解(Ju?)你的焦虑。

IEEE SLT2024 ｜ DualSep：用于实时车载语音分离的轻量级双编码器卷积递归网络

IEEE SLT2024 | StutteringSpeech：普通话口吃事件检测和自动语音识别挑战赛总结

IEEE SLT2024 | 源说话人追踪挑战赛（SSTC）NPU-TeleAI 联队冠军方案分享

科研快讯｜IEEE TASLP：音色和风格灵活组合的零样本音色克隆模型U-Style

IEEE SLT2024 | 低资源构音障碍语音唤醒挑战赛（LRDWWS）ASLP-小米联队冠军方案

INTERSPEECH2024 | SCDNet: 基于自监督学习表征的说话人转换检测

喜报！西工大-腾讯联队在CHiME-8 NOTSOFAR与MMCSG竞赛中取得佳绩

ACM MM | UniStyle: 联合说话风格描述和风格化语音生成的风格建模

INTERSPEECH2024 | 迈向无需复习低遗忘的语音识别模型微调：基于LoRA和Whisper的探究

INTERSPEECH 2024｜基于转录提示的高效音频大语言模型鲁棒语音识别

INTERSPEECH2024|文本和上下文感知的高表现力有声书合成

喜报！西工大ASLP实验室夺冠NCMMSC2024第二届视觉语音识别挑战赛

INTERSPEECH2024 | Vec-Tok-VC+: 双重训练策略下基于渐进式损失约束和残差增强的鲁棒零样本语音转换

INTERSPEECH2024 | 利用分层韵律建模实现富有表现力的零样本语音合成

IEEE SPL | Distil-DCCRN：利用特征知识蒸馏技术的小型DCCRN语音增强模型

INTERSPEECH2024 | AS-70: 用于语音识别和口吃事件检测的中文口吃语音数据集

INTERSPEECH2024 | RaD-Net 2：基于因果性蒸馏和复数轴向自注意力机制的两阶段音质修复模型

IEEE SPL | MMGER：利用大语言模型改进口音和语音识别的多模态多粒度生成式错误纠正方法

INTERSPEECH2024 | BS-PLCNet2: 利用模型内蒸馏的两阶段分频带丢包补偿网络

INTERSPEECH2024 | FreeV: 使用梅尔滤波器的伪逆矩阵，一行代码提升声码器性能

INTERSPEECH2024 | DualVC 3：利用LM生成伪上下文的端到端低延迟流式语音转换

Speech Com | Whisper-SV：将Whisper自适应于低数据资源的说话人验证

Interspeech2024｜基于离散语音单元的流式解码器语音识别

挑战赛结果公布 | ISCSLP2024 对话语音克隆挑战赛（CoVoC）

INTERSPEECH2024 | WenetSpeech4TTS: 12800小时中文大规模语音生成模型训练数据集

INTERSPEECH2024 | Single-Codec: 面向高性能语音合成的单码本语音编解码器

Demo | 基于大模型的超拟人TTS

2024年ASLP实验室“人工智能落地计划”暑期实习开启报名啦！

NPU-ASLP实验室14篇论文被Interspeech2024 录用

ACL2024 | StreamVoice：基于流式上下文感知语言建模的实时零样本语音转换

ISCSLP2024 对话语音克隆挑战赛（CoVoC）

IEEE TASLP | 基于奇异值分解辅助矩阵的说话人匿名

IEEE TASLP | 基于多层级时序-通道说话人检索的零样本语音转换

GPT-4o, 语音的 ChatGPT 时刻终于来了！

ICME2024｜利用多编码器和多系统融合提高唇语识别性能

ICME2024｜利用自监督模型层级表征进行多语种语音识别

基于LLM的语音识别——在1.1万小时开源中文数据上的探索

ICME2024 | 基于半监督对比学习的表现力语音合成

IEEE TASLP | 基于文本-语音跨模态表征的对话语音识别

IEEE TASLP | METTS：基于跨说话人跨语种情感迁移的多语种情感语音合成

ICASSP2024 | ICMC-ASR 车载多通道语音识别挑战赛总结

ICASSP2024 | 面向多种阵列拓扑的多通道语音识别模型：自动通道选择和空间特征融合

ICASSP2024 | MLCA-AVSR: 基于多层交叉注意力机制的视听语音识别

ICASSP2024 | SELM: 基于离散表征和语言模型的语音增强

ASLP实验室祝您新春快乐～～ 1+10+13+58+68 = 成果丰硕的一年！

ICASSP2024 | 基于音频质量的多策略目标说话人提取

ICASSP2024 | SponTTS: 面向自发风格的语音合成与风格迁移

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉