IEEE TASLP | 基于文本-语音跨模态表征的对话语音识别

文摘   科技   2024-04-29 01:24   陕西  
随着语音技术的不断发展,在诸如会议转录和语音助手等各种应用中,大家对对话语音接口的需求出现了迅速增长。我们需要在现有语音系统的基础上,进一步拓展其对对话语音的识别能力。对话语音有其独有的特征,如角色偏好(role preferences)和局部连贯性(topical coherence)等。具体来说,上述特征是指对话时,不同说话人对某些词和短语出现概率的影响,以及话题和话语结构对相邻句子中语义相关词共现的影响[1,2]。先前的研究表明,在待识别的语音中加入上文内容可以显著提高对话语音识别的性能[3]。

最近,西工大音频语音与语言处理研究组(ASLP@NPU)与马上金融合作的论文 “Conversational Speech Recognition by Learning Audio-Textual Cross-Modal Contextual Representation” 在语音研究领域顶级期刊IEEE/ACM Transactions on Audio, Speech and Language Processing (TASLP)上发表,该论文针对上述问题开展了深入研究。具体来说,为了更好的识别对话语音,在之前[4,5]工作的基础上,我们引入文本-语音跨模态对话表征来增强对话ASR系统对上文的利用能力。利用跨模态提取器,将预训练的语音和文本模型结合起来,同时使用CVAE模型来隐式地传递上文信息,避免显式误差传递。现对该论文进行简要的解读和分享。


论文题目:Conversational Speech Recognition by Learning Audio-Textual Cross-Modal Contextual Representation

作者列表:魏坤,李北,吕航, 陆全,蒋宁,谢磊

发表期刊:IEEE/ACM Transactions on Audio, Speech and Language Processing

合作单位:马上金融

论文原文:https://ieeexplore.ieee.org/document/10502286

预印版:https://arxiv.org/abs/2310.14278

发表论文截图

扫码直接看论文

背景动机

语音识别(ASR)通常以句为单位进行模型训练。然而在对话这种长音频中,利用对话的特征和更长的上文内容有助于对当前句语音的识别[1,2,3]。近期对对话语音上文的利用仍存在着一些局限性,如训练与解码时内容的不匹配,上文信息的误差传递,冗余信息过多等问题。本文结合了Conditional Variational Autoencoder (CVAE) 方法[5]和跨模态表征[4]方法,采用跨模态特征在较长的上文中提取对话级表征,隐式利用上文信息,从而避免了过长的文本信息带来的错误传播问题。跨模态提取器和CVAE方法技术细节可以参考下面的推文。

论文推介:基于对话特征建模的对话语音识别

论文推介:对话语音识别中基于文本-语音跨模态方法学习长语音表征

本文通过结合局部跨模态表征和长上文对话表征,使用更长的、更准确的对话上文来提高语音识别性能。我们的方法显著提高了对话ASR的性能,在相关中文对话测试数据集上实现了最高23%的CER降低。本文贡献可以总结为以下三点:
  1. 提出了一个新的对话ASR方法,它集成了跨模式表征和CVAE模块,增强了模型利用对话中上下文信息的能力。

  2. 该方法显著降低了对话ASR的识别错误率,在HKUST和MagicData-RAMC数据集上分别实现了8.8%和23%的相对CER降低。

  3. 考察了不同预训练模型和上文输入长度对对话语音识别性能的影响,通过实验分析得到了最优的CVAE输入配置

提出的方案

本文对话ASR模型由一个Conformer编码器、一个跨模态提取器、一个对话表征提取器和一个conditional解码器组成。如图1所示,在训练时,语音预训练模型提取的特征将同时被输入到跨模态提取器和Conformer编码器中。然后将上下文跨模态表征输入到CVAE模块,生成两种对话表征,即局部连贯性表征和角色偏好表征。通过条件解码器,将这两种对话表征集成到语音识别解码过程中,最终帮助语音识别模型获得对话上下文信息。

图1 基于跨模态表征的对话语音识别框架

模型输入:当识别当前语音时,我们使用当前说话人的历史语音X和文本Y作为角色(role)输入,使用当前对话的历史语音/文本作为主题(topical)输入,同时使用当前语音和上一条语音的拼接作为提取跨模态表征的context输入。

Conformer编码器:在我们的框架中,Conformer编码器接受语音预训练模型生成的特征,并输出当前待识别语音的中间表征。作为目前最先进的端到端语音识别结构之一,Conformer编码器由一系列Conformer模块组成,每个模块包含一个卷积模块、一个多头自注意模块和两个前馈模块。自注意力模块从输入语音中捕获全局上下文信息,而卷积层则专注于提取局部的语音相关信息。
图2 跨模态提取器
跨模态提取器:我们使用跨模态提取器从语音中直接提取语义信息。在对话语音识别过程中,跨模态提取器仅使用语音特征  和  我们使用预先训练的语音模型从语音输入中提取重要信息,同时过滤掉冗余信息。同时,我们还可以利用语言信息帮助语音识别模型获得更准确的语音特征上下文表示。如图2所示,通过掩蔽的文本Loss, 语音Loss和额外的CTC Loss,实现从语音中提取跨模态表征的任务。
 
基于CVAE的对话语音识别:在利用对话上文信息时,我们使用跨模态表征  和  提取更长的对话表征  仅使用由历史语音生成的跨模态表征可避免显式错误传播,并在语音识别过程中引入了更多有用的上下文。CVAE模块包括一个目标文本编码器和两个LVM模块(Latent Variational module, LVM),每个LVM模块由Prenet和Postnet组成。
条件解码器: 我们探索了在解码器中添加额外的注意层(conditional)和直接拼接输出向量(linear)两种将对话表征集成到ASR模型中的策略。以下是注意力条件解码,这里  是解码器的输入,  是编码器的输出:
  
 
  
拼接条件解码则直接在解码器的输出层进行拼接,其中  是解码器的输出:
  
训练目标: 我们首先训练一个基于单句语音输入的句级语音识别模型,在这个模型的基础上训练对话语音识别模型,我们使用的最终训练目标如下:
  
在训练时,跨模态提取器的参数将会被冻结。

实验验证

实验数据:本文在两个中文对话数据集MagicData-RAMC[6]和HKUST[7]上评估了提出的方法,两个数据集各包含180小时和200小时的语音训练数据,我们的实验采用了MagicData的测试集和HKUST的dev集上的CER指标来评价当前系统的对话语音识别能力。

实验结果:表1展示了我们的方法的实验结果,模型16集成了跨模态和CVAE对话表征,得到了最低的CER,相比作为基线的句级Conformer模型实现了8.8%以上的相对CER降低。实验结果表明,使用长上下文对话特征、跨模态表征和对话表征增强的语音识别框架有着良好的对话语音识别能力。使用对话表征来增强跨模态特征的模型解决了仅使用文本特征可能产生的误差传播问题,使系统能够更好地利用对话中的上下文。当CVAE的学习目标是文本时,可以取得最好的实验结果。

表1 不同对话语音识别模型的识别结果(CER%)

不同跨模态提取器的对比:我们基于三种不同的预训练模型训练跨模态提取器,并比较它们最终的识别错误率。此外,我们将该方法的结果与预训练模型SpeechLM[8]进行了比较,后者也将文本信息纳入了预训练模型,通过文本和语音的跨模态训练提升了对语音输入的表征能力。在ASR任务中,三种预训练模型的表现与其他研究的结果一致:HuBERT模型优于wav2vec2.0, data2vec模型优于HuBERT模型。

表2  基于不同语音预训练模型的跨模态提取器在对话语音识别上的表现(CER%)

上文长度对识别结果的影响:本文的假设是利用跨模态对话表征可以在不牺牲模型性能的情况下更有效地利用对话上文信息。为了验证这一假设,我们分析了随着对话上文输入句子数量的增长CER的变化情况。如图3所示,仅包含跨模态表征的模型最初表现出CER的下降,但上文增加到5句以上时,该模型出现了性能恶化,而本文提出的模型则没有这个问题,上述现象证明了我们的跨模态对话表征对长上文有着更强的利用能力。

图3 上文长度对识别结果的影响

总结

本文提出了一种新的对话ASR框架,该框架使用CVAE模块和跨模态表征学习,可以有效地提升该框架对对话语音的识别能力。在对话语音识别中结合局部信息和长上下文信息,避免了显式的误差传播等问题。通过解决现有ASR系统在利用对话上下文方面的局限性,我们的工作为未来开发更高效、准确和上下文感知的ASR框架提供了一个值得参考的研究方向。

参考文献

[1] Y. Liang, F. Meng, Y. Chen, J. Xu, and J. Zhou, “Modeling bilingual conversational characteristics for neural chat translation,” in Proc. Assoc. Comput. Linguistics, 2021, pp. 5711–5724.

[2] W. Xiong et al., “Toward human parity in conversational speech recognition,” IEEE/ACM Trans. Audio, Speech Lang. Process., vol. 25, no. 12, pp. 2410–2423, Dec. 2017.

[3] S. Kim, S. Dalmia, and F. Metze, “Cross-attention end-to-end ASR for two-party conversations,” in Proc. Interspeech, 2019, pp. 4380–4384.

[4] K. Wei, Y. Zhang, S. Sun, L. Xie, and L. Ma, “Conversational speech recognition by learning conversation-level characteristics,” in Proc. IEEE Int. Conf. Acoust., Speech, Signal Process., 2022, pp. 6752–6756.

[5] K. Wei, Y. Zhang, S. Sun, L. Xie, and L. Ma, “Leveraging acoustic contextual representation by audio-textual cross-modal learning for conversational ASR,” in Proc. IEEE Int. Symp. Circuits Syst. Interspeech, 2022, pp. 1016–1020.

[6] Z. Yang et al., “Open source magicData-RAMC: A rich annotated mandarin conversational (RAMC) speech dataset,” in Proc. Interspeech, 2022, pp. 1736–1740.

[7] Y. Liu, P. Fung, Y. Yang, C. Cieri, S. Huang, and D. Graff, “HKUST/MTS: A very large scale mandarin telephone speech corpus,” in Proc. 5th Int. Symp. Chin. Spoken Lang. Process., 2006, pp. 724–735.

[8] Zhang, Z., Chen, S., Zhou, L., Wu, Y., Ren, S., Liu, S., Yao, Z., Gong, X., Dai, L., Li, J. and Wei, F, “SpeechLM: Enhanced speech pre-training with unpaired textual data,” IEEE/ACM Trans. Audio, Speech, Lang. Process., vol. 32,  2024,pp. 2177–2187.



欢迎关注ASLP实验室微信公众号,获取更多语音研究相关资讯!

“打造最开放、最前沿、最落地的人工智能实验室”


音频语音与语言处理研究组
发布关于音频语音与语言处理研究组的最新研究成果、技术分享、新闻动态和活动等。
 最新文章