随着语音技术的不断发展,在诸如会议转录和语音助手等各种应用中,大家对对话语音接口的需求出现了迅速增长。我们需要在现有语音系统的基础上,进一步拓展其对对话语音的识别能力。对话语音有其独有的特征,如角色偏好(role preferences)和局部连贯性(topical coherence)等。具体来说,上述特征是指对话时,不同说话人对某些词和短语出现概率的影响,以及话题和话语结构对相邻句子中语义相关词共现的影响[1,2]。先前的研究表明,在待识别的语音中加入上文内容可以显著提高对话语音识别的性能[3]。 最近,西工大音频语音与语言处理研究组(ASLP@NPU)与马上金融合作的论文 “Conversational Speech Recognition by Learning Audio-Textual Cross-Modal Contextual Representation” 在语音研究领域顶级期刊IEEE/ACM Transactions on Audio, Speech and Language Processing (TASLP)上发表,该论文针对上述问题开展了深入研究。具体来说,为了更好的识别对话语音,在之前[4,5]工作的基础上,我们引入文本-语音跨模态对话表征来增强对话ASR系统对上文的利用能力。利用跨模态提取器,将预训练的语音和文本模型结合起来,同时使用CVAE模型来隐式地传递上文信息,避免显式误差传递。现对该论文进行简要的解读和分享。
论文题目:Conversational Speech Recognition by Learning Audio-Textual Cross-Modal Contextual Representation
作者列表:魏坤,李北,吕航, 陆全,蒋宁,谢磊
发表期刊:IEEE/ACM Transactions on Audio, Speech and Language Processing
合作单位:马上金融
论文原文:https://ieeexplore.ieee.org/document/10502286
发表论文截图
扫码直接看论文
背景动机
论文推介:对话语音识别中基于文本-语音跨模态方法学习长语音表征
提出了一个新的对话ASR方法,它集成了跨模式表征和CVAE模块,增强了模型利用对话中上下文信息的能力。
该方法显著降低了对话ASR的识别错误率,在HKUST和MagicData-RAMC数据集上分别实现了8.8%和23%的相对CER降低。
考察了不同预训练模型和上文输入长度对对话语音识别性能的影响,通过实验分析得到了最优的CVAE输入配置。
提出的方案
图1 基于跨模态表征的对话语音识别框架
模型输入:当识别当前语音时,我们使用当前说话人的历史语音X和文本Y作为角色(role)输入,使用当前对话的历史语音/文本作为主题(topical)输入,同时使用当前语音和上一条语音的拼接作为提取跨模态表征的context输入。
实验验证
实验数据:本文在两个中文对话数据集MagicData-RAMC[6]和HKUST[7]上评估了提出的方法,两个数据集各包含180小时和200小时的语音训练数据,我们的实验采用了MagicData的测试集和HKUST的dev集上的CER指标来评价当前系统的对话语音识别能力。
表1 不同对话语音识别模型的识别结果(CER%)
不同跨模态提取器的对比:我们基于三种不同的预训练模型训练跨模态提取器,并比较它们最终的识别错误率。此外,我们将该方法的结果与预训练模型SpeechLM[8]进行了比较,后者也将文本信息纳入了预训练模型,通过文本和语音的跨模态训练提升了对语音输入的表征能力。在ASR任务中,三种预训练模型的表现与其他研究的结果一致:HuBERT模型优于wav2vec2.0, data2vec模型优于HuBERT模型。
上文长度对识别结果的影响:本文的假设是利用跨模态对话表征可以在不牺牲模型性能的情况下更有效地利用对话上文信息。为了验证这一假设,我们分析了随着对话上文输入句子数量的增长CER的变化情况。如图3所示,仅包含跨模态表征的模型最初表现出CER的下降,但上文增加到5句以上时,该模型出现了性能恶化,而本文提出的模型则没有这个问题,上述现象证明了我们的跨模态对话表征对长上文有着更强的利用能力。
图3 上文长度对识别结果的影响
总结
本文提出了一种新的对话ASR框架,该框架使用CVAE模块和跨模态表征学习,可以有效地提升该框架对对话语音的识别能力。在对话语音识别中结合局部信息和长上下文信息,避免了显式的误差传播等问题。通过解决现有ASR系统在利用对话上下文方面的局限性,我们的工作为未来开发更高效、准确和上下文感知的ASR框架提供了一个值得参考的研究方向。
参考文献
[1] Y. Liang, F. Meng, Y. Chen, J. Xu, and J. Zhou, “Modeling bilingual conversational characteristics for neural chat translation,” in Proc. Assoc. Comput. Linguistics, 2021, pp. 5711–5724.
[2] W. Xiong et al., “Toward human parity in conversational speech recognition,” IEEE/ACM Trans. Audio, Speech Lang. Process., vol. 25, no. 12, pp. 2410–2423, Dec. 2017.
[3] S. Kim, S. Dalmia, and F. Metze, “Cross-attention end-to-end ASR for two-party conversations,” in Proc. Interspeech, 2019, pp. 4380–4384.
[4] K. Wei, Y. Zhang, S. Sun, L. Xie, and L. Ma, “Conversational speech recognition by learning conversation-level characteristics,” in Proc. IEEE Int. Conf. Acoust., Speech, Signal Process., 2022, pp. 6752–6756.
[5] K. Wei, Y. Zhang, S. Sun, L. Xie, and L. Ma, “Leveraging acoustic contextual representation by audio-textual cross-modal learning for conversational ASR,” in Proc. IEEE Int. Symp. Circuits Syst. Interspeech, 2022, pp. 1016–1020.
[6] Z. Yang et al., “Open source magicData-RAMC: A rich annotated mandarin conversational (RAMC) speech dataset,” in Proc. Interspeech, 2022, pp. 1736–1740.
[7] Y. Liu, P. Fung, Y. Yang, C. Cieri, S. Huang, and D. Graff, “HKUST/MTS: A very large scale mandarin telephone speech corpus,” in Proc. 5th Int. Symp. Chin. Spoken Lang. Process., 2006, pp. 724–735.
[8] Zhang, Z., Chen, S., Zhou, L., Wu, Y., Ren, S., Liu, S., Yao, Z., Gong, X., Dai, L., Li, J. and Wei, F, “SpeechLM: Enhanced speech pre-training with unpaired textual data,” IEEE/ACM Trans. Audio, Speech, Lang. Process., vol. 32, 2024,pp. 2177–2187.
欢迎关注ASLP实验室微信公众号,获取更多语音研究相关资讯!
“打造最开放、最前沿、最落地的人工智能实验室”