IEEE SLT2024 | 低资源构音障碍语音唤醒挑战赛(LRDWWS)ASLP-小米联队冠军方案

文摘   科技   2024-09-18 09:28   陕西  
语音技术的重大进步彻底改变了人机交互的方式。用户通过简单的语音交互发出命令、控制应用程序和管理设备,促进了免提操作,提高了用户体验。关键词检出(Keyword Spotting,KWS )即唤醒词检出(wake-wp word spotting,WWS)作为语音交互的第一步,具有重要意义。在该技术的发展中,机器学习和深度学习算法的应用显著提高了识别的准确率和效率,并且能够在嘈杂的环境中、不同的口音下准确识别出唤醒词以提供更加自然和流畅的用户体验。然而,对于构音障碍(Dysarthria)患者来说,其语音固有的多变性为唤醒词检出带来了巨大挑战。


近期,西工大音频语音与语言处理研究组(ASLP@NPU)和小米的合作论文"OPTIMIZING DYSARTHRIA WAKE-UP WORD SPOTTING: AN END-TO-END APPROACH FOR SLT 2024 LRDWWS CHALLENGE"被语音旗舰会议IEEE SLT 2024接收。该论文针对 SLT 2024 低资源构音障碍唤醒挑战赛(LRDWWS)提出了一种基于预训练的端到端双筛选构音障碍唤醒(PD-DWS)方案,从音频建模和双筛选策略两个关键角度提高了性能。实验表明,该系统在LRDWWS竞赛发布的测试集test-B上实现了 0.00321 的 FAR 和 0.005 的 FRR,总得分为 0.00821,该项赛事中获得了冠军。现对该方案进行简要解读。

论文题目:Optimizing Dysarthria Wake-Up Word Spotting: An End-to-End Approach for SLT 2024 LRDWWS Challenge

合作单位:小米

作者列表:刘水云,孔玉祥,郭鹏程,庄伟基,高鹏,王育军,谢磊

论文预印版:https://arxiv.org/abs/2409.10076

发表论文截图

扫码直接看论文

背景动机

关键词检出(Keyword Spotting,KWS)[1] 是一种在连续的语音流中检出特定词汇的技术,是语音交互的第一步。在唤醒词检出技术的发展中,机器学习和深度学习算法的应用显著提高了识别的准确率和效率,并且能够在嘈杂的环境中、不同的口音下准确识别出唤醒词以提供更加自然和流畅的用户体验。然而,当前包括唤醒词检出技术在内的语音技术无法适配构音障碍(Dysarthria)患者的语音。

构音障碍是一种运动性语言障碍,通常由神经系统疾病引起,会损害语言肌肉的控制,常见于帕金森病、脑瘫和肌萎缩性脊髓侧索硬化症(ALS)等疾病。构音障碍患者通常表现为发音不准确、语速不流畅、说话节奏紊乱与音量和清晰度下降 [2]。虽然市面上常见的智能设备采用了成熟的语音识别技术,但他们针对的受众大多为标准、可理解的语音。这可能导致对非标准或不清楚的语音缺乏鲁棒性,识别性能会显著下降。通过识别构音障碍语音,可以显著提升患有这种障碍人群的沟通和互动能力,从而提高他们的整体生活质量。因此构音障碍语音识别(DSR)以及构音障碍语音唤醒皆引起了广泛关注,吸引了世界各地研究人员的兴趣。

竞赛官网:https://www.lrdwws.org/

为促进构音障碍语音的发展,IEEE口语语言技术国际会议( SLT 2024) 发起了低资源唤醒词识别(LRDWWS)挑战赛 [3],组织者为中国科学技术大学、希尔贝壳(AISHELL)、昆山杜克大学、佐治亚理工学院和语音之家(SpeechHome)。这项挑战赛旨在利用特定人员的少量唤醒词音频来解决依赖于说话人的唤醒识别任务。这项研究不仅有可能提高患有构音障碍的人的生活质量,而且还有助于智能设备更好地满足不同用户需求,使其成为一项真正的通用技术。该挑战赛还发布了首个普通话构音障碍唤醒词语音数据集,希望利用该数据集为构音障碍患者定制最佳的唤醒词识别系统。

针对此次比赛,ASLP-小米联队专注于构造一个基于预训练双筛选模块的端到端构音障碍唤醒词系统,即Pretrain based Dual-filter Dysarthria Wake-up word Spotting (PD-DWS)。该系统包括两个关键方面:音频建模和二次筛选策略(阈值筛选模块和ASR筛选模块)。在音频建模模块中,引入了一个新颖的2branch-d2v2模型,在多任务框架内对预先训练好的 data2vec2(d2v2)[4] 模型进行微调,从而同时进行ASR和WWS的建模。提出的二次筛选策略用来处理模型输出。具体来说,WWS 分支的输出被送入阈值过滤器,而 ASR 分支的输出则被送入 ASR 筛选模块作进一步细化。阈值筛选模块对关键词的后验概率进行初步过滤,初步确定音频的预测标签。然后,ASR 筛选模块使用模型的 ASR 输出以及微调 Paraformer [5] 获得的 ASR 结果进行二次过滤。此外,我们还利用 TTS 合成发音障碍语音对 Paraformer 模型进行了微调,从而使模型能够更好地适应发音障碍环境。

提出的方案

如图1所示,我们提出的PD-DWS系统主要由三个模块组成:音频建模模块、阈值筛选模块和ASR筛选模块。

图1 PDDWS整体结构图

音频建模模块

在音频建模部分,我们探索了两种不同的编码器架构:Conformer [6] 编码器和新型 2branch-d2v2 编码器。Conformer 编码器在自注意机制[7]的基础上增加了一个卷积模块,允许同时利用全局和局部建模能力,并在不同的 ASR 任务中取得了更好的效果。

本节主要介绍 2branch-d2v2 方法的介绍和实施方案。如图 2 所示,2branch-d2v2 编码器使用预训练的 d2v2 模型进行初始化,然后在多任务学习框架内对这一预先训练好的模型进行微调,以针对我们的特定应用优化其性能。

图2 2branch-d2v2 encoder 细节图

微调过程包括将 d2v2 模型的输出导向两个不同的分支。一个分支专门用于 ASR,另一个专门用于 WWS。每个分支都根据其任务使用不同的损失函数进行训练。WWS 分支使用官方的最大池化损失函数 [8],即 LWWS。另一方面,ASR 分支使用 Connectionist Temporal Classification (CTC) loss [9](即LCTC)来提高语音识别的准确性。2branch-d2v2 编码器的最终训练损失是这两个损失函数的组合。这种综合损失可确保模型在唤醒词识别和语音识别任务中得到一致优化,并利用 ASR 辅助 WWS 建模。最终训练损失的计算公式为:

我们遵循官方的训练数据流程。第一步,我们使用control(非构音障碍)数据集从头开始训练与说话人无关的控制(SIC)KWS 模型。第二步,我们使用uncontrol(构音障碍)数据集对 SIC 模型进行微调,以获得与说话人无关的发音障碍(SID)KWS 模型。但在第三步中,我们使用所有注册集对 SID 模型进行微调,而不是针对每个人使用单独的注册。

阈值筛选模块

阈值选择模块接受音频模块WWS分支输出的每个音频在十个分类标签的概率,选择每个音频在十个类别分数最大的类别和概率作为当前音频的预测标签以及预测分数,根据阈值判定当前指令词是否保留预测标签还是更新为filler标签。为了确定最佳阈值,我们使用 test-A 评估集进行了大量实验。这些实验表明,将阈值设为排序中的第 60 位的值,可获得最佳性能。

ASR筛选模块

ASR 筛选模块的设计目的是利用 ASR 输出来修正前一步的 WWS 结果。该模块采用两种不同的 ASR 结果进行比较。第一组 ASR 结果是通过我们模型中的 ASR 分支的波束搜索解码获得的。第二组来自开源 Paraformer 生成的 ASR 结果,该模型已使用竞赛数据和 TTS 合成语音进行了微调。修正 WWS 结果的过程首先是将检测到的唤醒词长度与 ASR 结果的长度进行比较。如果唤醒词的长度与任何 ASR 结果的长度相匹配,则保留该唤醒词结果。反之,如果长度不匹配,则唤醒词结果将被丢弃,并标记为填充词。算法 1 概述了这种方法的具体方案。

TTS 生成器

在 Paraformer 的微调阶段,我们使用 TTS 数据进行数据扩充。首先利用control数据集和uncontrol数据集来训练端到端 VITS [10] 模型。具体来说,我们使用control和uncontrol标签来区分各种语音风格,并将这些标签作为风格嵌入到 VITS 模型的文本编码器和流程中。在推理过程中使用uncontrol标签会产生带有构音障碍的音频。图 3显示了推理过程的细节。

图3 基于VITS的TTS数据增广

实验

实验数据

实验使用LRDWWS测试集评估,LRDWWS 数据集包括 18630 条录音,共计 17 个小时。其中包括来自非构音障碍说话者(对照组)的 10125 份录音,共计 7.6 个小时;来自构音障碍说话人(构音障碍)的 8505 份录音,共计 9.4 个小时。

评估标准

我们使用与官方挑战赛相同的指标,根据 FRR 和 FAR 的组合 [11],对所有系统进行评估。

实验结果

表 1 列出了官方基线和各竞赛系统的得分结果。每个竞赛系统的得分结果。我们的系统在test-B上取得了 0.003210 的 FAR、0.005000 的 FRR 和 0.008210 的Score。请注意,这些结果是在将test-A纳入训练过程后获得的。我们可以观察到,我们的 PDDWS 系统明显优于官方基线,Score相对提高了 93.69%,在挑战赛中获得第一名的优异成绩。

表1 各竞赛系统在测test- B上的得分

为了验证我们提出的 2branch-d2v2 模块的有效性,我们在 test-A-eval 集上进行了消融实验。在表 2 的第一行,我们没有使用 CTC loss 进行正则化,即 1branch-d2v2。很明显,不使用 CTC loss 会降低效果,由此证明了使用ASR 建模来辅助 KWS 建模是有效的。

表2 2-branch module 在test- A上的消融实验

参考文献

[1] Yixin Gao, Yuriy Mishchenko, AnishShah, Spyros Matsoukas, and Shiv Vitaladevuni, “Towards data-efficient modeling for wake word spotting,” in Proc. ICASSP. 2020, pp. 7479–7483, IEEE.

[2] Dianna Yee, Colin Lea, Jaya Narain, Zifang Huang, Lauren Tooley, Jeffrey P. Bigham, and Leah Findlater, “Latent phrase matching for dysarthric speech,” in Proc. Interspeech. 2023, pp. 161–165, ISCA.

[3] Ming Gao, Hang Chen, Jun Du, Xin Xu, Hongxiao Guo, Hui Bu, Jianxing Yang, Ming Li, and Chin-Hui Lee, “Enhancing voice wake-up for dysarthria: Mandarin dysarthria speech corpus release and customized system design,” arXiv preprint arXiv:2406.10304, 2024.

[4] Myle Ott, Sergey Edunov, Alexei Baevski, Angela Fan, Sam Gross, Nathan Ng, David Grangier, and Michael Auli, “fairseq: A fast, extensible toolkit for sequence modeling,” in Proc. ACL. 2019, pp. 48–53, ACL.

[5] Zhifu Gao, Shiliang Zhang, Ian McLoughlin, and Zhijie Yan, “Paraformer: Fast and accurate parallel trans- former for non-autoregressive end-to-end speech recognition,” in Proc. Interspeech. 2022, pp. 2063–2067, ISCA.

[6] Anmol Gulati, James Qin, Chung-Cheng Chiu, Niki Parmar, Yu Zhang, Jiahui Yu, Wei Han, Shibo Wang, Zhengdong Zhang, Yonghui Wu, et al., “Conformer: Convolution-augmented transformer for speech recognition,” arXiv preprint arXiv:2005.08100, 2020.

[7] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, and Illia Polosukhin, “Attention is all you need,” in Proc. NIPS, 2017, pp. 5998–6008.

[8] Jingyong Hou, Yangyang Shi, Mari Ostendorf, Mei-Yuh Hwang, and Lei Xie, “Mining effective negative training samples for keyword spotting,” in Proc. ICASSP. 2020, pp. 7444–7448, IEEE.

[9] Alex Graves, Santiago Ferna ́ndez, Faustino J. Gomez, and Ju ̈rgen Schmidhuber, “Connectionist temporal classification: labelling unsegmented sequence data with recurrent neural networks,” in Proc. ICML, William W. Cohen and Andrew W. Moore, Eds. 2006, vol. 148, pp. 369–376, ACM.

[10]Jaehyeon Kim, Jungil Kong, and Juhee Son, “Condi- tional variational autoencoder with adversarial learning for end-to-end text-to-speech,” in Proc. ICML. 2021, Proceedings of Machine Learning Research, pp. 5530– 5540, PMLR.

[11] Haoxu Wang, Ming Cheng, Qiang Fu, and Ming Li, “The DKU post-challenge audio-visual wake word spotting system for the 2021 MISP challenge: Deep analy- sis,” in Proc. ICASSP. 2023, pp. 1–5, IEEE. 




欢迎关注ASLP实验室微信公众号,获取更多语音研究相关资讯!

“打造最开放、最前沿、最落地的人工智能实验室”


音频语音与语言处理研究组
发布关于音频语音与语言处理研究组的最新研究成果、技术分享、新闻动态和活动等。
 最新文章