IEEE SLT2024 | StutteringSpeech:普通话口吃事件检测和自动语音识别挑战赛总结

文摘   科技   2024-09-27 09:30   陕西  
为推动口吃患者友好的语音技术,StammerTalk联合西北工业大学音频语音与语言处理研究组 (ASLP@NPU) 、希尔贝壳、南开大学、中国科学技术大学、武汉大学及 WeNet 开源社区等多家单位,在 SLT2024 上推出了普通话口吃事件检测和自动语音识别挑战赛(StutteringSpeech),并发布首个中文口吃语音识别数据集。本次挑战赛设有口吃事件检测(SED)和口吃语音识别(ASR)两个赛道,分别以 F1 分数和字符错误率(CER)作为评价指标。


此次挑战赛共吸引了来自国内外的 51 支队伍注册参赛,并在两个赛道上收到了 97 份有效提交结果。竞赛总结论文“Findings of the 2024 Mandarin Stuttering Event Detection and Automatic Speech Recognition Challenge”已被语音领域的顶级会议 SLT2024 接收。本文将分享竞赛总结,包括背景、数据集、赛道设置、比赛结果以及各参赛队伍采用的关键技术等。


赛事网址:https://stutteringspeech.org/

论文题目:Findings of the 2024 Mandarin Stuttering Event Detection and Automatic Speech Recognition Challenge
合作单位:StammerTalk,希尔贝壳,南开大学,中国科学技术大学,武汉大学,WeNet开源社区
作者列表:薛鸿飞,龚嵘,邵明辰,徐昕,王乐之,谢磊,卜辉,周家名,秦勇,杜俊,李明,张彬彬,宾佳
论文网址:https://arxiv.org/pdf/2409.05430
基线系统:https://github.com/hongfeixue/StutteringSpeechChallenge


发表论文截图

扫码直接看论文

背景动机

口吃是一种语言障碍,影响全球约 1% 的人口[1],其主要特征是语言中的重复、延长和阻塞等不流畅现象[2]。这些问题严重影响了患者的社交能力和心理健康,常常使口吃患者(PWS)感到压力、羞愧和自卑,导致他们回避交流并逐渐与社会隔离。早期干预对于治疗至关重要,尤其是在儿童中表现出显著效果。然而,像中国大陆这样的地区,由于认证言语治疗师短缺,患者往往难以获得及时的帮助。

随着语音用户界面在智能家居设备和聊天机器人(如 ChatGPT)中的广泛应用,包容性语音技术的需求变得更加迫切。然而,现有的自动语音识别(ASR)系统在处理口吃语音时面临巨大挑战,这主要源于缺乏相关语音数据的支持。上述问题表明,研发有效的口吃事件检测(SED)系统以及包容友好语音技术至关重要。

为了解决这些问题,我们组织了普通话口吃事件检测与自动语音识别(StutteringSpeech)挑战赛,这也是全球首个聚焦普通话口吃语音的竞赛。挑战赛旨在动员研究者开发高效的口吃语音检测和识别系统,推动语音技术中的包容性发展。

StutteringSpeech 挑战赛设立了三个赛道:

  1. Track I:口吃事件检测(SED):该赛道聚焦开发能够准确识别不同类型口吃事件的系统。及早发现对及时干预和治疗至关重要,因此本赛道的研究对于改善口吃患者的生活具有深远影响。

  2. Track II:口吃语音识别(ASR):本赛道旨在构建能有效识别和转录口吃语音的专用 ASR 系统。由于现有 ASR 系统在处理口吃语音时存在明显局限,本赛道鼓励开发更具包容性的识别技术。

  3. Track III:研究论文:该赛道接受与口吃语音相关的开放性研究论文提交。

本次挑战赛吸引了国内外 51 支队伍参赛,并在两个赛道上收到了 97 份有效提交结果。其中,T029 团队提出的 Conformer-BiLSTM 模型在 SED 赛道上取得了 66.93 的 F1 分数,相较于基线系统性能提升了 19.9%;T006 队伍通过完善的数据增强技术,在 ASR 赛道上实现了 12.20% 的字符错误率(CER),相比基线系统提升了 35.9%。

竞赛数据集AS-70已经发布,具体信息请访问:

INTERSPEECH2024 | AS-70: 用于语音识别和口吃事件检测的中文口吃语音数据集

数据

数据组成

我们使用了在 INTERSPEECH 2024 中开源的 AS-70 普通话口吃语音数据集[3]来支持本次挑战赛。该数据集总时长为 48.8 小时,包含 70 名母语为普通话的口吃者,其中男性 46 名,女性 24 名。标注文本包含了五种类型的口吃现象,具体如下:

  • []:词/短语重复。用于标注重复的完整的字、多字或词(如果只是单音重复,请用/r)。

  • /b: 阻塞。标注明显的长时间卡壳或短时间卡断(b指block)。

  • /p: 延长。标注拉长的音素(p指prolongation)。

  • /r:标注声音重复。比如单个辅音或元音,不足以构成一个字(r指repetition)。

  • /i: 插入词。由于口吃引起的填充字符,比如不自然的嗯、啊、呃(i指interjection)。如果是听感自然的插入语不用标。

标注以逐字记录的方式进行,口吃标签嵌入为标记。例如,“嗯/i/p,我[我我]的名/b字是小/r明。”。字符“嗯”是插入词并且延长。字符“我”重复两次。此外,字符“名”上有一个阻塞标注。字符“小”的一个音素被标记为声音重复。一个字符可能携带多个标签。

数据样例

  • [ ]:你好米雅辛苦你找[找]这个声音。

  • /b: 新世界百/b货望京店。

  • /p: 嗯/p然后我觉得其实也没有什么特色的。

  • /r:吉林卫视节/r目预告。

  • /i: 择回当地工作嘛,就这个意思,就是为了一呃/i因为那个就是更为稳当点儿嘛完了也不用。

数据划分

虽然 AS-70 数据集[3] 已经按照训练集、开发集和测试集进行了初步划分,但我们根据表 1 中详细列出的说话者分布和口吃严重程度重新进行了划分。这种重新划分是必要的,因为原始划分中训练集和测试集之间存在命令文本的重叠,尽管这些命令来自不同的说话者,这可能导致测试阶段的命令识别结果过于乐观。表 2 显示了每种口吃事件类型对应的语句数量以及数据集中语句的总数量。对于 ASR 任务,表 3 列出了训练集、开发集和测试集中包含的语料数量。
表1 不同口吃严重程度的说话者数量分布

表2 SED 数据中关于五种口吃类型的语句数量统计。需要注意,每个语句可能包含多种口吃类型,也可能完全不包含口吃事件

表3 ASR 数据中每个分区的语句数量统计

赛道设置

Track I — 口吃事件检测 (Stuttering Event Detection, SED):这是一个多标签分类任务,要求参赛者开发模型来识别短语音片段中的口吃事件。音频片段中可能包含五种口吃类型:声音延长、声音重复、字符重复、阻塞和插入。比赛初期,参赛者被提供了带有标注的音频训练集和开发集。系统的表现将根据测试集中口吃事件的检测准确度、召回率、精确度和 F1 分数进行评估,F1 分数是评估模型整体性能的关键指标。

SED 赛道的基线系统采用了多个 Conformer 模块[4],如图 1 所示。每个模块包含多头自注意机制、卷积模块和两个前馈模块,具有 4 个注意头,输出维度为 256。卷积模块的内核大小为 15,以便捕捉更广泛的时间特征。由于训练数据有限,系统采用了 3 个 Conformer 模块,总参数量为 970 万。模型首先从语音中提取 80 维滤波器库(fbank)特征,然后输入 Conformer 编码器,最后通过线性层进行分类。模型使用单任务学习方式预测五种口吃事件类型,并采用多标签软边距损失进行训练,优化函数为 PyTorch 中的 MultiLabelSoftMarginLoss。

图1 Track I的基线模型结构。Target 0,1,0,0,1 表示是否存在五个口吃事件

Track II — 自动语音识别 (Automatic Speech Recognition, ASR):这一赛道的目标是开发能有效处理口吃语音的 ASR 系统。参赛者需设计出可以准确转录包含口吃事件语音的语音识别系统,并将口吃标签去除,生成纯文本。为参赛者提供了包含口吃语音和相应文本转录的训练集与开发集。ASR 系统的性能通过字符错误率 (CER) 来评估。

ASR 赛道的基线系统为 U2++ 模型[5],如图 2 所示,该模型基于一个双向注意力解码器的统一双通道框架。通过从右到左的注意力解码器,系统能够纳入未来上下文信息,增强共享编码器的表征能力并提升重评分阶段的性能。基线模型由 12 个 Conformer 编码器层组成,每个层有 4 个注意力头,输出维度为 256,卷积模块的内核大小为 8。该模型还包括 6 层解码器,其中 3 层从左到右,3 层从右到左。

图2 Track II 的基线 U2++ 模型结构

竞赛结果及讨论

Track I 的排行榜结果如表 4 所示。T029 团队在五种口吃事件中取得了最高的平均 F1 分数,并在四个单独事件中表现突出。他们的成功归功于其Conformer-BILSTM 模型,该模型在提取局部口吃声学特征的同时,能够有效捕捉上下文信息。此外,T029 采用了五个独立的分类头,分别检测每种口吃事件,从而简化了检测过程并提高了准确性。T018 团队获得了第二高的平均 F1 分数,与基线相比提升了 20.7%。他们在词/短语重复([])事件中表现尤为优异,远超其他模型。T018 使用了 Zipformer 结构[6] 和数据增强技术,特别是 Zipformer 模型以其强大的上下文信息捕捉能力,在检测语音中重复部分时表现出色。T031 团队获得了第三名,他们的 FGCL 模型相比基线系统提升了 5.5% 的 F1 平均得分。值得一提的是,T031 没有使用任何数据增强技术,而是专注于模型结构的改进,这为口吃事件检测(SED)的发展做出了重大贡献。如果将他们的模型与数据增强技术相结合,性能有望进一步提高。

我们的官方系统Offical虽然没有参与排名,但相比原始基线,平均 F1 分数提升了 13.5%。该系统仅使用了速度扰动[7] 和数据平衡技术,显示出显著改进。特别是速度扰动在 SED 中表现尤为有效,因为口吃现象与语速密切相关,改变语速会生成多样化的口吃数据,从而提高模型的泛化能力。

总的来说,数据增强技术在提高模型性能方面发挥了关键作用。不同的数据增强方法对提高 SED 准确性有显著帮助。例如,声音延长(/p)和声音重复(/r)事件与语音的持续时间密切相关,因此速度扰动技术能够增加这些事件的多样性并提高检测准确性。而阻塞(/b)和插话(/i)事件则可以通过插入无声片段或非自然的插话来增强,生成更多样化的训练数据。值得注意的是,T029 团队的 Conformer-BILSTM 模型,通过使用五个分类头,达到了最高的平均 F1 分数。而 T018 的 Zipformer 模型凭借其强大的上下文捕捉能力,在词/短语重复检测上表现出色。T031 的 FGCL 模型虽然没有使用数据增强,但依然在 F1 平均得分上超过了 Conformer 基线系统,展示了该模型的潜力。
表4 不同团队的SED 模型的 F1 分数(%)

Track II 的排行榜结果如表 5 所示。T006 团队在所有测试集中均获得了第一名,其平均 CER比第二名团队低 27%,比基线模型低 35.87%。T006 团队的成功主要归功于其全面的数据增强技术,包括基于信号和基于对抗的增强方法。此外,他们在 ASR 任务中使用的 E-branchformer 架构[8] 也显著优于 Conformer 模型,进一步提升了系统性能。T018 团队获得第二名,与基线相比,其平均 CER 降低了 12.1%。他们的成功部分源于强大的数据扩增技术和 Zipformer 模型[6] 结构的应用,尽管其数据增强效果不及 T006 团队,但 Zipformer 结构在口吃 ASR 任务中的潜力值得进一步探索。T051 团队排名第三,与基线相比,平均 CER 降低了 9.6%,这表明 Branchformer 架构[9] 在处理口吃语音识别任务中具有较好的性能。

在所有的比赛结果中,CER 随着口吃严重程度的增加而升高。值得注意的是,没有任何团队的模型专门针对口吃的严重程度进行优化。未来的研究应更加注重开发能够有效应对不同程度口吃严重性的 ASR 系统。此外,从结果可以看出,除 T006 团队外,Command场景和Conversation场景的 CER 存在显著差异。而 T006 显著缩小了这一差距,表明他们的增强策略有效提高了命令语音的识别率,这在公共设施系统中的语音唤醒应用中具有很大的潜力。

综上所述,数据增强技术在提高 ASR 系统性能方面发挥了至关重要的作用。特别是 T006 团队的综合增强策略,在语音命令的处理上表现尤为出色,未来在口吃语音命令相关任务中可以借鉴其方法。此外,E-branchformer 和 Branchformer 模型在口吃 ASR 任务中的性能明显优于 Conformer 模型,表明它们更适合处理复杂的口吃语音识别任务。
表5 不同团队的ASR 模型的 CER(%)结果

总结

本文介绍了IEEE SLT2024口吃语音挑战赛 StutteringSpeech Challenge 的结果,涵盖数据集、赛道设置以及提交系统的性能等方面。此次挑战赛借助发布的中文口吃语音数据集AS-70,充分展现了各种数据增强技术与新型模型架构的成效。挑战赛的主要发现如下:(1)针对不同口吃语音事件量身定制方法至关重要,例如 Zipformer 模型在处理单词或短语重复方面独具优势;(2)针对不同类型口吃语音事件的特定数据增强技术行之有效,像速度扰动技术对声音延长和声音重复事件的增强效果显著,而对于阻塞和插话事件,可通过插入无声片段或非自然的插话来实现增强;(3)在语音识别(ASR)任务中,全面的增强策略尤其值得关注,特别是它们对语音指令识别的提升作用。

参考文献

[1]  E. Yairi, N. Ambrose, and N. Cox, “Genetics of stuttering,” Journal of Speech, Language, and Hearing Research, vol. 39, pp. 771– 784, 1996.

[2] J. Prasse and G. Kikano, “Stuttering: An overview,” American family physician, vol. 77, pp. 1271–6, 2008.

[3] Rong Gong, Hongfei Xue, Lezhi Wang, Xin Xu, Qisheng Li, Lei Xie, Hui Bu, Shaomei Wu, Jiaming Zhou, Yong Qin, et al., “As-70: A mandarin stuttered speech dataset for automatic speech recognition and stuttering event detection,” interspeech, 2024.

[4] A. Gulati, J. Qin, C. Chiu, N. Parmar, Y. Zhang, J. Yu, W. Han, S. Wang, Z. Zhang, Y. Wu, and R. Pang, “Conformer: Convolution-augmented transformer for speech recognition,” in Interspeech. ISCA, 2020, pp. 5036–5040.

[5] Di Wu, Binbin Zhang, Chao Yang, Zhendong Peng, Wenjing Xia, Xiaoyu Chen, and Xin Lei, “U2++: unified two-pass bidirectional end-to-end model for speech recognition,” CoRR, vol. abs/2106.05642, 2021.

[6] Zengwei Yao, Liyong Guo, Xiaoyu Yang, Wei Kang, Fangjun Kuang, Yifan Yang, Zengrui Jin, Long Lin, and Daniel Povey, “Zipformer: A faster and better encoder for automatic speech recognition,” in ICLR, 2024.

[7] Tom Ko, Vijayaditya Peddinti, Daniel Povey, and Sanjeev Khudanpur, “Audio augmentation for speech recognition.,” in Interspeech, 2015, p. 3586.

[8] Kwangyoun Kim, Felix Wu, Yifan Peng, Jing Pan, Prashant Sridhar, Kyu Jeong Han, and Shinji Watanabe, “E-branchformer: Branchformer with enhanced merging for speech recognition,” in SLT. 2022, pp. 84–91, IEEE.

[9] Yifan Peng, Siddharth Dalmia, Ian R. Lane, and Shinji Watanabe, “Branchformer: Parallel mlp-attention architectures to capture local and global context for speech recognition and understanding,” in ICML. 2022, pp. 17627–17643, PMLR.




欢迎关注ASLP实验室微信公众号,获取更多语音研究相关资讯!

“打造最开放、最前沿、最落地的人工智能实验室”


音频语音与语言处理研究组
发布关于音频语音与语言处理研究组的最新研究成果、技术分享、新闻动态和活动等。
 最新文章