过去二十年来,语音技术取得了突飞猛进的发展,特别是在自动语音识别(ASR)任务中,针对流利语音的识别已经达到了接近人类的水平。然而,当这些模型应用于非典型语音(如口吃)时,其效果却显著下降。这种局限性表明,当前的ASR系统在处理多样、复杂的语音时仍存挑战。 近期,西工大音频语音与语言处理研究组(ASLP@NPU)和StammerTalk、希尔贝壳、AImpower、南开大学、WeNet开源社区、中国科学技术大学及昆山杜克大学的合作论文“AS-70: A Mandarin stuttered speech dataset for automatic speech recognition and stuttering event detection”被语音研究顶级会议INTERSPEECH2024接收。该论文发布的 AS-70 是首个公开的普通话口吃语音数据集,也是同类数据集中最大的一个。AS-70数据集涵盖了48.8小时对话和语音命令朗读的语音,包含逐字人工转录的抄本,适用于多种语音相关任务的研究。此外,我们还建立了基准系统,并展示了ASR和口吃事件检测(SED)任务的实验结果。通过将该数据集纳入模型微调,观察到当前先进的ASR模型(如Whisper和Hubert)在处理口吃语音方面有了显著改善。目前,AS-70数据集已在AISHELL平台开放(AISHELL-6A),即下即用。现对该论文进行简要的解读和分享。
发表论文截图
扫码直接看论文
背景动机
口吃是一种影响全球约1%人口的语言障碍[1],通过重复、延长和阻塞导致语言流的中断[2]。这些中断会显著影响个人的社交互动和心理健康。对于口吃者(PWS)而言,这种语言障碍不仅是语言交流的障碍,更是心理和情感上的负担。在高度依赖口语交流的环境中(如智能家居设备和聊天机器人等语音用户界面),PWS面临的挑战更加严重。尽管自动语音识别(ASR)系统取得了很大进展,针对流利语音的识别已经达到接近人类的水平,但这些技术在处理口吃语音时表现不佳,导致PWS在使用这些技术时面临显著的可访问性问题。这种技术缺陷限制了PWS在日常生活中利用语音技术的能力。
此外,目前大规模、公开的口吃语音数据集非常有限,大多是英语的数据集。此外,现有的数据集,如FluencyBank[3]和UCLASS[4],规模较小,主要用于言语语言病理学(SLP)研究,无法满足ASR系统开发的需求。而较大的数据集如Sep-28k[5]和LibriStutter[6],要么缺乏全面的标注,要么是人工生成的,进一步限制了其在开发鲁棒ASR系统方面的实用性。
在国内,SLP领域仍在发展中,专业人员和资源不足,导致对早期干预口吃儿童(CWS)的支持不够。这一现状凸显了对自动化口吃诊断系统的迫切需求,这些系统可以提供及时和准确的评估,有助于早期干预和对PWS的持续支持。自动化系统的出现,不仅可以弥补专业资源的不足,还能为更多的PWS提供平等的技术支持。
为了应对这些挑战,AS-70数据集应运而生。AS-70是首个公开的普通话口吃语音数据集,也是目前同类数据集中规模最大的一个。它包括对话和语音命令朗读的语音,并附有逐字人工转录的抄本,适用于各种语音相关任务的研究。这一数据集的推出,不仅为研究口吃语音提供了宝贵的资源,还为开发更包容、更准确的ASR系统提供了重要基础。通过将该数据集纳入模型微调,观察到当前最先进的ASR模型在处理口吃语音方面有了显著改善,从而增强了它们的识别效果。
数据
数据组成
数据库总时长为48.8小时,包含70名母语为普通话口吃者,其中男46人,女24人。每位录音人录制一小时,包含对话和语音指令阅读两部分。
对话部分:通过Zoom或腾讯会议等平台进行的在线访谈,旨在能够捕捉在多样化主题下录音人的自然口语。以提前准备的问题列表,根据实际需求灵活引入话题。
语音指令阅读部分:录音人朗读200个语控词集,包含车载和智能家居等领域。考虑到多样性,每25位录音人更换一批新的语控词,数据库共有600个不重复语控词。
数据标注
标注文本包含了五种类型的口吃,包括:
[]:词/短语重复。用于标注重复的完整的字、多字或词(如果只是单音重复,请用/r)。
/b: 阻塞。标注明显的长时间卡壳或短时间卡断(b指block)。
/p: 延长。标注拉长的音素(p指prolongation)。
/r:标注声音重复。比如单个辅音或元音,不足以构成一个字(r指repetition)。
/i: 插入词。由于口吃引起的填充字符,比如不自然的嗯、啊、呃(i指interjection)。如果是听感自然的插入语不用标。
标注以逐字记录的方式进行,口吃标签嵌入为标记。例如,“嗯/i/p,我[我我]的名/b字是小/r明。”。字符“嗯”是插入词并且延长。字符“我”重复两次。此外,字符“名”上有一个阻塞标注。字符“小”的一个音素被标记为声音重复。一个字符可能携带多个标签。
数据样例
[]:你好米雅辛苦你找[找]这个声音。
/b: 新世界百/b货望京店。
/p: 嗯/p然后我觉得其实也没有什么特色的。
/r:吉林卫视节/r目预告。
/i: 择回当地工作嘛,就这个意思,就是为了一呃/i因为那个就是更为稳当点儿嘛完了也不用。
数据分析
实验
实验的目的并非追求最优结果,而是通过对 AS-70 数据集的评估,突出特定预训练模型的局限性。此外,我们还旨在展示将我们的数据集整合到模型训练过程中所能实现的改进。
我们通过口吃率(Stuttering Rate, SR)来衡量说话者的口吃严重程度。口吃率的计算方法为口吃事件的数量除以转录中非口吃字符的数量。例如,注释“嗯/i/p,我[我我]的名/b字是小/r明。”将导致口吃率为71.42%,因为该示例中包含5个口吃事件和7个非口吃字符。口吃严重程度分类如下:mild(SR ≤ 7%)有45名参与者,moderate(7% < SR ≤ 12%)有16名参与者,severe(SR > 12%)有9名参与者。关于训练、开发和测试划分的说话者数量,详见链接:https://stammertalk.github.io/interspeech2024-page。
Automatic Speech Recognition
在自动语音识别(ASR)实验中,我们对AS-70数据集进行了详细的评估。实验设计旨在测试先进的ASR模型在口吃语音上的表现,并通过微调来提高模型的适应能力。我们选择了三种ASR模型进行评估,包括有监督的端到端ASR、自监督预训练和大规模半监督方法:
Conformer[7]:我们展示了使用WenetSpeech数据集预训练的u2++ Conformer的结果,以及使用AS-70微调模型的结果。
HuBERT[8]:预训练模型使用了10k小时的WenetSpeech数据集进行自监督学习。我们将AISHELL-1微调的结果作为基线,与使用AS-70数据集微调的模型进行比较。
Whisper[9]:Whisper通过在大规模数据集上进行半监督训练,在多语言方面表现出卓越的能力。我们的基线采用Whisper large-v2模型进行直接推理,随后利用AS-70数据集对Whisper模型进行微调。
Stuttering Event Detection
SED的评估是通过建立一个基于随机猜测的基线(baseline)来进行的,从而为后续分析提供一个比较基准。我们采用了一些著名的SED方法,以评估这些方法的有效性:
StutterNet[10]:该方法使用了一个适合捕捉不流利语音上下文的时间延迟神经网络(TDNN),网络是根据梅尔频率倒谱系数(MFCC)输入特征训练的。我们用12.2M个参数重现了StutterNet中的结构,并采用多任务学习方法,其中包含两个输出分支:流利/不流利预测和针对五种事件类型的软预测。
ConvLSTM[5]:输入是一组40维的mel滤波器组能量特征。卷积层生成的特征图经过批量归一化后合并,并馈送至三个LSTM层,产生1.6M个参数。我们使用与StutterNet相同的多任务学习方法。
Conformer[7]:采用了Wenet中的标准Conformer编码器结构。由于训练数据量较小,我们使用了3个Conformer块,产生了9.7M个参数。我们使用单任务学习方法,即预测五种事件类型。模型训练采用Multi Label Soft Margin Loss.
Wav2Vec2.0[11]:参考Bayerl等人的方法[11],我们对wav2vec2.0基础模型进行了微调。初始实验中使用的模型(Chinese-wav2vec2-base)是在WenetSpeech语料库上以无监督方式预训练的。我们使用与Conformer相同的单任务学习方法。
表5显示了上述模型在五种口吃事件类型中的F1分数。在每种事件类型中,所有模型的表现都超过了随机猜测基线。相比之下,ConvLSTM的表现不佳,可能是由于其参数数量有限,仅为1.6M。StutterNet和Conformer的结果介于两者之间,而Wav2Vec2.0表现最为出色,这主要得益于它在大型数据集上的预训练。值得注意的是,阻塞事件(/b)的检测性能显著低于其他口吃类型,这可能是由于阻塞事件在语音中通常只用沉默来表示。
参考文献
[1] E. Yairi, N. Ambrose, and N. Cox, “Genetics of stuttering,” Journal of Speech, Language, and Hearing Research, vol. 39, pp. 771– 784, 1996.
[2] J. Prasse and G. Kikano, “Stuttering: An overview,” American family physician, vol. 77, pp. 1271–6, 2008.
[3] N. B. Ratner and B. MacWhinney, “Fluency bank: a new resource for fluency research and practice,” Journal of Fluency Disorders, vol. 56, pp. 69–80, 2018.
[4] P. Howell, S. Davis, and J. Bartrip, “The university college london archive of stuttered speech (uclass).” Journal of speech, language, and hearing research : JSLHR, vol. 52 2, pp. 556–69, 2009.
[5] C. Lea, V. Mitra, A. Joshi, S. Kajarekar, and J. Bigham, “Sep-28k: A dataset for stuttering event detection from podcasts with people who stutter,” in ICASSP. IEEE, 2021, pp. 6798–6802.
[6] T. Kourkounakis, A. Hajavi, and A. Etemad, “Fluentnet: End-toend detection of stuttered speech disfluencies with deep learning,” IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 29, pp. 2986–2999, 2021.
[7] A. Gulati, J. Qin, C. Chiu, N. Parmar, Y. Zhang, J. Yu, W. Han, S. Wang, Z. Zhang, Y. Wu, and R. Pang, “Conformer: Convolution-augmented transformer for speech recognition,” in Interspeech. ISCA, 2020, pp. 5036–5040.
[8] W. Hsu, B. Bolte, Y. H. Tsai, K. Lakhotia, R. Salakhutdinov, and A. Mohamed, “Hubert: Self-supervised speech representation learning by masked prediction of hidden units,” IEEE ACM Trans. Audio Speech Lang. Process., vol. 29, pp. 3451–3460, 2021.
[9] A. Radford, J. W. Kim, T. Xu, G. Brockman, C. Mcleavey, and I. Sutskever, “Robust speech recognition via large-scale weak supervision,” in ICML, vol. 202. PMLR, 2023, pp. 28 492–28 518.
[10] S. A. Sheikh, M. Sahidullah, F. Hirsch, and S. Ouni, “Advancing stuttering detection via data augmentation, class-balanced loss and multi-contextual deep learning,” IEEE Journal of Biomedical and Health Informatics, vol. 27, pp. 2553–2564, 2023.
[11] S. P. Bayerl, D. Wagner, E. N ¨oth, and K. Riedhammer, “Detecting dysfluencies in stuttering therapy using wav2vec 2.0,” in Interspeech. ISCA, 2022, pp. 2868–2872.
欢迎关注ASLP实验室微信公众号,获取更多语音研究相关资讯!
“打造最开放、最前沿、最落地的人工智能实验室”