ICME2024|利用自监督模型层级表征进行多语种语音识别

文摘   科技   2024-05-07 23:54   陕西  
全球有 7000 多种语言,但大多数语言仍然缺乏语音技术的充分支持。近年来,学术界和工业界都对多语种自动语音识别(Multilingual Automatic Speech Recognition)表现出了浓厚的兴趣,以扩大语种覆盖范围。这些研究大致可分为两类:一种是使用多语种数据对端到端 ASR 系统进行监督或半监督学习[1,2,3],而另一种方法则利用自监督学习(SSL)技术,从大量无标注数据中学习有意义的多语种通用表征[4,5,6,7]。具体来说,后者利用 SSL 创建通用表征,在低资源语种缺乏足够标记数据的情况下,这种表征往往表现出更优越的性能。

近期,西工大音频语音与语言处理研究组(ASLP@NPU)的论文“SSHR: Leveraging Self-supervised Hierarchical Representations for Multilingual Automatic Speech Recognition”被多媒体领域旗舰会议ICME2024接收。该论文提出了一种利用自监督模型的层级表征进行多语种自动语音识别的方法SSHR。现对该论文进行简要的解读和分享。


论文题目:SSHR: Leveraging Self-supervised Hierarchical Representations for Multilingual Automatic Speech Recognition

作者列表:薛鸿飞,邵琪杰,黄凯勋,陈培坤,刘杰,谢磊

合作单位:华为云

论文原文:https://arxiv.org/abs/2309.16937


发表论文截图

扫码直接看论文

背景动机


虽然针对下游任务对自监督学习(SSL) 模型进行微调是一种简单有效的方法,但研究证明,在 SSL 模型的最后几层相关信息非常有限。对 SSL 表征的研究揭示了中间层与语种相关信息之间的显著相关性。此外,中层和高层倾向于编码更多与语种内容相关的信息。然而,随着进入模型的最后几层,这些与内容相关的信息会逐渐减少 [8]。虽然目前的 SSL 模型(如Meta发布的大规模多语种语音模型(MMS)[7])在多语种 ASR 中的有效性已得到证实,但如何优化利用 SSL 的分层表征来提高下游多语种 ASR 任务的微调性能是一个尚未解决的问题。在我们的研究中,分层表征指的是 SSL 模型中的多层表征,这些表征被用来提高特定任务的结果。

构建多语种语音识别系统的复杂性来自于需要适应不同语种在声学、语言学和语义上的显著差异。因此,成功实现多语种 ASR 系统的关键在于确保模型能够准确识别和转录特定语种。这可以通过探索 SSL 中间层的语种相关信息来实现。有了语种识别(LID),接下来的挑战就是利用语种相关信息更准确地执行下游 ASR 任务。为了在微调方面取得令人满意的结果,SSL 的最终层必须包含大量与当前语种相关的内容信息。

本文提出了Self-supervised Hierarchical Representations(SSHR)来提高多语种自动识别性能。具体来说,我们的方法在 MMS [7] 的微调过程中包含了三个关键改进。首先,我们从中间层提取与 LID 相关的帧,并将其连接到编码器帧中,以指导后续层的特定语种内容提取。其次,考虑到最后几层中与内容相关的信息越来越少,我们可以在较高的内容相关信息层中引入CTC,从而对MMS进行微调。最后,为了进一步提高性能,我们提出了Cross-CTC,以便在最后几层获取更多与内容相关的信息。我们在两个多语种数据集 ML-SUPERB [9] 和 Common Voice [10] 上评估了 SSHR 的性能。

本文贡献可总结如下:(1) 深入分析了MMS的分层表示,发现中间层包含更多语种相关信息,中层和高层包含更多与内容相关的信息,但最后几层会丧失这些信息。(2) 提出了 SSHR,利用 SSL 分层表示来提高下游多语种 ASR 的性能。(3) 与基线相比,本文方法在两个数据集上的音素错误率和字符错误率分别相对降低了9.4%和12.6%,达到了SOTA水平。

喜报!实验室团队在多语种通用语音性能基准挑战赛ML-SUPERB中取得优异成绩

提出的方案

MMS [1] 遵循 Wav2vec 2.0 的自监督预训练方案,该方案只需要无标签的语音,并可适用于少量有标签数据的 ASR,MMS在1406 种语言的 491k 小时无标签语音数据上进行了预训练。我们的模型是基于 MMS-base,其结构为图3中的Transformer Encoder部分,包含24层Encoder Layer。我们的目标是利用多语种 SSL 中的分层表征来改进下游的多语种 ASR 任务。在本节中,我们将详细解读SSHR每个组成部分的具体内容。


提取语种相关信息

如图1所示,我们在 SSHR 中对第  层的输出进行了平均池化操作,其中包含丰富的语种相关信息。平均池化操作将其缩减为一个维度,代表与language识别相关的帧(LID)。我们将这一帧信息与语音帧进行拼接,然后在接下来的层中应用自注意力机制,不断强化 LID 相关帧中的语种相关信息,并利用 LID 相关帧指导其他语音帧的学习。

最后,我们利用 CTC loss 来控制 LID 帧。对于使用 LID 帧的模型,ground truth是 "[LID]、unit、......、unit" 标签,如果不使用 LID帧,则只使用unit标签。CTC 损失可表示为

  

其中,   表示 LID 帧,  表示第    层。

值得注意的是,本文方法不涉及单独的 LID 帧交叉熵损失。相反,CTC 损失会自动将 LID 标签与第一帧对齐,以便进行 LID 识别。

图1:SSHR 的总体框架

优化 SSL 参数

本文深入研究了如何调整 SSL 参数以加强微调过程,从而提高 ASR 性能。一个主要的问题在于对微调质量的潜在影响,这是因为有关后  层内容的可用信息减少了。为了应对这一挑战,我们探索了两种不同的方法。

  1. 替换最后   层。认识到后   层信息的不足,我们选择了一种解决方案,即利用具有更丰富内容相关信息的中间层。这些中间层可作为初始化后  层的来源。更具体地说,如果    等于 3,我们将模型结构重新定义为[1, 2, 3, ... 19, 20, 21, 19', 20', 21']。

  2. 删除最后的   层。我们建议不使用后   层,因为这些层所拥有的内容相关信息较少。一个更有效的途径是,在倒数第  层上执行有监督的 CTC 微调,而放弃最后  层,因为最后一层具有更多与内容相关的信息。这种创新方法将模型结构重新定义为 [1, 2, 3, ... 24 -  ]。

增强与语种内容相关的信息

在上一部分中,我们采用删除最后   层的方法来删除内容相关信息不足的最后几层。然而,为了进一步提高性能,我们提出了一种Cross-CTC 方法,旨在增强这些最后层中的信息。

如图3所示,我们在中间层中加入了 CTC 损失,以得出后验概率。这里并不是直接将后验概率附加到层  的输出中,而是采用交叉注意法,将层  的输出作为  和  ,将后验概率的线性变换作为  。来自层    的内容相关信息的后验概率作为  被整合到层  的输出中。因此,层   的输出由与内容相关的信息引导,自然而然地强化了后续层  中与内容相关的信息。具体计算过程如下:

  

  

  

其中,  是来自层  的后验概率,  是来自层  的输出表征。

实验设置

实验数据 本文在 Common Voice和 ML-SUPERB两个数据集上进行实验,以全面评估提出的方法在不同场景下的泛化能力。其中,Common Voice 数据集包含 8 个语种,而 ML-SUPERB 包含 143 个语种。

模型结构 实验框架在 fairseq 上进行,利用 16K Hz 的输入数据,并在 4 个 GPU(4090,24G)上执行。我们的模型以 MMS 300M [1]为基础,由 24 个transformer编码器层组成。需要强调的是,加入 LID 帧并不会带来额外的参数开销。同时,还通过 Cross-CTC 将一个具有参数共享功能的线性 CTC 组件集成到中间层。与最初的配置相比,这一扩展导致模型中的参数增加了约 5M。

实验结果

表1 列出了本文 SSHR 方法在两个数据集上的结果。我们使用音素错误率 (PER) 评估Common Voice数据集。相比之下,我们同时评估了 ML-SUPERB 数据集的词错误率(WER)和字符错误率(CER)。B0 是我们直接微调 MMS 后得出的baseline模型。同时,C1 到 C4 表示我们在 SSHR 模型上进行的各种实验,以研究它们的影响。在 C1 中,我们利用第 8 层的表征提取与 LID 相关的帧。在 C2 中,我们应用了删除最后  层的方法,其中  的值为3。在 C3 中,我们利用第 18、20 和 22 层的 Cross-CTC,分别丰富后续层的内容相关信息。最后,C4体现了全面的SSHR,与baseline模型相比,在两个数据集上的PER, CER和WER相对降低分别为9.4%、12.6%和9.5%。我们的模型实现了 SOTA 结果,表明比以前的 XLSR 模型有所改进。这些结果凸显了我们提出的 SSHR 方法的有效性,它通过利用分层表征,明显提高了多语种 ASR 任务的性能。

表1:SSHR在Common Voice和ML-SUPERB数据集上的结果。*表示该模型是各语种单独微调。CV-PER表示Common Voice上的PER结果,ML-CER表示ML-SUPERB上的CER结果,ML-WER表示ML-SUPERB上的WER结果。

语种相关信息

我们探索了各种 LID 预测方法,并评估了 LID 层对下游多语种 ASR 任务的影响。从表2可以看出,D2并没有使用上文中介绍的LID帧,而是使用了带有LID标签的ground truth与D3进行比较。D3 在第 3 层使用了 LID 相关框架,比 D2 有所改进,证明了 LID 相关框架的有效性。D1 采用了与 HierLID 中类似的策略,在第 3 层利用 CTC 损失进行帧级 LID 预测和对齐。与 D1 相比,D3 的改进可能是由于我们有意避免了 LID 预测的错误。此外,与 D3 相比,C1 在第 8 层提取了更多语种相关信息的 LID 帧,这带来了进一步的收益。C1 中的进一步研究表明,从更多语种相关层中提取 LID 相关帧会提高识别性能。

表2:提取语种相关信息的方法在Common Voice数据集上的PER结果。CV-PER表示Common Voice上的PER结果。

优化SSL参数

表3列出了各种初始化方法对结果的影响。其中,E1为重新初始化最后三层的参数。E2是上文提出的方案,即用信息量更大的中间三层(第 19、20 和 21 层)参数替代最后三层(第 22、23 和 24 层)中的参数。实验结果表明,E2 在Common Voice数据集上的表现并不比 E1 好。C2 是上文提出的另一种方案,即删除最后三层。与 E1 相比,C2 在减少参数数量的同时表现更好。我们还展示了 E3 中删除最后四层的方法,其性能相当。从 Common Voice 数据集的结果中得出的结论表明,对于 MMS模型在低资源数据上微调时,可以省略最后三层的参数。

表3:优化SSL参数的方法在Common Voice数据集上的PER结果。CV-PER表示Common Voice上的PER结果。

增强内容信息

表4展示了各种中间层技术的应用,以增强后  层中与内容相关的信息。在这种情况下,F1 体现了第 21 层的GIC方法,通过门控单元将后验概率和下一层的输入融合。F2 相当于上文中介绍的在第 21 层的 Cross-CTC,与 F1 相比有所改进。我们进一步进行了实验,在第 15、18 和 21 层中加入了多层 GIC,记为 F3。值得注意的是,我们的观察结果表明,采用 GIC 的多层策略会导致性能下降。这种下降可能是由于当前层与最终层的距离更远,而且需要更多与内容相关的信息。因此,C3 选择第 18、20 和 22 层,为 Cross-CTC 提供更多与内容相关的信息。虽然 C3 与 F2 相比几乎没有改进,但我们在 ML-SUPERB 上的结果确实显示出了接近 5% 的相对CER改进。与基线模型相比,Cross-CTC 方法使 PER 降低了约 9%。此外,多层的选择也起着至关重要的作用。

表4:增强内容信息的方法在Common Voice数据集上的PER结果。CV-PER表示Common Voice上的PER结果。

参考文献

[1] Shubham Toshniwal, Tara N. Sainath, Ron J. Weiss, Bo Li, Pedro J. Moreno, Eugene Weinstein, and Kanishka Rao, “Multilingual Speech Recognition with a Single End-to-End Model,” in ICASSP. 2018, pp. 4904–4908, IEEE.

[2] Vineel Pratap, Anuroop Sriram, Paden Tomasello, Awni Y.Hannun, Vitaliy Liptchinsky, Gabriel Synnaeve, and Ronan Collobert, “Massively Multilingual ASR: 50 Languages, 1 Model, 1 Billion Parameters,” in Interspeech. 2020, pp. 4751–4755, ISCA.

[3] Alec Radford, Jong Wook Kim, Tao Xu, Greg Brockman, Christine McLeavey, and Ilya Sutskever, “Robust Speech Recognition via Large-Scale Weak Supervision,” in ICML. 2023, pp. 28492–28518, PMLR.

[4] Arun Babu, Changhan Wang, Andros Tjandra, Kushal Lakhotia, Qiantong Xu, Naman Goyal, Kritika Singh, Patrick von Platen, Yatharth Saraf, Juan Pino, Alexei Baevski, Alexis Conneau, and Michael Auli, “XLS-R: Self-supervised Cross-lingual Speech Representation Learning at Scale,” in Interspeech. 2022, pp. 2278–2282, ISCA.

[5] Hongfei Xue, Qijie Shao, Peikun Chen, Pengcheng Guo, Lei Xie, and Jie Liu, “TranUSR: Phoneme-to-word Transcoder Based Unified Speech Representation Learning for Cross-lingual Speech Recognition,” in Interspeech. 2023, pp. 216–220, ISCA.

[6] Yu Zhang, Wei Han, James Qin, Yongqiang Wang, Ankur Bapna, Zhehuai Chen, Nanxin Chen, Bo Li, Vera Axelrod, Gary Wang, et al., “Google usm: Scaling automatic speech recognition beyond 100 languages,” arXiv preprint arXiv:2303.01037, 2023.

[7] Vineel Pratap, Andros Tjandra, Bowen Shi, Paden Tomasello, Arun Babu, Sayani Kundu, Ali Elkahky, Zhaoheng Ni, Apoorv Vyas, Maryam Fazel-Zarandi, et al., “Scaling speech technology to 1,000+ languages,” arXiv preprint arXiv:2305.13516, 2023.

[8] Ankita Pasad, Ju-Chieh Chou, and Karen Livescu, “Layer-Wise Analysis of a Self-Supervised Speech Representation Model,” in ASRU. 2021, pp. 914–921, IEEE.

[9] Jiatong Shi, Dan Berrebbi, William Chen, Ho-Lam Chung, EnPei Hu, Wei Ping Huang, Xuankai Chang, Shang-Wen Li, Abdelrahman Mohamed, Hung-yi Lee, et al., “ML-SUPERB: Multilingual Speech Universal PERformance Benchmark,” in Interspeech. 2023, pp. 884–888, ISCA.

[10] Rosana Ardila, Megan Branson, Kelly Davis, Michael Kohler, Josh Meyer, Michael Henretty, Reuben Morais, Lindsay Saunders, Francis M. Tyers, and Gregor Weber, “Common Voice: A Massively-Multilingual Speech Corpus,” in LREC. 2020, pp. 4218–4222, European Language Resources Association.




欢迎关注ASLP实验室微信公众号,获取更多语音研究相关资讯!

“打造最开放、最前沿、最落地的人工智能实验室”


音频语音与语言处理研究组
发布关于音频语音与语言处理研究组的最新研究成果、技术分享、新闻动态和活动等。
 最新文章