全球有 7000 多种语言,但大多数语言仍然缺乏语音技术的充分支持。近年来,学术界和工业界都对多语种自动语音识别(Multilingual Automatic Speech Recognition)表现出了浓厚的兴趣,以扩大语种覆盖范围。这些研究大致可分为两类:一种是使用多语种数据对端到端 ASR 系统进行监督或半监督学习[1,2,3],而另一种方法则利用自监督学习(SSL)技术,从大量无标注数据中学习有意义的多语种通用表征[4,5,6,7]。具体来说,后者利用 SSL 创建通用表征,在低资源语种缺乏足够标记数据的情况下,这种表征往往表现出更优越的性能。 近期,西工大音频语音与语言处理研究组(ASLP@NPU)的论文“SSHR: Leveraging Self-supervised Hierarchical Representations for Multilingual Automatic Speech Recognition”被多媒体领域旗舰会议ICME2024接收。该论文提出了一种利用自监督模型的层级表征进行多语种自动语音识别的方法 — SSHR。现对该论文进行简要的解读和分享。
论文题目:SSHR: Leveraging Self-supervised Hierarchical Representations for Multilingual Automatic Speech Recognition
作者列表:薛鸿飞,邵琪杰,黄凯勋,陈培坤,刘杰,谢磊
合作单位:华为云
论文原文:https://arxiv.org/abs/2309.16937
发表论文截图
扫码直接看论文
背景动机
虽然针对下游任务对自监督学习(SSL) 模型进行微调是一种简单有效的方法,但研究证明,在 SSL 模型的最后几层相关信息非常有限。对 SSL 表征的研究揭示了中间层与语种相关信息之间的显著相关性。此外,中层和高层倾向于编码更多与语种内容相关的信息。然而,随着进入模型的最后几层,这些与内容相关的信息会逐渐减少 [8]。虽然目前的 SSL 模型(如Meta发布的大规模多语种语音模型(MMS)[7])在多语种 ASR 中的有效性已得到证实,但如何优化利用 SSL 的分层表征来提高下游多语种 ASR 任务的微调性能是一个尚未解决的问题。在我们的研究中,分层表征指的是 SSL 模型中的多层表征,这些表征被用来提高特定任务的结果。
构建多语种语音识别系统的复杂性来自于需要适应不同语种在声学、语言学和语义上的显著差异。因此,成功实现多语种 ASR 系统的关键在于确保模型能够准确识别和转录特定语种。这可以通过探索 SSL 中间层的语种相关信息来实现。有了语种识别(LID),接下来的挑战就是利用语种相关信息更准确地执行下游 ASR 任务。为了在微调方面取得令人满意的结果,SSL 的最终层必须包含大量与当前语种相关的内容信息。
本文提出了Self-supervised Hierarchical Representations(SSHR)来提高多语种自动识别性能。具体来说,我们的方法在 MMS [7] 的微调过程中包含了三个关键改进。首先,我们从中间层提取与 LID 相关的帧,并将其连接到编码器帧中,以指导后续层的特定语种内容提取。其次,考虑到最后几层中与内容相关的信息越来越少,我们可以在较高的内容相关信息层中引入CTC,从而对MMS进行微调。最后,为了进一步提高性能,我们提出了Cross-CTC,以便在最后几层获取更多与内容相关的信息。我们在两个多语种数据集 ML-SUPERB [9] 和 Common Voice [10] 上评估了 SSHR 的性能。
喜报!实验室团队在多语种通用语音性能基准挑战赛ML-SUPERB中取得优异成绩
提出的方案
MMS [1] 遵循 Wav2vec 2.0 的自监督预训练方案,该方案只需要无标签的语音,并可适用于少量有标签数据的 ASR,MMS在1406 种语言的 491k 小时无标签语音数据上进行了预训练。我们的模型是基于 MMS-base,其结构为图3中的Transformer Encoder部分,包含24层Encoder Layer。我们的目标是利用多语种 SSL 中的分层表征来改进下游的多语种 ASR 任务。在本节中,我们将详细解读SSHR每个组成部分的具体内容。
提取语种相关信息
如图1所示,我们在 SSHR 中对第
最后,我们利用 CTC loss 来控制 LID 帧。对于使用 LID 帧的模型,ground truth是 "[LID]、unit、......、unit" 标签,如果不使用 LID帧,则只使用unit标签。CTC 损失可表示为
其中,
值得注意的是,本文方法不涉及单独的 LID 帧交叉熵损失。相反,CTC 损失会自动将 LID 标签与第一帧对齐,以便进行 LID 识别。
优化 SSL 参数
本文深入研究了如何调整 SSL 参数以加强微调过程,从而提高 ASR 性能。一个主要的问题在于对微调质量的潜在影响,这是因为有关后
替换最后
层。认识到后 层信息的不足,我们选择了一种解决方案,即利用具有更丰富内容相关信息的中间层。这些中间层可作为初始化后 层的来源。更具体地说,如果 等于 3,我们将模型结构重新定义为[1, 2, 3, ... 19, 20, 21, 19', 20', 21']。 删除最后的
层。我们建议不使用后 层,因为这些层所拥有的内容相关信息较少。一个更有效的途径是,在倒数第 层上执行有监督的 CTC 微调,而放弃最后 层,因为最后一层具有更多与内容相关的信息。这种创新方法将模型结构重新定义为 [1, 2, 3, ... 24 - ]。
增强与语种内容相关的信息
在上一部分中,我们采用删除最后
如图3所示,我们在中间层中加入了 CTC 损失,以得出后验概率。这里并不是直接将后验概率附加到层
其中,
实验设置
实验数据 本文在 Common Voice和 ML-SUPERB两个数据集上进行实验,以全面评估提出的方法在不同场景下的泛化能力。其中,Common Voice 数据集包含 8 个语种,而 ML-SUPERB 包含 143 个语种。
模型结构 实验框架在 fairseq 上进行,利用 16K Hz 的输入数据,并在 4 个 GPU(4090,24G)上执行。我们的模型以 MMS 300M [1]为基础,由 24 个transformer编码器层组成。需要强调的是,加入 LID 帧并不会带来额外的参数开销。同时,还通过 Cross-CTC 将一个具有参数共享功能的线性 CTC 组件集成到中间层。与最初的配置相比,这一扩展导致模型中的参数增加了约 5M。
实验结果
表1 列出了本文 SSHR 方法在两个数据集上的结果。我们使用音素错误率 (PER) 评估Common Voice数据集。相比之下,我们同时评估了 ML-SUPERB 数据集的词错误率(WER)和字符错误率(CER)。B0 是我们直接微调 MMS 后得出的baseline模型。同时,C1 到 C4 表示我们在 SSHR 模型上进行的各种实验,以研究它们的影响。在 C1 中,我们利用第 8 层的表征提取与 LID 相关的帧。在 C2 中,我们应用了删除最后
语种相关信息
我们探索了各种 LID 预测方法,并评估了 LID 层对下游多语种 ASR 任务的影响。从表2可以看出,D2并没有使用上文中介绍的LID帧,而是使用了带有LID标签的ground truth与D3进行比较。D3 在第 3 层使用了 LID 相关框架,比 D2 有所改进,证明了 LID 相关框架的有效性。D1 采用了与 HierLID 中类似的策略,在第 3 层利用 CTC 损失进行帧级 LID 预测和对齐。与 D1 相比,D3 的改进可能是由于我们有意避免了 LID 预测的错误。此外,与 D3 相比,C1 在第 8 层提取了更多语种相关信息的 LID 帧,这带来了进一步的收益。C1 中的进一步研究表明,从更多语种相关层中提取 LID 相关帧会提高识别性能。
优化SSL参数
表3列出了各种初始化方法对结果的影响。其中,E1为重新初始化最后三层的参数。E2是上文提出的方案,即用信息量更大的中间三层(第 19、20 和 21 层)参数替代最后三层(第 22、23 和 24 层)中的参数。实验结果表明,E2 在Common Voice数据集上的表现并不比 E1 好。C2 是上文提出的另一种方案,即删除最后三层。与 E1 相比,C2 在减少参数数量的同时表现更好。我们还展示了 E3 中删除最后四层的方法,其性能相当。从 Common Voice 数据集的结果中得出的结论表明,对于 MMS模型在低资源数据上微调时,可以省略最后三层的参数。
增强内容信息
表4展示了各种中间层技术的应用,以增强后
参考文献
[1] Shubham Toshniwal, Tara N. Sainath, Ron J. Weiss, Bo Li, Pedro J. Moreno, Eugene Weinstein, and Kanishka Rao, “Multilingual Speech Recognition with a Single End-to-End Model,” in ICASSP. 2018, pp. 4904–4908, IEEE.
[2] Vineel Pratap, Anuroop Sriram, Paden Tomasello, Awni Y.Hannun, Vitaliy Liptchinsky, Gabriel Synnaeve, and Ronan Collobert, “Massively Multilingual ASR: 50 Languages, 1 Model, 1 Billion Parameters,” in Interspeech. 2020, pp. 4751–4755, ISCA.
[3] Alec Radford, Jong Wook Kim, Tao Xu, Greg Brockman, Christine McLeavey, and Ilya Sutskever, “Robust Speech Recognition via Large-Scale Weak Supervision,” in ICML. 2023, pp. 28492–28518, PMLR.
[4] Arun Babu, Changhan Wang, Andros Tjandra, Kushal Lakhotia, Qiantong Xu, Naman Goyal, Kritika Singh, Patrick von Platen, Yatharth Saraf, Juan Pino, Alexei Baevski, Alexis Conneau, and Michael Auli, “XLS-R: Self-supervised Cross-lingual Speech Representation Learning at Scale,” in Interspeech. 2022, pp. 2278–2282, ISCA.
[5] Hongfei Xue, Qijie Shao, Peikun Chen, Pengcheng Guo, Lei Xie, and Jie Liu, “TranUSR: Phoneme-to-word Transcoder Based Unified Speech Representation Learning for Cross-lingual Speech Recognition,” in Interspeech. 2023, pp. 216–220, ISCA.
[6] Yu Zhang, Wei Han, James Qin, Yongqiang Wang, Ankur Bapna, Zhehuai Chen, Nanxin Chen, Bo Li, Vera Axelrod, Gary Wang, et al., “Google usm: Scaling automatic speech recognition beyond 100 languages,” arXiv preprint arXiv:2303.01037, 2023.
[7] Vineel Pratap, Andros Tjandra, Bowen Shi, Paden Tomasello, Arun Babu, Sayani Kundu, Ali Elkahky, Zhaoheng Ni, Apoorv Vyas, Maryam Fazel-Zarandi, et al., “Scaling speech technology to 1,000+ languages,” arXiv preprint arXiv:2305.13516, 2023.
[8] Ankita Pasad, Ju-Chieh Chou, and Karen Livescu, “Layer-Wise Analysis of a Self-Supervised Speech Representation Model,” in ASRU. 2021, pp. 914–921, IEEE.
[9] Jiatong Shi, Dan Berrebbi, William Chen, Ho-Lam Chung, EnPei Hu, Wei Ping Huang, Xuankai Chang, Shang-Wen Li, Abdelrahman Mohamed, Hung-yi Lee, et al., “ML-SUPERB: Multilingual Speech Universal PERformance Benchmark,” in Interspeech. 2023, pp. 884–888, ISCA.
[10] Rosana Ardila, Megan Branson, Kelly Davis, Michael Kohler, Josh Meyer, Michael Henretty, Reuben Morais, Lindsay Saunders, Francis M. Tyers, and Gregor Weber, “Common Voice: A Massively-Multilingual Speech Corpus,” in LREC. 2020, pp. 4218–4222, European Language Resources Association.
欢迎关注ASLP实验室微信公众号,获取更多语音研究相关资讯!
“打造最开放、最前沿、最落地的人工智能实验室”