ICME2024｜利用自监督模型层级表征进行多语种语音识别

文摘科技 2024-05-07 23:54 陕西

全球有 7000 多种语言，但大多数语言仍然缺乏语音技术的充分支持。近年来，学术界和工业界都对多语种自动语音识别（Multilingual Automatic Speech Recognition）表现出了浓厚的兴趣，以扩大语种覆盖范围。这些研究大致可分为两类：一种是使用多语种数据对端到端 ASR 系统进行监督或半监督学习[1,2,3]，而另一种方法则利用自监督学习（SSL）技术，从大量无标注数据中学习有意义的多语种通用表征[4,5,6,7]。具体来说，后者利用 SSL 创建通用表征，在低资源语种缺乏足够标记数据的情况下，这种表征往往表现出更优越的性能。

近期，西工大音频语音与语言处理研究组（ASLP@NPU）的论文“SSHR: Leveraging Self-supervised Hierarchical Representations for Multilingual Automatic Speech Recognition”被多媒体领域旗舰会议ICME2024接收。该论文提出了一种利用自监督模型的层级表征进行多语种自动语音识别的方法 — SSHR。现对该论文进行简要的解读和分享。

论文题目：SSHR: Leveraging Self-supervised Hierarchical Representations for Multilingual Automatic Speech Recognition

作者列表：薛鸿飞，邵琪杰，黄凯勋，陈培坤，刘杰，谢磊

合作单位：华为云

论文原文：https://arxiv.org/abs/2309.16937

发表论文截图

扫码直接看论文

背景动机

虽然针对下游任务对自监督学习（SSL）模型进行微调是一种简单有效的方法，但研究证明，在 SSL 模型的最后几层相关信息非常有限。对 SSL 表征的研究揭示了中间层与语种相关信息之间的显著相关性。此外，中层和高层倾向于编码更多与语种内容相关的信息。然而，随着进入模型的最后几层，这些与内容相关的信息会逐渐减少 [8]。虽然目前的 SSL 模型（如Meta发布的大规模多语种语音模型（MMS）[7]）在多语种 ASR 中的有效性已得到证实，但如何优化利用 SSL 的分层表征来提高下游多语种 ASR 任务的微调性能是一个尚未解决的问题。在我们的研究中，分层表征指的是 SSL 模型中的多层表征，这些表征被用来提高特定任务的结果。

构建多语种语音识别系统的复杂性来自于需要适应不同语种在声学、语言学和语义上的显著差异。因此，成功实现多语种 ASR 系统的关键在于确保模型能够准确识别和转录特定语种。这可以通过探索 SSL 中间层的语种相关信息来实现。有了语种识别（LID），接下来的挑战就是利用语种相关信息更准确地执行下游 ASR 任务。为了在微调方面取得令人满意的结果，SSL 的最终层必须包含大量与当前语种相关的内容信息。

本文提出了Self-supervised Hierarchical Representations（SSHR）来提高多语种自动识别性能。具体来说，我们的方法在 MMS [7] 的微调过程中包含了三个关键改进。首先，我们从中间层提取与 LID 相关的帧，并将其连接到编码器帧中，以指导后续层的特定语种内容提取。其次，考虑到最后几层中与内容相关的信息越来越少，我们可以在较高的内容相关信息层中引入CTC，从而对MMS进行微调。最后，为了进一步提高性能，我们提出了Cross-CTC，以便在最后几层获取更多与内容相关的信息。我们在两个多语种数据集 ML-SUPERB [9] 和 Common Voice [10] 上评估了 SSHR 的性能。

本文贡献可总结如下：(1) 深入分析了MMS的分层表示，发现中间层包含更多语种相关信息，中层和高层包含更多与内容相关的信息，但最后几层会丧失这些信息。(2) 提出了 SSHR，利用 SSL 分层表示来提高下游多语种 ASR 的性能。(3) 与基线相比，本文方法在两个数据集上的音素错误率和字符错误率分别相对降低了9.4%和12.6%，达到了SOTA水平。

喜报！实验室团队在多语种通用语音性能基准挑战赛ML-SUPERB中取得优异成绩

提出的方案

MMS [1] 遵循 Wav2vec 2.0 的自监督预训练方案，该方案只需要无标签的语音，并可适用于少量有标签数据的 ASR，MMS在1406 种语言的 491k 小时无标签语音数据上进行了预训练。我们的模型是基于 MMS-base，其结构为图3中的Transformer Encoder部分，包含24层Encoder Layer。我们的目标是利用多语种 SSL 中的分层表征来改进下游的多语种 ASR 任务。在本节中，我们将详细解读SSHR每个组成部分的具体内容。

提取语种相关信息

如图1所示，我们在 SSHR 中对第 $i$ 层的输出进行了平均池化操作，其中包含丰富的语种相关信息。平均池化操作将其缩减为一个维度，代表与language识别相关的帧(LID)。我们将这一帧信息与语音帧进行拼接，然后在接下来的层中应用自注意力机制，不断强化 LID 相关帧中的语种相关信息，并利用 LID 相关帧指导其他语音帧的学习。

最后，我们利用 CTC loss 来控制 LID 帧。对于使用 LID 帧的模型，ground truth是 "[LID]、unit、......、unit" 标签，如果不使用 LID帧，则只使用unit标签。CTC 损失可表示为

$L_{\text{ctc}}^{j} = \sum_{t=1}^{T+1} \log P_{\text{CTC}}(y_t | \mathbf{X}^{j}),$

其中， $y_1$ 表示 LID 帧， $j$ 表示第 $j$ 层。

值得注意的是，本文方法不涉及单独的 LID 帧交叉熵损失。相反，CTC 损失会自动将 LID 标签与第一帧对齐，以便进行 LID 识别。

图1：SSHR 的总体框架

优化 SSL 参数

本文深入研究了如何调整 SSL 参数以加强微调过程，从而提高 ASR 性能。一个主要的问题在于对微调质量的潜在影响，这是因为有关后 $n$ 层内容的可用信息减少了。为了应对这一挑战，我们探索了两种不同的方法。

替换最后 $n$ 层。认识到后 $n$ 层信息的不足，我们选择了一种解决方案，即利用具有更丰富内容相关信息的中间层。这些中间层可作为初始化后 $n$ 层的来源。更具体地说，如果 $n$ 等于 3，我们将模型结构重新定义为[1, 2, 3, ... 19, 20, 21, 19', 20', 21']。
删除最后的 $n$ 层。我们建议不使用后 $n$ 层，因为这些层所拥有的内容相关信息较少。一个更有效的途径是，在倒数第 $n＋１$ 层上执行有监督的 CTC 微调，而放弃最后 $n$ 层，因为最后一层具有更多与内容相关的信息。这种创新方法将模型结构重新定义为 [1, 2, 3, ... 24 - $n$ ]。

增强与语种内容相关的信息

在上一部分中，我们采用删除最后 $n$ 层的方法来删除内容相关信息不足的最后几层。然而，为了进一步提高性能，我们提出了一种Cross-CTC 方法，旨在增强这些最后层中的信息。

如图3所示，我们在中间层中加入了 CTC 损失，以得出后验概率。这里并不是直接将后验概率附加到层 $j$ 的输出中，而是采用交叉注意法，将层 $j$ 的输出作为 $K$ 和 $V$ ，将后验概率的线性变换作为 $Q$ 。来自层 $j$ 的内容相关信息的后验概率作为 $Q$ 被整合到层 $j+1$ 的输出中。因此，层 $j+1$ 的输出由与内容相关的信息引导，自然而然地强化了后续层 $n$ 中与内容相关的信息。具体计算过程如下：

$\mathbf{X}^{j+1} = \text{Encoder Layer}(\mathbf{Q}^{j}, \mathbf{K}^{j}, \mathbf{V}^{j}) ,$

$\mathbf{Q}^{j} = \text{Linear}(\text{Linear}(\mathbf{P}^{j})) ,$

$\mathbf{K}^{j} = \text{Linear}(\mathbf{X}^{j}), \quad \mathbf{V}^{j} = \text{Linear}(\mathbf{X}^{j}),$

其中， $P^j$ 是来自层 $j$ 的后验概率， $X^j$ 是来自层 $j$ 的输出表征。

实验设置

实验数据 本文在 Common Voice和 ML-SUPERB两个数据集上进行实验，以全面评估提出的方法在不同场景下的泛化能力。其中，Common Voice 数据集包含 8 个语种，而 ML-SUPERB 包含 143 个语种。

模型结构 实验框架在 fairseq 上进行，利用 16K Hz 的输入数据，并在 4 个 GPU（4090，24G）上执行。我们的模型以 MMS 300M [1]为基础，由 24 个transformer编码器层组成。需要强调的是，加入 LID 帧并不会带来额外的参数开销。同时，还通过 Cross-CTC 将一个具有参数共享功能的线性 CTC 组件集成到中间层。与最初的配置相比，这一扩展导致模型中的参数增加了约 5M。

实验结果

表1 列出了本文 SSHR 方法在两个数据集上的结果。我们使用音素错误率 (PER) 评估Common Voice数据集。相比之下，我们同时评估了 ML-SUPERB 数据集的词错误率（WER）和字符错误率（CER）。B0 是我们直接微调 MMS 后得出的baseline模型。同时，C1 到 C4 表示我们在 SSHR 模型上进行的各种实验，以研究它们的影响。在 C1 中，我们利用第 8 层的表征提取与 LID 相关的帧。在 C2 中，我们应用了删除最后 $n$ 层的方法，其中 $n$ 的值为3。在 C3 中，我们利用第 18、20 和 22 层的 Cross-CTC，分别丰富后续层的内容相关信息。最后，C4体现了全面的SSHR，与baseline模型相比，在两个数据集上的PER, CER和WER相对降低分别为9.4%、12.6%和9.5%。我们的模型实现了 SOTA 结果，表明比以前的 XLSR 模型有所改进。这些结果凸显了我们提出的 SSHR 方法的有效性，它通过利用分层表征，明显提高了多语种 ASR 任务的性能。

表1：SSHR在Common Voice和ML-SUPERB数据集上的结果。*表示该模型是各语种单独微调。CV-PER表示Common Voice上的PER结果，ML-CER表示ML-SUPERB上的CER结果，ML-WER表示ML-SUPERB上的WER结果。

语种相关信息

我们探索了各种 LID 预测方法，并评估了 LID 层对下游多语种 ASR 任务的影响。从表2可以看出，D2并没有使用上文中介绍的LID帧，而是使用了带有LID标签的ground truth与D3进行比较。D3 在第 3 层使用了 LID 相关框架，比 D2 有所改进，证明了 LID 相关框架的有效性。D1 采用了与 HierLID 中类似的策略，在第 3 层利用 CTC 损失进行帧级 LID 预测和对齐。与 D1 相比，D3 的改进可能是由于我们有意避免了 LID 预测的错误。此外，与 D3 相比，C1 在第 8 层提取了更多语种相关信息的 LID 帧，这带来了进一步的收益。C1 中的进一步研究表明，从更多语种相关层中提取 LID 相关帧会提高识别性能。

表2：提取语种相关信息的方法在Common Voice数据集上的PER结果。CV-PER表示Common Voice上的PER结果。

优化SSL参数

表3列出了各种初始化方法对结果的影响。其中，E1为重新初始化最后三层的参数。E2是上文提出的方案，即用信息量更大的中间三层（第 19、20 和 21 层）参数替代最后三层（第 22、23 和 24 层）中的参数。实验结果表明，E2 在Common Voice数据集上的表现并不比 E1 好。C2 是上文提出的另一种方案，即删除最后三层。与 E1 相比，C2 在减少参数数量的同时表现更好。我们还展示了 E3 中删除最后四层的方法，其性能相当。从 Common Voice 数据集的结果中得出的结论表明，对于 MMS模型在低资源数据上微调时，可以省略最后三层的参数。

表3：优化SSL参数的方法在Common Voice数据集上的PER结果。CV-PER表示Common Voice上的PER结果。

增强内容信息

表4展示了各种中间层技术的应用，以增强后 $n$ 层中与内容相关的信息。在这种情况下，F1 体现了第 21 层的GIC方法，通过门控单元将后验概率和下一层的输入融合。F2 相当于上文中介绍的在第 21 层的 Cross-CTC，与 F1 相比有所改进。我们进一步进行了实验，在第 15、18 和 21 层中加入了多层 GIC，记为 F3。值得注意的是，我们的观察结果表明，采用 GIC 的多层策略会导致性能下降。这种下降可能是由于当前层与最终层的距离更远，而且需要更多与内容相关的信息。因此，C3 选择第 18、20 和 22 层，为 Cross-CTC 提供更多与内容相关的信息。虽然 C3 与 F2 相比几乎没有改进，但我们在 ML-SUPERB 上的结果确实显示出了接近 5% 的相对CER改进。与基线模型相比，Cross-CTC 方法使 PER 降低了约 9%。此外，多层的选择也起着至关重要的作用。

表4：增强内容信息的方法在Common Voice数据集上的PER结果。CV-PER表示Common Voice上的PER结果。

参考文献

[1] Shubham Toshniwal, Tara N. Sainath, Ron J. Weiss, Bo Li, Pedro J. Moreno, Eugene Weinstein, and Kanishka Rao, “Multilingual Speech Recognition with a Single End-to-End Model,” in ICASSP. 2018, pp. 4904–4908, IEEE.

[2] Vineel Pratap, Anuroop Sriram, Paden Tomasello, Awni Y.Hannun, Vitaliy Liptchinsky, Gabriel Synnaeve, and Ronan Collobert, “Massively Multilingual ASR: 50 Languages, 1 Model, 1 Billion Parameters,” in Interspeech. 2020, pp. 4751–4755, ISCA.

[3] Alec Radford, Jong Wook Kim, Tao Xu, Greg Brockman, Christine McLeavey, and Ilya Sutskever, “Robust Speech Recognition via Large-Scale Weak Supervision,” in ICML. 2023, pp. 28492–28518, PMLR.

[4] Arun Babu, Changhan Wang, Andros Tjandra, Kushal Lakhotia, Qiantong Xu, Naman Goyal, Kritika Singh, Patrick von Platen, Yatharth Saraf, Juan Pino, Alexei Baevski, Alexis Conneau, and Michael Auli, “XLS-R: Self-supervised Cross-lingual Speech Representation Learning at Scale,” in Interspeech. 2022, pp. 2278–2282, ISCA.

[5] Hongfei Xue, Qijie Shao, Peikun Chen, Pengcheng Guo, Lei Xie, and Jie Liu, “TranUSR: Phoneme-to-word Transcoder Based Unified Speech Representation Learning for Cross-lingual Speech Recognition,” in Interspeech. 2023, pp. 216–220, ISCA.

[6] Yu Zhang, Wei Han, James Qin, Yongqiang Wang, Ankur Bapna, Zhehuai Chen, Nanxin Chen, Bo Li, Vera Axelrod, Gary Wang, et al., “Google usm: Scaling automatic speech recognition beyond 100 languages,” arXiv preprint arXiv:2303.01037, 2023.

[7] Vineel Pratap, Andros Tjandra, Bowen Shi, Paden Tomasello, Arun Babu, Sayani Kundu, Ali Elkahky, Zhaoheng Ni, Apoorv Vyas, Maryam Fazel-Zarandi, et al., “Scaling speech technology to 1,000+ languages,” arXiv preprint arXiv:2305.13516, 2023.

[8] Ankita Pasad, Ju-Chieh Chou, and Karen Livescu, “Layer-Wise Analysis of a Self-Supervised Speech Representation Model,” in ASRU. 2021, pp. 914–921, IEEE.

[9] Jiatong Shi, Dan Berrebbi, William Chen, Ho-Lam Chung, EnPei Hu, Wei Ping Huang, Xuankai Chang, Shang-Wen Li, Abdelrahman Mohamed, Hung-yi Lee, et al., “ML-SUPERB: Multilingual Speech Universal PERformance Benchmark,” in Interspeech. 2023, pp. 884–888, ISCA.

[10] Rosana Ardila, Megan Branson, Kelly Davis, Michael Kohler, Josh Meyer, Michael Henretty, Reuben Morais, Lindsay Saunders, Francis M. Tyers, and Gregor Weber, “Common Voice: A Massively-Multilingual Speech Corpus,” in LREC. 2020, pp. 4218–4222, European Language Resources Association.

欢迎关注ASLP实验室微信公众号，获取更多语音研究相关资讯！

“打造最开放、最前沿、最落地的人工智能实验室”

http://mp.weixin.qq.com/s?__biz=MzA3NTQzNzM1Ng==&mid=2648427767&idx=1&sn=e889777b3160f0c461d0559a73ac767e

音频语音与语言处理研究组

发布关于音频语音与语言处理研究组的最新研究成果、技术分享、新闻动态和活动等。

最新文章

IEEE SPL | StreamVoice+：端到端流式零样本语音转换

西工大ASLP实验室第五届年度聚会在西安成功举办！

这个国庆假期圈儿里都发生了啥？听一段对话缓(Jia?)解(Ju?)你的焦虑。

IEEE SLT2024 ｜ DualSep：用于实时车载语音分离的轻量级双编码器卷积递归网络

IEEE SLT2024 | StutteringSpeech：普通话口吃事件检测和自动语音识别挑战赛总结

IEEE SLT2024 | 源说话人追踪挑战赛（SSTC）NPU-TeleAI 联队冠军方案分享

科研快讯｜IEEE TASLP：音色和风格灵活组合的零样本音色克隆模型U-Style

IEEE SLT2024 | 低资源构音障碍语音唤醒挑战赛（LRDWWS）ASLP-小米联队冠军方案

INTERSPEECH2024 | SCDNet: 基于自监督学习表征的说话人转换检测

喜报！西工大-腾讯联队在CHiME-8 NOTSOFAR与MMCSG竞赛中取得佳绩

ACM MM | UniStyle: 联合说话风格描述和风格化语音生成的风格建模

INTERSPEECH2024 | 迈向无需复习低遗忘的语音识别模型微调：基于LoRA和Whisper的探究

INTERSPEECH 2024｜基于转录提示的高效音频大语言模型鲁棒语音识别

INTERSPEECH2024|文本和上下文感知的高表现力有声书合成

喜报！西工大ASLP实验室夺冠NCMMSC2024第二届视觉语音识别挑战赛

INTERSPEECH2024 | Vec-Tok-VC+: 双重训练策略下基于渐进式损失约束和残差增强的鲁棒零样本语音转换

INTERSPEECH2024 | 利用分层韵律建模实现富有表现力的零样本语音合成

IEEE SPL | Distil-DCCRN：利用特征知识蒸馏技术的小型DCCRN语音增强模型

INTERSPEECH2024 | AS-70: 用于语音识别和口吃事件检测的中文口吃语音数据集

INTERSPEECH2024 | RaD-Net 2：基于因果性蒸馏和复数轴向自注意力机制的两阶段音质修复模型

IEEE SPL | MMGER：利用大语言模型改进口音和语音识别的多模态多粒度生成式错误纠正方法

INTERSPEECH2024 | BS-PLCNet2: 利用模型内蒸馏的两阶段分频带丢包补偿网络

INTERSPEECH2024 | FreeV: 使用梅尔滤波器的伪逆矩阵，一行代码提升声码器性能

INTERSPEECH2024 | DualVC 3：利用LM生成伪上下文的端到端低延迟流式语音转换

Speech Com | Whisper-SV：将Whisper自适应于低数据资源的说话人验证

Interspeech2024｜基于离散语音单元的流式解码器语音识别

挑战赛结果公布 | ISCSLP2024 对话语音克隆挑战赛（CoVoC）

INTERSPEECH2024 | WenetSpeech4TTS: 12800小时中文大规模语音生成模型训练数据集

INTERSPEECH2024 | Single-Codec: 面向高性能语音合成的单码本语音编解码器

Demo | 基于大模型的超拟人TTS

2024年ASLP实验室“人工智能落地计划”暑期实习开启报名啦！

NPU-ASLP实验室14篇论文被Interspeech2024 录用

ACL2024 | StreamVoice：基于流式上下文感知语言建模的实时零样本语音转换

ISCSLP2024 对话语音克隆挑战赛（CoVoC）

IEEE TASLP | 基于奇异值分解辅助矩阵的说话人匿名

IEEE TASLP | 基于多层级时序-通道说话人检索的零样本语音转换

GPT-4o, 语音的 ChatGPT 时刻终于来了！

ICME2024｜利用多编码器和多系统融合提高唇语识别性能

ICME2024｜利用自监督模型层级表征进行多语种语音识别

基于LLM的语音识别——在1.1万小时开源中文数据上的探索

ICME2024 | 基于半监督对比学习的表现力语音合成

IEEE TASLP | 基于文本-语音跨模态表征的对话语音识别

IEEE TASLP | METTS：基于跨说话人跨语种情感迁移的多语种情感语音合成

ICASSP2024 | ICMC-ASR 车载多通道语音识别挑战赛总结

ICASSP2024 | 面向多种阵列拓扑的多通道语音识别模型：自动通道选择和空间特征融合

ICASSP2024 | MLCA-AVSR: 基于多层交叉注意力机制的视听语音识别

ICASSP2024 | SELM: 基于离散表征和语言模型的语音增强

ASLP实验室祝您新春快乐～～ 1+10+13+58+68 = 成果丰硕的一年！

ICASSP2024 | 基于音频质量的多策略目标说话人提取

ICASSP2024 | SponTTS: 面向自发风格的语音合成与风格迁移

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉