IEEE TASLP | METTS:基于跨说话人跨语种情感迁移的多语种情感语音合成

文摘   科技   2024-03-20 10:43   陕西  
人类语音传达丰富的情感,不同地区和文化的人们在情感表达上既有相似之处又展现独特风采。多语种情感语音合成(Multilingual Emotional Speech Synthesis)的目标是为每位说话人提供多语言且情感丰富的表达能力,尤其是当原始说话人仅使用单一语言且表达单一情感时。然而,实现多语种情感语音合成面临着外语口音、语音内蕴含的因素交织以及情感表达多样性的挑战。

近,西工大音频语音与语言处理研究组(ASLP@NPU)与喜马拉雅合作的论文“METTS: Multilingual Emotional Text-to-Speech by Cross-Speaker and Cross-Lingual Emotion Transfer”在语音研究领域顶级期刊IEEE/ACM Transactions on Audio, Speech and Language Processing (TASLP)上发表,该论文针对上述问题开展了深入研究。通过在不同尺度上建模语种无关和语音特定的情感表达,解耦了语音中的不同因素,并引入了基于文本的情感匹配;实现了让单语种说话人能够自然而丰富地表达双语情感。现对该论文进行简要的解读和分享。


论文题目:METTS: Multilingual Emotional Text-to-Speech by Cross-Speaker and Cross-Lingual Emotion Transfer

作者列表:朱新发,雷怡,李涛,张雍茂,周鸿斌,卢恒,谢磊

发表期刊:IEEE/ACM Transactions on Audio, Speech and Language Processing

合作单位:喜马拉雅

论文原文:https://ieeexplore.ieee.org/document/10423864


发表论文截图

扫码直接看论文

背景动机

在神经网络文语转换(TTS)技术的飞速发展中,合成语音的质量和自然度方面的显著进步。TTS在有声读物、配音和AI数字人等领域的广泛应用中,对合成语音表现力的要求日益提高。典型的TTS系统通过录制高质量语音数据并训练语音合成模型[1,2,3]来满足这一需求。然而,当我们希望TTS系统生成具有真人般丰富情感表达的多语种语音时,录制此类数据变得十分困难。因此,本文专注于多语种情感语音合成场景,提出了一种基于跨说话人和跨语种情感迁移方法,以提高数据利用效率。然而,建立这样一个多语种语音合成系统面临三个挑战。

  1. 外语口音问题: 不同语种的发音方式千差万别。在跨语种合成语音时,说话人原始语种的发音方式会影响“第二语言”的表达,导致外语口音问题,尤其在情感表达复杂的情境下更为严重。

  2. 因素纠缠问题: 语音合成中,语种发音特点、说话人音色和情感表达高度耦合。在迁移其他人的情感表达时,很容易同时迁移说话人音色,导致合成语音音色发生变化。

  3. 情感表达的多样性与控制问题: 在合成情感语音时,通过情感ID或参考语音控制情感是可行的。然而,人类情感表达丰富多样,因此合成多样化的情感语音并灵活控制生成语音的情感是一项巨大的挑战。

为了解决这些挑战,本文在DelightfulTTS [4]架构基础上,实现了一个多语种情感语音合成(METTS)系统。我们引入多尺度的情感建模来解决口音问题,通过粗粒度表征建模语言不可知的情感表达,细粒度表征建模语言特定的情感表达。通过在多尺度的建模中引入信息扰动的方法,成功解耦了说话人音色。最后,我们设计了基于矢量量化的情感匹配器,使其能够基于文本匹配合适的情感表达。相比情感ID,这一匹配器提升了情感表达的多样性;相比参考语音,避免了人工选择的弊端。通过这些设计,METTS实现了从参考语音中合成迁移情感表达(METTS-REF)和根据文本匹配情感表达(METTS-ID)。METTS在中英数据上进行了广泛的实验和评估,结果表明METTS在多语种情感语音合成方面取得了显著成就。

提出的方案

如图1所示,METTS以Delightful TTS为主干,增加了粗粒度情感提取模块、细粒度情感提取模块、情感情感预测模块和语音扰动模块。其中粗粒度情感提取拥有两个分支,从参考语音中提取和基于文本匹配的方式提取;对应介绍中设计的两个目标。

图1 本文模型结构

多尺度情感建模: 本文利用全局风格令牌(global style token,GST) [5]建模组粒度情感表征,并对其提取的情感表达做模长归一化,提升表征的泛化能力。GST能将不同语种的情感表达映射到相同的全局令牌上,实现语种不可知的建模。此外,本文利用条件变分自编码器(conditional variational autoencoder,CVAE)建模细粒度情感表征,并基于流模型进行预测。CVAE的条件是多语种的文本,建立与文本相关的情感表达,实现语种特定的情感建模。我们使用半监督的情感分类器[6],确保上述方法建模情感相关的表达。

基于信息扰动的说话人解耦: 多尺度情感建模中,情感和语种之间的关系已经明确。为了让跨说话人跨语种的情感迁移顺利进行,必须解耦表征中的说话人音色。因此,我们在训练中实时对参考语音进行共振峰扰动。语音频谱中的共振峰与说话人音色存在极强的相关性。因此扰动共振峰可以避免多尺度情感表征中包含与音色相关的属性。

基于矢量量化的情感匹配器:  按照前两个设计训练的模型可以从参考语音中迁移情感合成语音。为了实现更灵活的情感控制,本文在模型训练完成之后增加了微调阶段。具体的,我们首先提取训练集内所有音频的组粒度情感表征和伪情感ID,根据伪情感ID对表征进行分类。然后,对每个情感类别的表征做矢量量化,采用k-means对情感空间进行均匀划分得到情感表征候选池,即情感码本。矢量量化提取了核心情感表达的同时简化了文本匹配情感的难度。最后在指定情感ID的条件下,输入的文本表征通过多层感知机与码本计算相关系数计算公式如式(1)所示。我们对相关系数使用分类器进行约束,确保相关系数最高的码本向量即为最合适的情感表达。
  (1)

图2 情感提取器结构

方法流程:METTS系统分为预训练、微调和推理三个部分。

步骤一:预训练。以公式(2)为目标训练METTS-REF。

  (2)

步骤二:微调。提取训练集内音频组粒度表征,矢量量化,以公式(3)为目标微调METTS-ID。

  (3)

步骤三:推理。输入文本、说话人ID、情感ID,METTS会自动匹配合适的情感表达合成语音。输入文本、说话人ID、参考音频,METTS将迁移参考音频的情感表达合成语音。

实验验证

实验数据:1)中文数据集,共有两位说话人,七种情感表达,总计时长约21小时。2)英文数据集,共有两位说话人,只有中性的情感表达,总计时长约20小时。数据具体分布如表1所示。
表1 METTS数据分布情况

对比系统: 1)CET [7],基于全局风格令牌与说话人条件层归一化的跨说话人情感迁移系统。2)M3 [8] 基于条件变分自编码器的多人多风格多语种语音合成系统。3)METTS-REF,提出的基于参考音频情感迁移的多语种情感语音合成系统。4)METTS-ID,提出的基于文本匹配情感表达的多语种情感语音合成系统。

主观测试:主观测试包含四个方面—整体自然度、口音、说话人相似度、情感相似度。四项均采用了MOS打分的方式,结果如表1、2所示。METTS系列优于对比模型。此外所有模型跨语种效果与同语种的效果相比会下降,然而METTS系列下降微弱。这些结果验证了提出的方法可以有效地合成多语种情感语音。具体的,CET在中文说话人说中文的时表现良好,而在其他情况下表现较差;这原因在于CET原本是应对同语种跨说话人情感迁移设计的,其全局情感表征难以捕捉多语种情感表征。M3通过对抗解耦情感表征的说话人和语种属性,然而语种、情感与说话人纠缠复杂,对抗训练十分不稳定;导致M3无法取得较好的结果。

为了进一步区分METTS-REF与METTS-ID的特性,本文在对两者在自然度、情感相似度和说话人相似度进了偏好测试。如图3所示,METTS-ID在自然度优于METTS-REF,这说明METTS-ID对情感匹配器根据当前文本匹配的情感表达更为自然。此外,METTS-REF的情感相似度优于METTS-ID,证明直接迁移参考音频的情感会带来与参考音频更高的情感相似度。两个模型在说话人相似度不分伯仲。
表2 中文说话人语音自然度、口音、情感相似度、说话人相似度和风格相似度主观测试结果(MOS)
表3 英文说话人语音自然度、口音、情感相似度、说话人相似度和风格相似度主观测试结果(MOS)

图3 METTS-REF与METTS-ID的偏好测试

客观测试:客观测试包含两个方面——字/词错误率和说话人余弦相似度。表4与表5的结果可以看出,提出的METTS系列取得了最高的说话人余弦相似度。在字错误率上CET取得了最佳的结果,显示其中文情感迁移的强大能力,然而其在英文上取得了较差的结果。相比之下,METTS取得了更平衡的表现;这说明其合成的语音清晰可懂。

表4 中文说话人字错误率、说话人余弦相似度客观测试结果(MOS)

表5 英文说话人字错误率、说话人余弦相似度客观测试结果(MOS)

可视化分析:本文对组粒度的情感表征进行聚类分析,其结果如图4所示。可以看到,按照情感染色时,中文的情感聚类较好,说明其有效地捕捉了情感信息。其英文情感散落在中文情感当中,体现了粗粒度情感表征的语种不可知性。进一步的,当按说话人染色时,颜色属于随机分布;有效地避免了音色泄漏。

图4 聚类分析——T-SNE可视化结果

消融分析:如表6、7、8、9所示,我们对模型中不同组件进行消融分析。针对METTS-REF,当移去粗粒度情感建模时,情感相似度严重下降,说明情感主要由粗粒度控制了情感的主要部分。去除细粒度情感建模之后,自然度大幅度下降,说明条件变分自编码器很好生成了与文本相符的情感表达。最后去除扰动模块,参考音频的音色泄漏到合成语音中,导致音色相似度大幅度降低。

针对METTS-ID,情感候选池到大小关乎情感多样性与文本匹配难度,因此我们测试不同情感候选池大小对结果的影响。如表8月表9所示,情感候选池越小,匹配的准确率越高,然而多样性就越受限。综合各种指标,当候选池大小为64时取得了最平衡的表现。

表6 METTS-REF消融实验结果(中文说话人)

表7 METTS-REF消融实验结果(英文说话人)

表8 METTS-ID消融实验结果(中文说话人)

表9 METTS-ID消融实验结果(英文说话人)

样例展示

第一组:“可恶的恶魔!你胡作非为,竟敢抓走公主!”

目标:英文说话人说中文,情感为愤怒。

目标说话人语音
METTS-REF
METTS-ID


第二组:“她对恶魔说,求求你,千万不要伤害公主,我什么都可以给你”。

目标英文说话人说中文,情感为悲伤。

目标说话人语音
METTS-REF
METTS-ID

更多样例:https://anonymous-rep0.github.io/METTS/

参考文献

[1] Y. Lei, S. Yang, X. Wang, and L. Xie, “MsEmoTTs: Multi-scale emotion transfer, prediction, and control for emotional speech synthesis,” IEEE/ACM Trans. Audio, Speech, Lang. Process., vol. 30, pp. 853–864, 2022.

[2] Y. Ren, X. Tan, T. Qin, Z. Zhao, and T. Liu, “Revisiting over-smoothness in text to speech,” in Proc. 60th Annu. Meeting Assoc. Comput. Linguistics, 2022, pp. 8197–8213.

[3] D. Min, D. B. Lee, E. Yang, and S. J. Hwang, “Meta-style speech: Multispeaker adaptive text-to-speech generation,” in Proc. 38th Int. Conf. Mach. Learn., 2021, pp. 7748–7759.

[4] Y. Liu et al., “DelightfulTTs: The Microsoft speech synthesis system for blizzard challenge 2021,” 2021, arXiv:2110.12612.

[5] Y. Wang et al., “Style tokens: Unsupervised style modeling, control and transfer in end-to-end speech synthesis,” in Proc. 35th Int. Conf. Mach. Learn., 2018, pp. 5167–5176.

[6] X. Zhu, Y. Lei, K. Song, Y. Zhang, T. Li, and L. Xie, “Multi-speaker expressive speech synthesis via multiple factors decoupling,” in IEEE International Conference on Acoustics, Speech and Signal Processing ICASSP 2023, Rhodes Island, Greece, June 4-10, 2023. IEEE, 2023, pp. 1–5.

[7]  P. Wu et al., “Cross-speaker emotion transfer based on speaker condition layer normalization and semi-supervised training in text-to-speech,” 2021, arXiv:2110.04153.

[8] Z. Shang, Z. Huang, H. Zhang, P. Zhang, and Y. Yan, “Incorporating cross speaker style transfer for multi-language text-to-speech,” in Proc. 22nd Annu. Conf. Int. Speech Commun. Assoc., 2021, pp. 1619–1623.


欢迎关注ASLP实验室微信公众号,获取更多语音研究相关资讯!

“打造最开放、最前沿、最落地的人工智能实验室”


音频语音与语言处理研究组
发布关于音频语音与语言处理研究组的最新研究成果、技术分享、新闻动态和活动等。
 最新文章