人类语音传达丰富的情感,不同地区和文化的人们在情感表达上既有相似之处又展现独特风采。多语种情感语音合成(Multilingual Emotional Speech Synthesis)的目标是为每位说话人提供多语言且情感丰富的表达能力,尤其是当原始说话人仅使用单一语言且表达单一情感时。然而,实现多语种情感语音合成面临着外语口音、语音内蕴含的因素交织以及情感表达多样性的挑战。 最近,西工大音频语音与语言处理研究组(ASLP@NPU)与喜马拉雅合作的论文“METTS: Multilingual Emotional Text-to-Speech by Cross-Speaker and Cross-Lingual Emotion Transfer”在语音研究领域顶级期刊IEEE/ACM Transactions on Audio, Speech and Language Processing (TASLP)上发表,该论文针对上述问题开展了深入研究。通过在不同尺度上建模语种无关和语音特定的情感表达,解耦了语音中的不同因素,并引入了基于文本的情感匹配;实现了让单语种说话人能够自然而丰富地表达双语情感。现对该论文进行简要的解读和分享。
论文题目:METTS: Multilingual Emotional Text-to-Speech by Cross-Speaker and Cross-Lingual Emotion Transfer
作者列表:朱新发,雷怡,李涛,张雍茂,周鸿斌,卢恒,谢磊
发表期刊:IEEE/ACM Transactions on Audio, Speech and Language Processing
合作单位:喜马拉雅
论文原文:https://ieeexplore.ieee.org/document/10423864
发表论文截图
扫码直接看论文
背景动机
在神经网络文语转换(TTS)技术的飞速发展中,合成语音的质量和自然度方面的显著进步。TTS在有声读物、配音和AI数字人等领域的广泛应用中,对合成语音表现力的要求日益提高。典型的TTS系统通过录制高质量语音数据并训练语音合成模型[1,2,3]来满足这一需求。然而,当我们希望TTS系统生成具有真人般丰富情感表达的多语种语音时,录制此类数据变得十分困难。因此,本文专注于多语种情感语音合成场景,提出了一种基于跨说话人和跨语种情感迁移方法,以提高数据利用效率。然而,建立这样一个多语种语音合成系统面临三个挑战。
外语口音问题: 不同语种的发音方式千差万别。在跨语种合成语音时,说话人原始语种的发音方式会影响“第二语言”的表达,导致外语口音问题,尤其在情感表达复杂的情境下更为严重。
因素纠缠问题: 语音合成中,语种发音特点、说话人音色和情感表达高度耦合。在迁移其他人的情感表达时,很容易同时迁移说话人音色,导致合成语音音色发生变化。
情感表达的多样性与控制问题: 在合成情感语音时,通过情感ID或参考语音控制情感是可行的。然而,人类情感表达丰富多样,因此合成多样化的情感语音并灵活控制生成语音的情感是一项巨大的挑战。
为了解决这些挑战,本文在DelightfulTTS [4]架构基础上,实现了一个多语种情感语音合成(METTS)系统。我们引入多尺度的情感建模来解决口音问题,通过粗粒度表征建模语言不可知的情感表达,细粒度表征建模语言特定的情感表达。通过在多尺度的建模中引入信息扰动的方法,成功解耦了说话人音色。最后,我们设计了基于矢量量化的情感匹配器,使其能够基于文本匹配合适的情感表达。相比情感ID,这一匹配器提升了情感表达的多样性;相比参考语音,避免了人工选择的弊端。通过这些设计,METTS实现了从参考语音中合成迁移情感表达(METTS-REF)和根据文本匹配情感表达(METTS-ID)。METTS在中英数据上进行了广泛的实验和评估,结果表明METTS在多语种情感语音合成方面取得了显著成就。
提出的方案
图1 本文模型结构
多尺度情感建模: 本文利用全局风格令牌(global style token,GST) [5]建模组粒度情感表征,并对其提取的情感表达做模长归一化,提升表征的泛化能力。GST能将不同语种的情感表达映射到相同的全局令牌上,实现语种不可知的建模。此外,本文利用条件变分自编码器(conditional variational autoencoder,CVAE)建模细粒度情感表征,并基于流模型进行预测。CVAE的条件是多语种的文本,建立与文本相关的情感表达,实现语种特定的情感建模。我们使用半监督的情感分类器[6],确保上述方法建模情感相关的表达。
基于信息扰动的说话人解耦: 多尺度情感建模中,情感和语种之间的关系已经明确。为了让跨说话人跨语种的情感迁移顺利进行,必须解耦表征中的说话人音色。因此,我们在训练中实时对参考语音进行共振峰扰动。语音频谱中的共振峰与说话人音色存在极强的相关性。因此扰动共振峰可以避免多尺度情感表征中包含与音色相关的属性。
方法流程:METTS系统分为预训练、微调和推理三个部分。
步骤一:预训练。以公式(2)为目标训练METTS-REF。
步骤二:微调。提取训练集内音频组粒度表征,矢量量化,以公式(3)为目标微调METTS-ID。
步骤三:推理。输入文本、说话人ID、情感ID,METTS会自动匹配合适的情感表达合成语音。输入文本、说话人ID、参考音频,METTS将迁移参考音频的情感表达合成语音。
实验验证
对比系统: 1)CET [7],基于全局风格令牌与说话人条件层归一化的跨说话人情感迁移系统。2)M3 [8] 基于条件变分自编码器的多人多风格多语种语音合成系统。3)METTS-REF,提出的基于参考音频情感迁移的多语种情感语音合成系统。4)METTS-ID,提出的基于文本匹配情感表达的多语种情感语音合成系统。
主观测试:主观测试包含四个方面—整体自然度、口音、说话人相似度、情感相似度。四项均采用了MOS打分的方式,结果如表1、2所示。METTS系列优于对比模型。此外所有模型跨语种效果与同语种的效果相比会下降,然而METTS系列下降微弱。这些结果验证了提出的方法可以有效地合成多语种情感语音。具体的,CET在中文说话人说中文的时表现良好,而在其他情况下表现较差;这原因在于CET原本是应对同语种跨说话人情感迁移设计的,其全局情感表征难以捕捉多语种情感表征。M3通过对抗解耦情感表征的说话人和语种属性,然而语种、情感与说话人纠缠复杂,对抗训练十分不稳定;导致M3无法取得较好的结果。
图3 METTS-REF与METTS-ID的偏好测试
表4 中文说话人字错误率、说话人余弦相似度客观测试结果(MOS)
可视化分析:本文对组粒度的情感表征进行聚类分析,其结果如图4所示。可以看到,按照情感染色时,中文的情感聚类较好,说明其有效地捕捉了情感信息。其英文情感散落在中文情感当中,体现了粗粒度情感表征的语种不可知性。进一步的,当按说话人染色时,颜色属于随机分布;有效地避免了音色泄漏。
消融分析:如表6、7、8、9所示,我们对模型中不同组件进行消融分析。针对METTS-REF,当移去粗粒度情感建模时,情感相似度严重下降,说明情感主要由粗粒度控制了情感的主要部分。去除细粒度情感建模之后,自然度大幅度下降,说明条件变分自编码器很好生成了与文本相符的情感表达。最后去除扰动模块,参考音频的音色泄漏到合成语音中,导致音色相似度大幅度降低。
表6 METTS-REF消融实验结果(中文说话人)
表7 METTS-REF消融实验结果(英文说话人)
表8 METTS-ID消融实验结果(中文说话人)
表9 METTS-ID消融实验结果(英文说话人)
样例展示
第一组:“可恶的恶魔!你胡作非为,竟敢抓走公主!”
目标:英文说话人说中文,情感为愤怒。
目标:英文说话人说中文,情感为悲伤。
更多样例:https://anonymous-rep0.github.io/METTS/
参考文献
[1] Y. Lei, S. Yang, X. Wang, and L. Xie, “MsEmoTTs: Multi-scale emotion transfer, prediction, and control for emotional speech synthesis,” IEEE/ACM Trans. Audio, Speech, Lang. Process., vol. 30, pp. 853–864, 2022.
[2] Y. Ren, X. Tan, T. Qin, Z. Zhao, and T. Liu, “Revisiting over-smoothness in text to speech,” in Proc. 60th Annu. Meeting Assoc. Comput. Linguistics, 2022, pp. 8197–8213.
[3] D. Min, D. B. Lee, E. Yang, and S. J. Hwang, “Meta-style speech: Multispeaker adaptive text-to-speech generation,” in Proc. 38th Int. Conf. Mach. Learn., 2021, pp. 7748–7759.
[4] Y. Liu et al., “DelightfulTTs: The Microsoft speech synthesis system for blizzard challenge 2021,” 2021, arXiv:2110.12612.
[5] Y. Wang et al., “Style tokens: Unsupervised style modeling, control and transfer in end-to-end speech synthesis,” in Proc. 35th Int. Conf. Mach. Learn., 2018, pp. 5167–5176.
[6] X. Zhu, Y. Lei, K. Song, Y. Zhang, T. Li, and L. Xie, “Multi-speaker expressive speech synthesis via multiple factors decoupling,” in IEEE International Conference on Acoustics, Speech and Signal Processing ICASSP 2023, Rhodes Island, Greece, June 4-10, 2023. IEEE, 2023, pp. 1–5.
[7] P. Wu et al., “Cross-speaker emotion transfer based on speaker condition layer normalization and semi-supervised training in text-to-speech,” 2021, arXiv:2110.04153.
[8] Z. Shang, Z. Huang, H. Zhang, P. Zhang, and Y. Yan, “Incorporating cross speaker style transfer for multi-language text-to-speech,” in Proc. 22nd Annu. Conf. Int. Speech Commun. Assoc., 2021, pp. 1619–1623.
欢迎关注ASLP实验室微信公众号,获取更多语音研究相关资讯!
“打造最开放、最前沿、最落地的人工智能实验室”