IEEE TASLP | METTS：基于跨说话人跨语种情感迁移的多语种情感语音合成

文摘科技 2024-03-20 10:43 陕西

人类语音传达丰富的情感，不同地区和文化的人们在情感表达上既有相似之处又展现独特风采。多语种情感语音合成（Multilingual Emotional Speech Synthesis）的目标是为每位说话人提供多语言且情感丰富的表达能力，尤其是当原始说话人仅使用单一语言且表达单一情感时。然而，实现多语种情感语音合成面临着外语口音、语音内蕴含的因素交织以及情感表达多样性的挑战。

最近，西工大音频语音与语言处理研究组（ASLP@NPU）与喜马拉雅合作的论文“METTS: Multilingual Emotional Text-to-Speech by Cross-Speaker and Cross-Lingual Emotion Transfer”在语音研究领域顶级期刊IEEE/ACM Transactions on Audio, Speech and Language Processing (TASLP)上发表，该论文针对上述问题开展了深入研究。通过在不同尺度上建模语种无关和语音特定的情感表达，解耦了语音中的不同因素，并引入了基于文本的情感匹配；实现了让单语种说话人能够自然而丰富地表达双语情感。现对该论文进行简要的解读和分享。

论文题目：METTS: Multilingual Emotional Text-to-Speech by Cross-Speaker and Cross-Lingual Emotion Transfer

作者列表：朱新发，雷怡，李涛，张雍茂，周鸿斌，卢恒，谢磊

发表期刊：IEEE/ACM Transactions on Audio, Speech and Language Processing

合作单位：喜马拉雅

论文原文：https://ieeexplore.ieee.org/document/10423864

发表论文截图

扫码直接看论文

背景动机

在神经网络文语转换（TTS）技术的飞速发展中，合成语音的质量和自然度方面的显著进步。TTS在有声读物、配音和AI数字人等领域的广泛应用中，对合成语音表现力的要求日益提高。典型的TTS系统通过录制高质量语音数据并训练语音合成模型[1,2,3]来满足这一需求。然而，当我们希望TTS系统生成具有真人般丰富情感表达的多语种语音时，录制此类数据变得十分困难。因此，本文专注于多语种情感语音合成场景，提出了一种基于跨说话人和跨语种情感迁移方法，以提高数据利用效率。然而，建立这样一个多语种语音合成系统面临三个挑战。

外语口音问题： 不同语种的发音方式千差万别。在跨语种合成语音时，说话人原始语种的发音方式会影响“第二语言”的表达，导致外语口音问题，尤其在情感表达复杂的情境下更为严重。
因素纠缠问题： 语音合成中，语种发音特点、说话人音色和情感表达高度耦合。在迁移其他人的情感表达时，很容易同时迁移说话人音色，导致合成语音音色发生变化。
情感表达的多样性与控制问题： 在合成情感语音时，通过情感ID或参考语音控制情感是可行的。然而，人类情感表达丰富多样，因此合成多样化的情感语音并灵活控制生成语音的情感是一项巨大的挑战。

为了解决这些挑战，本文在DelightfulTTS [4]架构基础上，实现了一个多语种情感语音合成（METTS）系统。我们引入多尺度的情感建模来解决口音问题，通过粗粒度表征建模语言不可知的情感表达，细粒度表征建模语言特定的情感表达。通过在多尺度的建模中引入信息扰动的方法，成功解耦了说话人音色。最后，我们设计了基于矢量量化的情感匹配器，使其能够基于文本匹配合适的情感表达。相比情感ID，这一匹配器提升了情感表达的多样性；相比参考语音，避免了人工选择的弊端。通过这些设计，METTS实现了从参考语音中合成迁移情感表达（METTS-REF）和根据文本匹配情感表达（METTS-ID）。METTS在中英数据上进行了广泛的实验和评估，结果表明METTS在多语种情感语音合成方面取得了显著成就。

提出的方案

如图1所示，METTS以Delightful TTS为主干，增加了粗粒度情感提取模块、细粒度情感提取模块、情感情感预测模块和语音扰动模块。其中粗粒度情感提取拥有两个分支，从参考语音中提取和基于文本匹配的方式提取；对应介绍中设计的两个目标。

图1 本文模型结构

多尺度情感建模: 本文利用全局风格令牌（global style token，GST） [5]建模组粒度情感表征，并对其提取的情感表达做模长归一化，提升表征的泛化能力。GST能将不同语种的情感表达映射到相同的全局令牌上，实现语种不可知的建模。此外，本文利用条件变分自编码器（conditional variational autoencoder，CVAE）建模细粒度情感表征，并基于流模型进行预测。CVAE的条件是多语种的文本，建立与文本相关的情感表达，实现语种特定的情感建模。我们使用半监督的情感分类器[6]，确保上述方法建模情感相关的表达。

基于信息扰动的说话人解耦: 多尺度情感建模中，情感和语种之间的关系已经明确。为了让跨说话人跨语种的情感迁移顺利进行，必须解耦表征中的说话人音色。因此，我们在训练中实时对参考语音进行共振峰扰动。语音频谱中的共振峰与说话人音色存在极强的相关性。因此扰动共振峰可以避免多尺度情感表征中包含与音色相关的属性。

基于矢量量化的情感匹配器: 按照前两个设计训练的模型可以从参考语音中迁移情感合成语音。为了实现更灵活的情感控制，本文在模型训练完成之后增加了微调阶段。具体的，我们首先提取训练集内所有音频的组粒度情感表征和伪情感ID，根据伪情感ID对表征进行分类。然后，对每个情感类别的表征做矢量量化，采用k-means对情感空间进行均匀划分得到情感表征候选池，即情感码本。矢量量化提取了核心情感表达的同时简化了文本匹配情感的难度。最后在指定情感ID的条件下，输入的文本表征通过多层感知机与码本计算相关系数计算公式如式（1）所示。我们对相关系数使用分类器进行约束，确保相关系数最高的码本向量即为最合适的情感表达。

CC(V_{t},E_{c}) = \text{softmax}\left(\frac{V_{t}E_{c}^T}{\sqrt{d_{E_C}}}\right)

（1）

图2 情感提取器结构

方法流程：METTS系统分为预训练、微调和推理三个部分。

步骤一：预训练。以公式(2)为目标训练METTS-REF。

$\mathcal{L}_{\mathrm{pretrain}} = 0.05 * \mathcal{L}_{\mathrm{kl}} + \mathcal{L}_{\mathrm{prosody}} + 0.1 * \mathcal{L}_{\mathrm{emo}} + \mathcal{L}_{\mathrm{ssim}}+ \mathcal{L}_{\mathrm{iter}}$ （2）

步骤二：微调。提取训练集内音频组粒度表征，矢量量化，以公式（3）为目标微调METTS-ID。

$\mathcal{L}_{\mathrm{finetune}} = \mathcal{L}_{\mathrm{match}} + \mathcal{L}_{\mathrm{disc}} + \mathcal{L}_{\mathrm{base^{'}}}$ （3）

步骤三：推理。输入文本、说话人ID、情感ID，METTS会自动匹配合适的情感表达合成语音。输入文本、说话人ID、参考音频，METTS将迁移参考音频的情感表达合成语音。

实验验证

实验数据：1）中文数据集，共有两位说话人，七种情感表达，总计时长约21小时。2）英文数据集，共有两位说话人，只有中性的情感表达，总计时长约20小时。数据具体分布如表1所示。

表1 METTS数据分布情况

对比系统: 1）CET [7]，基于全局风格令牌与说话人条件层归一化的跨说话人情感迁移系统。2）M3 [8] 基于条件变分自编码器的多人多风格多语种语音合成系统。3）METTS-REF，提出的基于参考音频情感迁移的多语种情感语音合成系统。4）METTS-ID，提出的基于文本匹配情感表达的多语种情感语音合成系统。

主观测试：主观测试包含四个方面—整体自然度、口音、说话人相似度、情感相似度。四项均采用了MOS打分的方式，结果如表1、2所示。METTS系列优于对比模型。此外所有模型跨语种效果与同语种的效果相比会下降，然而METTS系列下降微弱。这些结果验证了提出的方法可以有效地合成多语种情感语音。具体的，CET在中文说话人说中文的时表现良好，而在其他情况下表现较差；这原因在于CET原本是应对同语种跨说话人情感迁移设计的，其全局情感表征难以捕捉多语种情感表征。M3通过对抗解耦情感表征的说话人和语种属性，然而语种、情感与说话人纠缠复杂，对抗训练十分不稳定；导致M3无法取得较好的结果。

为了进一步区分METTS-REF与METTS-ID的特性，本文在对两者在自然度、情感相似度和说话人相似度进了偏好测试。如图3所示，METTS-ID在自然度优于METTS-REF，这说明METTS-ID对情感匹配器根据当前文本匹配的情感表达更为自然。此外，METTS-REF的情感相似度优于METTS-ID，证明直接迁移参考音频的情感会带来与参考音频更高的情感相似度。两个模型在说话人相似度不分伯仲。

表2 中文说话人语音自然度、口音、情感相似度、说话人相似度和风格相似度主观测试结果（MOS）

表3 英文说话人语音自然度、口音、情感相似度、说话人相似度和风格相似度主观测试结果（MOS）

图3 METTS-REF与METTS-ID的偏好测试

客观测试：客观测试包含两个方面——字/词错误率和说话人余弦相似度。表4与表5的结果可以看出，提出的METTS系列取得了最高的说话人余弦相似度。在字错误率上CET取得了最佳的结果，显示其中文情感迁移的强大能力，然而其在英文上取得了较差的结果。相比之下，METTS取得了更平衡的表现；这说明其合成的语音清晰可懂。

表4 中文说话人字错误率、说话人余弦相似度客观测试结果（MOS）

表5 英文说话人字错误率、说话人余弦相似度客观测试结果（MOS）

可视化分析：本文对组粒度的情感表征进行聚类分析，其结果如图4所示。可以看到，按照情感染色时，中文的情感聚类较好，说明其有效地捕捉了情感信息。其英文情感散落在中文情感当中，体现了粗粒度情感表征的语种不可知性。进一步的，当按说话人染色时，颜色属于随机分布；有效地避免了音色泄漏。

图4 聚类分析——T-SNE可视化结果

消融分析：如表6、7、8、9所示，我们对模型中不同组件进行消融分析。针对METTS-REF，当移去粗粒度情感建模时，情感相似度严重下降，说明情感主要由粗粒度控制了情感的主要部分。去除细粒度情感建模之后，自然度大幅度下降，说明条件变分自编码器很好生成了与文本相符的情感表达。最后去除扰动模块，参考音频的音色泄漏到合成语音中，导致音色相似度大幅度降低。

针对METTS-ID，情感候选池到大小关乎情感多样性与文本匹配难度，因此我们测试不同情感候选池大小对结果的影响。如表8月表9所示，情感候选池越小，匹配的准确率越高，然而多样性就越受限。综合各种指标，当候选池大小为64时取得了最平衡的表现。

表6 METTS-REF消融实验结果（中文说话人）

表7 METTS-REF消融实验结果（英文说话人）

表8 METTS-ID消融实验结果（中文说话人）

表9 METTS-ID消融实验结果（英文说话人）

样例展示

第一组：“可恶的恶魔！你胡作非为，竟敢抓走公主！”

目标：英文说话人说中文，情感为愤怒。

目标说话人语音

METTS-REF

METTS-ID

第二组：“她对恶魔说，求求你，千万不要伤害公主，我什么都可以给你”。

目标：英文说话人说中文，情感为悲伤。

目标说话人语音

METTS-REF

METTS-ID

更多样例：https://anonymous-rep0.github.io/METTS/

参考文献

[1] Y. Lei, S. Yang, X. Wang, and L. Xie, “MsEmoTTs: Multi-scale emotion transfer, prediction, and control for emotional speech synthesis,” IEEE/ACM Trans. Audio, Speech, Lang. Process., vol. 30, pp. 853–864, 2022.

[2] Y. Ren, X. Tan, T. Qin, Z. Zhao, and T. Liu, “Revisiting over-smoothness in text to speech,” in Proc. 60th Annu. Meeting Assoc. Comput. Linguistics, 2022, pp. 8197–8213.

[3] D. Min, D. B. Lee, E. Yang, and S. J. Hwang, “Meta-style speech: Multispeaker adaptive text-to-speech generation,” in Proc. 38th Int. Conf. Mach. Learn., 2021, pp. 7748–7759.

[4] Y. Liu et al., “DelightfulTTs: The Microsoft speech synthesis system for blizzard challenge 2021,” 2021, arXiv:2110.12612.

[5] Y. Wang et al., “Style tokens: Unsupervised style modeling, control and transfer in end-to-end speech synthesis,” in Proc. 35th Int. Conf. Mach. Learn., 2018, pp. 5167–5176.

[6] X. Zhu, Y. Lei, K. Song, Y. Zhang, T. Li, and L. Xie, “Multi-speaker expressive speech synthesis via multiple factors decoupling,” in IEEE International Conference on Acoustics, Speech and Signal Processing ICASSP 2023, Rhodes Island, Greece, June 4-10, 2023. IEEE, 2023, pp. 1–5.

[7] P. Wu et al., “Cross-speaker emotion transfer based on speaker condition layer normalization and semi-supervised training in text-to-speech,” 2021, arXiv:2110.04153.

[8] Z. Shang, Z. Huang, H. Zhang, P. Zhang, and Y. Yan, “Incorporating cross speaker style transfer for multi-language text-to-speech,” in Proc. 22nd Annu. Conf. Int. Speech Commun. Assoc., 2021, pp. 1619–1623.

欢迎关注ASLP实验室微信公众号，获取更多语音研究相关资讯！

“打造最开放、最前沿、最落地的人工智能实验室”

http://mp.weixin.qq.com/s?__biz=MzA3NTQzNzM1Ng==&mid=2648427641&idx=1&sn=896bce69aca87ebefb008e8fea0f692b

音频语音与语言处理研究组

发布关于音频语音与语言处理研究组的最新研究成果、技术分享、新闻动态和活动等。

最新文章

IEEE SPL | StreamVoice+：端到端流式零样本语音转换

西工大ASLP实验室第五届年度聚会在西安成功举办！

这个国庆假期圈儿里都发生了啥？听一段对话缓(Jia?)解(Ju?)你的焦虑。

IEEE SLT2024 ｜ DualSep：用于实时车载语音分离的轻量级双编码器卷积递归网络

IEEE SLT2024 | StutteringSpeech：普通话口吃事件检测和自动语音识别挑战赛总结

IEEE SLT2024 | 源说话人追踪挑战赛（SSTC）NPU-TeleAI 联队冠军方案分享

科研快讯｜IEEE TASLP：音色和风格灵活组合的零样本音色克隆模型U-Style

IEEE SLT2024 | 低资源构音障碍语音唤醒挑战赛（LRDWWS）ASLP-小米联队冠军方案

INTERSPEECH2024 | SCDNet: 基于自监督学习表征的说话人转换检测

喜报！西工大-腾讯联队在CHiME-8 NOTSOFAR与MMCSG竞赛中取得佳绩

ACM MM | UniStyle: 联合说话风格描述和风格化语音生成的风格建模

INTERSPEECH2024 | 迈向无需复习低遗忘的语音识别模型微调：基于LoRA和Whisper的探究

INTERSPEECH 2024｜基于转录提示的高效音频大语言模型鲁棒语音识别

INTERSPEECH2024|文本和上下文感知的高表现力有声书合成

喜报！西工大ASLP实验室夺冠NCMMSC2024第二届视觉语音识别挑战赛

INTERSPEECH2024 | Vec-Tok-VC+: 双重训练策略下基于渐进式损失约束和残差增强的鲁棒零样本语音转换

INTERSPEECH2024 | 利用分层韵律建模实现富有表现力的零样本语音合成

IEEE SPL | Distil-DCCRN：利用特征知识蒸馏技术的小型DCCRN语音增强模型

INTERSPEECH2024 | AS-70: 用于语音识别和口吃事件检测的中文口吃语音数据集

INTERSPEECH2024 | RaD-Net 2：基于因果性蒸馏和复数轴向自注意力机制的两阶段音质修复模型

IEEE SPL | MMGER：利用大语言模型改进口音和语音识别的多模态多粒度生成式错误纠正方法

INTERSPEECH2024 | BS-PLCNet2: 利用模型内蒸馏的两阶段分频带丢包补偿网络

INTERSPEECH2024 | FreeV: 使用梅尔滤波器的伪逆矩阵，一行代码提升声码器性能

INTERSPEECH2024 | DualVC 3：利用LM生成伪上下文的端到端低延迟流式语音转换

Speech Com | Whisper-SV：将Whisper自适应于低数据资源的说话人验证

Interspeech2024｜基于离散语音单元的流式解码器语音识别

挑战赛结果公布 | ISCSLP2024 对话语音克隆挑战赛（CoVoC）

INTERSPEECH2024 | WenetSpeech4TTS: 12800小时中文大规模语音生成模型训练数据集

INTERSPEECH2024 | Single-Codec: 面向高性能语音合成的单码本语音编解码器

Demo | 基于大模型的超拟人TTS

2024年ASLP实验室“人工智能落地计划”暑期实习开启报名啦！

NPU-ASLP实验室14篇论文被Interspeech2024 录用

ACL2024 | StreamVoice：基于流式上下文感知语言建模的实时零样本语音转换

ISCSLP2024 对话语音克隆挑战赛（CoVoC）

IEEE TASLP | 基于奇异值分解辅助矩阵的说话人匿名

IEEE TASLP | 基于多层级时序-通道说话人检索的零样本语音转换

GPT-4o, 语音的 ChatGPT 时刻终于来了！

ICME2024｜利用多编码器和多系统融合提高唇语识别性能

ICME2024｜利用自监督模型层级表征进行多语种语音识别

基于LLM的语音识别——在1.1万小时开源中文数据上的探索

ICME2024 | 基于半监督对比学习的表现力语音合成

IEEE TASLP | 基于文本-语音跨模态表征的对话语音识别

IEEE TASLP | METTS：基于跨说话人跨语种情感迁移的多语种情感语音合成

ICASSP2024 | ICMC-ASR 车载多通道语音识别挑战赛总结

ICASSP2024 | 面向多种阵列拓扑的多通道语音识别模型：自动通道选择和空间特征融合

ICASSP2024 | MLCA-AVSR: 基于多层交叉注意力机制的视听语音识别

ICASSP2024 | SELM: 基于离散表征和语言模型的语音增强

ASLP实验室祝您新春快乐～～ 1+10+13+58+68 = 成果丰硕的一年！

ICASSP2024 | 基于音频质量的多策略目标说话人提取

ICASSP2024 | SponTTS: 面向自发风格的语音合成与风格迁移

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉