ICME2024 | 基于半监督对比学习的表现力语音合成

文摘科技 2024-04-29 23:37 陕西

人类的语音极富表现力，不仅包括语调和重读，还包括风格和情感等多种元素。表现力语音合成的目标是要精准捕捉并再现这些元素。先前表现力语音合成方面的研究通常将表现力视为单一维度，如风格或情感。但实际上，风格可以随着文本和场景变化而变化，情感也可以根据态度和意图而有所不同。此外，还可能根据需要切换不同语种。因此，在表现力语音合成中，对风格、情感、音色和语种进行独立建模和控制，是一个极具研究价值的方向。

最近，西北工业大学音频语音与语言处理研究组（ASLP@NPU）发表的论文Boosting Multi-Speaker Expressive Speech Synthesis with Semi-supervised Contrastive Learning被2024年国际多媒体展览会（ICME 2024）接收。该论文提出了一种新颖的半监督对比学习方法，用于表现力语音合成。该方法能够解耦并重组风格、情感、音色和语种，生成极具表现力的语音。以下是对该论文的简要解读和分享。

论文题目：Boosting Multi-Speaker Expressive Speech Synthesis with Semi-supervised Contrastive Learning

作者列表：朱新发，李玉珂，雷怡，蒋宁，赵国庆，谢磊

合作单位：马上消费

论文原文：https://arxiv.org/abs/2310.17101

发表论文截图

扫码直接看论文

背景动机

在神经网络文语转换（Neural TTS）技术迅猛发展的今天，合成语音的质量和自然度取得了巨大的飞跃。TTS技术在有声读物、配音和AI数字人等领域的应用越来越广泛，对合成语音的表现力要求也越来越高。为了实现多说话人、多风格、多情感、多语种的表现力语音合成，迁移学习已成为主流方法[1,2,3]。而在迁移学习中，核心问题是如何解耦语音中的风格、情感、音色、语种等多个因素并在重组时保持语音的表现力。

在ICASSP 2023上，我们提出了一种创新的两阶段表现力语音合成方案[4]，通过不同说话人的表现力数据，实现了说话人、风格和情感的多因素解耦；即使在目标说话人没有表现力标注训练数据的情况下，也能合成具有风格和情感的语音。系统包括一个文本到风格和情感（Text2SE）模块和一个风格和情感到波形（SE2Wave）模块，通过神经网络瓶颈（BN）特征连接两者。为了解决多因素解耦问题，我们采用多标签二进制向量（MBV）和互信息（MI）最小化技术，离散化并解耦提取的语音表征。此外，我们引入了一种半监督训练策略，利用来自多个发音人的表现力数据，包括情感标注数据、风格标注数据和无标注数据。为了消除非并行迁移中的不匹配问题，我们通过引入参考候选池，提出了一种基于注意力机制的参考音频选择方法。

ICASSP2023 | 基于多因素解耦的高表现力语音合成

尽管之前的方案在中文上为目标说话人合成了极具表现力的语音，但它在英文上的表现不佳，发音错误较多，且两阶段的系统存在级联误差，影响了合成语音的自然度。针对这些问题，在本文中，我们进一步简化了框架，提出了一种基于半监督对比学习的表现力语音合成新方案。具体地，我们设计了一个语音表征提取模块，在不同层级进行对比学习，从而从语音中提取解耦的风格、情感、音色表征。此外，我们将半监督思想融入对比学习中，利用大量单一标注甚至无标注的数据来提升模型的表现。进一步地，我们将提取的语音表征嵌入到改进的VITS模型中，控制生成语音中的风格、情感与音色特征。在单一语种的中文数据集以及多语种的中英混合的数据集上，大量实验表明我们提出的方法可以实现语音中风格、情感、音色、语种的解耦与重组，为目标说话人合成自然、高表现力的双语多风格多情感语音。

提出的方案

本文方案主要由语音表征学习模块和表现力VITS模块组成。语音表征学习模块基于不同层级的对比学习从语音中提取解耦的风格、情感、音色表征。表现力VITS模块负责从文本中合成语音并受到语音表征的控制。

正负样例对构建: 本文从两个层级构建正负样例。在句子层面，同一句语音前后的不同语音切片互为正样例。在类别层面，相同类别互为正样例、不同类别互为负样例。依据上述规则，标签数据在句子和类别层面构建正负样例对；而无标注数据可以在句子层面构造正样例，它与其他数据的关系定义为不可知。

表征学习模块: 如图1所示，本文对一组语音用随机切片形成两个语音片段集合；表征学习模块用Hubert [5] 提取语音片段的隐层表征；之后送入到解码器中提取全局的语音表征。本文计算两个集合的语音表征余弦相似度矩阵，然后使正样例关系的余弦值向1靠近、负样例关系的余弦值向0靠近；对于不可知关系不做约束。此外，为了提升解耦能力，表现学习模块采用了互信息最小化来约束语音表征。

图1 表征学习模型结构

表现力VITS模块: 如图2所示，本文按照“先建模风格和情感再建模音色”的思想在指定位置嵌入表征学习模块提取的风格、情感、音色表征。为了提升可控性，本文用强制时长对齐和时长预测器替换了原始VITS的单调对齐搜索和随机时长预测器。此外，本文引入流模块的韵律适配器，提升合成语音的表现力细节。

图2 表现力VITS结构

实验验证

实验数据：实验数据来自五个数据集。1）CN30S3共有30位说话人，3种风格（诗歌朗诵、童话故事、小说），总计18.5小时中文语音。2）CN3E6共有3位中文说话人，六种情感（愤怒、害怕、高兴、悲伤、惊喜、中性），总计21.1小时。3）CN5U共有5位说话人，无风格情感标注，总计5.8小时中文语音。4）EN5U共有5位说话人，无风格情感标注，总计31.3小时英文语音。5）MIXU，爬取的900小时中英混合数据，无标签也无转录文本。

对比系统: 对比方案包括两个，一个是TESW[3]，两阶段表现力语音合成框架。另外一个是SCVITS[6]，采用对比学习的语音合成系统。

单语种测试：本文首先在CN30S3，CN3E6，和CN5U进行单语种实验。如表1所示，提出的方法取得了最优的自然度，最高的情感、音色、风格相似度，反映出其有效地解耦了情感、音色、风格，并实现了重组。此外，在移除表征学习模块最小化互信息结构，提取的方法仍然由于对比模型，验证了不同层级对比学习的优势。

表1 中文语音自然度、情感相似度、说话人相似度、风格相似度、字错误率、余弦相似度测试结果

多语种测试：本文其次在CN30S3，CN3E6，CN5U和EN5U上进行多语种实验。相比于表1，表2中的结果显示所有模型的性能都有所下降。TSEW由于中间表征是由中文预训练模型提取的，因此多语种自然度下降严重；SCVITS只能在有标注的中文数据上训练表征提取模型，因此合成的英文语音表现力较弱。提出的系统整体表现接近单语种的表现，验证了其可以有效地合成多语种表现力语音。此外，本文将大量无标注数据MIXU添加到表征学习阶段的训练集中，结果显示可以进一步提升模型表现，验证了半监督思想的有效性。

表2 双语语音自然度、情感相似度、说话人相似度、风格相似度、字错误率、词错误率、余弦相似度测试结果

可视化分析：本文对表征学习模块提取的风格、情感表征进行了聚类分析。单语种聚类分析如图3所示，虽然没有显式的分类约束，但风格、情感聚类良好，且无法按说话人属性聚类；这证明了表征学习模块可以有效地提取解耦的风格、情感表征。进一步的，为了探讨风格、情感表征与语种之间的关系，本文进行了多语种聚类分析。如图4所示，风格呈现语种区分的状态，而情感呈现语音无关的状态。本文分析基本情感表达比如高兴、悲伤每个语种都会有，而每个语种的发音习惯不同导致说话风格又有区分，从而造就了这种分布。

图3 单语种聚类分析——T-SNE可视化结果，上半子图为风格表征，下半子图为情感表征

图4 多语种聚类分析——T-SNE可视化结果，左子图为风格表征，右子图为情感表征

样例展示

第一组：“君不见，高堂明镜悲白发，朝如青丝暮成雪”。

目标风格：诗歌，目标情感：悲伤

目标说话人语音

论文结果

第二组：“山不厌高，海不厌深。周公吐哺，天下归心”。

目标风格：诗歌，目标情感：害怕

目标说话人语音

论文结果

第三组：“I'll build a house out of candy and gingerbread!”

目标风格：英文，目标情感：高兴

目标说话人语音

论文结果

第四组：“Hope is the thing with feathers that perches in the soul.”

目标风格：英文，目标情感：悲伤

目标说话人语音

论文结果

更多样例：https://zxf-icpc.github.io/MSES/

参考文献

[1] Yi Lei, Shan Yang, Xinsheng Wang, and Lei Xie, “Msemotts: Multi-scale emotion transfer, prediction, and control for emotional speech synthesis,” IEEE ACM Trans. Audio Speech Lang. Process., vol. 30, pp. 853–864, 2022

[2] Tao Li, Xinsheng Wang, Qicong Xie, Zhichao Wang, and Lei Xie, “Cross-speaker emotion disentangling and transfer for end-to-end speech synthesis,” IEEE ACM Trans. Audio Speech Lang. Process., vol. 30, pp. 1448–1460, 2022.

[3] Xinfa Zhu, Yi Lei, Kun Song, Yongmao Zhang, Tao Li, and Lei Xie, “Multi-speaker expressive speech synthesis via multiple factors decoupling,” in Proc. ICASSP, 2023, pp. 1–5.

[4] Jaehyeon Kim, Jungil Kong, and Juhee Son, “Conditional variational autoencoder with adversarial learning for end-to-end text-to-speech,” in Proc. ICML. 2021, pp. 5530–5540, PMLR.

[5] Wei-Ning Hsu, Benjamin Bolte, Yao-Hung Hubert Tsai, Kushal Lakhotia, Ruslan Salakhutdinov, and Abdelrahman Mohamed, “Hubert: Self-supervised speech representation learning by masked prediction of hidden units,” IEEE ACM Trans. Audio Speech Lang. Process., vol. 29, pp. 3451–3460, 2021.

[6] Varun Sai Alaparthi, Tejeswara Reddy Pasam, Deepak Abhiram Inagandla, Jay Prakash, and Pramod Kumar Singh, “Scser: Supervised contrastive learning for speech emotion recognition using transformers,” in Proc. HSI. 2022, pp. 1–7, IEEE.

欢迎关注ASLP实验室微信公众号，获取更多语音研究相关资讯！

“打造最开放、最前沿、最落地的人工智能实验室”

http://mp.weixin.qq.com/s?__biz=MzA3NTQzNzM1Ng==&mid=2648427731&idx=1&sn=ddb7e9b39fccbce10de2f2088616ccfd

音频语音与语言处理研究组

发布关于音频语音与语言处理研究组的最新研究成果、技术分享、新闻动态和活动等。

最新文章

IEEE SPL | StreamVoice+：端到端流式零样本语音转换

西工大ASLP实验室第五届年度聚会在西安成功举办！

这个国庆假期圈儿里都发生了啥？听一段对话缓(Jia?)解(Ju?)你的焦虑。

IEEE SLT2024 ｜ DualSep：用于实时车载语音分离的轻量级双编码器卷积递归网络

IEEE SLT2024 | StutteringSpeech：普通话口吃事件检测和自动语音识别挑战赛总结

IEEE SLT2024 | 源说话人追踪挑战赛（SSTC）NPU-TeleAI 联队冠军方案分享

科研快讯｜IEEE TASLP：音色和风格灵活组合的零样本音色克隆模型U-Style

IEEE SLT2024 | 低资源构音障碍语音唤醒挑战赛（LRDWWS）ASLP-小米联队冠军方案

INTERSPEECH2024 | SCDNet: 基于自监督学习表征的说话人转换检测

喜报！西工大-腾讯联队在CHiME-8 NOTSOFAR与MMCSG竞赛中取得佳绩

ACM MM | UniStyle: 联合说话风格描述和风格化语音生成的风格建模

INTERSPEECH2024 | 迈向无需复习低遗忘的语音识别模型微调：基于LoRA和Whisper的探究

INTERSPEECH 2024｜基于转录提示的高效音频大语言模型鲁棒语音识别

INTERSPEECH2024|文本和上下文感知的高表现力有声书合成

喜报！西工大ASLP实验室夺冠NCMMSC2024第二届视觉语音识别挑战赛

INTERSPEECH2024 | Vec-Tok-VC+: 双重训练策略下基于渐进式损失约束和残差增强的鲁棒零样本语音转换

INTERSPEECH2024 | 利用分层韵律建模实现富有表现力的零样本语音合成

IEEE SPL | Distil-DCCRN：利用特征知识蒸馏技术的小型DCCRN语音增强模型

INTERSPEECH2024 | AS-70: 用于语音识别和口吃事件检测的中文口吃语音数据集

INTERSPEECH2024 | RaD-Net 2：基于因果性蒸馏和复数轴向自注意力机制的两阶段音质修复模型

IEEE SPL | MMGER：利用大语言模型改进口音和语音识别的多模态多粒度生成式错误纠正方法

INTERSPEECH2024 | BS-PLCNet2: 利用模型内蒸馏的两阶段分频带丢包补偿网络

INTERSPEECH2024 | FreeV: 使用梅尔滤波器的伪逆矩阵，一行代码提升声码器性能

INTERSPEECH2024 | DualVC 3：利用LM生成伪上下文的端到端低延迟流式语音转换

Speech Com | Whisper-SV：将Whisper自适应于低数据资源的说话人验证

Interspeech2024｜基于离散语音单元的流式解码器语音识别

挑战赛结果公布 | ISCSLP2024 对话语音克隆挑战赛（CoVoC）

INTERSPEECH2024 | WenetSpeech4TTS: 12800小时中文大规模语音生成模型训练数据集

INTERSPEECH2024 | Single-Codec: 面向高性能语音合成的单码本语音编解码器

Demo | 基于大模型的超拟人TTS

2024年ASLP实验室“人工智能落地计划”暑期实习开启报名啦！

NPU-ASLP实验室14篇论文被Interspeech2024 录用

ACL2024 | StreamVoice：基于流式上下文感知语言建模的实时零样本语音转换

ISCSLP2024 对话语音克隆挑战赛（CoVoC）

IEEE TASLP | 基于奇异值分解辅助矩阵的说话人匿名

IEEE TASLP | 基于多层级时序-通道说话人检索的零样本语音转换

GPT-4o, 语音的 ChatGPT 时刻终于来了！

ICME2024｜利用多编码器和多系统融合提高唇语识别性能

ICME2024｜利用自监督模型层级表征进行多语种语音识别

基于LLM的语音识别——在1.1万小时开源中文数据上的探索

ICME2024 | 基于半监督对比学习的表现力语音合成

IEEE TASLP | 基于文本-语音跨模态表征的对话语音识别

IEEE TASLP | METTS：基于跨说话人跨语种情感迁移的多语种情感语音合成

ICASSP2024 | ICMC-ASR 车载多通道语音识别挑战赛总结

ICASSP2024 | 面向多种阵列拓扑的多通道语音识别模型：自动通道选择和空间特征融合

ICASSP2024 | MLCA-AVSR: 基于多层交叉注意力机制的视听语音识别

ICASSP2024 | SELM: 基于离散表征和语言模型的语音增强

ASLP实验室祝您新春快乐～～ 1+10+13+58+68 = 成果丰硕的一年！

ICASSP2024 | 基于音频质量的多策略目标说话人提取

ICASSP2024 | SponTTS: 面向自发风格的语音合成与风格迁移

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉