INTERSPEECH2024 | 利用分层韵律建模实现富有表现力的零样本语音合成

文摘科技 2024-08-14 09:30 陕西

基于大模型的语音合成展现出零样本音色克隆的巨大潜力。在大规模数据和大模型的双重作用下，如今的零样本语音合成可以轻松实现未见音色的克隆。然而当前的工作侧重于音色的泛化上，忽略了韵律建模，这使得合成语音的自然度和表现力有限。

近期，西工大音频语音与语言处理研究组（ASLP@NPU）和小米合作论文“Towards Expressive Zero-Shot Speech Synthesis with Hierarchical Prosody Modeling”被语音研究顶级会议INTERSPEECH 2024接收。该论文提出了层次化的韵律适配器，兼顾不同粒度的韵律建模。结合扩散模型的生成能力，大大提高合成语音的自然度和表现力。现对该论文进行简要的解读和分享。

论文题目：Towards Expressive Zero-Shot Speech Synthesis with Hierarchical Prosody Modeling

合作单位：小米

作者列表：姜月鹏，李涛，杨丰煜，谢磊，孟猛，王育军

论文Arxiv网址：https://arxiv.org/abs/2406.05681

合成样例：https://rxy-j.github.io/HPMD-TTS/

发表论文截图

扫码直接看论文

背景动机

近年来，依赖大规模语料库的零样本语音合成模型（如VALL-E[1] 和NaturalSpeech2[2]）引起了广泛关注。这类语料库中数据的多样性显著增强了语音合成模型的音色泛化能力，从而有效提高了对未见说话人的音色相似度。这些模型普遍使用离散令牌（discrete token）作为输入，尽管这确实降低了模型的建模难度，但也大大减少了说话人相关的信息，不利于模型捕捉韵律信息。此外，这些方法忽略了对韵律的显式建模，可能导致生成的语音在自然度和表现力方面不足，特别是当参考语音具有较强表现力和韵律变化时。

针对上述问题，本文提出一种将扩散模型与多层级韵律建模结合的显式韵律建模方案。该方案以扩散模型作为韵律预测器，充分利用扩散模型在生成内容多样性的天然优势，既可缓解韵律多样性不足的问题，又可解决韵律过平滑的问题。同时通过多层级韵律适配器实现在词级、音素级、帧级的韵律建模，有效提高韵律细节表现以及合成语音的表现力。实验表明，该方案在音色克隆能力基本不变的情况下有着更好的自然度和更高的表现力。

方案

基于扩散模型的韵律预测器

传统韵律预测器（如FastSpeech2[6] 中的Variance Adaptor）在预测韵律方面存在两个问题：

韵律多样性不足
韵律过平滑

因此，我们将基于DDPM的扩散模型引入为韵律预测器。扩散模型在生成内容多样性方面具有天然优势，可以有效缓解韵律多样性不足的问题。同时，扩散模型的生成方式也能够显著减轻韵律过平滑的现象。该韵律预测器以基频作为韵律目标，通过梅尔谱编码得到的说话人特征和文本编码器的输出作为条件来预测韵律。

图1 本文提出的模型结构

为了为韵律预测器提供充分的说话人相关韵律信息，我们借鉴了参考编码器上的经验，仅对参考音频的梅尔谱进行简单编码以提取说话人特征，尽可能保留其中的内容信息。

多层级韵律适配器

我们将预测得到的基频通过正弦滤波器转换为正弦激励信号，并将其作为韵律适配器的输入。韵律适配器对采样点级的正弦激励信号进行多次编码和降采样，从而获得不同尺度的韵律特征。

为了更好的匹配语音内容，我们针对于中文对降采样倍率进行了特定的设计，使韵律特征可以分别对应帧级，音素级和词级。

帧级：直接匹配帧移进行下采样即可。考虑到帧移通常较大，为了控制模型的尺寸和计算量，我们使用多个下采样层来完成采样点级到帧级的降采样。在我们的实验中，帧移为200个采样点，即200倍下采样，我们拆分为20倍和10倍两个下采样层。
词级。中文的音素基本均为拼音拆分声韵母得到，可认为中文中一个字对应两个音素，即音素级到词级的降采样倍率为2。
音素级：中文语速约为150~200字/分钟[3]，即每秒约为5到7个音素，那么帧级到音素级的降采样倍率约为10到15。

故此在我们的模型中，降采样倍率设置分别为20, 10, 10, 2。

在融合模块中，我们不仅提供不同尺度的韵律信息，还引入了由说话人编码器编码得到的说话人特征，作为全局信息进行融合。全局信息与多尺度的韵律信息相结合，可以有效增强韵律的稳定性，提高合成结果韵律的连贯性和一致性。融合模块能够在生成过程中更好地处理韵律的全局一致性和局部多样性，不仅提升了语音生成的质量，也增强了模型在零样本克隆场景下的鲁棒性。

实验

实验配置

实验数据：WenetSpeech4TTS[4]，使用Basic子集和Standard子集。
对比系统

VALL-E[1]
NaturalSpeech2[2]

训练策略：所有模型均先在Basic子集上进行训练，然后在Standard子集上进行微调。

主观测试

我们从AISHELL 3、WenetSpeech[5]的验证集以及内部情感数据集中各抽取5个说话人来测试模型零样本语音合成能力。

从表1可以看到，在全部说话人测试上我们提出的模型与NaturalSpeech2和VALL-E对比有一定的提升。而在情感说话人上，我们的模型明显超越了两个baseline模型，证明了提出的方法在提高韵律和表现力方面的有效性。

表1 语音自然度和说话人相似度主观测试结果（MOS）、词错误率（CER）和说话人特征余弦相似度（SECS）。“Emotional”为情感数据集抽取的说话人。“Overall”为全部测试说话人。

客观测试

我们提出的模型在词错误率上明显好于另外两个系统，尤其是在情感说话人上。我们发现baseline系统合成的情感说话人样例有不同程度的音频质量下降，这或许是词错误率出现明显升高的主要原因。而三个系统说话人余弦相似度没有明显的差异。

消融实验

在消融实验中我们分别对提出的两个模块进行消融测试。对于基于扩散模型的基频预测器的消融，我们将其替换为FastSpeech2[6]中的基频预测器。对于多尺度韵律建模的消融，我们将预测得到的韵律信息编码后直接与相加。

其中对于多层级韵律建模进行消融其自然度会有明显的下降。这证明了该模块的有效性。同时在对于消融实验的音频样例进行语谱图对比分析中我们发现，多层级韵律建模可以解决预测韵律中潜在的错误，有效缓解错误韵律带来的基频抖动问题。

表2 消融实验结果。

图2 多尺度韵律建模可以明显缓解错误韵律带来的基频抖动问题

样例展示

更多论文相关对比样例敬请访问https://rxy-j.github.io/HPMD-TTS/。

样例1

Prompt

Sample

样例2

Prompt

Sample

样例3

Prompt

Sample

样例4

Prompt

Sample

样例5

Prompt

Sample

参考文献

[1] C. Wang, S. Chen, Y. Wu, Z. Zhang, L. Zhou, S. Liu, Z. Chen, Y. Liu, H. Wang, J. Li, L. He, S. Zhao, and F. Wei, “Neural codec language models are zero-shot text to speech synthesizers,” CoRR, vol. abs/2301.02111, 2023

[2] K. Shen, Z. Ju, X. Tan, Y. Liu, Y. Leng, L. He, T. Qin, S. Zhao, and J. Bian, “Naturalspeech 2: Latent diffusion models are natural and zero-shot speech and singing synthesizers,” CoRR, vol. abs/2304.09116, 2023.

[3] F. Pellegrino, C. Coup ́e, and E. Marsico, “A cross-language perspective on speech information rate,” Language, pp. 539–558, 2011.

[4] L. Ma, D. Guo, K. Song, Y. Jiang, S. Wang, L. Xue, W. Xu, H. Zhao, B. Zhang, and L. Xie, “Wenetspeech4tts: A 12,800-hour mandarin tts corpus for large speech generation model benchmark,” CoRR, vol. abs/2406.05763, 2024.

[5] B. Zhang, H. Lv, P. Guo, Q. Shao, C. Yang, L. Xie, X. Xu, H. Bu, X. Chen, C. Zeng, D. Wu, and Z. Peng, “WENETSPEECH: A 10000+ hours multi-domain mandarin corpus for speech recognition,” in Proc. ICASSP, 2022, pp. 6182–6186.

[6] Y. Ren, C. Hu, X. Tan, T. Qin, S. Zhao, Z. Zhao, and T. Liu, “Fastspeech 2: Fast and high-quality end-to-end text to speech,” in Proc. ICLR, 2021.

欢迎关注ASLP实验室微信公众号，获取更多语音研究相关资讯！

“打造最开放、最前沿、最落地的人工智能实验室”

http://mp.weixin.qq.com/s?__biz=MzA3NTQzNzM1Ng==&mid=2648428612&idx=1&sn=123927d72b7ae95d58c80b318b0059a1

音频语音与语言处理研究组

发布关于音频语音与语言处理研究组的最新研究成果、技术分享、新闻动态和活动等。

最新文章

IEEE SPL | StreamVoice+：端到端流式零样本语音转换

西工大ASLP实验室第五届年度聚会在西安成功举办！

这个国庆假期圈儿里都发生了啥？听一段对话缓(Jia?)解(Ju?)你的焦虑。

IEEE SLT2024 ｜ DualSep：用于实时车载语音分离的轻量级双编码器卷积递归网络

IEEE SLT2024 | StutteringSpeech：普通话口吃事件检测和自动语音识别挑战赛总结

IEEE SLT2024 | 源说话人追踪挑战赛（SSTC）NPU-TeleAI 联队冠军方案分享

科研快讯｜IEEE TASLP：音色和风格灵活组合的零样本音色克隆模型U-Style

IEEE SLT2024 | 低资源构音障碍语音唤醒挑战赛（LRDWWS）ASLP-小米联队冠军方案

INTERSPEECH2024 | SCDNet: 基于自监督学习表征的说话人转换检测

喜报！西工大-腾讯联队在CHiME-8 NOTSOFAR与MMCSG竞赛中取得佳绩

ACM MM | UniStyle: 联合说话风格描述和风格化语音生成的风格建模

INTERSPEECH2024 | 迈向无需复习低遗忘的语音识别模型微调：基于LoRA和Whisper的探究

INTERSPEECH 2024｜基于转录提示的高效音频大语言模型鲁棒语音识别

INTERSPEECH2024|文本和上下文感知的高表现力有声书合成

喜报！西工大ASLP实验室夺冠NCMMSC2024第二届视觉语音识别挑战赛

INTERSPEECH2024 | Vec-Tok-VC+: 双重训练策略下基于渐进式损失约束和残差增强的鲁棒零样本语音转换

INTERSPEECH2024 | 利用分层韵律建模实现富有表现力的零样本语音合成

IEEE SPL | Distil-DCCRN：利用特征知识蒸馏技术的小型DCCRN语音增强模型

INTERSPEECH2024 | AS-70: 用于语音识别和口吃事件检测的中文口吃语音数据集

INTERSPEECH2024 | RaD-Net 2：基于因果性蒸馏和复数轴向自注意力机制的两阶段音质修复模型

IEEE SPL | MMGER：利用大语言模型改进口音和语音识别的多模态多粒度生成式错误纠正方法

INTERSPEECH2024 | BS-PLCNet2: 利用模型内蒸馏的两阶段分频带丢包补偿网络

INTERSPEECH2024 | FreeV: 使用梅尔滤波器的伪逆矩阵，一行代码提升声码器性能

INTERSPEECH2024 | DualVC 3：利用LM生成伪上下文的端到端低延迟流式语音转换

Speech Com | Whisper-SV：将Whisper自适应于低数据资源的说话人验证

Interspeech2024｜基于离散语音单元的流式解码器语音识别

挑战赛结果公布 | ISCSLP2024 对话语音克隆挑战赛（CoVoC）

INTERSPEECH2024 | WenetSpeech4TTS: 12800小时中文大规模语音生成模型训练数据集

INTERSPEECH2024 | Single-Codec: 面向高性能语音合成的单码本语音编解码器

Demo | 基于大模型的超拟人TTS

2024年ASLP实验室“人工智能落地计划”暑期实习开启报名啦！

NPU-ASLP实验室14篇论文被Interspeech2024 录用

ACL2024 | StreamVoice：基于流式上下文感知语言建模的实时零样本语音转换

ISCSLP2024 对话语音克隆挑战赛（CoVoC）

IEEE TASLP | 基于奇异值分解辅助矩阵的说话人匿名

IEEE TASLP | 基于多层级时序-通道说话人检索的零样本语音转换

GPT-4o, 语音的 ChatGPT 时刻终于来了！

ICME2024｜利用多编码器和多系统融合提高唇语识别性能

ICME2024｜利用自监督模型层级表征进行多语种语音识别

基于LLM的语音识别——在1.1万小时开源中文数据上的探索

ICME2024 | 基于半监督对比学习的表现力语音合成

IEEE TASLP | 基于文本-语音跨模态表征的对话语音识别

IEEE TASLP | METTS：基于跨说话人跨语种情感迁移的多语种情感语音合成

ICASSP2024 | ICMC-ASR 车载多通道语音识别挑战赛总结

ICASSP2024 | 面向多种阵列拓扑的多通道语音识别模型：自动通道选择和空间特征融合

ICASSP2024 | MLCA-AVSR: 基于多层交叉注意力机制的视听语音识别

ICASSP2024 | SELM: 基于离散表征和语言模型的语音增强

ASLP实验室祝您新春快乐～～ 1+10+13+58+68 = 成果丰硕的一年！

ICASSP2024 | 基于音频质量的多策略目标说话人提取

ICASSP2024 | SponTTS: 面向自发风格的语音合成与风格迁移

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉