基于大模型的语音合成展现出零样本音色克隆的巨大潜力。在大规模数据和大模型的双重作用下,如今的零样本语音合成可以轻松实现未见音色的克隆。然而当前的工作侧重于音色的泛化上,忽略了韵律建模,这使得合成语音的自然度和表现力有限。 近期,西工大音频语音与语言处理研究组(ASLP@NPU)和小米合作论文“Towards Expressive Zero-Shot Speech Synthesis with Hierarchical Prosody Modeling”被语音研究顶级会议INTERSPEECH 2024接收。该论文提出了层次化的韵律适配器,兼顾不同粒度的韵律建模。结合扩散模型的生成能力,大大提高合成语音的自然度和表现力。现对该论文进行简要的解读和分享。
论文题目:Towards Expressive Zero-Shot Speech Synthesis with Hierarchical Prosody Modeling
合作单位:小米
作者列表:姜月鹏,李涛,杨丰煜,谢磊,孟猛,王育军
论文Arxiv网址:https://arxiv.org/abs/2406.05681
发表论文截图
扫码直接看论文
背景动机
近年来,依赖大规模语料库的零样本语音合成模型(如VALL-E[1] 和NaturalSpeech2[2])引起了广泛关注。这类语料库中数据的多样性显著增强了语音合成模型的音色泛化能力,从而有效提高了对未见说话人的音色相似度。这些模型普遍使用离散令牌(discrete token)作为输入,尽管这确实降低了模型的建模难度,但也大大减少了说话人相关的信息,不利于模型捕捉韵律信息。此外,这些方法忽略了对韵律的显式建模,可能导致生成的语音在自然度和表现力方面不足,特别是当参考语音具有较强表现力和韵律变化时。
针对上述问题,本文提出一种将扩散模型与多层级韵律建模结合的显式韵律建模方案。该方案以扩散模型作为韵律预测器,充分利用扩散模型在生成内容多样性的天然优势,既可缓解韵律多样性不足的问题,又可解决韵律过平滑的问题。同时通过多层级韵律适配器实现在词级、音素级、帧级的韵律建模,有效提高韵律细节表现以及合成语音的表现力。实验表明,该方案在音色克隆能力基本不变的情况下有着更好的自然度和更高的表现力。
方案
韵律多样性不足
韵律过平滑
图1 本文提出的模型结构
为了为韵律预测器提供充分的说话人相关韵律信息,我们借鉴了参考编码器上的经验,仅对参考音频的梅尔谱进行简单编码以提取说话人特征,尽可能保留其中的内容信息。
多层级韵律适配器
我们将预测得到的基频通过正弦滤波器转换为正弦激励信号,并将其作为韵律适配器的输入。韵律适配器对采样点级的正弦激励信号进行多次编码和降采样,从而获得不同尺度的韵律特征。
帧级:直接匹配帧移进行下采样即可。考虑到帧移通常较大,为了控制模型的尺寸和计算量,我们使用多个下采样层来完成采样点级到帧级的降采样。在我们的实验中,帧移为200个采样点,即200倍下采样,我们拆分为20倍和10倍两个下采样层。
词级。中文的音素基本均为拼音拆分声韵母得到,可认为中文中一个字对应两个音素,即音素级到词级的降采样倍率为2。
音素级:中文语速约为150~200字/分钟[3],即每秒约为5到7个音素,那么帧级到音素级的降采样倍率约为10到15。
故此在我们的模型中,降采样倍率设置分别为20, 10, 10, 2。
在融合模块中,我们不仅提供不同尺度的韵律信息,还引入了由说话人编码器编码得到的说话人特征,作为全局信息进行融合。全局信息与多尺度的韵律信息相结合,可以有效增强韵律的稳定性,提高合成结果韵律的连贯性和一致性。融合模块能够在生成过程中更好地处理韵律的全局一致性和局部多样性,不仅提升了语音生成的质量,也增强了模型在零样本克隆场景下的鲁棒性。
实验
实验配置
实验数据:WenetSpeech4TTS[4],使用Basic子集和Standard子集。
对比系统
VALL-E[1]
NaturalSpeech2[2]
训练策略:所有模型均先在Basic子集上进行训练,然后在Standard子集上进行微调。
主观测试
我们从AISHELL 3、WenetSpeech[5]的验证集以及内部情感数据集中各抽取5个说话人来测试模型零样本语音合成能力。
客观测试
我们提出的模型在词错误率上明显好于另外两个系统,尤其是在情感说话人上。我们发现baseline系统合成的情感说话人样例有不同程度的音频质量下降,这或许是词错误率出现明显升高的主要原因。而三个系统说话人余弦相似度没有明显的差异。
消融实验
在消融实验中我们分别对提出的两个模块进行消融测试。对于基于扩散模型的基频预测器的消融,我们将其替换为FastSpeech2[6]中的基频预测器。对于多尺度韵律建模的消融,我们将预测得到的韵律信息编码后直接与相加。
其中对于多层级韵律建模进行消融其自然度会有明显的下降。这证明了该模块的有效性。同时在对于消融实验的音频样例进行语谱图对比分析中我们发现,多层级韵律建模可以解决预测韵律中潜在的错误,有效缓解错误韵律带来的基频抖动问题。
图2 多尺度韵律建模可以明显缓解错误韵律带来的基频抖动问题
样例展示
更多论文相关对比样例敬请访问https://rxy-j.github.io/HPMD-TTS/。
参考文献
[1] C. Wang, S. Chen, Y. Wu, Z. Zhang, L. Zhou, S. Liu, Z. Chen, Y. Liu, H. Wang, J. Li, L. He, S. Zhao, and F. Wei, “Neural codec language models are zero-shot text to speech synthesizers,” CoRR, vol. abs/2301.02111, 2023
[2] K. Shen, Z. Ju, X. Tan, Y. Liu, Y. Leng, L. He, T. Qin, S. Zhao, and J. Bian, “Naturalspeech 2: Latent diffusion models are natural and zero-shot speech and singing synthesizers,” CoRR, vol. abs/2304.09116, 2023.
[3] F. Pellegrino, C. Coup ́e, and E. Marsico, “A cross-language perspective on speech information rate,” Language, pp. 539–558, 2011.
[4] L. Ma, D. Guo, K. Song, Y. Jiang, S. Wang, L. Xue, W. Xu, H. Zhao, B. Zhang, and L. Xie, “Wenetspeech4tts: A 12,800-hour mandarin tts corpus for large speech generation model benchmark,” CoRR, vol. abs/2406.05763, 2024.
[5] B. Zhang, H. Lv, P. Guo, Q. Shao, C. Yang, L. Xie, X. Xu, H. Bu, X. Chen, C. Zeng, D. Wu, and Z. Peng, “WENETSPEECH: A 10000+ hours multi-domain mandarin corpus for speech recognition,” in Proc. ICASSP, 2022, pp. 6182–6186.
[6] Y. Ren, C. Hu, X. Tan, T. Qin, S. Zhao, Z. Zhao, and T. Liu, “Fastspeech 2: Fast and high-quality end-to-end text to speech,” in Proc. ICLR, 2021.
欢迎关注ASLP实验室微信公众号,获取更多语音研究相关资讯!
“打造最开放、最前沿、最落地的人工智能实验室”