ICASSP2024 | SponTTS: 面向自发风格的语音合成与风格迁移

文摘   科技   2024-02-05 09:01   陕西  
自发语音合成(Spontaneous speech synthesis)就像ChatGPT的语音合成效果一样,旨在模仿人类自然说话的方式,包括讲话中出现的不自觉停顿、拖音等自发现象,以及更加多变的语气、语调、语速和节奏,甚至包括一些非语言内容,如笑声等。这些因素使得自发风格语音合成极具挑战。此外,高质量自发风格数据稀缺,合成特定目标说话人音色的自发风格语音更为困难。

近期,西工大音频语音与语言处理研究组(ASLP@NPU)和出门问问、香港中文大学(深圳)合作论文“SponTTS: modeling and transferring spontaneous style for TTS”被语音研究顶级会议ICASSP2024接收。该论文提出一种基于瓶颈特征的两段式模型 SponTTS,实现对自发语音风格的建模和迁移。现对该论文进行简要的解读和分享。


论文题目:SponTTS: modeling and transferring spontaneous style for TTS
合作单位:出门问问、香港中文大学(深圳)
作者列表:李函昭,朱新发,薛浏蒙,宋阳,陈云琳,谢磊
论文网址https://arxiv.org/abs/2311.07179
样例网址:https://kkksuper.github.io/SponTTS

图1 发表论文截图

图2 扫码直接看论文
背景动机

语音合成(Speech synthesis)的一个重要目标是生成尽可能自然、贴近真人的语音,而自发语音合成(Spontaneous speech synthesis)的目的正是模拟自然说话方式,包括语气语调和多样的自发行为。随着深度学习的发展,语音合成的自然度不断提升,合成的语音质量已经达到接近人类的水平。然而,现有的语音合成技术大多是合成朗读式或者特定“人设”(如客服)的语音,无法生成足够自然的自发风格的语音。

过去的研究[1,2]主要考虑显式建模自发现象,如填充停顿、延长音、重读等,这些方法可以有效实现自发语音合成,且具备良好的可控性,但是忽略了自发风格中多样的韵律变化,例如语调语速以及笑声这样的非言语部分,导致合成的自发语音表现力受限。一些研究[3]使用韵律特征来描述自发语音的风格,但是没考虑到各种精细化的自发现象,导致合成的语音中缺乏自发现象的表达。

图1 口语化语音典型自发现象

自发风格语音的自发性和多变性会影响推理阶段语音风格韵律的预测。通过基于文本的自发现象预测器可以在推理阶段获得自发现象标签,但预测不合理时生成的语音会非常不自然。人工指定每个自发现象标签的方式非常耗时耗力,不实用。最近一项研究[4]通过预测自发现象标签嵌入解决累计误差。与之不同的是,我们预测自发风格潜在表征,该表征能同时关注自发现象和自发韵律。

自发风格迁移是指为没有自发风格数据的说话人合成自发风格的语音,可以有效缓解自发风格数据稀缺问题,提升合成语音表现力。然而由于存在很多独属于自发风格的语言表达,自发风格和说话人音色往往耦合在一起,二者的解耦比较困难。先前的研究[5]探索借助语音转换的方法扩充数据,实现自发风格迁移,但效果往往受限于语音转换模型的性能。

为了解决以上问题,本文提出了 SponTTS,一种基于瓶颈层特征(BN)的两段式模型,在语音合成中建模和迁移自发风格。在第一阶段,我们使用条件变分自动编码器(CVAE)来学习自发风格表征,具体来说,我们从 BN 特征中捕捉自发风格韵律,并增加自发现象嵌入预测损失来约束自发风格表征,使其能够捕捉语音中的自发现象。在第二阶段,我们采用类似 VITS[6] 结构,将第一阶段学习到的自发风格迁移到目标说话人音色上。实验表明 SponTTS 可以有效模拟语音中的自发风格,同时迁移到集内或集外音色的说话人上,实现高自然度、高表现力、高音色相似度的自发语音合成与风格迁移。

提出的方案

如图2所示,SponTTS 以瓶颈层特征(BN)作为中间表征,分为两个模块:第一部分是文本到瓶颈层特征(Text2BN)模块,该模块从 BN 和自发现象标签中学习自发风格表征,并将文本映射到说话人无关的瓶颈层特征,其中自发风格标签和真实瓶颈层特征仅在训练阶段使用;第二部分是瓶颈层特征到波形(BN2Wave)模块,该模块旨在以说话人嵌入为条件,以瓶颈层特征为输入来生成波形,借助说话人嵌入,该模块还可以生成训练时没见过的说话人音色的音频。

图2 SponTTS 整体结构

Text2BN 模块

如图3所示,Text2BN模块以 FastSpeech[7] 作为模型主干。为了建模语音中的自发风格,我们引入一种 CVAE 结构,借助自发后验编码器从瓶颈层特征   中学习后验分布  。自发后验编码器将参考编码器学习到的帧级表征按照音素时长信息平均池化到音素级,同时为了使后验分布学习到自发现象,我们引入自发现象预测器从  中预测自发现象标签的嵌入,损失函数使用余弦损失函数。为了在推理阶段模型能够从文本预测出更加丰富的自发风格韵律变化,我们参考 VITS 引入了一个基于 normalized flow 的自发先验编码器,该先验编码器以文本编码器的输出   作为输入,将先验分布  映射到更复杂的分布。

图3 Text2BN 模块结构

BN2Wave 模块

如图4所示,BN2Wave模块按照 VITS 结构构建,主要由先验编码器、后验编码器和解码器组成。瓶颈层特征编码器和 flow 结构以瓶颈层特征以及说话人嵌入作为条件,生成 CVAE 的先验分布   。后验编码器以线性谱   作为输入得到后验分布  。最后,由 HiFiGAN[8] 解码器来生成音频波形,这里我们并没有使用说话人查找表而是使用说话人嵌入,这样在解码时能够自适应生成未见说话人音色的音频。

图4 BN2Wave 模块结构

实验

实验设置

  • 实验数据

    • Text2BN:使用内部中文自发风格语音数据集,包含一名女性发音人 16.7 小时的对话风格语音,数据集包含五种自发现象标签,包括静音停顿、延长音、快语速、连读和重读,其中静音停顿不同于韵律停顿,可以出现在句子任一音素之后,并且重读被进一步分为无重读、次重读、主重读。

    • BN2Wave:除了 Text2BN 所用的数据外,还加入了内部多说话人朗读风格语音数据,包括 340 个说话人,每人 200 到 1000 句话,共计 294 小时。

  • 对比模型

    • Baseline:两段式模型,Text2BN 只包括 FastSpeech 部分

    • TP:删除参考编码器和变分的过程,从文本编码器的输出直接预测自发现象嵌入,即只关注自发现象

    • TPVAE:删除自发现象编码器和自发现象预测器,即只关注自发韵律

    • SponTTS:完整的本文方案

客观测试

为了研究朗读风格和自发风格的韵律差异,我们从 BN2Wave 训练数据中选取了一名女性发音人的朗读风格数据集来和 Text2BN 训练集的自发风格女性发音人数据对比。我们分别计算了两个数据集的 F0 和 音素时长的标准差。此外,还计算了四个对比系统各生成的 100 句音频的 F0 和音素时长的标准差。我们使用 harvest[9] 工具提取 F0,使用 HMM 对齐模型来获取音素时长。此外我们使用预训练的 WeNet[10] 语音识别模型计算字错误率(CER)来衡量模型鲁棒性。

表1 的客观测试结果表明,相比于朗读风格语音,自发风格语音具有更高的 F0 和音素时长标准差,这说明自发风格语音会呈现出更加多样的韵律变化。而四个对比模型的测试结果显示,SponTTS 取得了最高的 F0 和音素时长标准差以及最低的字错误率,这说明 SponTTS 合成的语音具有更多变的韵律节奏并且稳定性好。此外 TP 优于 Baseline 和 TPVAE,说明对自发现象的建模可以显著提升句子的韵律变化和稳定性,而 TPVAE 指标最差,表明自发现象建模的重要性。

我们还通过 Resemblyzer 工具从真实音频或合成音频中提取说话人嵌入,通过计算说话人嵌入之间的余弦距离来衡量合成语音的说话人音色相似度。如表 2 最后一列所示,四个模型都取得了良好的效果,余弦相似度都高于 0.8 且SponTTS 最高,表明 SponTTS 可以更好地捕捉风格韵律,提升说话人相似度。

表1 客观测试结果

主观测试

我们使用 MOS 得分来进一步评估语音自然度(N-MOS)和说话人音色相似度(S-MOS)。表 2 结果显示,与 Baseline 相比,TP 的结果表明建模自发现象可以提高语音自然度,这与客观测试结果一致。此外,借助自发后验编码器捕捉自发语音韵律的能力,TPVAE 自然度优于 Baseline 和 TP。而 SponTTS 实现最高的自然度和说话人相似度,这表明同时建模自发现象和自发韵律可以使生成更加自然、音色相似度更高的自发风格语音。

表2 集内说话人 MOS 测试结果

我们还进行了自发风格的CMOS和偏好测试,让测试者判断哪个语音更加符合自发风格。表 3 结果表明,相比于其他模型,SponTTS 生成的语音被认为是更为符合自发风格的。而 TP 相比于 SponTTS 的差距最小,说明自发现象建模的有效性,而同时 SponTTS 优于 TP,表明自发韵律可以进一步提升语音表现力。此外 TPVAE 和 SponTTS 之间的差距表明,为自发风格表征增加自发现象约束可以合成更具表现力的语音。

表3 集内说话人 CMOS 测试结果
除了集内说话人,我们还对 BN2Wave 训练集外的说话人测试,评估 SponTTS 进行零样本(zero-shot)自发风格语音合成的能力。表 4 列出了 N-MOS、S-MOS 以及说话人余弦相似度。测试结果表明 SponTTS 在集外说话人上表现良好,且与集内说话人相比性能没有明显下降。这表明SponTTS能够稳定地为没有自发风格且未参与训练的说话人生成自发风格的语音。
表4  集外说话人 MOS 测试结果

样例展示

下面展示本文SponTTS合成的自发风格语音与标准朗读风格的对比。更多样例敬请访问 https://kkksuper.github.io/SponTTS。

  • 停顿

  • 重读


  • 语气词

  • 笑声


  • 韵律感


参考文献

[1] Jian Cong, Shan Yang, Na Hu, Guangzhi Li, Lei Xie, and Dan Su, “Controllable context-aware conversational speech synthesis,” in Proc. Interspeech, 2021, pp. 4658–4662.

[2] Yuzi Yan, Xu Tan, Bohan Li, Guangyan Zhang, Tao Qin, Sheng Zhao, Yuan Shen, Wei-Qiang Zhang, and Tie-Yan Liu, “Adaspeech 3: Adaptive text to speech for spontaneous style,” in Proc. Interspeech, 2023, pp. 1–5.

[3] Slava Shechtman and Avrech Ben-David, “Acquiring conversational speaking style from multi-speaker spontaneous dialog corpus for prosody-controllable sequence-to-sequence speech synthesis,” 11th ISCA Speech Synthesis Workshop (SSW 11), 2021.

[4] Weiqin Li, Shunwei Lei, Qiaochu Huang, Yixuan Zhou, Zhiyong Wu, Shiyin Kang, and Helen M. Meng, “Towards spontaneous style modeling with semi-supervised pre-training for conversational text-to-speech synthesis,” in Proc. Interspeech, 2023.

[5] Raul Fernandez, David Haws, Guy Lorberbom, Slava Shechtman, and Alexander Sorin, “Transplantation of conversational speaking style with interjections in sequence-to-sequence speech synthesis,” in Proc. Interspeech, 2022, pp. 5488–5492.

[6] Jaehyeon Kim, Jungil Kong, and Juhee Son, “Conditional variational autoencoder with adversarial learning for end-to-end text-to-speech,” in Proc. ICML, 2021, pp. 5530–5540.

[7] Yi Ren, Yangjun Ruan, Xu Tan, Tao Qin, Sheng Zhao, Zhou Zhao, and Tie-Yan Liu, “Fastspeech: Fast, robust and controllable text to speech,” in Proc. NeurIPS, 2019, pp. 3165–3174.

[8] Jungil Kong, Jaehyeon Kim, and Jaekyoung Bae, “Hifi-gan: Generative adversarial networks for efficient and high fidelity speech synthesis,” in Proc. NeurIPS, 2020.

[9] Masanori Morise, “Harvest: A high-performance fundamental frequency estimator from speech signals,” in Proc. Interspeech, 2017, pp. 2321–2325.

[10] Zhuoyuan Yao, Di Wu, Xiong Wang, Binbin Zhang, Fan Yu, Chao Yang, Zhendong Peng, Xiaoyu Chen, Lei Xie, and Xin Lei, “Wenet: Production oriented streaming and non-streaming end-to-end speech recognition toolkit,” in Interspeech, 2021, pp. 4054–4058.




欢迎关注ASLP实验室微信公众号,获取更多语音研究相关资讯!

“打造最开放、最前沿、最落地的人工智能实验室”



音频语音与语言处理研究组
发布关于音频语音与语言处理研究组的最新研究成果、技术分享、新闻动态和活动等。
 最新文章