自发语音合成(Spontaneous speech synthesis)就像ChatGPT的语音合成效果一样,旨在模仿人类自然说话的方式,包括讲话中出现的不自觉停顿、拖音等自发现象,以及更加多变的语气、语调、语速和节奏,甚至包括一些非语言内容,如笑声等。这些因素使得自发风格语音合成极具挑战。此外,高质量自发风格数据稀缺,合成特定目标说话人音色的自发风格语音更为困难。 近期,西工大音频语音与语言处理研究组(ASLP@NPU)和出门问问、香港中文大学(深圳)合作论文“SponTTS: modeling and transferring spontaneous style for TTS”被语音研究顶级会议ICASSP2024接收。该论文提出一种基于瓶颈特征的两段式模型 SponTTS,实现对自发语音风格的建模和迁移。现对该论文进行简要的解读和分享。
图1 发表论文截图
语音合成(Speech synthesis)的一个重要目标是生成尽可能自然、贴近真人的语音,而自发语音合成(Spontaneous speech synthesis)的目的正是模拟自然说话方式,包括语气语调和多样的自发行为。随着深度学习的发展,语音合成的自然度不断提升,合成的语音质量已经达到接近人类的水平。然而,现有的语音合成技术大多是合成朗读式或者特定“人设”(如客服)的语音,无法生成足够自然的自发风格的语音。
过去的研究[1,2]主要考虑显式建模自发现象,如填充停顿、延长音、重读等,这些方法可以有效实现自发语音合成,且具备良好的可控性,但是忽略了自发风格中多样的韵律变化,例如语调语速以及笑声这样的非言语部分,导致合成的自发语音表现力受限。一些研究[3]使用韵律特征来描述自发语音的风格,但是没考虑到各种精细化的自发现象,导致合成的语音中缺乏自发现象的表达。
自发风格语音的自发性和多变性会影响推理阶段语音风格韵律的预测。通过基于文本的自发现象预测器可以在推理阶段获得自发现象标签,但预测不合理时生成的语音会非常不自然。人工指定每个自发现象标签的方式非常耗时耗力,不实用。最近一项研究[4]通过预测自发现象标签嵌入解决累计误差。与之不同的是,我们预测自发风格潜在表征,该表征能同时关注自发现象和自发韵律。
自发风格迁移是指为没有自发风格数据的说话人合成自发风格的语音,可以有效缓解自发风格数据稀缺问题,提升合成语音表现力。然而由于存在很多独属于自发风格的语言表达,自发风格和说话人音色往往耦合在一起,二者的解耦比较困难。先前的研究[5]探索借助语音转换的方法扩充数据,实现自发风格迁移,但效果往往受限于语音转换模型的性能。
为了解决以上问题,本文提出了 SponTTS,一种基于瓶颈层特征(BN)的两段式模型,在语音合成中建模和迁移自发风格。在第一阶段,我们使用条件变分自动编码器(CVAE)来学习自发风格表征,具体来说,我们从 BN 特征中捕捉自发风格韵律,并增加自发现象嵌入预测损失来约束自发风格表征,使其能够捕捉语音中的自发现象。在第二阶段,我们采用类似 VITS[6] 结构,将第一阶段学习到的自发风格迁移到目标说话人音色上。实验表明 SponTTS 可以有效模拟语音中的自发风格,同时迁移到集内或集外音色的说话人上,实现高自然度、高表现力、高音色相似度的自发语音合成与风格迁移。
提出的方案
图2 SponTTS 整体结构
Text2BN 模块
如图3所示,Text2BN模块以 FastSpeech[7] 作为模型主干。为了建模语音中的自发风格,我们引入一种 CVAE 结构,借助自发后验编码器从瓶颈层特征
图3 Text2BN 模块结构
BN2Wave 模块
如图4所示,BN2Wave模块按照 VITS 结构构建,主要由先验编码器、后验编码器和解码器组成。瓶颈层特征编码器和 flow 结构以瓶颈层特征以及说话人嵌入作为条件,生成 CVAE 的先验分布
图4 BN2Wave 模块结构
实验
实验设置
实验数据
Text2BN:使用内部中文自发风格语音数据集,包含一名女性发音人 16.7 小时的对话风格语音,数据集包含五种自发现象标签,包括静音停顿、延长音、快语速、连读和重读,其中静音停顿不同于韵律停顿,可以出现在句子任一音素之后,并且重读被进一步分为无重读、次重读、主重读。
BN2Wave:除了 Text2BN 所用的数据外,还加入了内部多说话人朗读风格语音数据,包括 340 个说话人,每人 200 到 1000 句话,共计 294 小时。
对比模型
Baseline:两段式模型,Text2BN 只包括 FastSpeech 部分
TP:删除参考编码器和变分的过程,从文本编码器的输出直接预测自发现象嵌入,即只关注自发现象
TPVAE:删除自发现象编码器和自发现象预测器,即只关注自发韵律
SponTTS:完整的本文方案
客观测试
为了研究朗读风格和自发风格的韵律差异,我们从 BN2Wave 训练数据中选取了一名女性发音人的朗读风格数据集来和 Text2BN 训练集的自发风格女性发音人数据对比。我们分别计算了两个数据集的 F0 和 音素时长的标准差。此外,还计算了四个对比系统各生成的 100 句音频的 F0 和音素时长的标准差。我们使用 harvest[9] 工具提取 F0,使用 HMM 对齐模型来获取音素时长。此外我们使用预训练的 WeNet[10] 语音识别模型计算字错误率(CER)来衡量模型鲁棒性。
表1 的客观测试结果表明,相比于朗读风格语音,自发风格语音具有更高的 F0 和音素时长标准差,这说明自发风格语音会呈现出更加多样的韵律变化。而四个对比模型的测试结果显示,SponTTS 取得了最高的 F0 和音素时长标准差以及最低的字错误率,这说明 SponTTS 合成的语音具有更多变的韵律节奏并且稳定性好。此外 TP 优于 Baseline 和 TPVAE,说明对自发现象的建模可以显著提升句子的韵律变化和稳定性,而 TPVAE 指标最差,表明自发现象建模的重要性。
表1 客观测试结果
主观测试
表2 集内说话人 MOS 测试结果
我们还进行了自发风格的CMOS和偏好测试,让测试者判断哪个语音更加符合自发风格。表 3 结果表明,相比于其他模型,SponTTS 生成的语音被认为是更为符合自发风格的。而 TP 相比于 SponTTS 的差距最小,说明自发现象建模的有效性,而同时 SponTTS 优于 TP,表明自发韵律可以进一步提升语音表现力。此外 TPVAE 和 SponTTS 之间的差距表明,为自发风格表征增加自发现象约束可以合成更具表现力的语音。
样例展示
下面展示本文SponTTS合成的自发风格语音与标准朗读风格的对比。更多样例敬请访问 https://kkksuper.github.io/SponTTS。
停顿
重读
语气词
笑声
韵律感
参考文献
[1] Jian Cong, Shan Yang, Na Hu, Guangzhi Li, Lei Xie, and Dan Su, “Controllable context-aware conversational speech synthesis,” in Proc. Interspeech, 2021, pp. 4658–4662.
[2] Yuzi Yan, Xu Tan, Bohan Li, Guangyan Zhang, Tao Qin, Sheng Zhao, Yuan Shen, Wei-Qiang Zhang, and Tie-Yan Liu, “Adaspeech 3: Adaptive text to speech for spontaneous style,” in Proc. Interspeech, 2023, pp. 1–5.
[3] Slava Shechtman and Avrech Ben-David, “Acquiring conversational speaking style from multi-speaker spontaneous dialog corpus for prosody-controllable sequence-to-sequence speech synthesis,” 11th ISCA Speech Synthesis Workshop (SSW 11), 2021.
[4] Weiqin Li, Shunwei Lei, Qiaochu Huang, Yixuan Zhou, Zhiyong Wu, Shiyin Kang, and Helen M. Meng, “Towards spontaneous style modeling with semi-supervised pre-training for conversational text-to-speech synthesis,” in Proc. Interspeech, 2023.
[5] Raul Fernandez, David Haws, Guy Lorberbom, Slava Shechtman, and Alexander Sorin, “Transplantation of conversational speaking style with interjections in sequence-to-sequence speech synthesis,” in Proc. Interspeech, 2022, pp. 5488–5492.
[6] Jaehyeon Kim, Jungil Kong, and Juhee Son, “Conditional variational autoencoder with adversarial learning for end-to-end text-to-speech,” in Proc. ICML, 2021, pp. 5530–5540.
[7] Yi Ren, Yangjun Ruan, Xu Tan, Tao Qin, Sheng Zhao, Zhou Zhao, and Tie-Yan Liu, “Fastspeech: Fast, robust and controllable text to speech,” in Proc. NeurIPS, 2019, pp. 3165–3174.
[8] Jungil Kong, Jaehyeon Kim, and Jaekyoung Bae, “Hifi-gan: Generative adversarial networks for efficient and high fidelity speech synthesis,” in Proc. NeurIPS, 2020.
[9] Masanori Morise, “Harvest: A high-performance fundamental frequency estimator from speech signals,” in Proc. Interspeech, 2017, pp. 2321–2325.
[10] Zhuoyuan Yao, Di Wu, Xiong Wang, Binbin Zhang, Fan Yu, Chao Yang, Zhendong Peng, Xiaoyu Chen, Lei Xie, and Xin Lei, “Wenet: Production oriented streaming and non-streaming end-to-end speech recognition toolkit,” in Interspeech, 2021, pp. 4054–4058.
欢迎关注ASLP实验室微信公众号,获取更多语音研究相关资讯!
“打造最开放、最前沿、最落地的人工智能实验室”