ICASSP2024 | SponTTS: 面向自发风格的语音合成与风格迁移

文摘科技 2024-02-05 09:01 陕西

自发语音合成（Spontaneous speech synthesis）就像ChatGPT的语音合成效果一样，旨在模仿人类自然说话的方式，包括讲话中出现的不自觉停顿、拖音等自发现象，以及更加多变的语气、语调、语速和节奏，甚至包括一些非语言内容，如笑声等。这些因素使得自发风格语音合成极具挑战。此外，高质量自发风格数据稀缺，合成特定目标说话人音色的自发风格语音更为困难。

近期，西工大音频语音与语言处理研究组（ASLP@NPU）和出门问问、香港中文大学（深圳）合作论文“SponTTS: modeling and transferring spontaneous style for TTS”被语音研究顶级会议ICASSP2024接收。该论文提出一种基于瓶颈特征的两段式模型 SponTTS，实现对自发语音风格的建模和迁移。现对该论文进行简要的解读和分享。

论文题目：SponTTS: modeling and transferring spontaneous style for TTS

合作单位：出门问问、香港中文大学（深圳）

作者列表：李函昭，朱新发，薛浏蒙，宋阳，陈云琳，谢磊

论文网址：https://arxiv.org/abs/2311.07179

样例网址：https://kkksuper.github.io/SponTTS

图1 发表论文截图

图2 扫码直接看论文

背景动机

语音合成（Speech synthesis）的一个重要目标是生成尽可能自然、贴近真人的语音，而自发语音合成（Spontaneous speech synthesis）的目的正是模拟自然说话方式，包括语气语调和多样的自发行为。随着深度学习的发展，语音合成的自然度不断提升，合成的语音质量已经达到接近人类的水平。然而，现有的语音合成技术大多是合成朗读式或者特定“人设”（如客服）的语音，无法生成足够自然的自发风格的语音。

过去的研究[1,2]主要考虑显式建模自发现象，如填充停顿、延长音、重读等，这些方法可以有效实现自发语音合成，且具备良好的可控性，但是忽略了自发风格中多样的韵律变化，例如语调语速以及笑声这样的非言语部分，导致合成的自发语音表现力受限。一些研究[3]使用韵律特征来描述自发语音的风格，但是没考虑到各种精细化的自发现象，导致合成的语音中缺乏自发现象的表达。

图1 口语化语音典型自发现象

自发风格语音的自发性和多变性会影响推理阶段语音风格韵律的预测。通过基于文本的自发现象预测器可以在推理阶段获得自发现象标签，但预测不合理时生成的语音会非常不自然。人工指定每个自发现象标签的方式非常耗时耗力，不实用。最近一项研究[4]通过预测自发现象标签嵌入解决累计误差。与之不同的是，我们预测自发风格潜在表征，该表征能同时关注自发现象和自发韵律。

自发风格迁移是指为没有自发风格数据的说话人合成自发风格的语音，可以有效缓解自发风格数据稀缺问题，提升合成语音表现力。然而由于存在很多独属于自发风格的语言表达，自发风格和说话人音色往往耦合在一起，二者的解耦比较困难。先前的研究[5]探索借助语音转换的方法扩充数据，实现自发风格迁移，但效果往往受限于语音转换模型的性能。

为了解决以上问题，本文提出了 SponTTS，一种基于瓶颈层特征（BN）的两段式模型，在语音合成中建模和迁移自发风格。在第一阶段，我们使用条件变分自动编码器（CVAE）来学习自发风格表征，具体来说，我们从 BN 特征中捕捉自发风格韵律，并增加自发现象嵌入预测损失来约束自发风格表征，使其能够捕捉语音中的自发现象。在第二阶段，我们采用类似 VITS[6] 结构，将第一阶段学习到的自发风格迁移到目标说话人音色上。实验表明 SponTTS 可以有效模拟语音中的自发风格，同时迁移到集内或集外音色的说话人上，实现高自然度、高表现力、高音色相似度的自发语音合成与风格迁移。

提出的方案

如图2所示，SponTTS 以瓶颈层特征（BN）作为中间表征，分为两个模块：第一部分是文本到瓶颈层特征（Text2BN）模块，该模块从 BN 和自发现象标签中学习自发风格表征，并将文本映射到说话人无关的瓶颈层特征，其中自发风格标签和真实瓶颈层特征仅在训练阶段使用；第二部分是瓶颈层特征到波形（BN2Wave）模块，该模块旨在以说话人嵌入为条件，以瓶颈层特征为输入来生成波形，借助说话人嵌入，该模块还可以生成训练时没见过的说话人音色的音频。

图2 SponTTS 整体结构

Text2BN 模块

如图3所示，Text2BN模块以 FastSpeech[7] 作为模型主干。为了建模语音中的自发风格，我们引入一种 CVAE 结构，借助自发后验编码器从瓶颈层特征 $x_{bn}$ 中学习后验分布 $q_{\phi}(z|x_{bn})$ 。自发后验编码器将参考编码器学习到的帧级表征按照音素时长信息平均池化到音素级，同时为了使后验分布学习到自发现象，我们引入自发现象预测器从 $z$ 中预测自发现象标签的嵌入，损失函数使用余弦损失函数。为了在推理阶段模型能够从文本预测出更加丰富的自发风格韵律变化，我们参考 VITS 引入了一个基于 normalized flow 的自发先验编码器，该先验编码器以文本编码器的输出 $c$ 作为输入，将先验分布 $p(f_\theta(z)|c)$ 映射到更复杂的分布。

图3 Text2BN 模块结构

BN2Wave 模块

如图4所示，BN2Wave模块按照 VITS 结构构建，主要由先验编码器、后验编码器和解码器组成。瓶颈层特征编码器和 flow 结构以瓶颈层特征以及说话人嵌入作为条件，生成 CVAE 的先验分布 $p_{\theta}(z^ {\prime}|c^ {\prime})$ 。后验编码器以线性谱 $x_{lin}$ 作为输入得到后验分布 $q(z^ {\prime}|x_{lin})$ 。最后，由 HiFiGAN[8] 解码器来生成音频波形，这里我们并没有使用说话人查找表而是使用说话人嵌入，这样在解码时能够自适应生成未见说话人音色的音频。

图4 BN2Wave 模块结构

实验

实验设置

实验数据

Text2BN：使用内部中文自发风格语音数据集，包含一名女性发音人 16.7 小时的对话风格语音，数据集包含五种自发现象标签，包括静音停顿、延长音、快语速、连读和重读，其中静音停顿不同于韵律停顿，可以出现在句子任一音素之后，并且重读被进一步分为无重读、次重读、主重读。
BN2Wave：除了 Text2BN 所用的数据外，还加入了内部多说话人朗读风格语音数据，包括 340 个说话人，每人 200 到 1000 句话，共计 294 小时。

对比模型

Baseline：两段式模型，Text2BN 只包括 FastSpeech 部分
TP：删除参考编码器和变分的过程，从文本编码器的输出直接预测自发现象嵌入，即只关注自发现象
TPVAE：删除自发现象编码器和自发现象预测器，即只关注自发韵律
SponTTS：完整的本文方案

客观测试

为了研究朗读风格和自发风格的韵律差异，我们从 BN2Wave 训练数据中选取了一名女性发音人的朗读风格数据集来和 Text2BN 训练集的自发风格女性发音人数据对比。我们分别计算了两个数据集的 F0 和音素时长的标准差。此外，还计算了四个对比系统各生成的 100 句音频的 F0 和音素时长的标准差。我们使用 harvest[9] 工具提取 F0，使用 HMM 对齐模型来获取音素时长。此外我们使用预训练的 WeNet[10] 语音识别模型计算字错误率（CER）来衡量模型鲁棒性。

表1 的客观测试结果表明，相比于朗读风格语音，自发风格语音具有更高的 F0 和音素时长标准差，这说明自发风格语音会呈现出更加多样的韵律变化。而四个对比模型的测试结果显示，SponTTS 取得了最高的 F0 和音素时长标准差以及最低的字错误率，这说明 SponTTS 合成的语音具有更多变的韵律节奏并且稳定性好。此外 TP 优于 Baseline 和 TPVAE，说明对自发现象的建模可以显著提升句子的韵律变化和稳定性，而 TPVAE 指标最差，表明自发现象建模的重要性。

我们还通过 Resemblyzer 工具从真实音频或合成音频中提取说话人嵌入，通过计算说话人嵌入之间的余弦距离来衡量合成语音的说话人音色相似度。如表 2 最后一列所示，四个模型都取得了良好的效果，余弦相似度都高于 0.8 且SponTTS 最高，表明 SponTTS 可以更好地捕捉风格韵律，提升说话人相似度。

表1 客观测试结果

主观测试

我们使用 MOS 得分来进一步评估语音自然度（N-MOS）和说话人音色相似度（S-MOS）。表 2 结果显示，与 Baseline 相比，TP 的结果表明建模自发现象可以提高语音自然度，这与客观测试结果一致。此外，借助自发后验编码器捕捉自发语音韵律的能力，TPVAE 自然度优于 Baseline 和 TP。而 SponTTS 实现最高的自然度和说话人相似度，这表明同时建模自发现象和自发韵律可以使生成更加自然、音色相似度更高的自发风格语音。

表2 集内说话人 MOS 测试结果

我们还进行了自发风格的CMOS和偏好测试，让测试者判断哪个语音更加符合自发风格。表 3 结果表明，相比于其他模型，SponTTS 生成的语音被认为是更为符合自发风格的。而 TP 相比于 SponTTS 的差距最小，说明自发现象建模的有效性，而同时 SponTTS 优于 TP，表明自发韵律可以进一步提升语音表现力。此外 TPVAE 和 SponTTS 之间的差距表明，为自发风格表征增加自发现象约束可以合成更具表现力的语音。

表3 集内说话人 CMOS 测试结果

除了集内说话人，我们还对 BN2Wave 训练集外的说话人测试，评估 SponTTS 进行零样本（zero-shot）自发风格语音合成的能力。表 4 列出了 N-MOS、S-MOS 以及说话人余弦相似度。测试结果表明 SponTTS 在集外说话人上表现良好，且与集内说话人相比性能没有明显下降。这表明SponTTS能够稳定地为没有自发风格且未参与训练的说话人生成自发风格的语音。

表4 集外说话人 MOS 测试结果

样例展示

下面展示本文SponTTS合成的自发风格语音与标准朗读风格的对比。更多样例敬请访问 https://kkksuper.github.io/SponTTS。

停顿

重读

语气词

笑声

韵律感

参考文献

[1] Jian Cong, Shan Yang, Na Hu, Guangzhi Li, Lei Xie, and Dan Su, “Controllable context-aware conversational speech synthesis,” in Proc. Interspeech, 2021, pp. 4658–4662.

[2] Yuzi Yan, Xu Tan, Bohan Li, Guangyan Zhang, Tao Qin, Sheng Zhao, Yuan Shen, Wei-Qiang Zhang, and Tie-Yan Liu, “Adaspeech 3: Adaptive text to speech for spontaneous style,” in Proc. Interspeech, 2023, pp. 1–5.

[3] Slava Shechtman and Avrech Ben-David, “Acquiring conversational speaking style from multi-speaker spontaneous dialog corpus for prosody-controllable sequence-to-sequence speech synthesis,” 11th ISCA Speech Synthesis Workshop (SSW 11), 2021.

[4] Weiqin Li, Shunwei Lei, Qiaochu Huang, Yixuan Zhou, Zhiyong Wu, Shiyin Kang, and Helen M. Meng, “Towards spontaneous style modeling with semi-supervised pre-training for conversational text-to-speech synthesis,” in Proc. Interspeech, 2023.

[5] Raul Fernandez, David Haws, Guy Lorberbom, Slava Shechtman, and Alexander Sorin, “Transplantation of conversational speaking style with interjections in sequence-to-sequence speech synthesis,” in Proc. Interspeech, 2022, pp. 5488–5492.

[6] Jaehyeon Kim, Jungil Kong, and Juhee Son, “Conditional variational autoencoder with adversarial learning for end-to-end text-to-speech,” in Proc. ICML, 2021, pp. 5530–5540.

[7] Yi Ren, Yangjun Ruan, Xu Tan, Tao Qin, Sheng Zhao, Zhou Zhao, and Tie-Yan Liu, “Fastspeech: Fast, robust and controllable text to speech,” in Proc. NeurIPS, 2019, pp. 3165–3174.

[8] Jungil Kong, Jaehyeon Kim, and Jaekyoung Bae, “Hifi-gan: Generative adversarial networks for efficient and high fidelity speech synthesis,” in Proc. NeurIPS, 2020.

[9] Masanori Morise, “Harvest: A high-performance fundamental frequency estimator from speech signals,” in Proc. Interspeech, 2017, pp. 2321–2325.

[10] Zhuoyuan Yao, Di Wu, Xiong Wang, Binbin Zhang, Fan Yu, Chao Yang, Zhendong Peng, Xiaoyu Chen, Lei Xie, and Xin Lei, “Wenet: Production oriented streaming and non-streaming end-to-end speech recognition toolkit,” in Interspeech, 2021, pp. 4054–4058.

欢迎关注ASLP实验室微信公众号，获取更多语音研究相关资讯！

“打造最开放、最前沿、最落地的人工智能实验室”

‍

http://mp.weixin.qq.com/s?__biz=MzA3NTQzNzM1Ng==&mid=2648427526&idx=1&sn=be835f3099205c574ebea8fc089e65ee

音频语音与语言处理研究组

发布关于音频语音与语言处理研究组的最新研究成果、技术分享、新闻动态和活动等。

最新文章

IEEE SPL | StreamVoice+：端到端流式零样本语音转换

西工大ASLP实验室第五届年度聚会在西安成功举办！

这个国庆假期圈儿里都发生了啥？听一段对话缓(Jia?)解(Ju?)你的焦虑。

IEEE SLT2024 ｜ DualSep：用于实时车载语音分离的轻量级双编码器卷积递归网络

IEEE SLT2024 | StutteringSpeech：普通话口吃事件检测和自动语音识别挑战赛总结

IEEE SLT2024 | 源说话人追踪挑战赛（SSTC）NPU-TeleAI 联队冠军方案分享

科研快讯｜IEEE TASLP：音色和风格灵活组合的零样本音色克隆模型U-Style

IEEE SLT2024 | 低资源构音障碍语音唤醒挑战赛（LRDWWS）ASLP-小米联队冠军方案

INTERSPEECH2024 | SCDNet: 基于自监督学习表征的说话人转换检测

喜报！西工大-腾讯联队在CHiME-8 NOTSOFAR与MMCSG竞赛中取得佳绩

ACM MM | UniStyle: 联合说话风格描述和风格化语音生成的风格建模

INTERSPEECH2024 | 迈向无需复习低遗忘的语音识别模型微调：基于LoRA和Whisper的探究

INTERSPEECH 2024｜基于转录提示的高效音频大语言模型鲁棒语音识别

INTERSPEECH2024|文本和上下文感知的高表现力有声书合成

喜报！西工大ASLP实验室夺冠NCMMSC2024第二届视觉语音识别挑战赛

INTERSPEECH2024 | Vec-Tok-VC+: 双重训练策略下基于渐进式损失约束和残差增强的鲁棒零样本语音转换

INTERSPEECH2024 | 利用分层韵律建模实现富有表现力的零样本语音合成

IEEE SPL | Distil-DCCRN：利用特征知识蒸馏技术的小型DCCRN语音增强模型

INTERSPEECH2024 | AS-70: 用于语音识别和口吃事件检测的中文口吃语音数据集

INTERSPEECH2024 | RaD-Net 2：基于因果性蒸馏和复数轴向自注意力机制的两阶段音质修复模型

IEEE SPL | MMGER：利用大语言模型改进口音和语音识别的多模态多粒度生成式错误纠正方法

INTERSPEECH2024 | BS-PLCNet2: 利用模型内蒸馏的两阶段分频带丢包补偿网络

INTERSPEECH2024 | FreeV: 使用梅尔滤波器的伪逆矩阵，一行代码提升声码器性能

INTERSPEECH2024 | DualVC 3：利用LM生成伪上下文的端到端低延迟流式语音转换

Speech Com | Whisper-SV：将Whisper自适应于低数据资源的说话人验证

Interspeech2024｜基于离散语音单元的流式解码器语音识别

挑战赛结果公布 | ISCSLP2024 对话语音克隆挑战赛（CoVoC）

INTERSPEECH2024 | WenetSpeech4TTS: 12800小时中文大规模语音生成模型训练数据集

INTERSPEECH2024 | Single-Codec: 面向高性能语音合成的单码本语音编解码器

Demo | 基于大模型的超拟人TTS

2024年ASLP实验室“人工智能落地计划”暑期实习开启报名啦！

NPU-ASLP实验室14篇论文被Interspeech2024 录用

ACL2024 | StreamVoice：基于流式上下文感知语言建模的实时零样本语音转换

ISCSLP2024 对话语音克隆挑战赛（CoVoC）

IEEE TASLP | 基于奇异值分解辅助矩阵的说话人匿名

IEEE TASLP | 基于多层级时序-通道说话人检索的零样本语音转换

GPT-4o, 语音的 ChatGPT 时刻终于来了！

ICME2024｜利用多编码器和多系统融合提高唇语识别性能

ICME2024｜利用自监督模型层级表征进行多语种语音识别

基于LLM的语音识别——在1.1万小时开源中文数据上的探索

ICME2024 | 基于半监督对比学习的表现力语音合成

IEEE TASLP | 基于文本-语音跨模态表征的对话语音识别

IEEE TASLP | METTS：基于跨说话人跨语种情感迁移的多语种情感语音合成

ICASSP2024 | ICMC-ASR 车载多通道语音识别挑战赛总结

ICASSP2024 | 面向多种阵列拓扑的多通道语音识别模型：自动通道选择和空间特征融合

ICASSP2024 | MLCA-AVSR: 基于多层交叉注意力机制的视听语音识别

ICASSP2024 | SELM: 基于离散表征和语言模型的语音增强

ASLP实验室祝您新春快乐～～ 1+10+13+58+68 = 成果丰硕的一年！

ICASSP2024 | 基于音频质量的多策略目标说话人提取

ICASSP2024 | SponTTS: 面向自发风格的语音合成与风格迁移

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉