语音合成(TTS)的目标是从文本生成自然流畅的语音。随着序列到序列(seq2seq)方法的广泛应用,语音合成系统在自然度和表现力方面取得了显著进展。然而一个主要挑战是,在不依赖人工标注数据或参考语音的情况下,语音合成系统难以像人类朗读者那样,根据文本内容演绎出多样化的语音风格。 近期,西工大音频语音与语言处理研究组(ASLP@NPU)的论文“Text-aware and Context-aware Expressive Audiobook Speech Synthesis”被语音研究顶级会议INTERSPEECH2024接收。该论文提出了一种结合文本感知和上下文感知(TACA)的风格有声书合成方法,通过对比学习构建了一个文本感知的风格空间,并利用上下文感知编码器整合跨句子的信息和风格嵌入。此外,我们将此方法应用于两种典型的文本转语音(TTS)模型中:基于VITS的TTS和基于语言模型的TTS,提升了有声书的合成质量和表现力。以下是对该论文的简要解析与分享。
论文题目:Text-aware and Context-aware Expressive Audiobook Speech Synthesis
作者列表:郭大可,朱新发,薛浏蒙,张雍茂,田文杰,谢磊
合作单位:香港中文大学(深圳)
论文Arxiv网址:https://arxiv.org/abs/2406.05672
合成样例:https://dukguo.github.io/TACA-TTS
发表论文截图
扫码直接看论文
背景动机
当前的文本到语音(TTS)系统已经取得了显著的进步,能够生成接近人类水平的自然语音,并在语音助手、导航系统和有声读物制作等多个领域得到了广泛应用。特别是在有声书语音合成领域,其目标是从书籍文本合成出富有表现力的长篇语音,以实现高效自动化音频内容生产。然而,这一过程面临着诸多挑战,包括需要处理专业朗读者所展现的多样化风格、精确的情感感知能力,以及确保长篇语音韵律的连贯性,这些因素共同提升了有声书合成的复杂性。
为了应对这些挑战,本文提出了一种文本感知风格建模方法,该方法通过半监督学习的方式来学习包含多样风格的文本风格映射。具体而言,首先利用预训练的风格编码器来获取风格表征,接着采用对比学习策略在大规模数据集上学习文本到音频的风格表征映射。此外,为了更有效地融入上下文信息,我们设计了一个上下文编码器,该编码器能够从相邻句子中提取跨句信息,并将从文本中学习到的风格直接嵌入到音素编码中,从而辅助TTS系统生成既具有上下文感知表达力又保持长篇韵律连贯的语音。由于上下文编码器设计为一个即插即用的通用模块,这意味着它可以轻松集成到大多数现有TTS框架中,实现模块化的增强。本研究将上下文编码器应用于基于VITS以及基于语言模型的TTS系统。实验结果表明,我们提出的TACA风格建模方案有效地增强了合成语音的表现力和自然度。
提出的方案
图1 系统整体架构
文本感知风格建模
给定语音-文本对
在已建立的语音风格空间的指导下,我们在更大的数据集上构建文本感知风格空间。我们利用对比学习来辅助使用学习到的语音风格空间的文本风格空间学习。对比学习的关键在于构建正样本和负样本。我们根据学习到的语音表示之间的相似度来构建文本风格学习的这些样本。如果和之间的相似度小于,则将对 和标记为负样本。相反,如果和之间的相似度大于,则将对 和标记为正样本。任何相似度分数介于 和 之间的对都被称为未知样本,反映了它们正负相关性的不确定性。如上图(b) 所示,我们使用强大的预训练文本特征提取器,如 T5模型,通过注意力池化来从
上下文编码器
我们设计了一个上下文编码器,以整合上下文信息和风格表达,如图2所示。一个给定句子的韵律可以受到其在篇章中位置以及与相邻句子关系的影响。考虑到这一点,我们扩大了 TTS 模型中文本输入的接受范围,从一个句子扩展到几个句子。它显式地纳入了来自相邻句子的上下文。此外,我们将从文本感知风格空间获得的风格嵌入引入到上下文编码器中,以鼓励 TTS 模型生成富有表现力的语音。值得注意的是,我们对风格嵌入应用了矢量量化(VQ)。这使得模型能够有效地学习和捕捉大范围样本中风格表达的共性,生成更稳定的表现力语音。
图2 上下文编码器
为了充分利用包括有无上下文标注的数据集在内的可用数据集,我们采用了基础预训练和上下文感知微调的训练策略来使用上下文编码器。具体来说,预训练阶段是在没有上下文信息的情况下训练模型,而微调阶段则是在有上下文信息的情况下训练模型。在微调过程中,风格嵌入是从语音或文本中随机获取的,以增强模型的泛化能力。
文本感知和上下文感知的TTS
我们将上述方案应用在VITS和基于LM的TTS中。
基于VITS的TTS
我们使用BERT-VITS 2 [3]作为主干模型,BERT-VITS 2在VITS2 [4]的基础上增加了BERT嵌入,丰富了输入的语义信息,极大的提升了合成语音的韵律。我们用上下文编码器替换了原始的文本编码器,如图3所示,实现了更大的上下文接受范围,以更好地建模长篇语音。在训练策略上,我们采用了基础预训练和上下文感知微调相结合的方法。首先,我们对模型进行基础预训练,使其在没有特定上下文信息的情况下学习到基本的语音合成能力。随后,我们进行上下文感知微调,以整合丰富的风格和上下文信息。
图3 TACA-VITS
基于LM的TTS
图4 TACA-LM
我们首先使用高质量的音频样本训练Hubert-VITS模型,以增强其波形重建能力。随后,我们在大型数据集上预训练一个基于Transformer的语言模型。之后,我们对预训练的语言模型进行上下文感知微调(TACA-LM),以促进语言模型具有更大的上下文接受范围和更详细的风格信息,提高合成语音的表现力。
实验
数据集和实验设置
数据
20H-Audiobook-HQ: 一个带有上下文顺序标注的普通话有声读物数据集,包含大约20小时的语音和相应的抄本。
100H-Multi-Style: 一个多风格的普通话数据集,包含大约100小时的语音和相应的抄本,其中66小时的语音附有风格标签。
6kH-Audiobook: 来自互联网的有声读物数据集,包含大约6000小时的语音,没有对应抄本。我们使用Paraformer [7]将音频转录为文本。
实验设置
在文本感知风格建模中,我们使用Chinese-Hubert-Large [8]从第6层提取语音特征。我们使用与SRL在语音编码器中相同的配置。对于文本特征提取器,我们使用预训练的中文T5,RandengT5-784M 5。文本感知风格建模中的α和β分别设为0.60和0.95。风格嵌入的维度设置为384。无论是语音编码器还是T5的嵌入,在计算损失之前都经过L2规范化处理。我们在100H-Multi-Style上训练语音编码器,在6kH-Audiobook上微调T5。
对于TACA-VITS,模型配置与原始仓库一致,版本为2.0。上下文编码器接受上下文音素和对齐的Bert嵌入作为输入。上下文编码器中的风格矢量量化使用64*32的码本。我们使用100H-Multi-Style训练基础模型。在上下文感知微调时,我们使用相同的设置在20H-Audiobook-HQ进行上下文感知微调。
对于TACA-LM,我们从Chinese-Hubert-Base [8]的第9层通过矢量量化提取semantic token。码本大小和维度分别设置为1024和128。Hubert-VITS在选自6kH-Audiobook的300小时高质量语音上进行训练。我们使用nanoGPT 6作为语言模型的骨干,包含12层12头的Transformer。输入序列只应用一个位置嵌入,嵌入维度设置为768。语言模型在6kH-Audiobook上进行训练,随后在20H-Audiobook-HQ进行上下文感知微调。
风格空间分析
图5 来自9个不同章节文本中提取的风格表征的可视化
我们通过进一步的实验,对来自9个章节的文本预测的风格表征进行了深入分析,并采用了t-SNE技术进行可视化,以探索风格嵌入的空间分布特性。图5展示了这一可视化结果,其中每个章节用不同的颜色表示。
从t-SNE可视化图中,我们可以观察到以下几点:
章节内风格的聚集性:来自同一章节的文本风格嵌入倾向于聚集在一起,形成明显的聚类。这一现象表明,我们的方法能够有效地捕捉到章节内部相对一致的风格特征。这种一致性对于有声读物语音合成至关重要,因为它有助于确保合成语音在章节范围内具有连贯的韵律和风格。
章节内风格的细微差别:尽管章节内的风格嵌入聚集在一起,但聚类组内的点并非完全重合,而是相对分散。这表明我们的方法在学习过程中能够有意识地捕捉到章节内句子之间风格的细微差别。这种细微差别对于提升有声读物的表现力和情感表达能力至关重要。
风格空间的多样性:在整个风格空间中,点的分布呈现出多样性,这表明我们的风格空间覆盖了多种不同的风格。这种多样性为有声读物语音合成提供了广泛的表现力,使得合成语音能够适应不同的文本内容和风格要求。
客观实验
我们在保留的测试集上评估了TTS的性能,使用字符错误率(CER)和梅尔倒谱失真(MCD)进行评估。与VITS相比,LM在质量和稳定性上略显不足,反映在较高的MCD和CER上。在对VITS进行上下文感知的微调(TACA-VITS)之后,MCD和WER的整体变化并不显著,表明我们的训练策略没有降低模型性能。对于LM,应用相同的微调策略(TACA-LM)导致MCD和CER降低,这表明对于具有更强建模能力的LM来说,整合与语义和风格相关的条件可以稍微提高语音质量和稳定性。与两种VITS模型相比,基于LM的方法产生了更高的CER,主要是由于自回归模型的固有问题,包括漏读和重复。
主观实验
为了全面评估合成有声读物语音的质量,我们采用了平均意见得分(MOS)测试,分别针对自然性(NMOS)和表现力(EMOS)进行评估。NMOS主要评估合成语音的感知质量,包括清晰度和可理解性,而EMOS则侧重于评估语音的韵律表达,不考虑质量问题。为了模拟真实的应用场景,我们生成了五个长度在1到2分钟之间的音频片段,每个片段由多个句子组合而成。在MOS测试中,我们邀请了一组20名母语为汉语普通话的听众参与评分。听众们被要求听取合成的语音片段,并根据他们的主观感受,以0.5分为间隔,从1到5分对语音的自然性和表现力进行评分。
表1中展示的MOS测试结果表明,我们提出的方法在两种文本到语音合成(TTS)模型上都取得了显著的提升。具体来说,在整合了上下文信息之后,TACA-VITS模型在自然性上略有提升,而TACA-LM模型在自然性方面也显示出了改进。这表明上下文感知知识有助于生成更加连贯的韵律,并产生更自然的语音。此外,TACA-VITS模型在表现力上显示出显著的改进,TACA-LM模型在表现力方面也有显著的提升。上下文信息和文本适应性风格指导的引入,带来了上下文感知的表达力和丰富的风格,从而产生了更具表现力的有声读物语音。
需要注意的是,VITS模型在自然度方面比LM模型表现更优,这可能是由于LM模型中自回归推理的固有缺陷,如重复、遗漏和发音不清等问题。然而,LM模型因其出色的语义理解和上下文感知风格表达能力,在表现力方面显示出巨大的潜力。
样例可以访问:https://dukguo.github.io/TACA-TTS/
风格编码器详情可以可以关注:https://mp.weixin.qq.com/s/OlZvRZaMyWc64YN4OlGtbw
参考文献
[1] X. Zhu, Y. Li, Y. Lei, N. Jiang, G. Zhao, and L. Xie, “Multispeaker expressive speech synthesis via semi-supervised contrastive learning,” arXiv preprint arXiv:2310.17101, 2023.
[2] W.-N. Hsu, B. Bolte, Y.-H. H. Tsai, K. Lakhotia, R. Salakhutdinov, and A. Mohamed, “Hubert: Self-supervised speech representation learning by masked prediction of hidden units,” IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 29, pp. 3451–3460, 2021.
[4] https://github.com/fishaudio/Bert-VITS2
[3] J. Kong, J. Park, B. Kim, J. Kim, D. Kong, and S. Kim, “VITS2: Improving Quality and Efficiency of Single-Stage Text-to-Speech with Adversarial Learning and Architecture Design,” in Proc. INTERSPEECH 2023, 2023, pp. 4374–4378.
[5] https://github.com/innnky/ar-vits
[6] J. Kim, J. Kong, and J. Son, “Conditional variational autoencoder with adversarial learning for end-to-end text-to-speech,” in Proc. ICML, 2021, pp. 5530–5540.
[7] Z. Gao, S. Zhang, I. McLoughlin, and Z. Yan, “Paraformer: Fast and Accurate Parallel Transformer for Non-autoregressive Endto-End Speech Recognition,” in Porc. INTERSPEECH, 2022, pp. 2063–2067
[8] https://github.com/TencentGameMate/chinese_speech_pretrain
欢迎关注ASLP实验室微信公众号,获取更多语音研究相关资讯!
“打造最开放、最前沿、最落地的人工智能实验室”