摘要
当前的情绪文本到语音 (TTS) 模型主要进行监督训练,以学习从文本和所需情绪到其情绪语音的转换,侧重于每对文本语音中的单一情绪。 这些模型只学习了正确的情绪输出,而没有完全理解其他情绪特征,这限制了它们捕获不同情绪之间细微差别的能力。 我们提出了一种可控的 Emo-DPO 方法,它采用直接偏好优化,通过优化对优选情绪而不是较不优选的情绪来区分情绪之间的细微情绪差异。 我们没有依赖现有情绪 TTS 模型中使用的传统神经架构,而是建议利用情绪感知 LLM-TTS 神经架构,以利用 LLM 的上下文学习和指令遵循能力。 全面的实验结果证实,我们提出的方法优于现有的基线方法。
索引词:
语音合成,大型语言模型,文本到语音 (TTS),情绪。
I引言
人类产生的语音自然地在不同的情绪中有所不同 [1, 2, 3, 4]。 情绪语音合成旨在通过从文本和所需情绪音调生成类似人类的语音来复制这种复杂性,并通过机器学习技术取得了重大进展 [5, 6, 7, 8]。 为了生成逼真的情绪语音,情绪文本到语音 (TTS) 模型必须考虑除了简单文本输入之外的各种因素,例如通过压力、语调、节奏表达情绪的细微差别,以及人类情绪特征之间复杂的相互作用 [4, 9]。
当前的情绪 TTS 模型主要依赖于传统的架构,如 LSTM [10]、BLSTM [11]、Tacotron [12, 13, 8, 9]、FastSpeech [14, 6, 7, 8, 15]、VITS [16]、基于扩散的模型 [17] 和流匹配模型 [18]。 它们忽略了将大型语言模型 (LLM) 整合到语音合成中,以利用 LLM 在质量、自然度和情绪表现力方面的上下文学习和指令遵循能力。 相反,LLM 在有效地建模语音符号方面取得了成功 [19],并在零样本场景中实现了高质量的合成语音 [20, 21],从而证明了其在语音合成方面的进步。 尽管如此,LLM 在 TTS 模型中渲染情感的应用仍未得到充分探索。 本文旨在通过研究 LLM 在增强情感语音合成中的应用来弥合这一差距,特别是在捕捉不同情感之间细微差别方面。
监督学习主要用于训练现有的情感 TTS 模型,其中文本与相应的情感语音配对,通常侧重于每个实例中的单一情感 [22, 6, 7, 8]。 这限制了模型对多种情感的控制,并阻碍了其捕捉情感之间韵律和语调细微差别的能力。 为了解决这个问题,我们从人类反馈强化学习 (RLHF) [23] 和直接偏好优化 (DPO) [24] 中获得灵感。 DPO 最近在 LLM [25, 24, 26] 和生成模型 [27, 28, 29, 30] 中证明了其在区分首选信号和非首选信号方面的显著有效性。 RLHF 作为现代 LLM [23, 31, 32] 成功的基础,需要训练一个奖励模型来近似人类偏好,而 DPO 提供了一种更有效的方式直接优化偏好数据,消除了对显式奖励模型的需求,并降低了计算负担 [27, 28]。
鉴于 DPO 的成功及其在偏好一致性中的作用,我们建议利用 DPO 来解决传统情感 TTS 模型的局限性,这些模型仅控制单个情感。 我们介绍了 Emo-DPO,这是一种利用 DPO 来捕捉正负情感对之间细微韵律和语调差异的情感 TTS 方法,从而增强语音合成中的情感表现力。 与缺乏情感偏好的传统监督学习方法不同,我们的 Emo-DPO 通过将 TTS 模型与首选的情感表达相一致来微调模型,从而优化首选情感输出相对于不太受欢迎的输出的生成。 通过结合正负情感反馈,Emo-DPO 使得表现力丰富的语音合成能够超越单一情感建模,从而更好地区分情感并生成更可控、更具表现力的情感语音。
本文的主要贡献包括:1) 超越单一情感:我们提出了 Emo-DPO,这是一种新颖的可控情感 TTS 方法,它首次利用直接偏好优化来区分情感之间的细微差异,以及 2) 情感感知 LLM-TTS:我们研究了情感感知 LLM 在情感 TTS 神经架构中的集成。
II方法
我们提出了一种基于 LLM 的 TTS 神经架构的 Emo-DPO 方法,用于通过 直接 偏好 优化 (DPO) 进行 情感 TTS,如图 1 所示。
II-A Emo-DPO 概述
我们提出了一种情绪 TTS 方法 Emo-DPO,旨在从文本、说话者 x 向量和期望的情绪输入中合成情绪语音。 我们的方法结合了 (a) 指令调优和 (b) Emo-DPO 训练,并整合了情绪感知 LLM-TTS,优化了生成与预定义指令数据中指定情绪提示相对应的语音符元序列的可能性。 在推理过程中,Emo-DPO 从文本、期望情绪和说话者 x 向量输入中生成语音符元,然后经过一个冻结的流匹配模型和一个冻结的声码器,生成情绪语音(参见图 1 (c))。 接下来我们将详细介绍提出的指令调优和 Emo-DPO 训练过程。
II-B 指令调优
在第一步中,我们建议对 LLM-TTS
其中
通过这种方式,
II-C 情感直接偏好优化训练
动机: 但是,仅仅对
II-C1 超越一种情感 - DPO 训练
为了构建用于 Emo-DPO 微调的成对偏好数据(见图 1 (b)),我们将上面定义的
将第一阶段指令调优后的 LLM-TTS 模型记为
其中
II-C2 Emo-DPO 训练目标
为了进一步稳定训练,我们引入了两种正则化策略。 一种策略是在 DPO 目标中引入一个 Jensen-Shannon (JS) 散度 [33] 操作:
以上操作可以平滑优化过程并防止极端的 logit 差异,从而提高训练稳定性。 此外,它们通过 JS 散度的有界和对称性质,提供了一个更平衡和可解释的偏好学习过程。
另一种策略是联合优化 JS 正则化的 DPO 目标、在指令调优的第一阶段定义的标签平滑 KL 目标以及一个额外的 SFT 目标。 具体来说,总损失项定义为:
其中
III实验
III-A数据集和实验设置
我们使用 ESD 数据集 [34] 的英语部分进行实验,10 个说话人表达 5 种情绪:愤怒、快乐、悲伤、惊讶和中立,每个说话人和情绪有 350 个话语(约 1750 个话语)每个演讲者 1.2 小时)。 我们遵循官方的训练/验证/测试分割[34, 6],其中验证和测试集由 5 种情绪和 10 个说话者的 20 和 30 个话语组成,从而产生 1000 和 1500 个话语。 我们使用 Cosyvoice-300M-Instruct 模型 (cosyvoice) [20] 和基于 fastspeech2 的 emospeech [6] 作为强大的基线,两者都具有可公开访问的代码。 cosyvoice 和提议的 Emo-DPO 的相同 X 向量是从测试说话者的训练数据中提取的。 Emo-DPO 使用动态批处理进行 2 轮训练,然后在 4 个 GPU 上进行 3 轮 DPO 训练,批处理大小为 8。 Emo-DPO 中的 TTS-LLM、语音分词器和文本编码器从 cosyvoice 初始化,具有相同的架构,推理使用预训练的流匹配模型和 HifiGan 声码器[20]. 参数
III-B评估指标
我们进行了广泛的客观和主观评估,以将拟议的 Emo-DPO 与基线进行比较。
客观评估:为了评估生成的音频的清晰度,我们在音频上应用 Whisper-Large-v3 来识别文本并计算错误率 (WER) 。 韵律相似度(SIM):我们使用 AutoPCP [35] 作为话语级别估计器来量化生成的语音样本和真实语音样本之间的韵律相似度1 遵循[18]。 情感相似度 (SIM): 我们使用 emotion2vec-base 模型 [36] 从真实数据和生成的音频中提取情感嵌入,计算余弦相似度,并在测试集上对 EMO SIM 得分进行平均。 语音情感识别 是使用预训练模型 2 在生成的音频上进行的,以识别情感类别,其中得分 1 和 0 分别表示正确和错误的情感识别。 对 1,500 个测试话语的平均得分是针对每个系统计算的。
主观评价 包括平均意见得分 (MOS)、情感平均意见得分 (Emotion MOS) 和 AB 偏好测试。 20 位听众参加了所有测试。 MOS 对整体音频质量和自然度进行评分,从 1(差)到 5(优秀),而 Emotion MOS 对真实音频和生成的语音之间情感的相似度进行评分,从 1(完全不相似)到 5(极其相似)。 在 AB 偏好测试 中,听众根据质量和情感生成,从两个系统(A 和 B)的样本中选择较好的一个。 进行两个 AB 测试:cosy 与 Emo-DPO 以及 emospeech 与 Emo-DPO,每个测试使用 8 个平衡的情感样本。 对于 MOS 和 Emotion MOS 测试,听众被要求对 cosyvoice、emospeech 和 Emo-DPO 模型的 30 个样本进行评分,这些样本的情感均衡(每种情感 6 个样本)。
IV结果与讨论
我们研究了多重情感控制、情感感知 LLM-TTS 集成、SFT 训练、DPO 训练和训练目标设计的影响。 我们在表 I 中展示了客观评估结果,在图 2 和图 3 中展示了主观评估结果。 我们还在表 II 中进行了消融研究。
IV-A Emo-DPO 训练对 LLM-TTS 的有效性
为了评估 DPO 训练对情感 TTS 的有效性,我们在表 I 中将基线模型(emospeech、cosyvoice)与提出的 Emo-DPO 进行了比较。 Emo-DPO 在清晰度、韵律相似度和情感相似度方面优于基线模型,证明了它能够捕捉到情感 TTS 的更微妙的情感和韵律细微差别。 图2 中的主观评估(MOS 和情感 MOS)也显示出类似的趋势,表明Emo-DPO 在语音质量、自然度和多样化情感控制方面表现出色。 这证实了 DPO 训练在推动情感 TTS 迈向更可控、更高质量性能方面的成功。 语音情感识别结果表明,Emo-DPO 的性能优于基线,在各种情感中生成更可控的语音,特别是对于悲伤和惊讶的音频。
为了便于清晰地比较 TTS 模型性能,我们在图3 中展示了 AB 偏好测试结果,结果表明 85.6% 的听众更喜欢提出的Emo-DPO,而不是 emospeech,这突出了将情感感知 LLM-TTS 架构集成到传统 FastSpeech2 中的优势。 提出的 Emo-DPO (88.7%) 相比 cosyvoice (10.6%) 的优越性证明了 DPO 训练通过成对偏好指导来捕捉细微情感细节的增强能力。 本文音频样本演示页面可在链接3 中找到。
IV-B 消融研究
为了分析贡献来源,我们在表II 中对提出的 Emo-DPO 进行了消融研究。 我们观察到,移除 DPO 损失会导致清晰度和韵律相似性性能下降,表明 DPO 损失有助于更清晰的语言发音和更好地捕捉到多样化、随时间变化的韵律变化。 进一步移除 SFT 损失会导致情感相似度降低,表明 SFT 损失有助于稳定训练。 省略 DPO、SFT 和 KL 损失会导致整体性能下降,突出了所提出的优化设计的有效性。 此外,移除指令调优并进一步省略 SFT 损失会导致性能在所有评估指标中都比所提出的模型更差,这强调了指令调优在捕捉领域内情感特征方面的重要性。
V结论
本文提出了一种可控情感 TTS 方法,该方法集成了情感感知 TTS-LLM 架构,为在 LLM 时代推进情感语音合成开辟了道路。 我们提出的 Emo-DPO 方法利用新颖的直接偏好优化,并采用先进的目标设计,通过偏好更受欢迎的情感,而不是不太受欢迎的情感来捕捉微妙的情感细微差别。 广泛的实验验证了 Emo-DPO 的有效性。 代码将在接受后发布给研究界。