F5-TTS是一种完全非自回归的基于流匹配和扩散变换器 (DiT) 的文本转语音系统。无需时长模型、文本编码器和音素对齐等复杂设计,只需用填充标记填充文本输入,使其长度与输入语音相同,然后进行去噪以生成语音,这最初由 E2 TTS 证明是可行的。然而,E2 TTS 的原始设计使其难以遵循,因为它的收敛速度慢且鲁棒性低。
相关链接
• 论文:https://arxiv.org/pdf/2410.06885
• 项目:https://SWivid.github.io/F5-TTS
• 试用:https://huggingface.co/spaces/mrfakename/E2-F5-TTS
论文阅读
概述
F5-TTS是一种完全非自回归的基于流匹配和扩散变换器 (DiT) 的文本转语音系统。无需时长模型、文本编码器和音素对齐等复杂设计,只需用填充标记填充文本输入,使其长度与输入语音相同,然后进行去噪以生成语音,这最初由 E2 TTS 证明是可行的。然而,E2 TTS 的原始设计使其难以遵循,因为它的收敛速度慢且鲁棒性低。
为了解决这些问题,首先使用 ConvNeXt 对输入进行建模以细化文本表示,使其易于与语音对齐。然后进一步提出了一种推理时间摆动采样策略,这显著提高了我们模型的性能和效率。这种流步骤的采样策略可以轻松应用于现有的基于流匹配的模型,而无需重新训练。该设计可以加快训练速度,并实现 0.15 的推理 RTF,与最先进的基于扩散的 TTS 模型相比,这一性能有了很大的提高。
方法
F5-TTS 训练(左)和推理(右)概述。该模型在文本引导的语音填充任务和条件流匹配损失上进行训练。输入文本被转换为字符序列,用填充标记填充到与输入语音相同的长度,并在与语音输入连接之前通过 ConvNeXt 块进行细化。推理利用 Sway Sampling 进行流步骤,使用模型和 ODE 求解器从采样噪声中生成语音。
实验结果
从 Seed-TTS 测试集上的评估结果来看,F5-TTS 的表现与真实值接近,WER 和 SIM 得分也相当。它在 Seed-TTS test-en (test-zh) 上以 CMOS 为 0.31 (0.21) 和 SMOS 为 3.89 (3.83) 的零样本生成中产生了流畅的语音,并且超越了一些使用更大规模训练的基线模型。值得一提的是,效果最好的 Seed-TTS 的模型大小和数据集 (几百万小时) 比我们的大几个数量级。
模型架构的消融研究。使用 WenetSpeech4TTS Premium 945 小时普通话语料库训练的 155M 小模型的 Seed-TTS 测试-zh 评估结果。
不同系数s的Sway Sampling在流程步骤t上的概率密度函数(左),以及使用Sway Sampling的小模型在Seed-TTS test-zh上的表现(右)。
结论
这项工作引入了 F5-TTS,这是一种完全非自回归的文本转语音系统,基于流匹配和扩散变换器 (DiT)。F5-TTS 拥有整洁的管道,即文本输入和语音输出,与现有的在行业规模数据上训练的作品相比,它实现了最先进的零样本能力。采用 ConvNeXt 进行文本建模,并提出测试时间摆动采样策略,以进一步提高语音生成的稳健性和推理效率。该方法设计允许更快的训练和推理,通过实现 0.15 的测试时间 RTF,这与其他具有类似性能的经过高度优化的 TTS 模型相媲美。
感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~