Speech | 文本转语音中的声码器(Vocoder)

文摘   2024-11-05 13:36   印度尼西亚  
👆点击上方名片关注哟👆


这篇文章将深入探讨Vocoder(声码器)在语音合成系统中的作用,并介绍几种经典的声码器模型。

1. Vocoder 的作用

在语音合成 (TTS) 中,Vocoder 负责将低分辨率的梅尔谱图 (mel-spectrogram) 转换为原始波形音频

TTS 系统通常包含两部分:

  1. 文本到梅尔谱图:将输入的文本预测为频域的梅尔频谱图或语言特征。

  2. 梅尔谱图到波形音频:Vocoder 负责根据梅尔谱图生成高质量的音频。

要从音频中提取频率特征,可以通过短时傅里叶变换 (STFT)。梅尔谱图是通过 STFT 的幅度值转换成梅尔尺度得到的。由于 TTS 模型只能预测频率的幅度,Vocoder 还需生成相位信息,从而将原始语音信号完整还原。

2. 经典的声码器

神经声码器利用深度学习生成高质量语音。目前常见的模型分为以下几类:

  • 自回归模型 (Auto-regressive):WaveNet, WaveRNN

  • 基于流 (Flow-based):WaveGlow, Parallel WaveNet

  • 生成对抗网络 (GAN-based):MelGAN, Parallel WaveGAN

  • 变分自编码器 (VAE)

  • 基于扩散模型 (Diffusion-based):WaveGrid, DiffWave

图片来自https://arxiv.org/pdf/2106.15561

2.1 WaveNet

自回归生成模型

WaveNet 使用自回归模型 PixelCNN,在语音合成中达到了高质量效果。然而,由于自回归的特点,该模型在训练和推理过程中计算量大,处理速度较慢。

2.2 WaveGlow

基于流的生成模型

WaveGlow 利用流模型 (Flow-based),如 Parallel WaveNet,将语音的生成速度和质量提升到了新高度。然而,WaveGlow 的主要缺点是模型参数非常庞大,占用大量计算资源。

2.3 MelGAN

基于 GAN 的生成模型

MelGAN 使用生成对抗网络 (GAN),虽然相较于自回归模型语音质量稍低,但显著提高了生成速度并减少了参数数量。

2.4 VocGAN

多刻度 GAN 声码器

VocGAN 是在 MelGAN 基础上改进的多尺度声码器,解决了 MelGAN 在语音质量上的不足,同时保持了其高生成速度。VocGAN 的损失函数设计可以用于其他声码器,如多频段声码器。

2.5 HiFi-GAN

高保真 GAN 声码器

HiFi-GAN 在语音质量和生成速度上实现了平衡。它在梅尔谱图到音频转换中引入了GAN-loss,提升了语音的拟人度。HiFi-GAN 在当前 TTS 系统中广泛应用,适用于实时语音生成任务。



想要了解更多内容,可在小程序搜索🔍AI Pulse,获取更多最新内容。

AI Pulse
\x26quot;AI Pulse - AI脉动\x26quot;,探索AI技术前沿,深入解析算法精髓,分享行业应用案例,洞察智能科技未来。欢迎关注,与我们共赴AI学习之旅。
 最新文章