这篇文章将深入探讨Vocoder(声码器)在语音合成系统中的作用,并介绍几种经典的声码器模型。
1. Vocoder 的作用
在语音合成 (TTS) 中,Vocoder 负责将低分辨率的梅尔谱图 (mel-spectrogram) 转换为原始波形音频。
TTS 系统通常包含两部分:
文本到梅尔谱图:将输入的文本预测为频域的梅尔频谱图或语言特征。
梅尔谱图到波形音频:Vocoder 负责根据梅尔谱图生成高质量的音频。
要从音频中提取频率特征,可以通过短时傅里叶变换 (STFT)。梅尔谱图是通过 STFT 的幅度值转换成梅尔尺度得到的。由于 TTS 模型只能预测频率的幅度,Vocoder 还需生成相位信息,从而将原始语音信号完整还原。
2. 经典的声码器
神经声码器利用深度学习生成高质量语音。目前常见的模型分为以下几类:
自回归模型 (Auto-regressive):WaveNet, WaveRNN
基于流 (Flow-based):WaveGlow, Parallel WaveNet
生成对抗网络 (GAN-based):MelGAN, Parallel WaveGAN
变分自编码器 (VAE)
基于扩散模型 (Diffusion-based):WaveGrid, DiffWave
图片来自https://arxiv.org/pdf/2106.15561
2.1 WaveNet
自回归生成模型
WaveNet 使用自回归模型 PixelCNN,在语音合成中达到了高质量效果。然而,由于自回归的特点,该模型在训练和推理过程中计算量大,处理速度较慢。
2.2 WaveGlow
基于流的生成模型
WaveGlow 利用流模型 (Flow-based),如 Parallel WaveNet,将语音的生成速度和质量提升到了新高度。然而,WaveGlow 的主要缺点是模型参数非常庞大,占用大量计算资源。
2.3 MelGAN
基于 GAN 的生成模型
MelGAN 使用生成对抗网络 (GAN),虽然相较于自回归模型语音质量稍低,但显著提高了生成速度并减少了参数数量。
2.4 VocGAN
多刻度 GAN 声码器
VocGAN 是在 MelGAN 基础上改进的多尺度声码器,解决了 MelGAN 在语音质量上的不足,同时保持了其高生成速度。VocGAN 的损失函数设计可以用于其他声码器,如多频段声码器。
2.5 HiFi-GAN
高保真 GAN 声码器
HiFi-GAN 在语音质量和生成速度上实现了平衡。它在梅尔谱图到音频转换中引入了GAN-loss,提升了语音的拟人度。HiFi-GAN 在当前 TTS 系统中广泛应用,适用于实时语音生成任务。
想要了解更多内容,可在小程序搜索🔍AI Pulse,获取更多最新内容。