MaskGCT是一款新发布的开源文本到语音(TTS)模型,具备零样本声音克隆和情感语音合成的能力,支持中英文合成。该模型在包含10万小时自然语音数据的Emilia数据集上进行训练,采用全非自回归架构,显著提高了推理速度和合成质量。MaskGCT通过两阶段方法,首先预测语义标记,再生成声学标记,展现出卓越的语音克隆和跨语言生成能力。
参考:
https://huggingface.co/amphion/MaskGCT https://arxiv.org/abs/2409.00750
点个分享、点赞与在看,你最好看~