全新MaskGCT模型:中英文合成与声音克隆的完美结合

文摘   2024-11-22 07:45   福建  

MaskGCT是一款新发布的开源文本到语音(TTS)模型,具备零样本声音克隆和情感语音合成的能力,支持中英文合成。该模型在包含10万小时自然语音数据的Emilia数据集上进行训练,采用全非自回归架构,显著提高了推理速度和合成质量。MaskGCT通过两阶段方法,首先预测语义标记,再生成声学标记,展现出卓越的语音克隆和跨语言生成能力。


参考:

  1. https://huggingface.co/amphion/MaskGCT
  2. https://arxiv.org/abs/2409.00750



点个享、点赞在看,你最好看~


Halo咯咯
专注于技术知识整理,包含人工智能、大模型、机器学习、深度学习、大数据等多个领域的技术知识,以及各种开源的内容~
 最新文章