会员动态丨趣丸科技联合港中大(深圳)开源首个语音大模型,效果全球领先跻身第一梯队

健康   2024-10-28 17:41   广东  
Artificial Intelligence Industry News


趣丸科技首个开源大模型来啦!


10月24日,广东省人工智能产业协会理事单位趣丸科技宣布与香港中文大学(深圳)联合研发的语音大模型“MaskGCT”正式在Amphion系统中开源,面向全球用户开放使用。区别于传统TTS模型,该模型采用掩码生成模型与语音表征解耦编码的创新范式,在声音克隆、跨语种合成、语音控制等任务中展现出卓越效果。



MaskGCT在三个TTS基准数据集上都达到了SOTA效果,超过当前最先进的同类模型,某些指标甚至超过人类水平。



论文链接:https://arxiv.org/abs/2409.00750

交互Demo:https://huggingface.co/spaces/amphion/maskgct

样例展示:https://maskgct.github.io/

Amphion地址:https://github.com/open-mmlab/Amphion

模型下载:https://huggingface.co/amphion/maskgct

项目地址:https://github.com/open-mmlab/Amphion/tree/main/models/tts/maskgct

公测版地址(趣丸千音):voice.funnycp.com



相较于现有的TTS大模型,MaskGCT在语音的相似度、质量和稳定性上进一步突破,尤其在语音相似度方面处于绝对领先地位。显著特点如下:


1.秒级超逼真的声音克隆:提供3秒音频样本即可复刻人类、动漫、“耳边细语”等任意音色,且能完整复刻语调、风格和情感。

声音克隆DEMO:

(猜猜模仿的是谁?)


2.更精细可控的语音生成:可灵活调整生成语音的长度、语速和情绪,支持通过编辑文本编辑语音,并保持韵律、音色等方面的极度一致。

语速控制DEMO:


3.高质量多语种语音数据集:训练于香港中文大学(深圳)和趣丸科技等机构联合推出的10万小时数据集Emilia,是全球最大且最为多样的高质量多语种语音数据集之一,精通中英日韩法德6种语言的跨语种合成。


优秀的模型离不开顶尖的团队。MaskGCT研发团队在语音领域拥有深厚的研究积累和原创性成果。该工作由港中大(深圳)-趣丸科技人工智能联合实验室成员完成,这主要依托趣丸科技十年深耕音频技术领域和亿级高质量语音用户的服务经验,以及香港中文大学(深圳)国际一流水平的师资队伍。



MaskGCT的诞生,再次证明即使在算力受限的情况下,中国AI企业仍有勇气和底气追赶并超越西方同行。


然而,除了保持技术领先,大模型的更大价值在于走出实验室,赋能千行百业惠及千家万户,成为驱动经济增长的新质生产力。


目前,MaskGCT在短剧出海、数字人、智能助手、有声读物、辅助教育等领域拥有丰富的应用场景。为了加快落地应用,在安全合规下,趣丸科技打造了多语种速译智能视听平台“趣丸千音”。一键上传视频即可快速翻译成多语种版本,并实现字幕修复与翻译、语音翻译、唇音同步等功能。该产品进一步革新视频翻译制作流程,大幅降低过往昂贵的人工翻译成本和冗长的制作周期,成为影视、游戏、短剧等内容出海的理想选择平台。



《2024年短剧出海白皮书》显示,2023年海外市场规模高达650亿美元,约为国内市场的12倍,短剧出海成为蓝海新赛道。以“趣丸千音”为代表的产品的出现,将加速国产短剧“走出去”,进一步推动中华文化在全球不同语境下的传播。



MaskGCT(Masked Generative Codec Transformer)是一个大规模的零样本TTS模型,采用非自回归掩码生成Transformer,无需文本与语音的对齐监督和音素级持续时间预测。其技术突破性在于采用掩码生成模型与语音表征解耦编码的创新范式。


实验表明,MaskGCT在语音质量、相似度和可理解性方面优于当前最先进的TTS模型,并且在模型规模和训练数据量增加时表现更佳,同时能够控制生成语音的总时长。MaskGCT已在香港中文大学(深圳)与上海人工智能实验室联合开发的开源系统Amphion发布。



MaskGCT模型由四个主要组件组成:

1.语音语义表示编解码器:将语音转换为语义标记。

2.语音声学编解码器:从声学标记重建波形。

3.文本到语义模型:使用文本和提示语义标记预测语义标记。

4.语义到声学模型:基于语义标记预测声学标记。


语音语义表示编解码器用于将语音转换为离散的语义标记,这些标记通常通过离散化来自语音自监督学习(SSL)模型的特征获得。与以往使用k-means方法离散化语义特征相比,这种方法可能导致信息损失,从而影响高质量语音的重建或声学标记的精确预测,尤其是在音调丰富的语言中。为了最小化信息损失,本文训练了一个VQ-VAE模型来学习一个向量量化码本,该码本能够从语音SSL模型中重建语音语义表示。具体来说,使用W2v-BERT 2.0模型的第17层隐藏状态作为语音编码器的语义特征,编码器和解码器由多个ConvNext块组成。通过改进的VQ-GAN和DAC方法,使用因子分解码将编码器输出投影到低维潜在变量空间。


语音声学编解码器旨在将语音波形量化为多层离散标记,同时尽可能保留语音的所有信息。本文采用残差向量量化(Residual Vector Quantization, RVQ)方法,将24K采样率的语音波形压缩为12层的离散标记。此外,模型使用Vocos架构作为解码器,以提高训练和推理效率。



文本到语义模型采用非自回归掩码生成Transformer,而不使用自回归模型或任何文本到语音的对齐信息。在训练过程中,我们随机提取语义标记序列的前缀部分作为提示,以利用语言模型的上下文学习能力。我们使用Llama风格的Transformer作为模型的主干,结合门控线性单元(GLU)和GELU激活函数、旋转位置编码等,但将因果注意力替换为双向注意力。还使用了接受时间步t作为条件的自适应RMSNorm。在推理过程中,我们生成任意指定长度的目标语义标记序列,条件是文本和提示语义标记序列。本文还训练了一个基于流匹配的持续时间预测模型,以预测基于文本和提示语音持续时间的总持续时间,利用上下文学习。


语义到声学模型同样采用非自回归掩码生成Transformer,该模型以语义标记为条件,生成多层声学标记序列以重建高质量语音波形。





点击阅读原文体验“趣丸千音”↓↓↓



广东省人工智能产业协会
广东省人工智能产业协会是按照《广东省行业协会条例》的规定,于2017年10月23日,经广东省民政厅正式批准注册成立的具有独立法人资格的非营利性社会组织。协会致力于打造AI全生态产业服务平台。
 最新文章