【AI】完美复刻,香港中文大学与国内联手的AI声音克隆模型来了!

文摘   2024-11-02 15:06   河北  
点击上方  关注我们吧



近日,香港中文大学与趣丸科技联合推出了一款语音克隆模型——MaskGCT模型。

这款模型采用了先进的声音克隆与合成技术,具备多语种、风格化和高音质的语音合成能力

开创性的语音克隆与风格迁移

MaskGCT的主要优势在于其自然逼真的声音克隆效果。

通过仅需3秒的音频样本,用户便可以高度仿真任意人类或非人类声音,无论是人物声音、动漫角色音色,还是低语等情感语调,均可实现逼真再现。

MaskGCT的声音克隆不仅注重语音内容的复制,同时能够高度还原说话者的情感和语调。

这种风格迁移能力使得MaskGCT特别适用于影视配音、虚拟人声生成及多样化的语言教育等多个应用场景。

此外,该模型还在多个TTS基准数据集上达到了最新的SOTA(最先进技术)效果,性能超过了当前主流的TTS模型。

可控的语音生成与多语种支持

MaskGCT的另一个显著特点是其强大的可控性。

用户可以灵活调整生成语音的长度、语速、语气等参数,使生成的声音能够符合特定场景需求。

例如,用户可以通过修改文本内容直接影响语音内容的输出,使音色、韵律等特性保持一致。

同时,MaskGCT对多语言的支持极为全面,能够实现中、英、韩、日、法、德六种语言的语音合成。

这一多语言支持,尤其在全球化市场中具有重要意义,帮助模型在多语种环境下保持高一致性和高质量的输出。

这种灵活可控的特性使MaskGCT在应用上拥有巨大的潜力,特别适用于教育和翻译等对语言需求多样化的行业。

基于Emilia数据集的高稳定性

MaskGCT的训练数据集——Emilia数据集,包含了多种语言和丰富的语音样本,使模型能够适应多种语音类型,稳定性和适应性都得到了显著提升。

这种多语言数据集由趣丸科技和港中大(深圳)合作打造,包含10万小时的多语言语音数据,覆盖了日常对话、演讲、情感表达等多样化场景。

得益于该数据集的支持,MaskGCT不仅实现了高度精细的声音复制,还在大规模语言环境中表现出了卓越的稳定性。

Amphion系统上,MaskGCT的开源发布也意味着更广泛的开发者和机构可以使用并优化这一模型,以满足更多元化的需求。

这一举措进一步推动了多语种语音合成领域的发展,并为全球开发者的语音应用提供了灵活的开发环境。

应用潜力与未来前景

MaskGCT在影视娱乐、教育培训、智能助手等领域具有广阔的应用前景。

影视行业可以通过MaskGCT实现高效的多语言配音和角色声音还原;教育行业则可以使用其生成的多语言语音资源,提升语言学习的互动性与真实感;

而在智能助手和虚拟人技术中,MaskGCT的情感表达与语言迁移能力,使得虚拟人能够更为贴近人类交互体验。

对此,各位读者有什么想说的?

欢迎留言,一起交流你的观点与看法!


合作与交流

您的支持 · 我们的动力

诚邀投稿:


欢迎各位粉丝、朋友们提供稿件(前沿科技进展、科技产品动态、经典文献解读、技术原理科普、行业市场分析、科研生活感悟、社会民生观察等)。联系微信号:133 9674 1340,并请注明详细联系信息,对入选推送稿件者,我们会及时联系您,以微信红包形式给予报酬


对前沿科技感兴趣的朋友,可以点击关注公众号,订阅感兴趣的话题专栏!

也可添加下述小编微信!小编邀请您一起加入“前沿科技观察”群聊!

让我们每天下午4点,一起探索全球最前沿的科技资讯!开启你的科技之旅,与志同道合的伙伴一同品味科技发展带来的时代红利,创新型的未来!



编辑|前沿科技观察

供稿|科创产业观察

审核|前沿科技观察






前沿科技观察
聚焦科学前沿、着眼科技热点!理工博士,用最接地气的文字,传递最“好玩”的科技讯息!
 最新文章