开源了，绝了。

科技 2024-11-11 12:04 北京

给大家分享一个效果很棒的文本转语音开源模型：MaskGCT！这是由港中大（深圳）联手趣丸科技联合推出了新一代大规模声音克隆。

与先有的文本转语音模型相比，MaskGCT 生成的语音更自然、更连贯。而且这个开源模型，支持控制生成的语音的总长度、语速、停顿、预期等特征。可以修改已经生成的语音或者支持声音克隆。

话不多少，直接点开下面视频看看效果。

01 音色模仿

可以点开如下视频听听声音模仿的效果，预期、停顿、音色还原的都非常好

PS：请忽略背景中 dangdang 的杂音，是我在录制的时候我家猫在扒柜子

02 模拟情绪

可以通过声音来辨别人目前处于何种情绪状态，比如愤怒、开心、恐惧等。MaskGCT 对此也实现了精准模拟，请看如下这个例子。

03 模仿说话风格

咖喱味儿、大舌头的发音，也能精确模拟。

04 MaskGCT 的架构

MaskGCT（Masked Generative Codec Transformer）的全新非自回归式（NAR）文本到语音（TTS）模型。MaskGCT 的设计旨在解决传统自回归（AR）和非自回归（NAR）TTS系统的不足之处。

MaskGCT采用了两阶段架构：第一阶段模型使用文本预测从语音自监督学习模型中提取的语义 tokens；第二阶段则在语义 tokens 的条件下生成声学 tokens。

MaskGCT 能够实现在没有对齐监督的情况下，可以直接合成出高质量的语音。

支持语音内容编辑，借助遮罩与预测机制，通过对语义tokens的部分遮罩，MaskGCT可以实现零样本语音内容编辑。

能够语音转换，MaskGCT支持零样本语音转换，能够根据参考音频将源语音转换为目标语音的音色，而保持语义内容不变。

05 相关地址

你可以通过如下链接访问论文、上方视频中的案例展示、下载模型、自己进行 Demo 展示。

Git：https://github.com/open-mmlab/Amphion/tree/main/models/tts/maskgct
项目主页：https://maskgct.github.io/
论文链接：https://arxiv.org/abs/2409.00750
Demo：https://huggingface.co/spaces/amphion/maskgct
模型下载：https://huggingface.co/amphion/maskgct
历史盘点
逛逛 GitHub 每天推荐一个好玩有趣的开源项目。历史推荐的开源项目已经收录到 GitHub 项目，欢迎 Star：
地址：https://github.com/Wechat-ggGitHub/Awesome-GitHub-Repo

推荐阅读
1. GitHub 上有什么好玩的项目？
2. 推荐 5 个本周很火的 GitHub 项目
3. 推荐 5 个近期火火火的 GitHub 项目
4.  推荐 5 个令人惊艳的 GitHub 项目

逛逛GitHub

每天推荐一个好玩的 GitHub 开源项目，给我发消息获取各种项目。

推荐 2 个火火火的开源项目

2 个令人瞩目的开源项目！

标星 6K！简洁美观电子书阅读器开源！

开源了！AI 一键生成证件照

最近 3 个火火火火的开源项目！

这 3 个开源项目，YYDS ！

盘点 8 月份火火火的开源项目

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉