给大家分享一个效果很棒的文本转语音开源模型:MaskGCT!这是由港中大(深圳)联手趣丸科技联合推出了新一代大规模声音克隆。
与先有的文本转语音模型相比,MaskGCT 生成的语音更自然、更连贯。而且这个开源模型,支持控制生成的语音的总长度、语速、停顿、预期等特征。可以修改已经生成的语音或者支持声音克隆。
话不多少,直接点开下面视频看看效果。
01 音色模仿
可以点开如下视频听听声音模仿的效果,预期、停顿、音色还原的都非常好
PS:请忽略背景中 dangdang 的杂音,是我在录制的时候我家猫在扒柜子
02 模拟情绪
可以通过声音来辨别人目前处于何种情绪状态,比如愤怒、开心、恐惧等。MaskGCT 对此也实现了精准模拟,请看如下这个例子。
咖喱味儿、大舌头的发音,也能精确模拟。
04 MaskGCT 的架构
MaskGCT(Masked Generative Codec Transformer)的全新非自回归式(NAR)文本到语音(TTS)模型。MaskGCT 的设计旨在解决传统自回归(AR)和非自回归(NAR)TTS系统的不足之处。
MaskGCT采用了两阶段架构:第一阶段模型使用文本预测从语音自监督学习模型中提取的语义 tokens;第二阶段则在语义 tokens 的条件下生成声学 tokens。
MaskGCT 能够实现在没有对齐监督的情况下,可以直接合成出高质量的语音。
支持语音内容编辑,借助遮罩与预测机制,通过对语义tokens的部分遮罩,MaskGCT可以实现零样本语音内容编辑。
能够语音转换,MaskGCT支持零样本语音转换,能够根据参考音频将源语音转换为目标语音的音色,而保持语义内容不变。
05 相关地址
你可以通过如下链接访问论文、上方视频中的案例展示、下载模型、自己进行 Demo 展示。
Git:https://github.com/open-mmlab/Amphion/tree/main/models/tts/maskgct
项目主页:https://maskgct.github.io/
论文链接:https://arxiv.org/abs/2409.00750
Demo:https://huggingface.co/spaces/amphion/maskgct模型下载:https://huggingface.co/amphion/maskgct
(正文完)
兄弟们,我出了个高并发项目实战课。这个项目用到了目前市面上最主流的 SpringCloudAlibaba 的技术栈,用到的框架都是目前的最新版+稳定版。(项目详细介绍)
后端主要用到了像 JDK 21、Spring 6.1、SpringCloud 2023、Nacos、Sentinel、Dubbo、Redis、XXL-JOB、RocketMQ、ShardingJDBC、Druid、MySQL、EslasticSearch、Canal、 Seata、SaToken 等中间件及技术,还用到了像 Hutool、Logback、Caffeine、Mybatis、MybatisPlus、FastJson2等常用的开源框架。
在技术方案上,主要涉及到了各种分布式、微服务、高并发、高可用等相关技术列表。(项目详细介绍)
项目给大家交付的内容包括了代码+视频+文档+答疑。
这个项目目前还在更新中,预计会在接下来的3个月左右时间完成代码的开发、文档和视频的更新。(主干功能已完成,项目可完整运行起来)
更新完之后,有效代码行数应该在3万行左右,视频和文档都在200集左右。文档总字数大概20万字左右,视频的总时长大概在2000分钟左右。
这个项目因为目前刚刚推出,还是一个首发价,当前的价格是189,这个价格不是一年的价格,是永久的。
项目详细介绍:高并发、大流量的项目实战课上线了!
购买的方式目前大家可以通过下方的二维码下单,下单后会有短信提示,然后你就可以根据提示操作,申请代码、视频、文档的权限了。
这个项目是一个微服务的技术栈,所以其实内容还是挺多的,想要学明白,还是有一定的门槛的,所以,对于0基础的人不适合!
除了0基础以外,其他人都能学,因为项目中我有很多模块,不同的模块遇到的挑战、用到的技术都不一样,你可以按照我划分的难度进行选择性学习。