【数字人应用基建】29个文本转语音TTS开源工具

文摘   2024-12-17 10:30   北京  

今天是2024年12月17日,星期二,北京,天气晴。

今天,我们继续来看看语音方面的应用项目,讲29个文本转语音的项目,可以作为一个不错的索引,应该是比较全的。

供各位参考,多思考,多总结,多实践;

29个文本转语音TTS开源工具

1)TTS Maker

地址:https://ttsmaker.com/zh-cn 支持多种语言和不同的声音选项(包括:中文、英语、日语、法语、阿拉伯语、韩语等等,甚至转换成方言:包括东北话、粤语、闽南话等等。

2)微软Azure

地址:https://azure.microsoft.com/en-us/products/cognitive-services/text-to-speech/

微软出品的一种语音服务功能。

3)PaddleSpeech

地址:https://github.com/PaddlePaddle/PaddleSpeech

基于PaddlePaddle深度学习平台。提供了基于 FastSpeech2 声学模型和 HiFiGAN 声码器的中文流式语音合成系统。

4)VoiceVox

地址:https://github.com/VOICEVOX/voicevox

基于VOICEVOX的OSS(开源软件)版本构建,软件部分是Electron + Vue

5)TensorFlowTTS

地址:https://github.com/TensorSpeech/TensorFlowTTS

包含了一系列深度学习模型,如FastSpeech 2、Tacotron 2、Multi-band MelGAN等。

6)TTSKit

地址:https://github.com/kuangdd/ttskit

集成多种开源TTS技术和模型,如Tacotron 2、WaveNet、WaveGlow等。

7)OpenTTS

地址:https://github.com/synesthesiam/opentts

整合和利用了现有的开源TTS引擎(如Mozilla的TTS、MaryTTS、eSpeak NG等)和语音合成方案。

8)eSpeak NG

地址:https://github.com/espeak-ng/espeak-ng

eSpeak的一个分支。

9)F5-TTS

上海交通大学开源的一款高性能文本到语音(TTS)系统,基于流匹配的非自回归生成方法,结合扩散变换器(DiT)技术。零样本声音克隆,可以控制合成语音的情感色彩。

地址::https://github.com/SWivid/F5-TTS HuggingFace,https://huggingface.co/SWivid/F5-TTS,https://arxiv.org/pdf/2410.06885,https://huggingface.co/spaces/mrfakename/E2-F5-TTS

10)Edge-TTS

微软推出的工具,支持英语、汉语、日语、韩语、法语等40多种语言,共300多种可选声音。

地址:https://github.com/rany2/edge-tts

11)ChatTTS

支持中英文对话的文本到语音TTS模型,超过10万小时的训练,公开版本在HuggingFace上提供了一个4万小时预训练的模型。

地址:https://github.com/2noise/ChatTTS

12)ChatTTS-ui

在网页使用ChatTTS将文字合成为语音,使用前端口展示。集成了批量语音到字幕、批量字幕翻译和批量配音小工具。

地址:https://github.com/jianchang512/ChatTTS-ui

13)Seed-TTS

字节跳动开发的支持语音内容编辑和说话速度编辑的工具。

地址:https://bytedancespeech.github.io/seedtts_tech_report/,https:/arxiv.org/pdf/2406.02430,https://github.com/BytedanceSpeech/seed-tts-eval/

14)Fish Speech

使用约十五万小时三语数据训练,可处理和生成中文、日语和英语的语音。支持多种不同的语音生成模型,包括VITS2、Bert-VITS2、GPT VITS、MQTTS、GPT Fast、GPT-SOVITS。

地址:https://github.com/fishaudio/fish-speech,https://fish.audio/zh-CN/

15)GPT-SoVITS

集成工具包括声音伴奏分离、自动训练集分割、中文自动语音识别(ASR)和文本标注。

地址:https://github.com/RVC-Boss/GPTSoVITS

16)OpenVoice

My ShellITTS开发,可进行声音克隆。对声音风格的精细控制,包括情感、口音、节奏、停顿和语调,支持英语、西班牙语、法语、中文、日语和韩语。

地址:https://github.com/myshell-ai/OpenVoice,https://arxiv.org/pdf/2312.01479.pdf

**17)Parler-TTS **

支持性别、音调、说话风格等控制生成语音。

地址:https://github.com/huggingface/parler-tts

18)FUNAudioLLM-CosyVoice

CosyVoice使用自然语音生成和控制,支持多种语言、音色和说话风格的生成。

地址:https://github.com/FunAudioLLM/CosyVoice

19)VoiceCraft

支持克隆语音和修改音频文本。

地址:https://github.com/jasonppy/VoiceCraft

20)EmotiVoice

支持中英文双语,包含2000多种不同的音色,以及特色的情感合成功能,基于Tacotron和WaveRNN模型。

地址:https://github.com/netease-youdao/EmotiVoice

21)MetaVoice-1B

一个1.28参数,在100K小时的语音上训练。

地址:https://github.com/metavoiceio/metavoice-src

22)Voice Engine

OpenAl发布,能够利用简短的15秒音频样本和文本输入,生成原声。

地址:https://ai-bot.cn/openai-voice-engine/

23)Bark

由Suno创建的基于转换器的文本到音频模型,可以生成高度逼直的多语言语音以及其他音频,包括音乐、背景噪音和简单的音效。

地址:https://github.com/suno-ai/bark

24)MaskGCT

趣丸科技&香港中文大学提出的完全非自回归的TTS模型,采用掩码生成编解码器变换器(MaskGCT)。

地址:https://hf-mirror.com/amphion/MaskGCT

25)Coqui TTS

提供了超过1100种语言的预训练模型。

地址:https://github.com/coqui-ai/tts,https://huggingface.co/spaces/coqui/xtts,https://tts.readthedocs.io/en/dev/models/xtts.html

26)So-VITS-SVC

将一种歌声转换为另一种目标歌手的声音,广泛应用于音乐创作、虚拟歌手的声音生成等领域。

地址:https://github.com/svc-develop-team/so-vits-svc

27)Mocking Bird

开发者@babysor开源的AI拟声开源项目。

地址:https://github.com/babysor/MockingBird,https://www.bilibili.com/video/BV17Q4y1B7mY

28)Real-Time-Voice-Cloning

提供了GUI界面,交互傻瓜式操作,语音采集、训练、生成都可以交互完成。

地址:https://github.com/CorentinJ/Real-Time-Voice-Cloning

29)voice-pro

使用UVR5支持的MDX-Net和Meta开发的Demucs引擎进行语音分离;支持使用Whisper、Faster-Whisper和whisper-timestamped进行语音转文字。翻译器使用Google翻译。短文翻译,字幕文件翻译。TTS采用Edge-TTS。zero-shot语音克隆的E2和F5-TTS。

地址:https://github.com/abus-aikorea/voice-pro

关于我们

老刘,NLP开源爱好者与践行者,主页:https://liuhuanyong.github.io。

对大模型&知识图谱&RAG&文档理解感兴趣,并对每日早报、老刘说NLP历史线上分享、心得交流等感兴趣的,欢迎加入社区,社区持续纳新。

加入会员方式:关注公众号,在后台菜单栏中点击会员社区->会员入群加入


老刘说NLP
老刘,NLP开源爱好者与践行者。主页:https://liuhuanyong.github.io。老刘说NLP,将定期发布语言资源、工程实践、技术总结等内容,欢迎关注。
 最新文章