今天是2024年12月17日,星期二,北京,天气晴。
今天,我们继续来看看语音方面的应用项目,讲29个文本转语音的项目,可以作为一个不错的索引,应该是比较全的。
供各位参考,多思考,多总结,多实践;
29个文本转语音TTS开源工具
1)TTS Maker
地址:https://ttsmaker.com/zh-cn 支持多种语言和不同的声音选项(包括:中文、英语、日语、法语、阿拉伯语、韩语等等,甚至转换成方言:包括东北话、粤语、闽南话等等。
2)微软Azure
地址:https://azure.microsoft.com/en-us/products/cognitive-services/text-to-speech/
微软出品的一种语音服务功能。
3)PaddleSpeech
地址:https://github.com/PaddlePaddle/PaddleSpeech
基于PaddlePaddle深度学习平台。提供了基于 FastSpeech2 声学模型和 HiFiGAN 声码器的中文流式语音合成系统。
4)VoiceVox
地址:https://github.com/VOICEVOX/voicevox
基于VOICEVOX的OSS(开源软件)版本构建,软件部分是Electron + Vue
5)TensorFlowTTS
地址:https://github.com/TensorSpeech/TensorFlowTTS
包含了一系列深度学习模型,如FastSpeech 2、Tacotron 2、Multi-band MelGAN等。
6)TTSKit
地址:https://github.com/kuangdd/ttskit
集成多种开源TTS技术和模型,如Tacotron 2、WaveNet、WaveGlow等。
7)OpenTTS
地址:https://github.com/synesthesiam/opentts
整合和利用了现有的开源TTS引擎(如Mozilla的TTS、MaryTTS、eSpeak NG等)和语音合成方案。
8)eSpeak NG
地址:https://github.com/espeak-ng/espeak-ng
eSpeak的一个分支。
9)F5-TTS
上海交通大学开源的一款高性能文本到语音(TTS)系统,基于流匹配的非自回归生成方法,结合扩散变换器(DiT)技术。零样本声音克隆,可以控制合成语音的情感色彩。
地址::https://github.com/SWivid/F5-TTS HuggingFace,https://huggingface.co/SWivid/F5-TTS,https://arxiv.org/pdf/2410.06885,https://huggingface.co/spaces/mrfakename/E2-F5-TTS
10)Edge-TTS
微软推出的工具,支持英语、汉语、日语、韩语、法语等40多种语言,共300多种可选声音。
地址:https://github.com/rany2/edge-tts
11)ChatTTS
支持中英文对话的文本到语音TTS模型,超过10万小时的训练,公开版本在HuggingFace上提供了一个4万小时预训练的模型。
地址:https://github.com/2noise/ChatTTS
12)ChatTTS-ui
在网页使用ChatTTS将文字合成为语音,使用前端口展示。集成了批量语音到字幕、批量字幕翻译和批量配音小工具。
地址:https://github.com/jianchang512/ChatTTS-ui
13)Seed-TTS
字节跳动开发的支持语音内容编辑和说话速度编辑的工具。
地址:https://bytedancespeech.github.io/seedtts_tech_report/,https:/arxiv.org/pdf/2406.02430,https://github.com/BytedanceSpeech/seed-tts-eval/
14)Fish Speech
使用约十五万小时三语数据训练,可处理和生成中文、日语和英语的语音。支持多种不同的语音生成模型,包括VITS2、Bert-VITS2、GPT VITS、MQTTS、GPT Fast、GPT-SOVITS。
地址:https://github.com/fishaudio/fish-speech,https://fish.audio/zh-CN/
15)GPT-SoVITS
集成工具包括声音伴奏分离、自动训练集分割、中文自动语音识别(ASR)和文本标注。
地址:https://github.com/RVC-Boss/GPTSoVITS
16)OpenVoice
My ShellITTS开发,可进行声音克隆。对声音风格的精细控制,包括情感、口音、节奏、停顿和语调,支持英语、西班牙语、法语、中文、日语和韩语。
地址:https://github.com/myshell-ai/OpenVoice,https://arxiv.org/pdf/2312.01479.pdf
**17)Parler-TTS **
支持性别、音调、说话风格等控制生成语音。
地址:https://github.com/huggingface/parler-tts
18)FUNAudioLLM-CosyVoice
CosyVoice使用自然语音生成和控制,支持多种语言、音色和说话风格的生成。
地址:https://github.com/FunAudioLLM/CosyVoice
19)VoiceCraft
支持克隆语音和修改音频文本。
地址:https://github.com/jasonppy/VoiceCraft
20)EmotiVoice
支持中英文双语,包含2000多种不同的音色,以及特色的情感合成功能,基于Tacotron和WaveRNN模型。
地址:https://github.com/netease-youdao/EmotiVoice
21)MetaVoice-1B
一个1.28参数,在100K小时的语音上训练。
地址:https://github.com/metavoiceio/metavoice-src
22)Voice Engine
OpenAl发布,能够利用简短的15秒音频样本和文本输入,生成原声。
地址:https://ai-bot.cn/openai-voice-engine/
23)Bark
由Suno创建的基于转换器的文本到音频模型,可以生成高度逼直的多语言语音以及其他音频,包括音乐、背景噪音和简单的音效。
地址:https://github.com/suno-ai/bark
24)MaskGCT
趣丸科技&香港中文大学提出的完全非自回归的TTS模型,采用掩码生成编解码器变换器(MaskGCT)。
地址:https://hf-mirror.com/amphion/MaskGCT
25)Coqui TTS
提供了超过1100种语言的预训练模型。
地址:https://github.com/coqui-ai/tts,https://huggingface.co/spaces/coqui/xtts,https://tts.readthedocs.io/en/dev/models/xtts.html
26)So-VITS-SVC
将一种歌声转换为另一种目标歌手的声音,广泛应用于音乐创作、虚拟歌手的声音生成等领域。
地址:https://github.com/svc-develop-team/so-vits-svc
27)Mocking Bird
开发者@babysor开源的AI拟声开源项目。
地址:https://github.com/babysor/MockingBird,https://www.bilibili.com/video/BV17Q4y1B7mY
28)Real-Time-Voice-Cloning
提供了GUI界面,交互傻瓜式操作,语音采集、训练、生成都可以交互完成。
地址:https://github.com/CorentinJ/Real-Time-Voice-Cloning
29)voice-pro
使用UVR5支持的MDX-Net和Meta开发的Demucs引擎进行语音分离;支持使用Whisper、Faster-Whisper和whisper-timestamped进行语音转文字。翻译器使用Google翻译。短文翻译,字幕文件翻译。TTS采用Edge-TTS。zero-shot语音克隆的E2和F5-TTS。
地址:https://github.com/abus-aikorea/voice-pro
关于我们
老刘,NLP开源爱好者与践行者,主页:https://liuhuanyong.github.io。
对大模型&知识图谱&RAG&文档理解感兴趣,并对每日早报、老刘说NLP历史线上分享、心得交流等感兴趣的,欢迎加入社区,社区持续纳新。
加入会员方式:关注公众号,在后台菜单栏中点击会员社区->会员入群加入