它允许用户使用 5 秒的语音样本进行零样本 TTS 转换,并支持多语言推理,包括英语、中文、日语、韩语和粤语。
① 零样本 TTS:快速输入 5 秒语音,立即进行文本转语音转换。
② 少样本 TTS:通过 1 分钟的训练数据来微调模型,实现更真实的语音转换效果。
③ 跨语言支持:支持多种语言的推理。
支持 Windows、Linux 和 macOS,可通过 Conda 或 Docker 进行安装。
开源地址:https://github.com/RVC-Boss/GPT-SoVITS
此外,项目提供了图形化 WebUI 工具,支持音频切分、自动训练集生成以及 ASR 转录等辅助工具,便于用户构建和训练自己的语音模型。
🚀 应用场景
① 虚拟歌手:许多虚拟偶像和歌手项目可以通过 So-VITS-SVC 实现声音的定制化,帮助创作者打造独特的音色。
② 音乐创作:音乐人可以使用该工具将不同歌手的声音融合到新的创作中,从而扩展音乐作品的多样性。
③ 配音与语音合成:除了歌声转换,So-VITS-SVC 还可以应用于配音领域,将某个角色的声音合成另一种音色。
开源地址:https://github.com/svc-develop-team/so-vits-svc
这是一个带操作界面的声音克隆工具,目前已经在 GitHub 上获得了 7.3k 的 Star。英文合成效果非常出色,中文合成效果尚可。操作非常简便,即使没有 GPU 也能使用。
开源地址:https://github.com/jianchang512/clone-voice
Mocking Bird 是开发者 @babysor 开源的比较火的 AI 拟声开源项目,目前在 GitHub 已经获得了 35K 的 Star,它能在 5 秒内克隆你的声音并生成任意语音内容,支持中文普通话。
开源地址:https://github.com/babysor/MockingBird
Demo视频:https://www.bilibili.com/video/BV17Q4y1B7mY
🚀 功能特性
① 支持中文普通话拟声,并且在多个中文数据集进行了测试
② 支持在 Windows、Linux、Mac 操作系统使用
③ 基于 B/S 架构交互,简单收集声音,生成拟声
④ 详细的部署教程、训练教程、使用教程
💻 部署教程
开源地址:https://github.com/CorentinJ/Real-Time-Voice-Cloning