在前一次分享中,我们介绍了 TTS(文本到语音)的 bark 模型,效果真香。然而,这个模型并不支持训练我们自己的声音。所以,今天要分享一种方法,通过这种方法可以训练出自己理想的声音,并用这种声音来说不同的语言和唱歌。
我们将使用的代码是:SoftVC VITS Singing Voice Conversion Fork。可以在这个链接中找到它:https://github.com/voicepaw/so-vits-svc-fork
这个模型是一种神经网络,可以将一种声音转换为另一种唱歌的声音。我们将继续使用 colab 来训练和生成声音。
官方提供的 colab notebook 地址是:https://colab.research.google.com/github/34j/so-vits-svc-fork/blob/main/notebooks/so-vits-svc-fork-4.0.ipynb
可以将这份代码复制到自己的 Google Drive 中,然后按步骤运行即可。需要注意的是,训练过程需要很长很长很长时间。等得我花儿都谢了。
幸好我购买了 colab pro+,它可以在我关闭网页后继续在后台运行超过24小时(我感觉我像是在为这个服务做广告……)
然而,当你听到训练出来的效果时,你会觉得所有的等待都是值得的。让我们来听听由“I know everything”的 Trump 大哥和“Let me be clear”的 Obama 大哥~
我们对比一下郭德纲原版:
再听一下 Trump 的版本:
再听一下 Obama 的版本:
另外分享一个资源,很多人 train 好了很多声音模型,可以直接拿来用:
https://huggingface.co/QuickWick/Music-AI-Voices/tree/main https://huggingface.co/search/full-text?q=so-vits-svc-4.0-models
如果不训练只是使用很简单,本地搞个 gui 就可以了
python -m venv venv
source venv/bin/activate #创建虚拟环境
pip3 install -U so-vits-svc-fork #安装
svcg #启动 GUI
启动GUI 之后,之前把网上下载的模型和配置文件传到左边👈的 Model path 和 Config path 中,把希望变声的音频文件放到右边👉的 Input audio path 中,选择 output audio path 作为生成文件的保存位置,点击运行即可。