训练自己的声音:SoftVC VITS Singing Voice Conversion Fork

文摘   科技   2023-05-24 21:55   香港  

在前一次分享中,我们介绍了 TTS(文本到语音)的 bark 模型,效果真香。然而,这个模型并不支持训练我们自己的声音。所以,今天要分享一种方法,通过这种方法可以训练出自己理想的声音,并用这种声音来说不同的语言和唱歌。

我们将使用的代码是:SoftVC VITS Singing Voice Conversion Fork。可以在这个链接中找到它:https://github.com/voicepaw/so-vits-svc-fork

这个模型是一种神经网络,可以将一种声音转换为另一种唱歌的声音。我们将继续使用 colab 来训练和生成声音。

官方提供的 colab notebook 地址是:https://colab.research.google.com/github/34j/so-vits-svc-fork/blob/main/notebooks/so-vits-svc-fork-4.0.ipynb

可以将这份代码复制到自己的 Google Drive 中,然后按步骤运行即可。需要注意的是,训练过程需要很长很长很长时间。等得我花儿都谢了。


幸好我购买了 colab pro+,它可以在我关闭网页后继续在后台运行超过24小时(我感觉我像是在为这个服务做广告……)

然而,当你听到训练出来的效果时,你会觉得所有的等待都是值得的。让我们来听听由“I know everything”的 Trump 大哥和“Let me be clear”的 Obama 大哥~

  • 我们对比一下郭德纲原版:
  • 再听一下 Trump 的版本:
  • 再听一下 Obama 的版本:

另外分享一个资源,很多人 train 好了很多声音模型,可以直接拿来用:

  • https://huggingface.co/QuickWick/Music-AI-Voices/tree/main
  • https://huggingface.co/search/full-text?q=so-vits-svc-4.0-models

如果不训练只是使用很简单,本地搞个 gui 就可以了

python -m venv venv
source venv/bin/activate #创建虚拟环境
pip3 install -U so-vits-svc-fork #安装
svcg #启动 GUI

启动GUI 之后,之前把网上下载的模型和配置文件传到左边👈的 Model path 和 Config path 中,把希望变声的音频文件放到右边👉的 Input audio path 中,选择 output audio path 作为生成文件的保存位置,点击运行即可。



Renee 创业随笔
絮絮叨叨