想象一下,只需简单几步操作,就能生成逼真的语音效果,无论是为客户服务还是为游戏角色配音,都能轻松实现。GPT-Sovits 模型,其高效的语音生成能力为实现自然、流畅的语音交互提供了强有力的技术支持。本文将详细介绍如何利用函数计算平台部署 GPT-Sovits 模型,以构建一个高效、可扩展的 AI 语音交互系统。通过这一部署方案,开发者和企业能够快速集成语音合成功能,实现从文本到语音的无缝转换,进而推动智能语音应用的创新和发展。
方案概览
Cloud Native
通过函数计算快速部署 GPT-Sovits 语音生成模型,提供语音生成服务。只需要少量样本的声音数据源,就可以实现高度相似的仿真效果。充分利用函数计算按需付费,弹性伸缩等优势,高效、低成本地为用户提供基于 GPT-Sovits 模型的文本到语音生成服务。
本方案的技术架构包括以下基础设施和云服务:
函数计算:用于提供 GPT-Sovits 模型的应用服务。在 GPT-SoVITS 应用界面,用户选择 GPU 模型列表,然后上传一段自己准备的 3~10s 的样本语音或者使用函数计算提供的语音模板,输入需要生成的语音提示语开始生成语音。语音生成成功后,可以在 GPT-SoVITS 界面查看并播放生成的语音,也可以在 NAS 文件存储系统中下载生成的语音。 文件存储 NAS:用于存放预训练的 GPT-Sovits 模型以及生成的语音文件。 专有网络 VPC:用于配置专有网络,方便函数计算访问文件存储 NAS。
部署 GPT-Sovits 应用
Cloud Native
借助于函数计算应用模板,您可以便捷地将 GPT-Sovits 应用部署到函数计算上。
a. 针对当前应用,角色权限可能会不足,此时需要单击前往授权为角色授予所需权限。
重要:
请注意保护域名的安全,不要泄露给其他人,以防产生额外费用。 ****.devsapp.net 域名为 CNCF SandBox 项目 Serverless Devs 社区所提供,仅供学习和测试使用,社区会对该域名进行不定期的拨测,并在域名下发 30 天后进行回收,强烈建议您绑定自定义域名[2]以获得更好的使用体验。 如果未绑定自定义域名,且部署的应用已超过 30 天,应用将无法打开,此时需要重新部署一次应用,然后重新挂载 NAS[3],即可正常使用。
Cloud Native
1. 在 FC 版 GPT-SoVITS 界面,选择语音克隆&推理页签,选择使用模板音频或个人上传音频作为参考音频,然后输入文本,单击合成语音,开始体验声音的合成。
使用模板音频:函数计算提供了小精灵和甜美女生的语音模板,您可以直接选择。 个人上传音频:如果您想生成特定音色、情感、语速的语音,需要上传 3~10 秒的参考音频,并填写参考音频的文本,选择参考音频的语种。
重要:GPT-SoVITS 使用者和语音导出者需要对自己合成的语音进行妥善保管,因语音传播导致的法律问题不在函数计算负责范围内。
说明:如果语音合成失败,您可以为应用创建的函数一键启用日志功能,再次进行语音合成,并根据日志进行分析和定位问题。
Cloud Native
您可以通过声音源文件微调 GPT-Sovits 大模型,生成更加符合要求的语音。在微调训练过程中,训练步骤的所有中间产物将置于 NAS 文件管理系统的 output 文件夹下。训练将使用默认的 UVR5 和 ASR 模型。若需要使用其他的 UVR5 和 ASR 模型,可根据官方 README[4]下载,并分别置于 NAS 文件管理系统的 tools/asr/models 和 tools/uvr5/uvr5_weights 目录下。
关于各种模型的介绍,请参见 FC 版 GPT-SoVITS 界面上方的介绍。
2. 在 .list 标注文件的路径输入框中输入步骤二:数据预处理的结果中使用 ASR 模型自动语音识别后的文字对应的文件 denoise_opt.list 所在的完整路径,然后依次单击下方的按钮进行调整。按钮功能介绍如下:
训练后的模型将存储在 NAS 下的 GPT_weights 和 SoVITS_weights 文件夹内。
说明:如果 GPT 模型列表和 SoVITS 模型列表未找到您自己的模型,请单击右侧的刷新模型路径。
相关链接:
[1] 函数计算应用模板
[2] 绑定自定义域名
[3] 挂载 NAS
[4] 官方 README
[5] NAS 文件存储控制台
[6] 步骤二:数据预处理
[7] 入门:快速体验使用 GPT-Sovits 合成语音