周末跑通了两个端到端的语音模型Fish-Speech和GLM-4-Voice

职场   2024-11-23 20:28   北京  
周末花了点时间跑通了之前收藏的两款开源语音模型Fish-Speech和GLM-4-Voice,一是为自己的离线数字人做准备,而是把自己长久以来想建立的AI神器工具列表整合起来。
1. Fish-Speech
2.  GLM-4-Voice

Fish-Speech的克隆效果:
GLM-4-Voice生成的语音合成效果:

感受:
两款语音大模型的具体介绍在之前的文章中都有详细提到,再次不做过多描述,整体试验下来,感觉Fish-Speech的零样本克隆效果完全可以达到自己想要的效果。所以计划数字人的TTS就用它的克隆语音流式播放。GLM-4-Voice生成语音的时候中间间隔时间有点长,目前还无法满足我的数字人实时聊天,所以暂时不考虑用这个。
接下来继续完成其它功能,继续体验更多大模型。

做一只爬的最久的乌龟,保持学习保持好奇,即使慢一点,遇到一点困难,只要最后能到达终点,又有什么关系呢。
毕竟人生没有白走的路,每一步都算数。

加入知识星球可添加作者微信随时沟通。



前端程序设计
专注前端最前沿技术,数据可视化,web3d。偶尔插播生活和艺术。
 最新文章