首页
时事
民生
政务
教育
文化
科技
财富
体娱
健康
情感
更多
旅行
百科
职场
楼市
企业
乐活
学术
汽车
时尚
创业
美食
幽默
美体
文摘
周末跑通了两个端到端的语音模型Fish-Speech和GLM-4-Voice
职场
2024-11-23 20:28
北京
周末花了点时间跑通了之前收藏的两款开源语音模型Fish-Speech和GLM-4-Voice,一是为自己的离线数字人做准备,而是把自己长久以来想建立的AI神器工具列表整合起来。
1. Fish-Speech
2. GLM-4-Voice
Fish-Speech的克隆效果:
GLM-4-Voice生成的语音合成效果:
感受:
两款语音大模型的具体介绍在之前的文章中都有详细提到,再次不做过多描述,整体试验下来,感觉Fish-Speech的零样本克隆效果完全可以达到自己想要的效果。所以计划数字人的TTS就用它的克隆语音流式播放。GLM-4-Voice生成语音的时候中间间隔时间有点长,目前还无法满足我的数字人实时聊天,所以暂时不考虑用这个。
接下来继续完成其它功能,继续体验更多大模型。
做一只爬的最久的乌龟,保持学习保持好奇,即使慢一点,遇到一点困难,只要最后能到达终点,又有什么关系呢。
毕竟人生没有白走的路,每一步都算数。
加入知识星球可添加作者微信随时沟通。
http://mp.weixin.qq.com/s?__biz=MjM5MTM1OTk4NQ==&mid=2650332611&idx=1&sn=c4cf79cb09ed2c8015265bb0c5392d4c
前端程序设计
专注前端最前沿技术,数据可视化,web3d。偶尔插播生活和艺术。
最新文章
周末跑通了两个端到端的语音模型Fish-Speech和GLM-4-Voice
给3D数字人互动项目装上精美的聊天组件,开始实现多模态聊天
ten-agent: 又一款王炸级的开源端到端语音模型
将3D人物从Character Creator 导出到 Blender的终极自动设置指南
又给3D 数字人互动项目找了一个炫酷的动态场景
2025 年顶级网页设计趋势
3D数字人互动与数字孪生的完美结合
终于用pocketbase 完成了3D数字人工坊的制作
Ultravox v0.4.1:逼近GPT-4o的一款开源多模态实时语音模型
Windsurf Editor: 又一款可以取代cursor的AI代码编辑器,全免费使用Claude 3.5
创业项目13: TANGO的落地,上传克隆声音和动作视频生成视频数字人的漂亮界面
Threejs: 利用实例着色器实现炫酷的烟花效果
开源:在人物和背景之间添加文字,快速生成设计效果text-behind-image
R3F 制作的3D数字人流体粒子化组件FlowFieldParticles
分享几个最近看到的Threejs炫酷效果,附源码地址
又一款开源的实时语音交互的视频数字人,效果非常不错,附测试地址
零触摸、自然语音对话的无感交互应用方案
给自己的3D数字人配一个炫酷的启动界面,文后附一个好玩的彩蛋游戏
腾讯混元,再次开源!
MiniMates: 可以在普通电脑上实时运行的开源视频数字人,支持实时语音对话
Hertz-dev: 首个开源的超低延迟的实时交互语音对话模型
让3D数字人像真人一样流畅对话、及时响应,实现超低延迟实时对话
Threejs: 给我们的3D数字人造一个炫酷的歌曲点播舞台
Wonder Studio 以突破性技术从视频中提取3D 数字人脸部、身体动画
AiOS: 从视频中提取数字人动作导入Blender中处理的开源模型
使用 Three.js BatchedMesh 和 WebGPURenderer 进行交互式 3D场景
用VitePress整合一个AI工具集合站点
Ultralight Digital Human: 第一款完全开源的实时视频数字人
端到端语音对话&多模态模型开发应用的几种开源方案
AI在语音识别模型方面最新的几种开源案例
LongVU: Meta AI开源的对长视频理解的多模态模型
NotebookLlama: Meta开源的PDF转有声博客
使用 MediaPipe 和 Three.js 的网络摄像头创建 3D 场景中的手势控制器
Anthropic让AI像人一样用电脑,支持API调用
开源的文生视频Genmo升级后效果炸裂
制作3D数字人脸部52个ARKit形态键的标准动画教程
用AI给微信公众号制作做SVG动画
easegen: 开源AI+数字人课程制作项目,非常牛了
TANGO :开源的Heygen?支持面部、唇形同步和肢体运动视频
VirtualWife: 支持B站直播的开源3D数字人互动项目
创业项目12: AI+3D 在电商行业的自动化解决方案
借助cursor完成平遥古城元宇宙项目中的小地图功能
整理一下跟3D数字人语音互动的几种交互方式
Threejs制作的在线2D/3D动画、视频编辑器,号称视频界的photoshop
基于WebGL的3D数字人互动项目融入全息投影的炫酷场景中
使用 Next.js 和 Three.js 创建3D网站作品集项目教程
我用Bolt直接修改开源的元宇宙场景代码
炫酷的Blender动画效果+一组3D美女模型
开源:创建带有中文气泡的连环画
UniMuMo:通过文本或音乐生成3D数字人的动作
分类
时事
民生
政务
教育
文化
科技
财富
体娱
健康
情感
旅行
百科
职场
楼市
企业
乐活
学术
汽车
时尚
创业
美食
幽默
美体
文摘
原创标签
时事
社会
财经
军事
教育
体育
科技
汽车
科学
房产
搞笑
综艺
明星
音乐
动漫
游戏
时尚
健康
旅游
美食
生活
摄影
宠物
职场
育儿
情感
小说
曲艺
文化
历史
三农
文学
娱乐
电影
视频
图片
新闻
宗教
电视剧
纪录片
广告创意
壁纸头像
心灵鸡汤
星座命理
教育培训
艺术文化
金融财经
健康医疗
美妆时尚
餐饮美食
母婴育儿
社会新闻
工业农业
时事政治
星座占卜
幽默笑话
独立短篇
连载作品
文化历史
科技互联网
发布位置
广东
北京
山东
江苏
河南
浙江
山西
福建
河北
上海
四川
陕西
湖南
安徽
湖北
内蒙古
江西
云南
广西
甘肃
辽宁
黑龙江
贵州
新疆
重庆
吉林
天津
海南
青海
宁夏
西藏
香港
澳门
台湾
美国
加拿大
澳大利亚
日本
新加坡
英国
西班牙
新西兰
韩国
泰国
法国
德国
意大利
缅甸
菲律宾
马来西亚
越南
荷兰
柬埔寨
俄罗斯
巴西
智利
卢森堡
芬兰
瑞典
比利时
瑞士
土耳其
斐济
挪威
朝鲜
尼日利亚
阿根廷
匈牙利
爱尔兰
印度
老挝
葡萄牙
乌克兰
印度尼西亚
哈萨克斯坦
塔吉克斯坦
希腊
南非
蒙古
奥地利
肯尼亚
加纳
丹麦
津巴布韦
埃及
坦桑尼亚
捷克
阿联酋
安哥拉