Hertz-dev：首个开源的超低延迟的实时交互语音对话模型

职场 2024-11-05 16:12 北京

官方介绍：Hertz-dev 在 RTX 4090 上的理论延迟为 65 毫秒，实际平均延迟为 120 毫秒。这比世界上任何公共模型的延迟都低约 2 倍——这是模型能够以类似人类的方式与您互动的先决条件，而不是感觉像延迟、断断续续的电话通话。作者目前正在训练更大、更先进的 Hertz 版本，它将使用缩放的基础模型配方和 RL 调整来大幅提高模型的原始功能和最终一致性。Hertz-dev 是实时语音交互未来的一瞥，也是世界上最容易让研究人员进行微调和构建的对话音频模型。

代码地址：

https://github.com/Standard-Intelligence/hertz-dev

体验地址：

https://si.inc/hertz-dev/

类似的端到端的音频模型：

2、mini-omni2

https://github.com/gpt-omni/mini-omni2…

3、GLM-4-Voice

https://github.com/THUDM/GLM-4-Voice…

4、moshi

https://moshi.chat

5、Spiritlm

https://github.com/facebookresearch/spiritlm

关于作者

做一只爬的最久的乌龟，保持学习保持好奇，即使慢一点，遇到一点困难，只要最后能到达终点，又有什么关系呢。

毕竟人生没有白走的路，每一步都算数。

http://mp.weixin.qq.com/s?__biz=MjM5MTM1OTk4NQ==&mid=2650332314&idx=2&sn=d761fc2222e2e7aea28872870ce8a5c1

前端程序设计

专注前端最前沿技术，数据可视化，web3d。偶尔插播生活和艺术。

最新文章

周末跑通了两个端到端的语音模型Fish-Speech和GLM-4-Voice

给3D数字人互动项目装上精美的聊天组件，开始实现多模态聊天

ten-agent: 又一款王炸级的开源端到端语音模型

将3D人物从Character Creator 导出到 Blender的终极自动设置指南

又给3D 数字人互动项目找了一个炫酷的动态场景

2025 年顶级网页设计趋势

3D数字人互动与数字孪生的完美结合

终于用pocketbase 完成了3D数字人工坊的制作

Ultravox v0.4.1：逼近GPT-4o的一款开源多模态实时语音模型

Windsurf Editor: 又一款可以取代cursor的AI代码编辑器，全免费使用Claude 3.5

创业项目13： TANGO的落地，上传克隆声音和动作视频生成视频数字人的漂亮界面

Threejs: 利用实例着色器实现炫酷的烟花效果

开源：在人物和背景之间添加文字，快速生成设计效果text-behind-image

R3F 制作的3D数字人流体粒子化组件FlowFieldParticles

分享几个最近看到的Threejs炫酷效果，附源码地址

又一款开源的实时语音交互的视频数字人，效果非常不错，附测试地址

零触摸、自然语音对话的无感交互应用方案

给自己的3D数字人配一个炫酷的启动界面，文后附一个好玩的彩蛋游戏

腾讯混元，再次开源！

MiniMates: 可以在普通电脑上实时运行的开源视频数字人，支持实时语音对话

Hertz-dev：首个开源的超低延迟的实时交互语音对话模型

让3D数字人像真人一样流畅对话、及时响应，实现超低延迟实时对话

Threejs: 给我们的3D数字人造一个炫酷的歌曲点播舞台

Wonder Studio 以突破性技术从视频中提取3D 数字人脸部、身体动画

AiOS：从视频中提取数字人动作导入Blender中处理的开源模型

使用 Three.js BatchedMesh 和 WebGPURenderer 进行交互式 3D场景

用VitePress整合一个AI工具集合站点

Ultralight Digital Human：第一款完全开源的实时视频数字人

端到端语音对话&多模态模型开发应用的几种开源方案

AI在语音识别模型方面最新的几种开源案例

LongVU: Meta AI开源的对长视频理解的多模态模型

NotebookLlama: Meta开源的PDF转有声博客

使用 MediaPipe 和 Three.js 的网络摄像头创建 3D 场景中的手势控制器

Anthropic让AI像人一样用电脑，支持API调用

开源的文生视频Genmo升级后效果炸裂

制作3D数字人脸部52个ARKit形态键的标准动画教程

用AI给微信公众号制作做SVG动画

easegen: 开源AI+数字人课程制作项目，非常牛了

TANGO ：开源的Heygen？支持面部、唇形同步和肢体运动视频

VirtualWife：支持B站直播的开源3D数字人互动项目

创业项目12: AI+3D 在电商行业的自动化解决方案

借助cursor完成平遥古城元宇宙项目中的小地图功能

整理一下跟3D数字人语音互动的几种交互方式

Threejs制作的在线2D/3D动画、视频编辑器，号称视频界的photoshop

基于WebGL的3D数字人互动项目融入全息投影的炫酷场景中

使用 Next.js 和 Three.js 创建3D网站作品集项目教程

我用Bolt直接修改开源的元宇宙场景代码

炫酷的Blender动画效果+一组3D美女模型

开源：创建带有中文气泡的连环画

UniMuMo：通过文本或音乐生成3D数字人的动作

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

Hertz-dev： 首个开源的超低延迟的实时交互语音对话模型

Hertz-dev：首个开源的超低延迟的实时交互语音对话模型