Hertz-dev: 首个开源的超低延迟的实时交互语音对话模型

职场   2024-11-05 16:12   北京  

官方介绍:Hertz-dev 在 RTX 4090 上的理论延迟为 65 毫秒,实际平均延迟为 120 毫秒。这比世界上任何公共模型的延迟都低约 2 倍——这是模型能够以类似人类的方式与您互动的先决条件,而不是感觉像延迟、断断续续的电话通话。作者目前正在训练更大、更先进的 Hertz 版本,它将使用缩放的基础模型配方和 RL 调整来大幅提高模型的原始功能和最终一致性。Hertz-dev 是实时语音交互未来的一瞥,也是世界上最容易让研究人员进行微调和构建的对话音频模型。


代码地址:

https://github.com/Standard-Intelligence/hertz-dev

体验地址:

https://si.inc/hertz-dev/



类似的端到端的音频模型:


2、mini-omni2 

https://github.com/gpt-omni/mini-omni2… 

3、GLM-4-Voice 

https://github.com/THUDM/GLM-4-Voice… 

4、moshi 

https://moshi.chat 

5、Spiritlm 

https://github.com/facebookresearch/spiritlm



关于作者

做一只爬的最久的乌龟,保持学习保持好奇,即使慢一点,遇到一点困难,只要最后能到达终点,又有什么关系呢。
毕竟人生没有白走的路,每一步都算数。


前端程序设计
专注前端最前沿技术,数据可视化,web3d。偶尔插播生活和艺术。
 最新文章