官方介绍:Hertz-dev 在 RTX 4090 上的理论延迟为 65 毫秒,实际平均延迟为 120 毫秒。这比世界上任何公共模型的延迟都低约 2 倍——这是模型能够以类似人类的方式与您互动的先决条件,而不是感觉像延迟、断断续续的电话通话。作者目前正在训练更大、更先进的 Hertz 版本,它将使用缩放的基础模型配方和 RL 调整来大幅提高模型的原始功能和最终一致性。Hertz-dev 是实时语音交互未来的一瞥,也是世界上最容易让研究人员进行微调和构建的对话音频模型。
代码地址:
https://github.com/Standard-Intelligence/hertz-dev
体验地址:
https://si.inc/hertz-dev/
类似的端到端的音频模型:
2、mini-omni2
https://github.com/gpt-omni/mini-omni2…
3、GLM-4-Voice
https://github.com/THUDM/GLM-4-Voice…
4、moshi
https://moshi.chat
5、Spiritlm
https://github.com/facebookresearch/spiritlm