Ultravox v0.4.1:逼近GPT-4o的一款开源多模态实时语音模型

职场   2024-11-18 18:04   北京  

Ultravox 是一种新型的多模态 LLM,它可以理解文本和人类语音,而无需单独的音频语音识别 (ASR) 阶段。在AudioLM、SeamlessM4T、Gazelle、SpeechGPT等研究的基础上,Ultravox 能够使用多模态投影仪扩展任何开放重量 LLM,将音频直接转换为 LLM 使用的高维空间。已经在 Llama 3、Mistral 和 Gemma 上训练了版本。这种直接耦合使 Ultravox 的响应速度比结合单独的 ASR 和 LLM 组件的系统快得多。在未来,这还将使 Ultravox 能够原生理解人类语音中无处不在的时间和情感等副语言线索。

当前版本的 Ultravox (v0.4) 在调用音频内容时,第一个令牌时间 (TTFT) 约为 150 毫秒,使用 Llama 3.1 8B 主干时令牌每秒速率约为 60。虽然速度很快,但这些数字还有很大的改进空间。
Ultravox 目前接收音频并发出流式文本。随着模型的改进,将训练它能够发出语音标记流,然后可以通过适当的单元声码器将其直接转换为原始音频。


代码地址:

https://github.com/fixie-ai/ultravox

体验地址:

https://ultravox.ai/


关于作者
做一只爬的最久的乌龟,保持学习保持好奇,即使慢一点,遇到一点困难,只要最后能到达终点,又有什么关系呢。
毕竟人生没有白走的路,每一步都算数。

加入知识星球可添加作者微信随时沟通。




前端程序设计
专注前端最前沿技术,数据可视化,web3d。偶尔插播生活和艺术。
 最新文章