Ultravox 是一种新型的多模态 LLM,它可以理解文本和人类语音,而无需单独的音频语音识别 (ASR) 阶段。在AudioLM、SeamlessM4T、Gazelle、SpeechGPT等研究的基础上,Ultravox 能够使用多模态投影仪扩展任何开放重量 LLM,将音频直接转换为 LLM 使用的高维空间。已经在 Llama 3、Mistral 和 Gemma 上训练了版本。这种直接耦合使 Ultravox 的响应速度比结合单独的 ASR 和 LLM 组件的系统快得多。在未来,这还将使 Ultravox 能够原生理解人类语音中无处不在的时间和情感等副语言线索。
代码地址:
https://github.com/fixie-ai/ultravox
体验地址:
https://ultravox.ai/