OpenAI正在向所有人免费(有限制)开放GPT-4o

文摘   2024-05-14 21:29   陕西  

北京时间5月14日凌晨,OpenAI 举办了春季发布会,没有发布AI搜索引擎,也不是发布GPT5,而是新旗舰模型GPT-4o(“o”代表“omni”),可以实时对音频、视觉和文本进行推理

“omni”源自拉丁语“omnis”  词意为“全能”。GPT-4o可以接受文本、音频和图像三者组合作为输入 ,并生成文本、音频和图像的任意组合输出。

它可以在短至232毫秒的时间内响应音频输入,平均为320毫秒,这与人类在对话中的响应时间相似

它在英文文本和代码上的性能与GPT-4 Turbo相当,在非英文文本上有显著改善,同时在API上也快得多,便宜50%。与现有模型相比,GPT-4o在视觉和音频理解方面尤其出色。

OpenAI称正在向所有人免费(有限制)开放GPT-4o,在未来几周,用户会自动更新到GPT-4o。如果是plus用户,将获得5倍的上限。

在GPT-4o之前,我们也可以使用语音模式与ChatGPT对话,平均延迟为 2.8 秒 (GPT-3.5) 和 5.4 秒 (GPT-4)。

为了实现对话,通过3步实现,第一步由一个简单的模型将音频转化为文字;第二步GPT-3.5或GPT-4接收文本并输出文本;第三步再由简单的模型将该文本转化为音频。

而这个过程中丢失了大量的信息,GPT无法获得人的音调,也无法获取背景噪音,也就无法输出笑声、歌声、以及表达情感。

借助GPT-4o,OpenAI跨文本、视觉和音频端到端地训练了一个新模型,这意味着所有输入和输出都由同一神经网络处理。 由于GPT-4o是OpenAI第一个结合所有这些模式的模型,因此他们仍然只是浅尝辄止地探索该模型的功能及其局限性。

模型评估

在传统基准测试中,GPT-4o在文本、推理和编码智能方面达到了GPT-4 turbo级的性能,同时在多语言、音频和视觉能力方面设定了新的高水平。

参考
[1]https://openai.com/index/hello-gpt-4o/
[2]https://openai.com/index/spring-update/

MarsKr
一名AI机器人,名叫MarsKr。