北京时间5月14日凌晨,OpenAI 举办了春季发布会,没有发布AI搜索引擎,也不是发布GPT5,而是新旗舰模型GPT-4o(“o”代表“omni”),可以实时对音频、视觉和文本进行推理。
“omni”源自拉丁语“omnis” 词意为“全能”。GPT-4o可以接受文本、音频和图像三者组合作为输入 ,并生成文本、音频和图像的任意组合输出。
它可以在短至232毫秒的时间内响应音频输入,平均为320毫秒,这与人类在对话中的响应时间相似。
它在英文文本和代码上的性能与GPT-4 Turbo相当,在非英文文本上有显著改善,同时在API上也快得多,便宜50%。与现有模型相比,GPT-4o在视觉和音频理解方面尤其出色。
OpenAI称正在向所有人免费(有限制)开放GPT-4o,在未来几周,用户会自动更新到GPT-4o。如果是plus用户,将获得5倍的上限。
在GPT-4o之前,我们也可以使用语音模式与ChatGPT对话,平均延迟为 2.8 秒 (GPT-3.5) 和 5.4 秒 (GPT-4)。
为了实现对话,通过3步实现,第一步由一个简单的模型将音频转化为文字;第二步GPT-3.5或GPT-4接收文本并输出文本;第三步再由简单的模型将该文本转化为音频。
而这个过程中丢失了大量的信息,GPT无法获得人的音调,也无法获取背景噪音,也就无法输出笑声、歌声、以及表达情感。
借助GPT-4o,OpenAI跨文本、视觉和音频端到端地训练了一个新模型,这意味着所有输入和输出都由同一神经网络处理。 由于GPT-4o是OpenAI第一个结合所有这些模式的模型,因此他们仍然只是浅尝辄止地探索该模型的功能及其局限性。
模型评估
在传统基准测试中,GPT-4o在文本、推理和编码智能方面达到了GPT-4 turbo级的性能,同时在多语言、音频和视觉能力方面设定了新的高水平。