GPT-4o(“o”代表“omni”,全能)能够接收文本、音频、图像和视频的任意组合,实时生成文本、音频和图像的任意组合。更加自然的人机交互,毫不夸张地说,真的是像人一样。能够听,能够看,能够基于看到的、听到的内容做出及时处理和响应
GPT-4o对音频的响应速度相较于GPT-3.5和GPT-4有了很大提升。在 GPT-4o之前,虽然可以使用语音模式与ChatGPT 对话,不过反应较慢,平均延迟为 2.8 秒 (GPT-3.5) 和 5.4 秒 (GPT-4)。这是因为之前语音对话模式是由三个独立模型组成的管道实现的:一个简单模型将音频转为文本,GPT-3.5或 GPT-4接收文本并输出文本,第三个简单模型将文本转换回音频。也就是说之前的语音对话其实还是文本对话,在语音转换文字的过程中GPT会丢失很多的信息,无法直接分析音调、多个声音来源或背景噪音,也无法输出笑声、歌声,也无法表达情感
GPT-4o可以在短至232毫秒的时间内响应音频输入,平均为320毫秒,这与人类在对话中的响应时间相似。借助GPT-4o,跨文本、视觉和音频端到端地训练了一个新模型,这意味着所有输入和输出都由同一神经网络处理,GPT-4o能够获得文本、音频、图像和视频的更多信息
发布会上,OpenAI 的工程师还做了其他一些GPT-4o的演示
比如,GPT-4o可以以不同的声调讲故事,甚至可以唱歌:
比如,GPT-4o可以帮助解决简单的数学题:
Amazing