OpenAI 刚发布了 GPT-4o,不是 40 是 4o,
O 代表 Omni,means:全方位、全能。
本次产品发布会一反常态,不是由山姆奥特曼亲自发布,而是改由 CTO 米拉(Mira Murati)操刀。
就在昨天,山姆奥特曼(Sam Altman)刚上了一档播客节目,一起看看作为 OpenAI CEO 的他怎么介绍这个「全能版」的 GPT。
投资人 Logan Bartlett 的播客节目
Logan:你们今天早些时候发布了一个新产品。
Sam:我们确实发布了。
Logan:多模态 4o?
Sam:是的。
Logan:那是欧米茄符号,对吧?
Sam:哦,就像 Omni。
Logan:对,Omni,不好意思。
Sam:它能跨文本、语音、视觉工作。
Logan:你能解释一下这为什么重要吗?
Sam:因为我认为这是使用计算机的一种非常棒的方式。实际上,我们很久以前就有了语音控制计算机的想法。你知道的,我们有 Siri,之前还有其他类似的技术。但它们从来没有让我感觉到使用起来很自然。这个新技术,由于很多原因——它的功能、速度、增加的多模态支持、语调的自然性等——让使用体验大大提升。你可以轻松地调整说话速度或改变声音,它的流畅性和灵活性让我非常喜欢。
Logan:有没有什么特定的使用场景吸引了你?
Sam:嗯,虽然我才用了一周左右,但有个特别惊喜的用途是在我全神贯注工作时,将手机放在桌子上。然后在不需要切换窗口或改变我正在做的事情的情况下,将它作为另一个通信渠道。这样我就可以在继续工作的同时,询问并立即得到回答,而不需要转移视线,这真的很酷。
Logan:是什么使这成为可能的?是架构上的改变还是计算能力的提升?
Sam:其实,这是我们过去几年学到的所有东西的结合。我们一直在研究音频模型和视觉模型。我们努力将它们结合起来,并寻找更高效的训练方法。这不是突然解锁了某个惊人的新技术,而是将许多部分组合起来的结果。
Logan:你认为需要开发设备上的模型来减少延迟,以提升使用体验吗?
Sam:对于视频来说,可能需要处理网络延迟问题。我一直认为,将来能戴上增强现实眼镜,实时用语言描述周围世界并看到变化,将会非常神奇。但网络延迟可能会是一个挑战。不过对于现在的技术,两三百毫秒的延迟已经非常快了,感觉上比很多时候人类回应还要迅速。
Logan:在这种情况下,视频指的是图像吗?
Sam:哦,对不起,我是说视频。如果你需要生成视频,不是处理输入的视频。
Logan:明白了。所以目前它能够处理实际视频,就像逐帧处理一样。
Sam:这是可行的。
Logan:你最近提到 ChatGPT 可能不会以 GPT-5 为名发布下一个大更新。看来你们采取了一种逐步改进模型的方式。
Sam:我们可以这样理解,未来可能不会有大规模的发布,如“这里是 ChatGPT-5”,而是......我们实际上还没有决定。我确实意识到 AI 和惊喜不太搭。虽然按照传统科技公司的产品发布方式,我们可能需要尝试一些不同的方法。我们可能仍然会用 GPT-5 这个名字,但以不同的方式进行发布,或者我们可能会选择一个不同的名称。但我认为我们还没有确定如何为这些产品命名和定位品牌。从 GPT-1 到 GPT-4 的发布对我来说是合理的。显然,GPT-4 已经持续改进了。
Sam:我们还在考虑,也许会有一个底层的“虚拟大脑”,在某些情况下能更努力地思考,或者是不同的模型,但它们是否不同并不重要,所以我们还没有确定如何将这些产品推向市场。
Logan:这是否意味着,为了在模型上取得渐进式进步,计算需求可能会比过去少?
Sam:我认为我们始终会利用尽可能多的计算资源。现在我们正在实现巨大的效率提升,这非常重要。你知道的,我们今天发布的最酷的功能是语音模式,但也许最重要的是我们已经提高了效率,以至于我们能够为免费用户提供服务。
Sam:就像是世界上最好的模型之一,很多人都认可,看看那个小东西就能为任何想下载 ChatGPT 的人免费提供服务。这比 GPT-4 和 GPT-4 Turbo 都有显著的效率提高,我们还有很多进步空间。
节选对谈视频: