OpenAI终于放大招了。
前两天,OpenAI发布了下一代的推理模型o3,这是今年早些时候发布的o1推理模型的升级版本。
为啥不叫o2呢?
该公司发言人表示,“是出于对同名英国电信运营商o2的尊重”。
更准确地说,o3是一个模型系列——就像o1一样,同时有o3和o3-mini两个版本,后者是一款更小的精简版模型,针对特定任务进行了微调。
值得注意的是,o3-mini的训练者是北大计算机系毕业,后在斯坦福获得博士学位的任泓宇。
OpenAI研究员任泓宇(左)介绍o3-mini大模型
那o3到底有多强?
按OpenAI的说法,o3模型在ARC-AGI图形逻辑推理基准上获得了破纪录的分数。
作为对比,o1模型的得分仅在25%到32%之间。o3的表现几乎是o1三倍。
AIME 2024(高级数学考试)的正确答案率为96.7%。远高于o1预览版的56.7%和o1的83.3%。
最值得关注的是,在全球著名的编码竞赛平台odeforces评分中,o3取得了2727的评分,而o1评分仅为1891。
要知道这是17万程序员里的排名,o1大概也只战胜90%多的程序员,之前GPT-4o只战胜11%的程序员。
低计算场景中,o3得分为75.7%,而在高计算测试中,它达到了87.5%
人类在ARC-AGI上的平均成就率为84%,因此达到85%被认为是人工智能的一个重要里程碑。
也就是说,超过了标志着达到人类水平的门槛。
然而,即使使用 OpenAI 的模型,分数在很长一段时间内都没有任何提高,因为从 2020 年 GPT-3 的 0% 到 2024 年 GPT-4 的 5% 用了四年的时间。
OpenAI声称,至少在某些条件下,o3模型可以接近实现AGI。
所谓AGI——
即“通用人工智能”(artificial general intelligence)的缩写,泛指能完成人类所能完成的任何任务的人工智能。
ARC-AGI 由人工智能研究员 François Cholet 于 2019 年设计,评估人工智能理解抽象概念并将其应用于新情况的能力,而不是简单地学习数据相关性。
例如,如果您被问到上图中的输入和输出之间有什么区别,你会立即注意到方形空白区域只是用深蓝色填充。
这些都是人类很容易理解的规律,但这些问题对于不擅长抽象和推理的传统人工智能来说却很难。
OpenAI对此有着自己的定义:“在最具经济价值的工作上胜过人类的高度自主系统”。
o3 和 o3-mini 最初将通过安全和安保测试计划向研究人员提供早期访问权限。如果一切顺利,预计将于 2025 年 1 月下旬开始提供 o3-mini,随后发布完整型号。
未来...
别人的iPhone √
我们的iPhone X
还有,我们到底还在卷什么?