一文详解o3:无限接近AGI,但你用不起

文摘   2024-12-21 07:44   北京  

今天是OpenAI发布会的最后一天,我们熬夜小分队还在坚持熬夜的只剩下了5个人。  

 

有意思的是在今天的发布会开始之前,国外网友们已经通过各种方式发现,OpenAI可能要发布一个叫o3的模型,包括一些权威信源也有一样的说法。 

 

至于为什么不叫o2,原因很简单。 

 

o2被人注册过了。。。 

 

网友扒的速度比The Information发的快多了 

 

果不其然,OpenAI今天正式推出了其最新的模型——大杯o3,以及小杯o3 mini。 

 

看到Early evals就知道是期货了 

 

很多朋友看完之后觉得只是个期货,也没什么特别的。 

但其实真的很震撼,因为它向我们展示了AI在逻辑推理和解决复杂问题方面,已经前所未有地逼近了人类的极限能力边界。  

 

o3的意义不再是简单的能够文本生成或对话,而是第一次对我们人类智慧的核心能力发起挑战。 

 

很久没有听到过熟悉的中式口音 

 

今天来主持发布会的是一位中国人,Hongyu Ren 

 

他通过一系列令人印象深刻的基准测试,揭示了o3的强大性能。  

 

但其实值得关注的只有三个测试:Codeforces、FrontierMath和 ARC-AGI 

 

首先我们来看Codeforces 

 

Codeforces位于全宇宙编程最强的俄罗斯的萨拉托夫国立大学,据说最早是由一群大学生维护的。 

 

Codeforces很大的特点就是题目兼容并蓄,什么难度等级的题目都可以找到。 

 

并且题目很有意思,往往思维陷阱比较多,更多的时候往往是告诉你用什么算法你也不知道怎么做…… 

 

o3在编程竞赛平台Codeforces上的表现直接爆炸,ELO评分直接来到了2727分,这是一个什么概念?  

 

 

这意味着它已经超越了绝大多数人类程序员,达到了专业级选手的水平,甚至超越了OpenAI内部一些资深工程师的水平。 

 

如果o3参与排名的话,他已经排到了全球第175名  

 

已经超越99%的人类 

 

如果说代码能力还只是AI在既定规则和框架下的“熟练工”,那么o3在数学领域的表现则进一步颠覆了我们对AI能力的认知。 

 

它不仅在传统的数学竞赛测试中表现出色,展现了强大的计算和推理能力 

更重要的是,它在被称为“当今最难数学基准”的前沿数学基准测试(FrontierMath)中取得了历史性突破。 

 

这个测试由研究机构 Epoch AI 推出,专门用于评估 AI 的高级数学推理能力,地狱级难度的数学评测标准。 

 

AI的升学考试 

 

为了防止数据污染,测试内容均为最新的、还未发表的题目。 

 

关于题目的难度,即使是经验丰富的人类数学专家,也需要花费数小时或数天,才能解答测试题目。 

 

Epoch AI曾采访过菲尔兹奖得主陶哲轩(2006年)、蒂莫西·高尔斯(1998年)、理查德·博赫兹(1998年)以及国际数学奥赛教练陈谊廷。 

 

他们一致认为,FrontierMath的研究问题极具挑战性,需要是专家级别的人才能解答。 

 

陶老师认证过,这题包难的 

 

陶哲轩更是直言:“这些题非常有挑战性,我认为这项测试能够难住AI好多年。” 

 

在这个测试中,以往所有AI模型的准确率都低于2%,而o3却突破性地达到了25%以上。 

 

什么叫高手.jpg 

 

这意味着什么? 

 

这意味着AI开始具备解决极度复杂、甚至需要人类数学家耗费数小时乃至数天才能解决的难题的能力。  

 

然而,真正让我觉得震撼的,是o3在ARC(Abstraction and Reasoning Corpus)基准测试中的表现。 

 

ARC测试旨在评估AI的抽象推理和创造性解决问题的能力,它要求AI根据几个图像示例推断出隐藏的规则,并将这种规则其应用于新的场景。  

 

但ARC的题对人类来说很简单 

 

长期以来,ARC测试一直是AI领域的一大挑战,基本上都没法做到很好。  

 

你可能会觉得,这题目一般人正常的地球人类都会做吧? 

 

但对于现在的 AI 来说不亚于让他帮你洗衣、做饭、炒菜,完事下楼去倒个垃圾。 

 

历代的 ChatGPT 在 100 项半私有评测集评估中的得分来看,真的是菜的一批: 

  • GPT-3:0%

  • GPT-4:2%

  • GPT-4o:5%

  • o1-preview:21%

  • o1 满血版:32%

  • o1 Pro:50% 左右。

 

此项测试的重点并非考察外在的知识或技能,而是深入挖掘人类认知能力的本质,考察的是我们内在的、普遍拥有的认知机制。 

 

 

而o3在高计算资源下的测试中,竟然达到了87.5%的惊人成绩,已经超过了一般的普通人的平均分,70-80分。  

 

所以我才说,o3已经无限接近了AGI。 

 

除了功能强大的o3,OpenAI还推出了o3 mini,这是一款更注重成本效益的模型。 

 

o3 mini在保持了o3大部分核心功能的同时,大幅降低了计算成本和延迟,使得能够更广泛地应用于各种场景。 

 

 

并且他以低于o1的成本,实现了超越o1的能力。 

 

加量不加价了属于是。 

 

但o3的耀眼光芒背后,并非没有阴影。 

 

虽然它在特定领域展现出了惊人的能力,但这并不意味着它已经无所不能。 

 

恰恰相反,它并非真正的人工通用智能(AGI),仍然会在一些对人类来说轻而易举的任务上犯错,这暴露了它与AGI之间存在的巨大鸿沟。 

 

这是o3做不出来的题 

 

它更像是一个在特定领域高度优化的专家,而非一个能够像人类一样进行通用思考和推理的智能体。 

 

更重要的是,就像之前的许多AI模型一样,o3也可能存在对现有基准的“过拟合”问题,对新基准的适应能力仍然有待考验。 

 

说人话就是刷题刷多了,换个新题就不会做了。 

 

即将到来的ARC-AGI-2就是一个严峻的考验,如果o3在新基准上表现不佳,那就说明它并没有真正掌握抽象推理的本质,而只是在特定的规则和模式下表现出色。 

 

新赛季要来了,o3你准备好了吗? 

 

此外,支撑o3强大性能的是巨大的计算资源消耗,这不仅带来了高昂的经济成本,也对环境造成了不小的压力。 

 

如何降低计算成本,提高能源效率,是o3走向实用化的关键。 

 

根据ARC官方的说法,o3在low模式下解决一个问题要花费20美元左右,而如果是high模式的话,则是low模式的172倍,大约3440美元 

 

不能说数字那就说倍数吧! 

 

这还是在假设o3的推理成本和o1一样,都是60美元/百万token 

 

大概率o3会比o1贵 

 

但很不幸是,这次发布的又是期货。 

 

o3mini将于1月份上线 

 

而o3则需要跟Sora那个时候一样,申请红队测试资格才能使用 

 

在大陆的基本不用填 

 

总之,o3和o3mini确实是一次非常重大的更新,能力也是遥遥领先。 

 

但我们要看到它的不足,成本高,通用性还不足以称之为AGI 

 

想起了一位故人 

 

但从长期的角度来看,AI正在以惊人的速度逼近人类的能力边界。 

 

它们在逻辑推理、问题解决、抽象思维等方面的能力正在迅速提升,甚至在某些方面已经超越了人类的平均水平。 

 

我们正站在一个历史的转折点上,见证着AI从工具走向“伙伴”,甚至走向“超越”的关键时刻。  

 

也许很快它们就能超过我们,毕竟对于它们来说,提升能力只是短短几周内就能完成的事情(卡和数据)。 

 

但他们超过我们的那一瞬间,一定是我们无法感知到的一瞬。  

 

再往后,它们就是我们无法理解的存在了。  

 

希望,它们能善待我们和我们的后人。 

 

我多给你买几张卡还不行吗! 



感谢您的观看🥹

我是Max,一个在AI方向持续探索的小学生。

01Founder会持续更新一些AI方向最新最快的产品,技术,思考

求各位看官点赞,关注,再看三连🙇

PS:如果有好的产品欢迎私戳我,

我会帮有价值的产品匹配它应有的价值。



01Founder
一群在0与1之间构建属于自己未来的人
 最新文章