最强推理模型o3来了!OpenAI副总裁不慎透露秘密被Altman“闭麦”|甲子光年

科技   科技   2024-12-21 10:12   北京  

是的,他们跳过了o2。


作者|苏霍伊

编辑|王博


北京时间12月21日,OpenAI为期12天的“马拉松”式直播终于来到最后一日。


盛传已久的Orion模型、GPT-4.5并没有出现,而是发布了o3和o3-mini,依旧模型能力卓越。o3旗舰版本,主打强大的性能表现;而o3-mini轻量级模型,但能更快,更便宜,主打性价比。但目前只对OpenAI内部和部分外部安全研究人员开放。


OpenAI同时也做出了一个惊人的声明:o3已经接近AGI。CEO姆·奥尔特曼(Sam Altman)称o3是“一个非常、非常聪明的模型”。


今天的直播由奥尔特曼、OpenAI高级研究副总裁Mark Chen、研究科学家任泓宇(Hongyu Ren)等完成。


值得一提的是,任泓宇是北京大学校友,后来在斯坦福大学获得了博士学位,专业方向是大语言模型。他于去年加入OpenAI担任研究科学家,主要负责语言模型训练。任泓宇是GPT-4o的核心开发者,也是GPT-Next项目组的成员。


任泓宇,图片来源:任泓宇个人网站


o3测试数据显示,在美国AIME数学竞赛中o3取得96.7分,只错了一道题,成绩远高于o1预览版的56.7分和o1的83.3%,相当于顶级数学家的水平。


在全球著名的编码竞赛平台CodeForces中,o3分数为2727,位于榜单第175位,达到此分数的程序员不到200人。


OpenAI在CodeForces的排名,来源:Deedy的X


而在ARC-AGI的测试中,o3在有限的计算资源下达到了75.7%,增加计算资源后得分提升至87.5%,这是首个大模型超过人类85%水平的例子。


OpenAI总裁和联合创始人之一格雷格·布罗克曼(Greg Brockman)在X上毫不吝啬地称赞,o3不是循序渐进式的科学进展,而是一次真正意义上的突破。


格雷格·布罗克曼的X截图


至于为什么将新模型称为o3而不是o2,主要是商标问题。据The Information报道,跳过o2是为了避免与英国电信提供商O2发生版权和商标冲突。


上个月,「甲子光年」在对话中国科学院院士、清华大学计算机系教授张钹时,曾问他:“大模型发展的下一个里程碑事件会是什么?”


张钹的回答是:“在推理方面还可以逐步提高,大模型可以不断地学各种各样的推理方法,所以它将来会回答越来越难的问题。”


o3的推出,也证明了这一点。




1.当前地表最强推理模型——o3


22分钟的直播,详细介绍了o3模型的“纸面参数”。


在软件工程考试(SWE-Bench Verified)中,o3达到了约71.7%的准确率,超o1模型约20%。而在Codeforces中,o3开足马力,在延长思考时间的情况下取得2727的总成绩,o1的得分仅为1891。Mark Chen表示他的得分只有2500,这表明o3已经能像一流的软件工程师写出完美的代码了。



在数学竞赛AIEM 2024中,o3准确率达到96.7%,全碾压o1的83.3%。而在博士级科学考试GPQA Diamond中,o3的准确率达到 87.7%,o1的准确率是78%。GPQA生物学、物理学和化学领域专家编写的高难度多项选择题数据集,主要评估人工智能系统在复杂问题上的表现。 而这些领域的博士专家,大约也只能达到专业范围内的70%准确率,可以说o3的表现远高于人类专家的表现,



同时,OpenAI还引入了Epoch AI开发的数学基准测试FrontierMath,由60多位顶尖数学家的合作开发,主要用于评估人工智能在高级数学推理方面的能力。FrontierMath以其高难度闻名, Mark Chen表示,即使是专业数学家在解决问题时,也可能耗费数小时甚至数天的时间。


为了确保数据未被污染,所有题目均为原创,从未公开过。此前像GPT-4和Gemini 1.5 Pro等在测试中的准确率不足2%,完全无法与GSM-8K和MATH等传统数学基准中超过90%相提并论。而这一次,o3的准确率直接提升至 25.2%。在高算力的长时间测试下,o3取得了超2457的分数。



在ARC-AGI基准测试中,o3的表现就更为惊艳了。在低算力配置下,o3得分为75.7;在高计算设置下,o3的得分达到87.5%,超人类85%阈值。



ARC-AGI是由Keras之父弗朗索瓦·夏莱(François Chollet)发起的测试基准,主要用于衡量人工智能系统在处理新颖和未见过的问题上的泛化能力和推理能力,其中的任务难且抽象。此前GPT-3的得分为0%、 GPT-4是2%,及时是o1的得分也只是在50%左右。


这项测试通过一系列抽象推理任务来衡量 AI 的泛化能力,每个任务由输入输出对组成,要求模型推断隐藏规则并生成正确的输出。与传统基准不同,ARC-AGI不依赖语言或领域特定知识,强调 AI 在未知环境中的学习和推理能力。这些任务极具挑战性,人类通常可以取得85%-100%的高分,而大多数现有AI系统表现远不及人类。


ARC-AGI也被认为是推动人工通用智能发展的重要工具,它代表着AI研究迈向更高层次智能的重要方向。


而o3系列在抽象推理和高难度任务的泛化能力上有显著突破。AI需要具备很强的模式识别和推理能力,才能正确完成ARC-AGI挑战。


演示时o3准确回答出Mark Chen的即兴问题,指出下图需计算每个黄色方块内彩色小方块的数量,并生成相应边框。



可以说OpenAI就像一把尺子,丈量着人类与AGI的距离。




2.o3-mini速度更快,成本更低


今年九月,OpenAI发布了具备强大数学和编程能力且成本低的o1-mini。


现在OpenAI又基于o3,训了3个小尺寸的o3模型。其中o3-mimi预估在1月底对外开放。o3-mini支持低、中、高三种推理时间模式,用户可根据任务复杂度灵活调整思考时间。



o3-mini定位是资源受限场景,在极高难度任务上的表现稍逊o3,但仍保留了强大的推理能力,尤其在基础数学问题、日常编程和一般推理任务上表现突出。



在直播中,任泓宇演示了o3-mini在多个模式下完成从用户输入到代码生成再到执行的全流程。包括如整合用户界面、API调用和代码执行过程等。


他用Python语言为o3-mini的高级模式编写一个本地服务器,其中有简单的用户界面,用户可以通过它提交文本消息。这些消息通过API传递给o3-mini的中级模式处理,处理后的代码结果被保存到桌面上的一个临时文件中。最后,这个文件在一个新开的Python终端中执行。



此外o3-mini还能进行自测,比如在GPQA数据集的测试中,使用低推理模式完成了复杂数据的评估,包括下载原始文件、整理问题、解答并评分,全过程仅用一分钟,最终准确率达61.62%。



一个小插曲是,Mark Chen表示明年希望展示AI的自我提升能力,但表述方式可能不够审慎,奥尔特曼快速地回应了一句“可能不会(发生)”。


相比之下,o3需要较高的计算资源,适合在高性能计算环境中运行,主要用于需要深度推理的复杂场景。而o3-mini经优化后大幅降低了资源消耗,能够在资源有限的设备上运行,特别适合中小型项目的应用。


总体而言,o3面向高级科研和复杂推理需求,如高等数学问题解决、复杂编程任务和科学研究;而o3-mini适用于日常推理任务,如基础编程、简单数据分析和教育领域。



回顾OpenAI这12天的发布会,尽管被很多人认为是“挤牙膏”,但OpenAI还是给大家带来了惊喜。


第1天:满血o1


o1模型完整版本:提升了智能水平、处理速度,并支持多模态输入(如文本、语音和图像)。


ChatGPT Pro订阅计划:每月200美元,提供高级访问权限,包括GPT-4o版本和增强语音模式。


第2天:强化学习微调(RFT)


RFT技术:通过人工反馈提升模型性能,改变AI对用户需求的响应能力。。


第3天:Sora Turbo


Sora Turbo:相较初代版本,生成速度更快,支持最高1080p分辨率和多种编辑功能(如混搭、重剪、故事板)。


第4天:Canvas工具升级


Canvas升级,全部开放并引入了新功能和更友好的用户界面。


第5天:与苹果深度结合


ChatGPT正式集成到iOS、iPadOS和macOS系统中,用户可通过Siri访问ChatGPT功能,并支持语音控制设备。


第6天:增强ChatGPT高级语音模式


GPT-4o增强了多模态能力,推出了实时视频理解功能。


第7天:Projects功能发布


OpenAI推出了名为“Projects”的新功能模块,用户可以创建不同的项目,分类管理对话,上传私有文件,并设定全局指令。


第8天:ChatGPT Search全量开放


ChatGPT Search正式向所有用户开放,优化了搜索速度和准确性,新增语音搜索功能与地图集成,全球同步上线,提升实时信息获取体验。


第九天:o1 API正式版


发布o1 API,提供更高效的视觉识别功能;更新实时语音交互API,支持低成本的语音处理;推出偏好微调能力(PFT)。


第10天:WhatsApp集成


发布1-800-CHAT-GPT服务,支持WhatsApp即时通讯,同时升级ChatGPT功能。


第11天:ChatGPT桌面版新增跨应用访问功能


ChatGPT桌面版可读取其他应用程序中的数据,实现实时协作和并保障隐私。


第12天:o3模型发布


发布o3和o3-mini,推理能力大幅提升,支持多模式推理。


这12天,OpenAI向公众和开发者展示了从技术突破到具体应用的全面布局,不仅覆盖学术研究和企业场景,还拓展至日常生活和创意领域。


12天切片式的发布也终于因为o3而变得圆满。


AGI究竟离我们有多远,或许答案无从得知。但正如OpenAI研究员在o1发布前所说:“通往AGI的路上,我们已经没阻碍了。”


(封面图和文中未注明来源图片均来自OpenAI)





END.






甲子光年
甲子光年是一家科技智库,包含智库、社群、企业服务版块,立足中国科技创新前沿阵地,动态跟踪头部科技企业发展和传统产业技术升级案例,推动人工智能、大数据、物联网、云计算、新能源、新材料、信息安全、大健康等科技创新在产业中的应用与落地。
 最新文章