最强推理模型o3来了！OpenAI副总裁不慎透露秘密被Altman“闭麦”｜甲子光年

科技科技 2024-12-21 10:12 北京

是的，他们跳过了o2。

作者｜苏霍伊‍‍

编辑｜王博‍‍

北京时间12月21日，OpenAI为期12天的“马拉松”式直播终于来到最后一日。

盛传已久的Orion模型、GPT-4.5并没有出现，而是发布了o3和o3-mini，依旧模型能力卓越。o3旗舰版本，主打强大的性能表现；而o3-mini轻量级模型，但能更快，更便宜，主打性价比。但目前只对OpenAI内部和部分外部安全研究人员开放。

OpenAI同时也做出了一个惊人的声明：o3已经接近AGI。CEO萨姆·奥尔特曼（Sam Altman）称o3是“一个非常、非常聪明的模型”。

今天的直播由奥尔特曼、OpenAI高级研究副总裁Mark Chen、研究科学家任泓宇（Hongyu Ren）等完成。

值得一提的是，任泓宇是北京大学校友，后来在斯坦福大学获得了博士学位，专业方向是大语言模型。他于去年加入OpenAI担任研究科学家，主要负责语言模型训练。任泓宇是GPT-4o的核心开发者，也是GPT-Next项目组的成员。

任泓宇，图片来源：任泓宇个人网站

o3测试数据显示，在美国AIME数学竞赛中o3取得96.7分，只错了一道题，成绩远高于o1预览版的56.7分和o1的83.3%，相当于顶级数学家的水平。

在全球著名的编码竞赛平台CodeForces中，o3分数为2727，位于榜单第175位，达到此分数的程序员不到200人。

OpenAI在CodeForces的排名，来源：Deedy的X

而在ARC-AGI的测试中，o3在有限的计算资源下达到了75.7%，增加计算资源后得分提升至87.5%，这是首个大模型超过人类85%水平的例子。

OpenAI总裁和联合创始人之一格雷格·布罗克曼（Greg Brockman）在X上毫不吝啬地称赞，o3不是循序渐进式的科学进展，而是一次真正意义上的突破。

格雷格·布罗克曼的X截图

至于为什么将新模型称为o3而不是o2，主要是商标问题。据The Information报道，跳过o2是为了避免与英国电信提供商O2发生版权和商标冲突。

上个月，「甲子光年」在对话中国科学院院士、清华大学计算机系教授张钹时，曾问他：“大模型发展的下一个里程碑事件会是什么？”

张钹的回答是：“在推理方面还可以逐步提高，大模型可以不断地学各种各样的推理方法，所以它将来会回答越来越难的问题。”

o3的推出，也证明了这一点。

1.当前地表最强推理模型——o3

22分钟的直播，详细介绍了o3模型的“纸面参数”。

在软件工程考试（SWE-Bench Verified）中，o3达到了约71.7%的准确率，超o1模型约20%。而在Codeforces中，o3开足马力，在延长思考时间的情况下取得2727的总成绩，o1的得分仅为1891。Mark Chen表示他的得分只有2500，这表明o3已经能像一流的软件工程师写出完美的代码了。

在数学竞赛AIEM 2024中，o3准确率达到96.7%，全碾压o1的83.3%。而在博士级科学考试GPQA Diamond中，o3的准确率达到 87.7%，o1的准确率是78%。GPQA生物学、物理学和化学领域专家编写的高难度多项选择题数据集，主要评估人工智能系统在复杂问题上的表现。而这些领域的博士专家，大约也只能达到专业范围内的70%准确率，可以说o3的表现远高于人类专家的表现，

同时，OpenAI还引入了Epoch AI开发的数学基准测试FrontierMath，由60多位顶尖数学家的合作开发，主要用于评估人工智能在高级数学推理方面的能力。FrontierMath以其高难度闻名， Mark Chen表示，即使是专业数学家在解决问题时，也可能耗费数小时甚至数天的时间。

为了确保数据未被污染，所有题目均为原创，从未公开过。此前像GPT-4和Gemini 1.5 Pro等在测试中的准确率不足2%，完全无法与GSM-8K和MATH等传统数学基准中超过90%相提并论。而这一次，o3的准确率直接提升至 25.2%。在高算力的长时间测试下，o3取得了超2457的分数。

在ARC-AGI基准测试中，o3的表现就更为惊艳了。在低算力配置下，o3得分为75.7；在高计算设置下，o3的得分达到87.5%，超人类85%阈值。

ARC-AGI是由Keras之父弗朗索瓦·夏莱（François Chollet）发起的测试基准，主要用于衡量人工智能系统在处理新颖和未见过的问题上的泛化能力和推理能力，其中的任务难且抽象。此前GPT-3的得分为0%、 GPT-4是2%，及时是o1的得分也只是在50%左右。

这项测试通过一系列抽象推理任务来衡量 AI 的泛化能力，每个任务由输入输出对组成，要求模型推断隐藏规则并生成正确的输出。与传统基准不同，ARC-AGI不依赖语言或领域特定知识，强调 AI 在未知环境中的学习和推理能力。这些任务极具挑战性，人类通常可以取得85%-100%的高分，而大多数现有AI系统表现远不及人类。

ARC-AGI也被认为是推动人工通用智能发展的重要工具，它代表着AI研究迈向更高层次智能的重要方向。

而o3系列在抽象推理和高难度任务的泛化能力上有显著突破。AI需要具备很强的模式识别和推理能力，才能正确完成ARC-AGI挑战。

演示时o3准确回答出Mark Chen的即兴问题，指出下图需计算每个黄色方块内彩色小方块的数量，并生成相应边框。

可以说OpenAI就像一把尺子，丈量着人类与AGI的距离。

2.o3-mini速度更快，成本更低

今年九月，OpenAI发布了具备强大数学和编程能力且成本低的o1-mini。

现在OpenAI又基于o3，训了3个小尺寸的o3模型。其中o3-mimi预估在1月底对外开放。o3-mini支持低、中、高三种推理时间模式，用户可根据任务复杂度灵活调整思考时间。

o3-mini定位是资源受限场景，在极高难度任务上的表现稍逊o3，但仍保留了强大的推理能力，尤其在基础数学问题、日常编程和一般推理任务上表现突出。

在直播中，任泓宇演示了o3-mini在多个模式下完成从用户输入到代码生成再到执行的全流程。包括如整合用户界面、API调用和代码执行过程等。

他用Python语言为o3-mini的高级模式编写一个本地服务器，其中有简单的用户界面，用户可以通过它提交文本消息。这些消息通过API传递给o3-mini的中级模式处理，处理后的代码结果被保存到桌面上的一个临时文件中。最后，这个文件在一个新开的Python终端中执行。

此外o3-mini还能进行自测，比如在GPQA数据集的测试中，使用低推理模式完成了复杂数据的评估，包括下载原始文件、整理问题、解答并评分，全过程仅用一分钟，最终准确率达61.62%。

一个小插曲是，Mark Chen表示明年希望展示AI的自我提升能力，但表述方式可能不够审慎，奥尔特曼快速地回应了一句“可能不会（发生）”。

相比之下，o3需要较高的计算资源，适合在高性能计算环境中运行，主要用于需要深度推理的复杂场景。而o3-mini经优化后大幅降低了资源消耗，能够在资源有限的设备上运行，特别适合中小型项目的应用。

总体而言，o3面向高级科研和复杂推理需求，如高等数学问题解决、复杂编程任务和科学研究；而o3-mini适用于日常推理任务，如基础编程、简单数据分析和教育领域。

回顾OpenAI这12天的发布会，尽管被很多人认为是“挤牙膏”，但OpenAI还是给大家带来了惊喜。

第1天：满血o1

o1模型完整版本：提升了智能水平、处理速度，并支持多模态输入（如文本、语音和图像）。

ChatGPT Pro订阅计划：每月200美元，提供高级访问权限，包括GPT-4o版本和增强语音模式。

第2天：强化学习微调（RFT）

RFT技术：通过人工反馈提升模型性能，改变AI对用户需求的响应能力。。

第3天：Sora Turbo

Sora Turbo：相较初代版本，生成速度更快，支持最高1080p分辨率和多种编辑功能（如混搭、重剪、故事板）。

第4天：Canvas工具升级

Canvas升级，全部开放并引入了新功能和更友好的用户界面。

第5天：与苹果深度结合

ChatGPT正式集成到iOS、iPadOS和macOS系统中，用户可通过Siri访问ChatGPT功能，并支持语音控制设备。

第6天：增强ChatGPT高级语音模式

GPT-4o增强了多模态能力，推出了实时视频理解功能。

第7天：Projects功能发布

OpenAI推出了名为“Projects”的新功能模块，用户可以创建不同的项目，分类管理对话，上传私有文件，并设定全局指令。

第8天：ChatGPT Search全量开放

ChatGPT Search正式向所有用户开放，优化了搜索速度和准确性，新增语音搜索功能与地图集成，全球同步上线，提升实时信息获取体验。

第九天：o1 API正式版

发布o1 API，提供更高效的视觉识别功能；更新实时语音交互API，支持低成本的语音处理；推出偏好微调能力（PFT）。

第10天：WhatsApp集成

发布1-800-CHAT-GPT服务，支持WhatsApp即时通讯，同时升级ChatGPT功能。

第11天：ChatGPT桌面版新增跨应用访问功能

ChatGPT桌面版可读取其他应用程序中的数据，实现实时协作和并保障隐私。

第12天：o3模型发布‍

发布o3和o3-mini，推理能力大幅提升，支持多模式推理。

这12天，OpenAI向公众和开发者展示了从技术突破到具体应用的全面布局，不仅覆盖学术研究和企业场景，还拓展至日常生活和创意领域。

12天切片式的发布也终于因为o3而变得圆满。

AGI究竟离我们有多远，或许答案无从得知。但正如OpenAI研究员在o1发布前所说：“通往AGI的路上，我们已经没阻碍了。”

（封面图和文中未注明来源图片均来自OpenAI）

END.

甲子光年

甲子光年是一家科技智库，包含智库、社群、企业服务版块，立足中国科技创新前沿阵地，动态跟踪头部科技企业发展和传统产业技术升级案例，推动人工智能、大数据、物联网、云计算、新能源、新材料、信息安全、大健康等科技创新在产业中的应用与落地。

最新文章

AI应用时代，模型能力应该如何进化？｜甲子光年

南阶跃、北智谱：大模型“基模双雄”格局初现｜甲子光年

神州数码副总裁李刚：大模型幻灭低谷or波动上升？｜甲子引力

分析100万条人与AI对话的背后：人类没有看一条对话｜甲子光年

AI in ALL时代，希望你来参与——甲子光年特别策划｜甲子光年

最强推理模型o3来了！OpenAI副总裁不慎透露秘密被Altman“闭麦”｜甲子光年

对话面壁智能刘知远：Densing Law是大模型能力的另一个度量衡｜甲子光年

国内首款量产AI眼镜发布，零一万物前联创担任AI合伙人｜甲子光年

如何捕捉低空经济的创新机遇与市场红利？｜甲子引力

毛绒绒的AI智能宠物，正在海外流行｜甲子光年

AI应用竞争激烈，如何留在牌桌？｜甲子引力

迎接具身智能落地应用的星辰大海｜甲子引力

万字实录：生数、智谱、宇树、智源对谈AI的共识与非共识｜甲子光年

打造耐心资本，GPLP如何更好协同？｜甲子引力

新政频出，科技投资有哪些创新的变革策略？｜甲子引力

端侧AI生态如何做？都在安谋科技的AI朋友圈里了｜甲子光年

智谱宣布完成新一轮30亿元融资，将继续投入基座大模型｜甲子光年

中国人工智能应用的标杆，都在这场大会上了｜甲子光年

极越危局：当一辆车消失天际，当一个人成了谜｜甲子光年

服务上万家企业后，美团企业版找到了企业消费管理的秘诀｜甲子光年

物流行业内卷加剧，AI如何反卷破局？｜甲子光年

中国算力行业的突围之道｜甲子引力

【榜单揭晓】 | 2024年度三大科技榜单发布，致敬科技领域一如既往的奔赴者｜甲子光年

3000+人次到场，大量行业首发内容，2024甲子引力年终盛典成功举办丨甲子引力

面壁智能线下首次公开完成数亿元融资，李大海：未来会让GPT-4o及更高水平模型上端｜甲子光年

万千流变，一如既往：2024人工智能产业30条判断｜甲子光年

生数、智谱、智源谈Sora：模型在预期之内，产品才是亮点｜甲子光年

00后耶鲁博士携产业链老兵创业，半年造出的人形机器人要量产了｜甲子光年

从“有趣”到“有用”，AI应用市场如何破局？｜甲子光年

AR百镜大战，自研芯片才是唯一的出路？｜甲子光年

寻找张勇｜甲子光年

全嘉宾阵容官宣！2024甲子引力年终盛典即将召开丨甲子引力

风暴中的杨植麟回应争议：感谢投资人，力挺张予彤｜甲子光年

全嘉宾阵容官宣！2024甲子引力年终盛典即将召开丨甲子引力

44家北大AI企业集结郑州，开启AI 3.0时代｜甲子光年

满血版o1来了！OpenAI首次将多模态能力与新型推理范式相结合｜甲子光年

大模型拯救数字人｜甲子光年

拿下首个右舵左行地区自动驾驶测试牌照，萝卜快跑开启全球化｜甲子光年

生数、智谱、宇树、智源齐聚！2024甲子引力年终盛典最新爆料丨甲子引力

盐城市30亿元“耐心资本”战略性新兴产业母基金正式起航｜甲子光年

甲小姐对话张钹：中国大模型的死与生｜甲子光年

智谱升级Agent，AI如何从Chat到Act？｜甲子光年

一条朋友圈与背后的AI格局之变｜甲子光年

大模型“炼丹”容易“修仙”难：猎户星空跨越AI应用鸿沟｜甲子光年

“赛博菩萨”袁进辉，只想做好“Token工厂”｜甲子光年

一群北大的年轻人，想要捕捉光｜甲子光年

专访可汗学院创始人：AI教育赛道，中美之间最大的区别是什么？｜甲子光年

专访群核科技黄晓煌：我们要做和Sora不同的“物理世界模拟器”｜甲子光年

AI翻译市场图鉴：谁能翻译好“霸总”和“老弟”｜甲子光年智库

登上“最不可能作弊”的榜单，阶跃星辰Step-2位列中国大模型第一｜甲子光年

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉