o3-mini发布！奥特曼：在开源上OpenAI一直站在历史错误的一边

学术 2025-02-01 17:26 上海

Datawhale分享
OpenAI：o3，编辑：Datawhale

OpenAI o3-mini 官宣发布！

此次 o3-mini 包含 low、medium 和 high 三个版本。

OpenAI 表示，今天发布的 o3-mini 是其推理模型系列中最新、最具成本效益的模型，已上线 ChatGPT 和 API 。

目前，ChatGPT 免费版用户可以通过选择「Search+Reason」来免费试用 o3-mini，具体用户权限如下：

这是 OpenAI 首次向 ChatGPT 的免费用户提供推理模型。

同时，o3-mini 的价格这次算是彻底给打下来了——比满血版o1便宜了92.7%，附上和 DeepSeek- R1 的价格对比。

不过 o3-mini 目前还不支持视觉功能，开发者仍然需要使用 OpenAI o1 进行视觉推理任务。

o3-mini 发布后，OpenAI 团队公开答疑

o3-mini 发布后，OpenAI CEO Sam Altman 带领首席研究员 Mark Chen、首席产品官 Kevin Weil、工程副总裁 Srinivas Narayanan、API 研究主管 Michelle Pokrass，和 o3-mini 团队研究主管 Hongyu Ren，一起参与了 Reddit AMA 讨论会。

问题1：我们能看到所有的思维 tokens 吗？

回答（Sam Altman）：是的，我们将很快展示一个更有帮助和详细的版本。感谢 R1 提醒我们。

推理模型使用了「将任务分解成更小步骤的思维链」的推理方法。

OpenAI 的 o1 模型和 o3 模型没有向用户显示任何中间的思考步骤，而是只是显示最终的答案。

DeepSeek 的 R1 模型向用户展示了每个步骤。

问题2：你们会考虑发布一些模型权重和发表一些研究吗？

回答（Sam Altman）：是的，我们正在讨论。我个人认为我们过去在开源方面一直站在历史错误的一边，需要想出一种不同的开源策略。不过不是所有 OpenAI 的人都同意这个观点，这也不是我们目前优先级最高的事项。

问题3：完整版 o3 什么时候发布？

回答（Sam Altman）：我估计超过几周，少于几个月。

问题4：语音模式会更新吗？这是 GPT-5o 的一个重点吗？GPT-5o 的大致时间表是什么？

回答（Sam Altman）：语音模式更新即将到来！我想我们会直接叫它 GPT-5 而不是 GPT-5o。目前还没有时间表。

问题5：Stargate 的成功对 OpenAI 的未来有多重要？

回答（Kevin Weil）：非常重要。我们看到的一切都表明，计算能力越多，我们就能建立更好的模型，并制造更有价值的产品。我们现在同时在两个维度上扩展模型——更大的预训练和更多的强化学习/strawberry 训练，这两者都需要计算资源。为数亿用户提供服务，并且随着我们转向更多为您持续工作的智能产品，这些也都需要计算资源。因此可以将 Stargate 视为我们的工厂，将算力/GPU 转化为令人惊叹的产品。

o3-mini 官方性能报告

最后，附上 o3-mini 的性能报告（此处由机器之心编译）：

快速、强大且针对 STEM 推理优化

与其前身 OpenAI o1 类似，OpenAI o3-mini 针对 STEM 推理进行了优化。o3-mini-medium 在数学、编程和科学领域的表现与 o1 相当，同时响应速度更快。专家测试人员的评估显示，o3-mini 产生的答案比 o1-mini 更准确、更清晰，推理能力更强。测试人员在 56% 的情况下更偏好 o3-mini 的响应，并观察到 o3-mini 在困难的现实问题上重大错误减少了 39%。o3-mini-medium 在一些最具挑战性的推理和智能评估（包括 AIME 和 GPQA）上与 o1 的表现相当。

竞赛数学（AIME 2024）：

竞赛数学：o3-mini-low 与 o1-mini 的表现相当。o3-mini-medium 达到与 o1 相当的表现。o3-mini-high 超过了 o1-mini 和 o1，上图中灰色阴影区域为 64 个样本的多数投票（共识）。

博士级科学问题（GPQA Diamond）：

博士极科学问题：o3-mini-low 的表现优于 o1-mini。o3-mini-high 的表现与 o1 相当，在博士级生物学、化学和物理问题上都显示出显著进步。

研究级数学（FrontierMath）：

研究级数学：o3-mini-high 在 FrontierMath 上的表现优于其前代产品。使用 Python 工具时，o3-mini-high 能够在首次尝试时解决超过 32% 的问题，包括超过 28% 的具有挑战性的（T3）问题。

竞赛编程（Codeforces）：

在 Codeforces 编程中， o3-mini 随着推理努力级别的提高获得了越来越高的 Elo 分数，均优于 o1-mini。o3-mini-medium 达到了与 o1 相当的表现。

软件工程（SWE-bench Verified）：

软件工程：o3-mini 是 OpenAI 发布的在 SWEbench-verified 上表现最好的模型。o3-mini-high 使用开源 Agentless 框架可达到 39% 的准确率，使用内部工具可达到 61% 的准确率。

LiveBench 编码：

LiveBench 编码：即便是 o3-mini-medium 也超过了 o1-high，突显了其在编码任务中的效率。o3-mini-high 进一步扩大了领先优势，在关键指标上取得了显著更强的表现。

普通知识问题：

普通知识问题：o3-mini 在各个一般性知识领域的评估中都优于 o1-mini。

人类偏好评估：

人类偏好评估：外部专家测试人员的评估显示， o3-mini 产生的答案比 o1-mini 更准确、更清晰，推理能力更强，特别是在 STEM 领域。测试人员在 56% 的情况下更偏好 o3-mini 的响应，并观察到 o3-mini 在困难的现实问题上重大错误减少了 39%。

模型速度和性能

o3-mini 在保持与 OpenAI o1 相当的智能水平的同时，提供了更快的性能和更高的效率。除了上述 STEM 评估外，o3-mini-medium 的其他数学和事实性评估中也展现出优越的结果。在 A/B 测试中，o3-mini 的响应速度比 o1-mini 快 24%，平均响应时间为 7.7 秒，而 o1-mini 为 10.16 秒。

延迟：o3-mini 的首个 token 生成时间平均比 o1-mini 快 2500 毫秒。

安全

OpenAI 教导 o3-mini 安全响应的主要技术之一是审慎对齐（deliberative alignment），这种对齐方式训练模型在回答用户提示之前，先对人工编写的安全规范进行充分的思考和推理。与 OpenAI o1 类似，研究人员发现 o3-mini 在具有挑战性的安全性和越狱评估上显著超越了 GPT-4o。在部署之前，OpenAI 使用了与 o1 相同的准备方法、外部红队测试和安全性评估来仔细评估 o3-mini 的安全风险。

违规内容评估结果

越狱评估结果

未来展望

OpenAI o3-mini 的发布标志着 OpenAI 在推进高性价比智能方面又迈出了一步。通过优化 STEM 领域的推理能力，同时保持低成本，OpenAI 正在使高质量 AI 变得更加容易获取。该模型延续了其降低智能成本的记录 —— 自 GPT-4 推出以来，每个 token 的定价降低了 95%—— 同时保持顶级推理能力。随着 AI 应用的扩展，OpenAI 仍然致力于在前沿领域引领，构建即使在大规模部署和使用的情况下，也能保持智能、效率与安全平衡的模型。

参考资料：

1.https://www.reddit.com/r/OpenAI/comments/1ieonxv/ama_with_openais_sam_altman_mark_chen_kevin_weil/

2.https://openai.com/index/openai-o3-mini/

3.https://mp.weixin.qq.com/s/PC6DbfxFlrTm1ZxaULLY6w

4.https://mp.weixin.qq.com/s/N0ElAF0kXQVcweOuDtohVg

Datawhale

一个专注于AI领域的开源组织，汇聚了众多优秀学习者，使命-for the learner，和学习者一起成长。

最新文章

PyCharm接入DeepSeek实现AI编程

AI大神Andrej Karpathy的通俗解释：预训练、监督式微调、强化学习！

SB OpenAI Japan正式成立！孙正义：每年投入30亿美元！

完整的671B R1塞进本地，详尽教程来了！

CCF的研讨会实录：解构DeepSeek-R1！

OpenAI突发直播：上线新智能体，刷榜人类终极考试！

手把手带你用DeepSeek-R1和Ollama搭建本地应用，一文搞定！

o3-mini 编程实测，一条python程序引发近400万围观！

一文详尽之Scaling Law！

DeepSeek R1本地部署，小白教程来了！

Stable Diffusion创始人：DeepSeek没有抄袭！

o3-mini发布！奥特曼：在开源上OpenAI一直站在历史错误的一边

原来，这些顶级大模型都是蒸馏的！

吴恩达评DeepSeek：中国AI正在崛起！

Zotero整合DeepSeek自动帮你读文献，教程来了！

为什么说DeepSeek的R1-Zero比R1更值得关注？

完整解读：从DeepSeek Janus到Janus-Pro！

DeepSeek V3论文细节：如何绕开CUDA的垄断！

快来领取你的Datawhale年度总结！

英伟达市值蒸发近6000亿，而DeepSeek刚刚又开源新模型！

完整攻略：如何用好DeepSeek，一文汇总！

获奖名单公布！动手学AI辅助编程方向！

DeepSeek-R1解读：纯强化学习，模型推理能力提升的新范式？

《黑神话：悟空》制作人冯骥推荐DeepSeek！

全球掀起DeepSeek复现狂潮，一文汇总！

获奖名单公布！动手学AI Agent方向！

第五轮学科评估结果汇总！

曝DeepSeek让Llama4未发布已落后！扎克伯格坐不住了：2025预算600亿！

2025泰晤士世界学科排名公布！

一文详尽之SFT（监督微调）！

OpenAI深夜正式发布首个智能体Operator！

一文详尽之LLM-Based Agent

2024 ACM Fellow公布：九位华人入选！

突发！特朗普联手奥特曼启动AI「星际之门」，狂砸5000亿美元！

496GB显存！最壕DeepSeek玩家8台Mac跑R1

特朗普就职典礼现场，硅谷科技大佬齐聚！

Infra视角下的DeepSeek-V3，到底有多强？

AI教父辛顿开年访谈：中国AI追近美国靠人才教育和自研

DeepSeek-V3带火大模型infra，入门看这篇就够了！

2025年Next Token Prediction范式会统一多模态吗？

TikTok昨天关服，美国又想禁小红书了？

黄仁勋和马斯克传来关键讯息，CES 2025 趋势总结！

一文详尽之Embedding（向量表示）！

周受资：将尽全力确保TikTok平台继续繁荣！

股票购买计划让员工赚翻了！曝英伟达:78%员工是百万富翁，每两人就有一个资产过亿！黄仁勋：不裁员，自愿上班

2025 AAAI Fellow公布：四位华人入选！

书生·浦语大模型升级，突破思维密度，4T数据训出高性能模型

智谱AI回应：被美国列入实体清单！

马斯克Boss直聘：不看学历，只看代码

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

o3-mini发布！奥特曼：在开源上OpenAI一直站在历史错误的一边

Datawhale分享 OpenAI：o3，编辑：Datawhale

Datawhale分享
OpenAI：o3，编辑：Datawhale