重磅！OpenAI发布o3-mini

职场 2025-02-01 09:12 浙江

▲ 点击上方蓝字关注深蓝信息公众号

本文约 2300 字

阅读时间约 5 分钟

OpenAI于中国时间凌晨发布o3-mini, 全文如下：

我们今日推出 OpenAI o3 - mini，这是我们推理系列中最新、性价比最高的模型，在 ChatGPT 和 API 中均可使用。该模型于 2024 年 12 月进行了预览，它强大且快速，拓展了小型模型的能力边界，具备卓越的 STEM 能力 —— 在科学、数学和编程方面尤为突出 —— 同时保持了 OpenAI o1 - mini 的低成本和低延迟特性。

OpenAI o3 - mini 是我们首款支持多项开发者急需功能的小型推理模型，这些功能包括函数调用（在新窗口打开）、结构化输出（在新窗口打开）以及开发者消息（在新窗口打开），使其从一开始就适用于实际应用。与 OpenAI o1 - mini 和 OpenAI o1 - preview 一样，o3 - mini 将支持流式传输（在新窗口打开）。此外，开发者可在三种推理强度（在新窗口打开）选项 —— 低、中、高 —— 中进行选择，以针对特定用例进行优化。这种灵活性使 o3 - mini 在应对复杂挑战时能够 “更深入思考”，而在关注延迟问题时则能优先考虑速度。o3 - mini 不支持视觉功能，因此开发者在进行视觉推理任务时应继续使用 OpenAI o1。从今日起，o3 - mini 将在聊天完成 API、助手 API 和批量 API 中向 API 使用层级 3 - 5（在新窗口打开）的部分开发者推出。

ChatGPT Plus、团队版和专业版用户从今日起即可使用 OpenAI o3 - mini，企业版用户将于 2 月获得访问权限。o3 - mini 将在模型选择器中取代 OpenAI o1 - mini，提供更高的速率限制和更低的延迟，使其成为编码、STEM 和逻辑问题解决任务的理想选择。作为此次升级的一部分，我们将 Plus 和团队版用户的速率限制提高两倍，从 o1 - mini 的每天 50 条消息提升至 o3 - mini 的每天 150 条消息。此外，o3 - mini 现在可与搜索功能配合使用，通过相关网页链接获取最新答案。这是我们在将搜索功能整合到推理模型过程中的早期原型。

从今日起，免费计划用户也可通过在消息编辑器中选择 “推理” 或重新生成回复来试用 OpenAI o3 - mini。这标志着推理模型首次向 ChatGPT 的免费用户开放。

虽然 OpenAI o1 仍然是我们更通用的常识推理模型，但 OpenAI o3 - mini 为需要精确性和速度的技术领域提供了专门的替代方案。在 ChatGPT 中，o3 - mini 使用中等推理强度，在速度和准确性之间实现了平衡。所有付费用户还可在模型选择器中选择 o3 - mini - high，以获得更高智能版本，不过生成回复的时间会稍长一些。专业版用户将可无限制使用 o3 - mini 和 o3 - mini - high。

快速、强大且针对 STEM 推理优化
与 OpenAI o1 前身类似，OpenAI o3 - mini 针对 STEM 推理进行了优化。使用中等推理强度的 o3 - mini 在数学、编码和科学方面的表现与 o1 相当，同时能提供更快的回复。专家测试人员的评估显示，与 OpenAI o1 - mini 相比，o3 - mini 生成的答案更准确、更清晰，推理能力更强。测试人员在 56% 的情况下更喜欢 o3 - mini 的回复，并且发现在处理困难的实际问题时，重大错误减少了 39%。在使用中等推理强度时，o3 - mini 在一些最具挑战性的推理和智能评估（包括 AIME 和 GPQA）中与 o1 表现相当。

Competition Math (AIME 2024)

数学：使用低推理强度时，OpenAI o3 - mini 的表现与 OpenAI o1 - mini 相当；使用中等推理强度时，o3 - mini 的表现与 o1 相当。同时，使用高推理强度时，o3 - mini 的表现优于 OpenAI o1 - mini 和 OpenAI o1，其中灰色阴影区域显示了 64 个样本的多数投票（共识）表现。

PhD-level Science Questions (GPQA Diamond)

博士水平科学：在博士水平的生物学、化学和物理学问题上，使用低推理强度时，OpenAI o3 - mini 的表现优于 OpenAI o1 - mini。使用高推理强度时，o3 - mini 的表现与 o1 相当。

FrontierMath

研究级数学：使用高推理强度的 OpenAI o3 - mini 在 FrontierMath 上的表现优于其前身。在 FrontierMath 上，当被提示使用 Python 工具时，使用高推理强度的 o3 - mini 首次尝试就能解决超过 32% 的问题，其中包括超过 28% 的具有挑战性（T3 级）的问题。这些数据为临时数据，且上图展示的是未使用工具或计算器时的表现。

Competition Code (Codeforces)

竞赛编程：在 Codeforces 竞赛编程中，OpenAI o3 - mini 随着推理强度的增加，Elo 评分逐渐提高，所有表现均优于 o1 - mini。使用中等推理强度时，其表现与 o1 相当。

Software Engineering (SWE-bench Verified)

软件工程：o3 - mini 是我们在 SWEbench 验证集上表现最佳的发布模型。如需了解使用高推理强度时 SWE - bench 验证集结果的更多数据点，包括开源无代理框架（39%）和内部工具框架（61%）的情况，请查看我们的系统卡片。

LiveBench Coding

LiveBench 编码：即使使用中等推理强度，OpenAI o3 - mini 的表现也超过了 o1 - high，凸显了其在编码任务中的高效性。使用高推理强度时，o3 - mini 进一步扩大领先优势，在关键指标上实现了显著更强的性能表现。

General knowledge

常识：在常识领域的知识评估中，o3 - mini 的表现优于 o1 - mini。

Human Preference Evaluation

人类偏好评估：外部专家测试人员的评估还表明，与 OpenAI o1 - mini 相比，OpenAI o3 - mini 生成的答案更准确、更清晰，推理能力更强，尤其是在 STEM 领域。测试人员在 56% 的情况下更喜欢 o3 - mini 的回复，并且发现在处理困难的实际问题时，重大错误减少了 39%。

模型速度与性能
OpenAI o3 - mini 的智能水平与 OpenAI o1 相当，但性能更快、效率更高。除了上述突出的 STEM 评估之外，使用中等推理强度的 o3 - mini 在其他数学和事实性评估中也展现出卓越的结果。在 A/B 测试中，o3 - mini 的回复速度比 o1 - mini 快 24%，平均回复时间为 7.7 秒，而 o1 - mini 为 10.16 秒。

Latency comparison between o1-mini and o3-mini (medium)

延迟：o3 - mini 生成首个令牌的平均时间比 o1 - mini 快 2500 毫秒。

安全性

我们用于教导 OpenAI o3 - mini 安全回复的关键技术之一是审慎对齐，即训练模型在回答用户提示之前，依据人类编写的安全规范进行推理。与 OpenAI o1 类似，我们发现 o3 - mini 在具有挑战性的安全性和越狱评估中显著超越 GPT - 4o。在部署之前，我们使用与 o1 相同的准备方式、外部红队测试和安全评估，仔细评估了 o3 - mini 的安全风险。我们感谢申请提前测试 o3 - mini 的安全测试人员。以下评估的详细信息，以及对潜在风险和缓解措施有效性的全面解释，可在 o3 - mini 系统卡片中查看。

Disallowed content evaluations

Jailbreak Evaluations

下一步计划
OpenAI o3 - mini 的发布标志着 OpenAI 在拓展高性价比智能边界使命中的又一步。通过在保持低成本的同时针对 STEM 领域优化推理能力，我们让高质量的 AI 变得更加触手可及。该模型延续了我们降低智能成本的记录 —— 自推出 GPT - 4 以来，每令牌定价降低了 95%—— 同时保持顶级的推理能力。随着 AI 应用的不断扩展，我们仍致力于在前沿领域保持领先，构建在大规模应用中平衡智能、效率和安全性的模型。

近期DeepSeek相关分享

强大的AI离职预测！用数据科学破解人才流失困局

如何让DeepSeek在自己电脑上不联网也能工作？

DeepSeek可以画图了！英伟达股价跌17%（附发布全文）

别看到DeepSeek就只想着学技术

用DeepSeek+CherryStudio助力HR实现员工手册智能问答

如果你是HR，对AI和数字化在人力资源领域应用感兴趣，欢迎长按识别如下海报的二维码申请入群相互交流HR AI数字化实践和解决方案，与同行有更多相互学习与支持。

深蓝君关于HR如何应对AI未来的新书推荐

由于公众号平台更改了推送规则，如不想错过深蓝君的原创分享，觉得文章不错时，记得“转发”、“点赞”或“在看”，这样每次新文章推送，您都会第一时间收到！也欢迎扫描上方二维码加我个人微信相互学习交流

深蓝信息

有温度的管理也可以有逻辑，有逻辑的理论也可以很简单！人力资源管理、数字化转型、职场感悟的深度思考、蓝海探寻！我是徐刚，笔名深蓝君，欢迎关注！

最新文章

对比！Workday裁员8.5% VS DeepSeek百万年薪 “招兵买马”

HR使用DeepSeek八大场景神级提示词大全

《人力资源管理的未来》讲书会精要：深度解码HR破局新范式

[微信红包]恭喜发财！开工大吉！

让DeepSeek帮HR写长假后回归工作状态快速指南！

如何应对？美特朗普对中国进口商品加征10%关税

如何让AI仅回答员工手册范围内的问题？

ChatGPT o3-mini如何评价自己与DeepSeek R1相比的优劣势

从DeepSeek创始人梁文锋深度访谈看人力资源管理的未来

重磅！OpenAI发布o3-mini

OpenAI有点急了！ChatGPT o3可能今明发布！中美AI竞争白热化

[微信红包]蛇年新春迎财神！

用DeepSeek+CherryStudio助力HR实现员工手册智能问答

别看到DeepSeek就只想着学技术

蛇年新春HR书单推荐

蛇年春晚刘谦筷子、杯子、勺子魔术解秘

快讯！《2025年春节联欢晚会》节目单发布

如何让DeepSeek在自己电脑上不联网也能工作？

DeepSeek可以画图了！英伟达股价跌17%（附发布全文）

强大的AI离职预测！—— 用数据科学破解人才流失困局

手把手教你制作3D数字人拜年视频

什么是人效管理的“黄金不等式”？（附赠蛇年新春三重好礼）

给员工的蛇年春节安全提醒（HR通知邮件模板）

为什么说企业文化决定了企业的未来？

理性分析：上海第二次劳动合同到期是否必须续签?

第二次劳动合同到期，在上海也必须续签了？

未来想66岁再退休，现在要做点什么准备？

刚刚！TikTok恢复在美服务！

字节跳动旗下Lark 1月19日起在美国停服，出海HR如何应对？

出海HR必备6大注意事项！

年终奖发放常见的6个问题与避“坑”指南

达到法定退休年龄时，如医疗期未满，可以弹性延迟退休吗？

出海HR如何接住小红书TikTok"难民"潮的这波流量？

第一批用AI工作的HR，已经碾压同事了！

IT变HR？AI智能体浪潮下的HR新思考

弹性退休：提前/延迟退休规定如何用英语通知Global？

弹性退休：告知书、协议书、退休时间申请书官宣了！(附下载)

HR在ESG中要关心什么？怎么衡量？如何行动？

王星后又一起模特失联！给出海企业员工的安全提醒！附通知

2025年春节放假通知（国内版+出海版）

甲流高发！企业员工防范指南（附HR邮件通知模板）

人力资源从业者的新机遇来了！

智慧的中心思想：知名年度演讲原版全文发布合集

弹性退休：提前退休申请书 & 延迟退休协议书模板分享

第一批用AI工作的HR，已经彻底赢麻了！！

最新！一文读懂弹性退休怎么弹？（附HR邮件通知模板）

2025有韧性的企业是什么样的？

2024分享总结：用坚持点亮希望，用分享传递温暖

一个转型成功的前HRD送给HR伙伴们的终生成长课

意大利用工法规学习精要（2025年）

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉