重磅!OpenAI发布o3-mini

职场   2025-02-01 09:12   浙江  

▲ 点击上方蓝字关注深蓝信息公众号

本文约 2300 

阅读时间约 5 分钟
OpenAI于中国时间凌晨发布o3-mini, 全文如下:
我们今日推出 OpenAI o3 - mini,这是我们推理系列中最新、性价比最高的模型,在 ChatGPT 和 API 中均可使用。该模型于 2024 年 12 月进行了预览,它强大且快速,拓展了小型模型的能力边界,具备卓越的 STEM 能力 —— 在科学、数学和编程方面尤为突出 —— 同时保持了 OpenAI o1 - mini 的低成本和低延迟特性。
OpenAI o3 - mini 是我们首款支持多项开发者急需功能的小型推理模型,这些功能包括函数调用(在新窗口打开)、结构化输出(在新窗口打开)以及开发者消息(在新窗口打开),使其从一开始就适用于实际应用。与 OpenAI o1 - mini 和 OpenAI o1 - preview 一样,o3 - mini 将支持流式传输(在新窗口打开)。此外,开发者可在三种推理强度(在新窗口打开)选项 —— 低、中、高 —— 中进行选择,以针对特定用例进行优化。这种灵活性使 o3 - mini 在应对复杂挑战时能够 “更深入思考”,而在关注延迟问题时则能优先考虑速度。o3 - mini 不支持视觉功能,因此开发者在进行视觉推理任务时应继续使用 OpenAI o1。从今日起,o3 - mini 将在聊天完成 API、助手 API 和批量 API 中向 API 使用层级 3 - 5(在新窗口打开)的部分开发者推出。
ChatGPT Plus、团队版和专业版用户从今日起即可使用 OpenAI o3 - mini,企业版用户将于 2 月获得访问权限。o3 - mini 将在模型选择器中取代 OpenAI o1 - mini,提供更高的速率限制和更低的延迟,使其成为编码、STEM 和逻辑问题解决任务的理想选择。作为此次升级的一部分,我们将 Plus 和团队版用户的速率限制提高两倍,从 o1 - mini 的每天 50 条消息提升至 o3 - mini 的每天 150 条消息。此外,o3 - mini 现在可与搜索功能配合使用,通过相关网页链接获取最新答案。这是我们在将搜索功能整合到推理模型过程中的早期原型。
从今日起,免费计划用户也可通过在消息编辑器中选择 “推理” 或重新生成回复来试用 OpenAI o3 - mini。这标志着推理模型首次向 ChatGPT 的免费用户开放。
虽然 OpenAI o1 仍然是我们更通用的常识推理模型,但 OpenAI o3 - mini 为需要精确性和速度的技术领域提供了专门的替代方案。在 ChatGPT 中,o3 - mini 使用中等推理强度,在速度和准确性之间实现了平衡。所有付费用户还可在模型选择器中选择 o3 - mini - high,以获得更高智能版本,不过生成回复的时间会稍长一些。专业版用户将可无限制使用 o3 - mini 和 o3 - mini - high。
快速、强大且针对 STEM 推理优化
与 OpenAI o1 前身类似,OpenAI o3 - mini 针对 STEM 推理进行了优化。使用中等推理强度的 o3 - mini 在数学、编码和科学方面的表现与 o1 相当,同时能提供更快的回复。专家测试人员的评估显示,与 OpenAI o1 - mini 相比,o3 - mini 生成的答案更准确、更清晰,推理能力更强。测试人员在 56% 的情况下更喜欢 o3 - mini 的回复,并且发现在处理困难的实际问题时,重大错误减少了 39%。在使用中等推理强度时,o3 - mini 在一些最具挑战性的推理和智能评估(包括 AIME 和 GPQA)中与 o1 表现相当。

Competition Math (AIME 2024)

数学:使用低推理强度时,OpenAI o3 - mini 的表现与 OpenAI o1 - mini 相当;使用中等推理强度时,o3 - mini 的表现与 o1 相当。同时,使用高推理强度时,o3 - mini 的表现优于 OpenAI o1 - mini 和 OpenAI o1,其中灰色阴影区域显示了 64 个样本的多数投票(共识)表现。

PhD-level Science Questions (GPQA Diamond)


博士水平科学:在博士水平的生物学、化学和物理学问题上,使用低推理强度时,OpenAI o3 - mini 的表现优于 OpenAI o1 - mini。使用高推理强度时,o3 - mini 的表现与 o1 相当。
FrontierMath
研究级数学:使用高推理强度的 OpenAI o3 - mini 在 FrontierMath 上的表现优于其前身。在 FrontierMath 上,当被提示使用 Python 工具时,使用高推理强度的 o3 - mini 首次尝试就能解决超过 32% 的问题,其中包括超过 28% 的具有挑战性(T3 级)的问题。这些数据为临时数据,且上图展示的是未使用工具或计算器时的表现。

Competition Code (Codeforces)

竞赛编程:在 Codeforces 竞赛编程中,OpenAI o3 - mini 随着推理强度的增加,Elo 评分逐渐提高,所有表现均优于 o1 - mini。使用中等推理强度时,其表现与 o1 相当。

Software Engineering (SWE-bench Verified)


软件工程:o3 - mini 是我们在 SWEbench 验证集上表现最佳的发布模型。如需了解使用高推理强度时 SWE - bench 验证集结果的更多数据点,包括开源无代理框架(39%)和内部工具框架(61%)的情况,请查看我们的系统卡片。

LiveBench Coding

LiveBench 编码:即使使用中等推理强度,OpenAI o3 - mini 的表现也超过了 o1 - high,凸显了其在编码任务中的高效性。使用高推理强度时,o3 - mini 进一步扩大领先优势,在关键指标上实现了显著更强的性能表现。

General knowledge


常识:在常识领域的知识评估中,o3 - mini 的表现优于 o1 - mini。

Human Preference Evaluation

人类偏好评估:外部专家测试人员的评估还表明,与 OpenAI o1 - mini 相比,OpenAI o3 - mini 生成的答案更准确、更清晰,推理能力更强,尤其是在 STEM 领域。测试人员在 56% 的情况下更喜欢 o3 - mini 的回复,并且发现在处理困难的实际问题时,重大错误减少了 39%。
模型速度与性能
OpenAI o3 - mini 的智能水平与 OpenAI o1 相当,但性能更快、效率更高。除了上述突出的 STEM 评估之外,使用中等推理强度的 o3 - mini 在其他数学和事实性评估中也展现出卓越的结果。在 A/B 测试中,o3 - mini 的回复速度比 o1 - mini 快 24%,平均回复时间为 7.7 秒,而 o1 - mini 为 10.16 秒。

Latency comparison between o1-mini and o3-mini (medium)


延迟:o3 - mini 生成首个令牌的平均时间比 o1 - mini 快 2500 毫秒。
安全性
我们用于教导 OpenAI o3 - mini 安全回复的关键技术之一是审慎对齐,即训练模型在回答用户提示之前,依据人类编写的安全规范进行推理。与 OpenAI o1 类似,我们发现 o3 - mini 在具有挑战性的安全性和越狱评估中显著超越 GPT - 4o。在部署之前,我们使用与 o1 相同的准备方式、外部红队测试和安全评估,仔细评估了 o3 - mini 的安全风险。我们感谢申请提前测试 o3 - mini 的安全测试人员。以下评估的详细信息,以及对潜在风险和缓解措施有效性的全面解释,可在 o3 - mini 系统卡片中查看。

Disallowed content evaluations

Jailbreak Evaluations

下一步计划
OpenAI o3 - mini 的发布标志着 OpenAI 在拓展高性价比智能边界使命中的又一步。通过在保持低成本的同时针对 STEM 领域优化推理能力,我们让高质量的 AI 变得更加触手可及。该模型延续了我们降低智能成本的记录 —— 自推出 GPT - 4 以来,每令牌定价降低了 95%—— 同时保持顶级的推理能力。随着 AI 应用的不断扩展,我们仍致力于在前沿领域保持领先,构建在大规模应用中平衡智能、效率和安全性的模型。


近期DeepSeek相关分享
强大的AI离职预测!用数据科学破解人才流失困局

如何让DeepSeek在自己电脑上不联网也能工作?

DeepSeek可以画图了!英伟达股价跌17%(附发布全文)

别看到DeepSeek就只想着学技术

用DeepSeek+CherryStudio助力HR实现员工手册智能问答
如果你是HR,对AI和数字化在人力资源领域应用感兴趣,欢迎长按识别如下海报的二维码申请入群相互交流HR AI数字化实践和解决方案,与同行有更多相互学习与支持。

深蓝君关于HR如何应对AI未来的新书推荐


由于公众号平台更改了推送规则,如不想错过深蓝君的原创分享,觉得文章不错时,记得转发”、点赞在看,这样每次新文章推送,您都会第一时间收到!也欢迎扫描上方二维码加我个人微信相互学习交流



深蓝信息
有温度的管理也可以有逻辑, 有逻辑的理论也可以很简单! 人力资源管理、数字化转型、职场感悟的深度思考、蓝海探寻!我是徐刚,笔名深蓝君,欢迎关注!
 最新文章