o3-mini 发布,但仍未走出DeepSeek 阴影

旅行   2025-02-01 12:16   中国香港  

OpenAI在2月1日宣布推出全新的o3-mini模型。

这个被Sam Altman称为「智能且快速」的模型现已在ChatGPT和API中正式上线,但其表现却未能引起市场预期的轰动效应

在访问权限设置上,OpenAI采用了差异化策略。

Pro用户可无限制使用o3-mini,Plus和Team用户的速率限制是o1-mini的三倍,而免费用户只需点击「reason」按钮即可体验基础功能。付费用户还可以选择「o3-mini-high」版本,该版本虽然响应较慢,但能提供更深入的思考和更优质的答案。

在定价方面,o3-mini展现出极强的竞争力。其成本仅为o1的十五分之一、Sonnet的一半,输入价格为每百万tokens 1.10美元(缓存token享50%折扣),输出价格为每百万tokens 4.40美元

这一定价策略虽然得到了开发者社区的广泛肯定,该定价或受迫于DeepSeek  AI 圈拼多多定价所带来的压力。

o3-mini 模型目前还不支持图像输入,但支持搜索功能,这使得它在某些应用场景下非常有用。

在技术创新方面,OpenAI为o3-mini引入了「审议对齐」训练方法。

这种方法通过两个关键阶段来提升模型性能:监督微调阶段让模型学习将安全政策融入推理过程;强化学习阶段则通过法官模型的奖励信号,确保响应符合训练数据和安全政策。

这一创新使o3-mini的幻觉率从GPT-4o的52.4%大幅降至14.8%。

在最新的软件工程基准测试(SWE-bench)中,o3-mini(高配置)仅略优于o1。这一结果表明,尽管o3-mini在性能上有所提升,但与o1的差距并不显著。

值得注意的是,当前测试的是o3-mini版本,而完整的o3模型尚未发布。

在实际应用测试中,University of Washington的研究员Yuchen Jin设计了一个极具挑战性的编程任务:要求模型创建一个在超立方体内弹跳的球体模拟程序,需要处理重力效应、摩擦力和真实的碰撞检测。o3-mini不仅完美完成了任务,还在性能和速度上超越了DeepSeek R1。这个测试展示了o3-mini在复杂物理模拟和编程任务上的卓越能力。

o3-mini 模型在一个真实物理模拟中表现较DeepSeek R1 也较好。在简单的提示「写一个Python脚本,模拟一个在超立方体内弹跳的球」下,其通过生成Python脚本,成功模拟了球在超立方体内的弹跳运动。

o3-mini

而在与DeepSeek R1的对比中,o3-mini在相同任务上表现更优,进一步证明了其在处理复杂物理模拟任务上的潜力。

DeepSeek R1

HyperWriteAI的CEO Matt Shumer 也分享了他的深入的使用体验。他指出,尽管基准测试未能完全反映o3-mini的真实实力,但在实际代码生成任务中,该模型的表现远超o1和o1 pro。不过,他也强调,当缺乏具体实现细节时,模型的表现会变得不够稳定,这一点仍需改进。

在LiveBench AI测试中,o3-mini-high虽然超越了R1和o1模型,但仍存在一些问题。Bindu Reddy的测试显示,模型在计算数学平均值时出现了错误,需要修正。这也反映出模型在某些基础运算上的不稳定性。

创意开发者Jonathan Whitaker的实践案例展示了o3-mini的应用潜力。他利用该模型快速开发了一系列创意应用:Facewave实现了通过摄像头控制MIDI;Beetle Sketch能自动生成独特的甲虫图案;Opalescent Nudibranch Shader创造了彩虹色海蛞蝓的视觉效果;还有一个具有炫酷声音视觉效果的网页合成器。这些应用虽然偶有小错误,但充分展示了模型在快速应用开发方面的能力。

但据分析,o3-mini 模型在指令跟随和工具格式指定方面存在问题,其在执行复杂指令时显示出明显的不足,这限制了其在多步骤任务中的应用。同时o3-mini 还存在工具格式指定问题:模型在处理需要特定格式输入的工具时,显示出混淆和错误,这进一步影响了其性能。

此外,虽然o3-mini 在特定领域的突破仍值得关注,但在代理任务上,o3-mini的表现并未超越o1-mini。

而在Every公司内部,已经提前对o3-mini 模型进行了几天的测试。根据Cora GM Kieran Klaassen的反馈,o3-mini相比o1模型速度更快,但在处理HTML、CSS和UX方面,Sonnet模型仍然表现更佳。

在一项内部基准测试中,o3-mini在技术上表现完美,但在艺术性上不如Sonnet 3.5。Kieran Klaassen通过其等距森林生成器基准测试发现,o3-mini优于o1 pro和r1,但在视觉效果上Sonnet 3.5仍然领先。

在Aidan McLaughlin 的对比测试中,o3-mini与o1模型展现了不同的特点。o3-mini在创意和速度上表现出色,超越了o1模型,但在构建逻辑上略显不足。(该测试在中等推理水平下进行,o3-mini的高推理水平因速度问题未进行测试)

o3-mini在生成「一个巨大的漂浮城市」的提示下,展现了更高的创意和速度。但尽管o3-mini在创意和速度上占优,但其构建逻辑不如o1模型严谨。

此外,o3-mini在生成「一个基于你的巨大有机教堂」的提示下,也展现了其独特的创意能力。


Aidan McLaughlin建议在最高推理努力下测试o3-mini,以进一步探索其潜力。更多测试结果和投票将在mcbench.ai上公布。

在发布会后的Reddit的AMA活动中,OpenAI团队透露了更多激动人心的计(大)划(饼)。

他们表示完整版o3模型将在4-6周内发布,同时还将推出超越dalle-3的图像生成技术。此外,模型还将支持文件附件功能、更长的上下文窗口,以及o3-memory功能。对于担心价格上涨的Plus用户,团队明确承诺不会调整价格。

然而,o3-mini的发布似乎未能激起预期的市场热情。

Even公司的内部测试显示,尽管o3-mini在技术层面表现不俗,但在视觉和用户体验方面仍逊于Sonnet 3.5。Cursor开发团队甚至直言,他们在大多数任务中仍然偏好使用Sonnet模型。

这种平淡的市场反应与中国AI领域的快速发展有关——显然,OpenAI 需要更具实力的模型才能从DeepSeek moment 的阴影之下走出。Lex Fridman 指出,即使5 年后科技史上的DeepSeek 时刻仍将被人们铭记

Wenhu Chen所指出,中国公司的创新正在将OpenAI的最佳成果推向新的高度。在DeepSeek展现出惊人实力后,市场对AI巨头的期待似乎已经提升到了新的水平。

对于o3-mini的表现,TDM研究员指出一个关键观点:这个版本主要面向开发者而非终端用户,其目标是提供与o1相似的性能但大幅降低API使用成本

这解释了为什么即便是ChatGPT Plus用户,除非需要快速进行小改动,否则仍建议继续使用o1。

OpenAI似乎也意识到了市场的期待。

在AMA中,他们暗示即将发布的o3-pro可能会成为一个重要转折点,「让人们真正感受到AGI的存在」。

该画的饼,还得继续先画起来。

但实际情况则是,在DeepSeek带来的技术冲击之下,市场显然需要看到更多实质性的突破,而不仅仅是美好的承诺

否则,DeepSeek moment 代表的开源力量或将成为OpenAI 难以走出的阴影

o3-mini 的本次发布虽然不够炸裂,但确实又将人类对人工智能的探索往前小挪了一小步。

期待Grok、Gemini 的新模型。

也更期待DeepSeek、Qwen、豆包、Kimi 们的新发布!

希望美国公司勇敢面对来自中国公司的挑战,而不是推动出口控制来维护自己的AI 霸权。

期待对全人类普惠的AGI / ASI 的到来!

👇

👇

👇

👇

本文同步自知识星球《AGI Hunt》

星球实时采集和监控推特、油管、discord、电报等平台的热点AI 内容,并基于数个资讯处理的 AI agent 挑选、审核、翻译、总结到星球中。

  • 每天约监控6000 条消息,可节省约800+ 小时的阅读成本;

  • 每天挖掘出10+ 热门的/新的 github 开源 AI 项目;

  • 每天转译、点评 10+ 热门 arxiv AI 前沿论文。

星球非免费。定价99元/年,0.27元/天。(每+100人,+20元。元老福利~)

  • 一是运行有成本,我希望它能自我闭环,这样才能长期稳定运转;

  • 二是对人的挑选,鱼龙混杂不是我想要的,希望找到关注和热爱 AI 的人。

欢迎你的加入!

AGI Hunt
关注AGI 的沿途风景!
 最新文章