o3-mini 发布，但仍未走出DeepSeek 阴影

旅行 2025-02-01 12:16 中国香港

OpenAI在2月1日宣布推出全新的o3-mini模型。

这个被Sam Altman称为「智能且快速」的模型现已在ChatGPT和API中正式上线，但其表现却未能引起市场预期的轰动效应。

在访问权限设置上，OpenAI采用了差异化策略。

Pro用户可无限制使用o3-mini，Plus和Team用户的速率限制是o1-mini的三倍，而免费用户只需点击「reason」按钮即可体验基础功能。付费用户还可以选择「o3-mini-high」版本，该版本虽然响应较慢，但能提供更深入的思考和更优质的答案。

在定价方面，o3-mini展现出极强的竞争力。其成本仅为o1的十五分之一、Sonnet的一半，输入价格为每百万tokens 1.10美元（缓存token享50%折扣），输出价格为每百万tokens 4.40美元。

这一定价策略虽然得到了开发者社区的广泛肯定，该定价或受迫于DeepSeek AI 圈拼多多定价所带来的压力。

o3-mini 模型目前还不支持图像输入，但支持搜索功能，这使得它在某些应用场景下非常有用。

在技术创新方面，OpenAI为o3-mini引入了「审议对齐」训练方法。

这种方法通过两个关键阶段来提升模型性能：监督微调阶段让模型学习将安全政策融入推理过程；强化学习阶段则通过法官模型的奖励信号，确保响应符合训练数据和安全政策。

这一创新使o3-mini的幻觉率从GPT-4o的52.4%大幅降至14.8%。

在最新的软件工程基准测试（SWE-bench）中，o3-mini（高配置）仅略优于o1。这一结果表明，尽管o3-mini在性能上有所提升，但与o1的差距并不显著。

值得注意的是，当前测试的是o3-mini版本，而完整的o3模型尚未发布。

在实际应用测试中，University of Washington的研究员Yuchen Jin设计了一个极具挑战性的编程任务：要求模型创建一个在超立方体内弹跳的球体模拟程序，需要处理重力效应、摩擦力和真实的碰撞检测。o3-mini不仅完美完成了任务，还在性能和速度上超越了DeepSeek R1。这个测试展示了o3-mini在复杂物理模拟和编程任务上的卓越能力。

o3-mini 模型在一个真实物理模拟中表现较DeepSeek R1 也较好。在简单的提示「写一个Python脚本，模拟一个在超立方体内弹跳的球」下，其通过生成Python脚本，成功模拟了球在超立方体内的弹跳运动。

o3-mini

而在与DeepSeek R1的对比中，o3-mini在相同任务上表现更优，进一步证明了其在处理复杂物理模拟任务上的潜力。

DeepSeek R1

HyperWriteAI的CEO Matt Shumer 也分享了他的深入的使用体验。他指出，尽管基准测试未能完全反映o3-mini的真实实力，但在实际代码生成任务中，该模型的表现远超o1和o1 pro。不过，他也强调，当缺乏具体实现细节时，模型的表现会变得不够稳定，这一点仍需改进。

在LiveBench AI测试中，o3-mini-high虽然超越了R1和o1模型，但仍存在一些问题。Bindu Reddy的测试显示，模型在计算数学平均值时出现了错误，需要修正。这也反映出模型在某些基础运算上的不稳定性。

创意开发者Jonathan Whitaker的实践案例展示了o3-mini的应用潜力。他利用该模型快速开发了一系列创意应用：Facewave实现了通过摄像头控制MIDI；Beetle Sketch能自动生成独特的甲虫图案；Opalescent Nudibranch Shader创造了彩虹色海蛞蝓的视觉效果；还有一个具有炫酷声音视觉效果的网页合成器。这些应用虽然偶有小错误，但充分展示了模型在快速应用开发方面的能力。

但据分析，o3-mini 模型在指令跟随和工具格式指定方面存在问题，其在执行复杂指令时显示出明显的不足，这限制了其在多步骤任务中的应用。同时o3-mini 还存在工具格式指定问题：模型在处理需要特定格式输入的工具时，显示出混淆和错误，这进一步影响了其性能。

此外，虽然o3-mini 在特定领域的突破仍值得关注，但在代理任务上，o3-mini的表现并未超越o1-mini。

而在Every公司内部，已经提前对o3-mini 模型进行了几天的测试。根据Cora GM Kieran Klaassen的反馈，o3-mini相比o1模型速度更快，但在处理HTML、CSS和UX方面，Sonnet模型仍然表现更佳。

在一项内部基准测试中，o3-mini在技术上表现完美，但在艺术性上不如Sonnet 3.5。Kieran Klaassen通过其等距森林生成器基准测试发现，o3-mini优于o1 pro和r1，但在视觉效果上Sonnet 3.5仍然领先。

在Aidan McLaughlin 的对比测试中，o3-mini与o1模型展现了不同的特点。o3-mini在创意和速度上表现出色，超越了o1模型，但在构建逻辑上略显不足。（该测试在中等推理水平下进行，o3-mini的高推理水平因速度问题未进行测试）

o3-mini在生成「一个巨大的漂浮城市」的提示下，展现了更高的创意和速度。但尽管o3-mini在创意和速度上占优，但其构建逻辑不如o1模型严谨。

此外，o3-mini在生成「一个基于你的巨大有机教堂」的提示下，也展现了其独特的创意能力。

Aidan McLaughlin建议在最高推理努力下测试o3-mini，以进一步探索其潜力。更多测试结果和投票将在mcbench.ai上公布。

在发布会后的Reddit的AMA活动中，OpenAI团队透露了更多激动人心的计（大）划（饼）。

他们表示完整版o3模型将在4-6周内发布，同时还将推出超越dalle-3的图像生成技术。此外，模型还将支持文件附件功能、更长的上下文窗口，以及o3-memory功能。对于担心价格上涨的Plus用户，团队明确承诺不会调整价格。

然而，o3-mini的发布似乎未能激起预期的市场热情。

Even公司的内部测试显示，尽管o3-mini在技术层面表现不俗，但在视觉和用户体验方面仍逊于Sonnet 3.5。Cursor开发团队甚至直言，他们在大多数任务中仍然偏好使用Sonnet模型。

这种平淡的市场反应与中国AI领域的快速发展有关——显然，OpenAI 需要更具实力的模型才能从DeepSeek moment 的阴影之下走出。Lex Fridman 指出，即使在5 年后，科技史上的DeepSeek 时刻仍将被人们铭记。

Wenhu Chen所指出，中国公司的创新正在将OpenAI的最佳成果推向新的高度。在DeepSeek展现出惊人实力后，市场对AI巨头的期待似乎已经提升到了新的水平。

对于o3-mini的表现，TDM研究员指出一个关键观点：这个版本主要面向开发者而非终端用户，其目标是提供与o1相似的性能但大幅降低API使用成本。

这解释了为什么即便是ChatGPT Plus用户，除非需要快速进行小改动，否则仍建议继续使用o1。

OpenAI似乎也意识到了市场的期待。

在AMA中，他们暗示即将发布的o3-pro可能会成为一个重要转折点，「让人们真正感受到AGI的存在」。

该画的饼，还得继续先画起来。

但实际情况则是，在DeepSeek带来的技术冲击之下，市场显然需要看到更多实质性的突破，而不仅仅是美好的承诺。

否则，DeepSeek moment 代表的开源力量或将成为OpenAI 难以走出的阴影。

o3-mini 的本次发布虽然不够「炸裂」，但确实又将人类对人工智能的探索往前小挪了一小步。

期待Grok、Gemini 的新模型。

也更期待DeepSeek、Qwen、豆包、Kimi 们的新发布！

希望美国公司勇敢面对来自中国公司的挑战，而不是推动出口控制来维护自己的AI 霸权。

期待对全人类普惠的AGI / ASI 的到来！

👇

本文同步自知识星球《AGI Hunt》

星球实时采集和监控推特、油管、discord、电报等平台的热点AI 内容，并基于数个资讯处理的 AI agent 挑选、审核、翻译、总结到星球中。

每天约监控6000 条消息，可节省约800+ 小时的阅读成本；
每天挖掘出10+ 热门的/新的 github 开源 AI 项目；
每天转译、点评 10+ 热门 arxiv AI 前沿论文。

星球非免费。定价99元/年，0.27元/天。(每+100人，+20元。元老福利~）

一是运行有成本，我希望它能自我闭环，这样才能长期稳定运转；
二是对人的挑选，鱼龙混杂不是我想要的，希望找到关注和热爱 AI 的人。

欢迎你的加入！

AGI Hunt

关注AGI 的沿途风景！

最新文章

从DeepSeek R1看推理模型的四种进化路线

对DeepSeek的五大误解！

重磅！Gemini 2.0全家桶发布：Flash免费用，Pro会写代码，还有一个便宜货

传言称Grok-3延迟！但马斯克仍手握最强算力

Deep Research 开源版来了！立省200美元

魔幻现实之：美国人下载DeepSeek 将坐牢20年？！

爆料：Anthropic 有比o3 更强的模型，但不敢放出来

华为突围：910C芯片性能达H100的60%！DeepSeek 已验证

OpenAI Deep Research上线：人类研究员失业倒计时？

基于o3-mini 的浏览器agent，打造属于自己的Operator

伯克利教授：AI思考的越多，越容易出错

o3-mini 的10 大疯狂应用案例！

指责DeepSeek 的OpenAI 们才是真正的賊！

特斯拉：This robot sucks!

Yann LeCun 痛批硅谷精英的优越感！

o3-mini 发布，但仍未走出DeepSeek 阴影

美分析机构称DeepSeek V3 成本远超600 万美元，实际达13亿美元！

OpenAI 最强模型o3 今晚发布！

重现Deepseek R1 「Aha Moment」的完整教程来了！

当马斯克的脑机接口卷到了书法界，我们正在见证史上最硬核的意念书法大赛！

Stable Diffusion 创始人：DeepSeek 没有抄袭！

Anthropic CEO：DeepSeek 为落后的追随者，需进一步加强中国芯片管制！

OpenAI 称有证据证明DeepSeek违规使用其模型！

Grok 重磅推出推理能力，Grok 3 或指日可待！

DeepSeek严正声明：警惕虚假账号冒充！

手把手教学：40000 元在家跑顶级DeepSeek R1的完整方案！

重磅！OpenAI 推出美国政府专用版ChatGPT Gov！

Meta 或成开源竞赛中最大输家！

DeepSeek 入场，Meta 或成开源竞赛中最大输家！

终于，Sam Altman 正面迎战DeepSeek！

量化压缩80%！160GB就能运行671B的DeepSeek R1

炸裂！DeepSeek 的新春礼物——多模态模型Janus-Pro 详解

DeepSeek 爆火遭Scale AI 华裔 CEO Alexandr Wang 痛批：美国必须加强对中国AI 管制！

继Operator 之后，Perplexity 推出多模态助手！

马斯克：OpenAI 星门计划将流产！

DeepSeek R1 6百万美元训练成本是否真实？

试用完 OpenAI 的新代理工具，以下是我们的发现

哈佛医学院：AI 将治愈癌症，Sam Altman 没在吹牛！

重磅！字节发布UI-TARS大模型，三句话搞定电脑操作！碾压GPT-4！

Perplexity发布Sonar API，提供实时信息搜索功能，一举超越所有搜索引擎和LLM！

Perplexity发布Sonar API，一举超越所有搜索引擎和LLM

重磅！OpenAI 宣布5000亿美元启动Stargate项目，「星门计划」再起波澜！

Anthropic发布 Agent 最佳实践指南！

重磅！Anthropic CEO 称将于2025年推出数字员工！

Perplexity CEO：印度应向中国学习模型研发！

DeepSeek R1 训练方法解析

超便携AI超算来了！这台「公文包」竟能塞下一台超级计算机

以小博大，DeepSeek-R1-Distill-Qwen-1.5B 开源模型击败GPT-4和Claude 3.5!

爬虫工程师将失业！Firecrawl 能让你一句话抓取全网数据！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉