首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

OpenAI 急推 o3-mini 救场，实测与DeepSeek谁是最强推理大模型

创业 2025-02-01 16:16 湖南

作者｜子川

来源｜AI先锋官

面对DeepSeek重磅出击，OpenAI CEO山姆奥特曼终于忍不住了，就在今天，正式推出之前画的大饼——o3-mini。

o3-mini是o1-mini的升级版，主打的就是高性价比推理模型。

据 OpenAI 的内部测试，o3-mini 模型的推理能力不输 o1，而API调用价格价格只有o1 的不到 1/10。　

不过相较于DeepSeek R1，o3-mini的价格还是很贵，而且差的还不是一星半点。

o3-mini 目前是一个纯文本模型，不支持文件上传和视觉功能，不过此次o3-mini还新增了联网功能。

重点是免费用户也能使用。

面对o3-mini的发布，不少网友纷纷表示，DeepSeek年前的这波操作可算是OpenAI的大招给逼出来了。

相关阅读：均不输o1，DeepSeek、Kimi 撞车发布最新模型

正好，来一场世纪PK，o3-mini和DeepSeek R1主打的都是低成本推理模型。

老规矩，开测！

下面小编将用8道推理题决出DeepSeek R1和o3-mini到底谁更强。

题目一：数列推理题

先来一道简单的猜数字游戏练练手——3，10，15，26，下一个数字是多少?

DeepSeek R1：

o3-mini：

纳尼，o3-mini推理错误，找错了规律，而且明知道没有明显的规律，还不知道反思其推理过程错误，然后重新推理。

反观DeepSeek，答案和推理过程都正确。

推理题二：说谎岛的居民

在一个遥远的岛屿上，住着两种人：骑士和无赖。骑士永远说真话，无赖永远说假话。你遇到两个人，A和B。

A说：“我们之中至少有一个人是无赖。” 请问A和B分别是什么身份？

DeepSeek R1：

o3-mini：

这次o3-mini顶住压力，回答正确，不过，DeepSeek R1同样回答正确。

推理题三：简单数学推理问题

百货公司托搬运公司运送1000个玻璃花瓶,每个玻璃花瓶的运费是1元5角,如果打破一个,这一个不但不支付运费,搬运公司还要赔偿9元5角.百货公司最后付了1456元.搬运过程中一共打破了几个花瓶?

DeepSeek R1:

o3-mini：

额.....,o3-mini又回答错误，它居然算出打破了4.63次花瓶，而后四舍五入就是5次，这推理着实有点离谱。

同样，DeepSeek R1依旧推理成功。

推理题四：称重问题

有12个外观完全相同的球，其中11个质量相同，1个质量不同（不知道是轻还是重）。使用天平最少需要称几次才能找出这个质量不同的球？

DeepSeek R1:

o3-mini：

DeepSeek R1和o3-mini全部回答准确。

推理题五：日期推理

如果昨天是明天的话就好了，那么今天就是周五了。请问：实际上，句中的今天可能是周几？

DeepSeek R1：

o3-mini：

o3-mini依旧推理错误，正确答案是周三和周天，DeepSeek又回答正确了......

这道题在之前o1和DeepSeek实测中，o1也推理错误，所以o3-mini推理失败也在意料之中。

推理题六：硬币分组

桌上有20个硬币，10个是公面向上，10个是字面向上。你在桌前被蒙上眼及戴上手套，你无法分辨哪个币是公面向上或字面向上，你只能移动或反转硬币。你的任务是要将20个硬币分两组，每组10个，而每组硬币里的公面向上的数目要一样。能够做到吗？

DeepSeek R1：

o3-mini：

同样，全部准确。

6道推理题，目前战绩已经是 6：3。

o3-mini已经推理三次错误了，而DeepSeek目前全部回答准确，难道是o3-mini只打有难度的推理题？

那下面我们用难度更高的推理题再度进行测试。

推理题七：数独题

数独题一直是大模型的难以跨越的鸿沟，下面我们就用它来测试一番。

题目：

来源于在线数独游戏

DeepSeek R1：

DeepSeek R1在经历长达715秒后，推理失败，再来看一下o3-mini的。

o3-mini：

两个都推理错误，看来数独题依旧是大模型难以解决的难题。

推理题八：编程题

这是网友测试DeepSeek R1和o3-mini写了一个Python脚本，让一个球在旋转的六边形内弹跳，球应受到重力和摩擦力的影响。

大家觉得o3-mini和DeepSeek R1那个效果更好？

这几道题，虽然没有基准测评那么全面，但可以很直观的让大家感受到彼此的差距。

整体体验下来，o3-mini的推理能力似乎不如DeepSeek R1，更别说和o1相提并论了。

同时也发现o3-mini也继承了o1-mini的优点，推理速度非常快，不过对于免费用户来说使用次数非常有限，不如DeepSeek R1没有限制那么实在。

在o3-mini上线几小时后，奥特曼和团队参与了Reddit的“有问必答”活动，主动承认OpenAI在开源权重AI模型这个问题上一直走在错误的道路上。

同时也透露高级语音模式即将迎来更新，会直接称它为GPT-5，不过并没有告知具体的上线日期。

大家期待已久的满血版o3似乎依旧遥远。

就像大家一直所说的那样，OpenAI的护城河正在急速变窄。

.END.

扫码邀请进群，我们带你一起来玩转ChatGPT、GPT-4、文心一言、通义千问、讯飞星火等AI大模型，顺便学一些AI搞钱技能。

往期文章回顾

AIGC大模型及应用精选与评测

最新文章

OpenAI 急推 o3-mini 救场，实测与DeepSeek谁是最强推理大模型

除夕无休! DeepSeek 推多模态大模型Janus-Pro，实测生图效果一般

春节旅行前，请收下夸克AI锦囊

实测豆包全家桶，推理、视觉、语音能力大增，唱歌居然跑调

均不输o1，DeepSeek、Kimi 撞车发布最新模型

实测，小红书正式上线翻译功能

对比可灵、vidu2.0，实测 Luma AI 全新视频模型Ray2

OpenAI开年首发Tasks，AI agent真的要来了？

马斯克xAI首推Grok APP，我们实测发现了这些震惊和翻车

DeepSeek推出手机App，实测体验就一个字“快”

王星被绑架案敲响警钟，看看这款国外的“黛西奶奶”AI反诈工具

“被埋男孩图”涉案者被行拘，我们实测了这些AI图鉴别工具

实测！谷歌最火 AI 工具NotebookLM重磅更新

英伟达Cosmos平台阳谋

实测天工4.0，比肩o1，力压kimi，推理能力大增！

最全！英伟达 CES 2025 发布会核心产品与技术详解

黄仁勋CES 2025演讲实录，现场“王炸”不断，5090显卡、3000美元个人AI超算等等

第一时间评测：罗永浩首个AI产品J1 Assistant，只支持英文并限制国内IP

一文带您看懂AI agent

英伟达AI科学家Jim Fan 2024年盘点(全文):DeepSeek是开源LLMs领域最大黑马

对比测试可灵1.5 ，及PK Veo2，可灵1.6物理规律、语义理解等能力皆大幅提升

DeepSeek V3 引发AI路径之辩：从“鹦鹉学舌”到“乌鸦喝水”？

理想汽车做了个独立的 AI APP

突然刷屏的ai界“拼多多”deepseek

新王诞生！阿里通义开源多模态推理模型QVQ，实测杀赢旧王ChatGPT o1

我们让这些 AI 大模型推选了 “2024年10大AI产品”

最全！ OpenAI 12天直播大戏合集（文字+视频）

又是期货，OpenAI推出全新推理模型o3，实力远超o1

深夜发布！英伟达 Jetson Orin Nano“掌中超算”到底有多强？

Sora发布即翻车，谷歌Veo2偷塔AI视频新王？

最全！AI大模型订阅和API价格全球排行榜

Kimi 终于出手多模态！实测视觉思考模型 K1.VS. 正式版o1，不相上下

AI驱动人形机器人大爆发（附:最新锐34款人形机器人视频）

实测谷歌Gemini 2.0：数数、推理翻车，多模态惊艳，编程输Claude

新增视频编辑功能，OpenAI最大期货Sora兑现，奥特曼称其视频版 GPT-1

Sora v2即将发布，支持生成一分钟视频、多场景切换、完美的角色一致性

OpenAI上线o1满血版，ChatGPT Pro 会员200美元/月被吐槽

谷歌Genie2:单图生成无限可交互 3D 世界，马斯克要用它做游戏

“一图一世界”！李飞飞World labs 最全视频 Demo 合集

实测腾讯开源混元视频模型：PK 可灵、即梦，效果不赖

李飞飞《经济学人》撰文：AI 革命始于大语言模型，下一步是基于视觉的空间大模型

搭载阶跃大模型，这款二次元 AI 应用可读出任意物件灵魂

周鸿祎为它拍短剧，实测纳米搜索是视频创作工具，不是 AI 搜索

可口可乐AI圣诞广告惹争议，网友:令人毛骨悚然（附:其他7个品牌 AI广告）

Sora 接口泄露三小时:网友创作视频“最全合集”（附:艺术家对 OpenAI 控诉信全文）

k0-math模型上线Kimi，实测效果还不错

Luma 紧跟Runway半小时推文-图-视频模型，我们实测效果一言难尽

搜狗输入法嵌入AI 搜索功能，实测很丝滑，对比微信输入法 AI 会如何？

能替你开会的 AI 工具人他来了！只需动嘴，表情口型神同步

“乐坛ChatGPT”Suno发布V4版本，我们试了下，效果确实更好了！

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉