OpenAI 急推 o3-mini 救场,实测与DeepSeek谁是最强推理大模型

创业   2025-02-01 16:16   湖南  

作者子川

来源AI先锋官


面对DeepSeek重磅出击,OpenAI CEO山姆 奥特曼终于忍不住了,就在今天,正式推出之前画的大饼——o3-mini。
o3-mini是o1-mini的升级版,主打的就是高性价比推理模型。
据 OpenAI 的内部测试,o3-mini 模型的推理能力不输 o1,而API调用价格价格只有o1 的不到 1/10。 
不过相较于DeepSeek R1,o3-mini的价格还是很贵,而且差的还不是一星半点。
o3-mini 目前是一个纯文本模型,不支持文件上传和视觉功能,不过此次o3-mini还新增了联网功能。
重点是免费用户也能使用。
面对o3-mini的发布,不少网友纷纷表示,DeepSeek年前的这波操作可算是OpenAI的大招给逼出来了。
相关阅读:均不输o1,DeepSeek、Kimi 撞车发布最新模型
正好,来一场世纪PK,o3-mini和DeepSeek R1主打的都是低成本推理模型。
老规矩,开测
下面小编将用8道推理题决出DeepSeek R1和o3-mini到底谁更强。

题目一:数列推理题
先来一道简单的猜数字游戏练练手——3,10,15,26,下一个数字是多少?
DeepSeek R1:

o3-mini:
纳尼,o3-mini推理错误,找错了规律,而且明知道没有明显的规律,还不知道反思其推理过程错误,然后重新推理。
反观DeepSeek,答案和推理过程都正确。

推理题二:说谎岛的居民
在一个遥远的岛屿上,住着两种人:骑士和无赖。骑士永远说真话,无赖永远说假话。你遇到两个人,A和B。
A说:“我们之中至少有一个人是无赖。” 请问A和B分别是什么身份?
DeepSeek R1:

o3-mini:

这次o3-mini顶住压力,回答正确,不过,DeepSeek R1同样回答正确。

推理题三:简单数学推理问题
百货公司托搬运公司运送1000个玻璃花瓶,每个玻璃花瓶的运费是1元5角,如果打破一个,这一个不但不支付运费,搬运公司还要赔偿9元5角.百货公司最后付了1456元.搬运过程中一共打破了几个花瓶?
DeepSeek R1:
o3-mini:
额.....,o3-mini又回答错误,它居然算出打破了4.63次花瓶,而后四舍五入就是5次,这推理着实有点离谱。
同样,DeepSeek R1依旧推理成功。

推理题四:称重问题
有12个外观完全相同的球,其中11个质量相同,1个质量不同(不知道是轻还是重)。使用天平最少需要称几次才能找出这个质量不同的球?
DeepSeek R1:
o3-mini:
DeepSeek R1和o3-mini全部回答准确。

推理题五:日期推理
如果昨天是明天的话就好了,那么今天就是周五了。请问:实际上,句中的今天可能是周几?
DeepSeek R1:
o3-mini:
o3-mini依旧推理错误,正确答案是周三和周天,DeepSeek又回答正确了......
这道题在之前o1和DeepSeek实测中,o1也推理错误,所以o3-mini推理失败也在意料之中。

推理题六:硬币分组
桌上有20个硬币,10个是公面向上,10个是字面向上。你在桌前被蒙上眼及戴上手套,你无法分辨哪个币是公面向上或字面向上,你只能移动或反转硬币。你的任务是要将20个硬币分两组,每组10个,而每组硬币里的公面向上的数目要一样。能够做到吗?
DeepSeek R1:
o3-mini:
同样,全部准确。
6道推理题,目前战绩已经是 6:3。
o3-mini已经推理三次错误了,而DeepSeek目前全部回答准确,难道是o3-mini只打有难度的推理题?
那下面我们用难度更高的推理题再度进行测试。

推理题七:数独题
数独题一直是大模型的难以跨越的鸿沟,下面我们就用它来测试一番。
题目:

来源于在线数独游戏

DeepSeek R1:

DeepSeek R1在经历长达715秒后,推理失败,再来看一下o3-mini的。

o3-mini:

两个都推理错误,看来数独题依旧是大模型难以解决的难题。

推理题八:编程题

这是网友测试DeepSeek R1和o3-mini写了一个Python脚本,让一个球在旋转的六边形内弹跳,球应受到重力和摩擦力的影响。

大家觉得o3-mini和DeepSeek R1那个效果更好

这几道题,虽然没有基准测评那么全面,但可以很直观的让大家感受到彼此的差距。

整体体验下来,o3-mini的推理能力似乎不如DeepSeek R1,更别说和o1相提并论了。

同时也发现o3-mini也继承了o1-mini的优点,推理速度非常快,不过对于免费用户来说使用次数非常有限,不如DeepSeek R1没有限制那么实在。

在o3-mini上线几小时后,奥特曼和团队参与了Reddit的“有问必答”活动,主动承认OpenAI在开源权重AI模型这个问题上一直走在错误的道路上。

同时也透露高级语音模式即将迎来更新,会直接称它为GPT-5,不过并没有告知具体的上线日期。

大家期待已久的满血版o3似乎依旧遥远。

就像大家一直所说的那样,OpenAI的护城河正在急速变窄。



 .END.
扫码邀请进群,我们带你一起来玩转ChatGPT、GPT-4、文心一言、通义千问、讯飞星火等AI大模型,顺便学一些AI搞钱技能。



往期文章回顾




AI先锋官
AIGC大模型及应用精选与评测
 最新文章