作者|子川
来源|AI先锋官
面对DeepSeek重磅出击,OpenAI CEO山姆 奥特曼终于忍不住了,就在今天,正式推出之前画的大饼——o3-mini。o3-mini是o1-mini的升级版,主打的就是高性价比推理模型。据 OpenAI 的内部测试,o3-mini 模型的推理能力不输 o1,而API调用价格价格只有o1 的不到 1/10。 不过相较于DeepSeek R1,o3-mini的价格还是很贵,而且差的还不是一星半点。o3-mini 目前是一个纯文本模型,不支持文件上传和视觉功能,不过此次o3-mini还新增了联网功能。面对o3-mini的发布,不少网友纷纷表示,DeepSeek年前的这波操作可算是OpenAI的大招给逼出来了。正好,来一场世纪PK,o3-mini和DeepSeek R1主打的都是低成本推理模型。下面小编将用8道推理题决出DeepSeek R1和o3-mini到底谁更强。先来一道简单的猜数字游戏练练手——3,10,15,26,下一个数字是多少?![]()
纳尼,o3-mini推理错误,找错了规律,而且明知道没有明显的规律,还不知道反思其推理过程错误,然后重新推理。在一个遥远的岛屿上,住着两种人:骑士和无赖。骑士永远说真话,无赖永远说假话。你遇到两个人,A和B。A说:“我们之中至少有一个人是无赖。” 请问A和B分别是什么身份?o3-mini:
这次o3-mini顶住压力,回答正确,不过,DeepSeek R1同样回答正确。百货公司托搬运公司运送1000个玻璃花瓶,每个玻璃花瓶的运费是1元5角,如果打破一个,这一个不但不支付运费,搬运公司还要赔偿9元5角.百货公司最后付了1456元.搬运过程中一共打破了几个花瓶?额.....,o3-mini又回答错误,它居然算出打破了4.63次花瓶,而后四舍五入就是5次,这推理着实有点离谱。有12个外观完全相同的球,其中11个质量相同,1个质量不同(不知道是轻还是重)。使用天平最少需要称几次才能找出这个质量不同的球?DeepSeek R1和o3-mini全部回答准确。如果昨天是明天的话就好了,那么今天就是周五了。请问:实际上,句中的今天可能是周几?o3-mini依旧推理错误,正确答案是周三和周天,DeepSeek又回答正确了......这道题在之前o1和DeepSeek实测中,o1也推理错误,所以o3-mini推理失败也在意料之中。桌上有20个硬币,10个是公面向上,10个是字面向上。你在桌前被蒙上眼及戴上手套,你无法分辨哪个币是公面向上或字面向上,你只能移动或反转硬币。你的任务是要将20个硬币分两组,每组10个,而每组硬币里的公面向上的数目要一样。能够做到吗?o3-mini已经推理三次错误了,而DeepSeek目前全部回答准确,难道是o3-mini只打有难度的推理题?数独题一直是大模型的难以跨越的鸿沟,下面我们就用它来测试一番。![]()
来源于在线数独游戏
DeepSeek R1:
DeepSeek R1在经历长达715秒后,推理失败,再来看一下o3-mini的。
o3-mini:
两个都推理错误,看来数独题依旧是大模型难以解决的难题。推理题八:编程题
这是网友测试DeepSeek R1和o3-mini写了一个Python脚本,让一个球在旋转的六边形内弹跳,球应受到重力和摩擦力的影响。
![]()
大家觉得o3-mini和DeepSeek R1那个效果更好?
这几道题,虽然没有基准测评那么全面,但可以很直观的让大家感受到彼此的差距。
整体体验下来,o3-mini的推理能力似乎不如DeepSeek R1,更别说和o1相提并论了。
同时也发现o3-mini也继承了o1-mini的优点,推理速度非常快,不过对于免费用户来说使用次数非常有限,不如DeepSeek R1没有限制那么实在。
在o3-mini上线几小时后,奥特曼和团队参与了Reddit的“有问必答”活动,主动承认OpenAI在开源权重AI模型这个问题上一直走在错误的道路上。
同时也透露高级语音模式即将迎来更新,会直接称它为GPT-5,不过并没有告知具体的上线日期。
大家期待已久的满血版o3似乎依旧遥远。
就像大家一直所说的那样,OpenAI的护城河正在急速变窄。
扫码邀请进群,我们带你一起来玩转ChatGPT、GPT-4、文心一言、通义千问、讯飞星火等AI大模型,顺便学一些AI搞钱技能。
![]()
![]()
![]()