OpenAI与DeepSeek颠覆对决升级，o3-mini紧急上线救场！

文摘 2025-02-01 20:10 四川

过去几年，OpenAI无疑是全球AI领域的领头羊。该公司推出的GPT-4o、o1等模型技术领先，推动ChatGPT成为最受欢迎的AI聊天机器人——估计当前月度活跃用户超3亿，付费订阅用户突破1100万。然而，近期中国AI公司DeepSeek凭借V3和R1模型的发布迅速走红，风头不亚于OpenAI。无论基准测试，还是真实体验，DeepSeek表现优异，被一些人认为是“除了ChatGPT之外最强的AI聊天机器人应用”。全球AI领域可能正从“百家争鸣”逐渐进入“王者巅峰对决”的时代：ChatGPT曾是绝对的王者，但DeepSeek的崛起可能改变用户的习惯。

一方面，根据AI产品榜最新数据：DeepSeek应用APP仅上线18天，它的日活跃用户就达到了1500万；而 ChatGPT突破1500万的日活跃用户，用了244天——DeepSeek的日活跃用户增速是ChatGPT的13倍。而且，截至目前，无论是苹果App Store应用商店，还是谷歌安卓Google Play应用商店，在多数国家/地区，DeepSeek在应用榜单上的排名都已经领先ChatGPT。可想而知，如果这种疯狂增长态势继续保持下去，那么用不了多久，DeepSeek的日活跃用户就会全面超过ChatGPT。

另一方面，就不得不说“人类的最后考试（Humanity's Last Exam）”——一个全新的超高难度AI测试基准。该基准由50个国家的500多个机构共1000多名专家共同设计，旨在评估当前和未来的AI模型的学术知识和推理能力。因为当前的AI系统已经变得过于强大，现有测试已无法满足，但所有AI模型在“人类的最后考试”面前都黯然失色。实际测试结果表明：DeepSeek R1推理模型足以媲美OpenAI o1推理模型。如果有人不愿意或者不方便付费使用OpenAI o1模型，那么DeepSeek R1绝对是不错的选择，比如用来帮助解决编程、数学和科学方面的难题，况且DeepSeek R1当前是免费提供用户使用，似乎也没有次数限制。

人类的最后考试（Humanity's Last Exam）

毫无疑问，OpenAI不会坐以待毙，更不会轻易让DeepSeek的AI模型技术、活跃用户等等超越自己。就在今天，OpenAI放出大招，紧急发布了新的推理模型o3-mini——一款最高性价比推理模型，现已在ChatGPT和API中上线。这款模型于2024年12月首次亮相，它不仅性能强大、响应迅速，进一步拓展了小模型的能力边界。o3-mini在STEM领域（科学、数学和编程）表现尤为出色，同时保持了与OpenAI o1-mini相同的低成本和低延迟优势。

OpenAI o3-mini是首款支持高需求开发者功能的小型推理模型，包括函数调用、结构化输出和开发者消息，让它从一开始就具备了生产级应用能力。与OpenAI o1-mini和OpenAI o1-preview（预览版）模型一样，o3-mini也支持流式响应。此外，开发者可以根据具体需求选择三种不同的推理强度——低、中、高，使模型在解决复杂问题时可以“深入思考”，而在对延迟敏感的场景下优先提升响应速度。不过，o3-mini不具备视觉处理能力，因此需要处理视觉推理任务的开发者仍得继续使用OpenAI o1推理模型。目前，o3-mini已在Chat Completions API、Assistants API和Batch API上线，并首先面向API使用等级为3-5的开发者开放。

对于ChatGPT用户，Plus、Team和Pro付费订阅者从今天起可以直接使用o3-mini，而Enterprise企业版用户将在2月份获得访问权限。作为升级的一部分，OpenAI将ChatGPT Plus和Team用户的消息次数o1-mini的每日50条提升至o3-mini的每日150条，是原来的三倍。此外，o3-mini支持搜索功能，能够提供带有相关网页链接的最新答案。目前这只是一个早期原型功能，OpenAI正致力于在所有推理模型中全面集成搜索功能。此外，从今天起，ChatGPT免费用户也可以通过在对话框中选择“Reason”模式或重新生成回答来体验OpenAI o3-mini推理模型——OpenAI首次向免费用户开放推理模型。

OpenAI表示，OpenAI o1仍是面向通用知识推理的核心模型，而OpenAI o3-mini则专注于需要高精度和高速响应的技术领域。在ChatGPT中，o3-mini采用中等推理强度，在速度和准确性之间取得平衡。所有付费用户也可在模型选项中选择更强大的o3-mini-high，该版本的智能水平更高，但响应时间略长。与使用o1模型的次数一样，Plus用户每周使用o3-mini-high的次数同样是50次，但Pro订阅者可无限制使用o3-mini和o3-mini-high。

与其前代模型OpenAI o1类似，OpenAI o3-mini专为STEM（科学、技术、工程、数学）领域的推理任务做了优化。在中等推理强度下，o3-mini在数学、编程和科学领域的表现可媲美o1，同时提供更快的响应速度。经过专家评测，o3-mini在推理能力方面比 OpenAI o1-mini更强，答案的准确度和清晰度均有所提升。测试者在56%的情况下更倾向于o3-mini的回答，并且在现实世界的高难度问题中，重大错误减少39%。在AIME（数学竞赛）和GPQA（博士级科学推理评测）等最具挑战性的推理和智力评测中，o3-mini的中等推理强度表可媲美o1。

数学竞赛（AIME 2024）

数学能力：在低推理强度下，o3-mini的表现与o1 mini相当；中等推理强度下，o3-mini可与o1相匹配；高推理强度下，o3-mini超越了o1和o1-mini。

博士级科学问题（GPQA Diamond）

博士级科学推理（生物、化学、物理）：低推理强度下，o3-mini的表现已超越OpenAI o1-mini；高推理强度下，o3-mini的表现可媲美OpenAI o1。

前沿数学（FrontierMath）

在研究级数学领域，o3-mini高推理强度版本的表现优于前代模型。在FrontierMath测试中，当使用Python工具时，o3-mini首次尝试即可解出超过32%的问题，其中包括超过28%的高难度T3级别问题（这些数据仍在更新中）。

编程竞赛（Codeforces）

在Codeforces竞赛级编程测试中，o3-mini在增加推理强度的情况下获得更高的Elo评分，并全面超越o1-mini；在中等推理强度下，o3-mini的表现已与o1持平。

软件工程（SWE-bench Verified）

在软件工程任务上，o3-mini是我们迄今发布的最佳模型。在SWEbench-verified评测中：使用开源Agentless scaffold框架，o3-mini在高推理强度下达到了39%的正确率；使用内部工具scaffold，o3-mini的正确率达到了61%。

LiveBench编程

在LiveBench代码评测中，即使在中等推理强度下，o3-mini的表现也已超过o1-high；在高推理强度下，o3-mini进一步拉开差距，在各项关键指标上取得显著提升。

通用知识

在通用知识领域的测试中，o3-mini全面超越o1-mini，展现了更强的知识掌握能力。

人类偏好评测

外部专家测试表明，o3-mini的答案更准确、逻辑更清晰，推理能力更强，尤其在STEM领域表现突出；测试者在56%的情况下更喜欢o3-mini的回答，并观察到高难度现实问题中的重大错误减少了39%。

模型速度与性能

o3-mini在智能水平上可媲美OpenAI o1，但运行更快、效率更高；除了STEM评测之外，o3-mini在数学和事实准确性评估上也展现出更优的表现；在A/B测试中：o3-mini的平均响应速度比o1-mini提高了24%；o3-mini的平均响应时间仅为7.7秒，而o1-mini为10.16秒。

延迟对比

o3-mini（中等推理强度）相比o1-mini，首个Token 的生成时间平均减少了2500ms（2.5秒）。

有网友就这样发贴说：“o3-mini终于发布了！就得有人（暗指DeepSeek）治治他们，ChatGPT Plus和Team用户的o3-mini每日消息提升到150条……另外 ChatGPT的界面在向DeepSeek靠拢，而且现在还会展示较为详细的思维过程。”

有网友提问：“你们会考虑公开一些模型权重和研究成果吗？”OpenAI首席执行官萨姆·奥特曼这样回应：“是的，我们正在讨论。我个人认为我们在这个问题上走到了历史的反面，需要找出一种不同的开源策略。不过，并不是所有OpenAI内部的人都同意我的看法，而且这也不是我们目前的最高优先事项。”

@AI Dance在社交平台上发贴，他坚持认为，DeepSeek会在2025年融资（这可能与圈子内的绝大多数人不同）。马斯克的xAI公司也会融资。只不过有没有满足团队的条件，随着DeepSeek的爆火出圈，“现在感觉：越来越接近那个点。只不过估值可能会比我们想象的都高，会一跃成为创业大模型公司最高估值”。

@AI Dance在贴文中也提到：“DeepSeek的人会不会被挖，我们之前就说不会。最近更是发现一个有趣的点，他们的report人员有core contribution，只有几个人，把两句话写在脸上了：敬请来挖，你挖不动；你们别瞎传啊，挖个普通人就说是我的核心了，我告诉告诉你，我们的核心是谁（感觉我快成他们肚子里蛔虫了）。”他在贴文中还写道：“DeepSeek R1可能会开启AI应用的Iphone时刻。2025年的AI应用可能真的要火了，开源模型这么厉害、这么便宜。”

我为科技狂Tech

专注于科技资讯解析分享

最新文章

OpenAI与DeepSeek颠覆对决升级，o3-mini紧急上线救场！

震撼全球的中国AI公司DeepSeek到底投了多少钱、买了多少芯片？Semianalysis发长文揭秘

史无前例！国产AI模型DeepSeek狂扫全球，OpenAI已经慌了？

苹果正与SpaceX开展合作，iPhone手机将支持自动连接星链卫星网络

带领DeepSeek强势崛起为AI界“中国骄傲”，创始人梁文峰的传奇人生超乎想象

灵魂人物赵明离职，李健接替CEO，荣耀“成也华为、败也华为”？

国产AI模型DeepSeek R1震动美国科技界，创始人梁文峰成为英雄

英伟达稳坐中国GPU市场王座，华为做出了重大AI芯片策略转向

特朗普为TikTok量身定做的拯救方案，字节跳动会接受吗？

SpaceX星舰第七飞惨遭爆炸，2025年高频发射计划要泡汤？

特朗普正在瞄准最后努力挽救TikTok，CEO周受资将成座上宾

SpaceX向用户推出超便宜星链上网套餐，每月资费不到70元人民币

TikTok计划完全关闭美国业务，但中国版抖音似乎有了出人意料的新变化

ChatGPT再放大招！“Tasks”功能降临，AI管家的时代来临了？

字节跳动将TikTok美国业务卖给伊隆·马斯克？事情没那么简单

拟全面禁止向中国出售GPU？拜登芯片新规引发美国科技产业界震动

荷兰ASML执行长访台 “搞大事”：急催台积电购买天价EUV光刻机

张一鸣赌对了，字节跳动豆包AI用户流量持续疯涨，在国内已无对手？

相当震撼：英伟达黄仁勋CES 2025最新演讲全文

倒计时：SpaceX星舰第七飞，将首次在太空中部署有效载荷！

中国手机市场风云变幻：华为引发内卷新态势，苹果遭受冲击

特斯拉电动车销量遇冷，中国消费者救场，自动驾驶成破局关键？

很意外，英伟达性能降级版AI芯片H20在中国市场成了“香饽饽”

SpaceX在2024年创造了商业航天新纪录，真正意义上的“遥遥领先”

美国航空巨头波音公司已无药可救？

百度在中国搜索市场老大地位不保，微软必应已成功拿下50%以上份额

总统特朗普以三重身份提出主张，救字节跳动TikTok于危局

名不见经传的AI大模型DeepSeek，却为中国科技争了光

对中国芯片展开301调查，美国意欲何为？

程序员职业危矣？

颠覆性AI模型o3登场，解答编程、数学和科学问题能力强到恐怖

百度遗憾出局，苹果将联手腾讯和字节跳动打造AI iPhone？

字节跳动TikTok在美国‘是走是留’？或许谜底很快就将揭晓

先进芯片代工市场上已无对手，台积电2025年吃到饱，营收大增2成无悬念

不被完全信任？传马斯克没有权限接触SpaceX公司最大的政府机密

SpaceX申请将德州星舰基地升级为城市，为人类打造星际之门

市场监管总局对英伟达立案调查，一位反垄断案亲历者详细说出前因后果

仅一年，SpaceX估值翻倍至3500亿美元，马斯克是如何创造商业航天奇迹的？

OpenAI的视频生成模型Sora今天终于震撼登场，到底有多强大？

谷歌量子计算芯片Willow面世：5分钟完成“10000000000000000000000000”年计算！

张一鸣亲自督战，字节跳动全力押注AI，豆包已成为ChatGPT的最强挑战者？

字节跳动TikTok或将退出美国市场？命运仍充满不确定性

OpenAI发布地球上最强AI模型o1 Pro，新增200美元/月豪华档订阅套餐！

特朗普任命‘太空商人’艾萨克曼执掌NASA，背后有何深意？

最后翻盘的机会？传英特尔将打破传统寻找新的首席执行官

市场最新预期：SpaceX估值3500亿美元

SpaceX星舰第六次试飞，虽然算不上完全成功，但依然令人震撼

一出大戏：前首富钟睒睒要求新首富张一鸣道歉

SpaceX总裁：未来四年可能发射400次星舰，星链将升级为千兆网速

特朗普成功当选美国总统的背后，马斯克将获得哪些好处？

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉