OpenAI与DeepSeek颠覆对决升级,o3-mini紧急上线救场!

文摘   2025-02-01 20:10   四川  

过去几年,OpenAI无疑是全球AI领域的领头羊。该公司推出的GPT-4oo1等模型技术领先,推动ChatGPT成为最受欢迎的AI聊天机器人——估计当前月度活跃用户超3亿,付费订阅用户突破1100万。然而,近期中国AI公司DeepSeek凭借V3R1模型的发布迅速走红,风头不亚于OpenAI。无论基准测试,还是真实体验,DeepSeek表现优异,被一些人认为是“除了ChatGPT之外最强的AI聊天机器人应用”。全球AI领域可能正从“百家争鸣”逐渐进入“王者巅峰对决”的时代:ChatGPT曾是绝对的王者,但DeepSeek的崛起可能改变用户的习惯。

一方面,根据AI产品榜最新数据:DeepSeek应用APP仅上线18天,它的日活跃用户就达到了1500万;而 ChatGPT突破1500万的日活跃用户,用了244天——DeepSeek的日活跃用户增速是ChatGPT13倍。而且,截至目前,无论是苹果App Store应用商店,还是谷歌安卓Google Play应用商店,在多数国家/地区,DeepSeek在应用榜单上的排名都已经领先ChatGPT可想而知,如果这种疯狂增长态势继续保持下去,那么用不了多久,DeepSeek的日活跃用户就会全面超过ChatGPT

另一方面,就不得不说“人类的最后考试(Humanity's Last Exam)”——一个全新的超高难度AI测试基准。该基准由50个国家的500多个机构共1000多名专家共同设计,旨在评估当前和未来的AI模型的学术知识和推理能力。因为当前的AI系统已经变得过于强大,现有测试已无法满足,但所有AI模型在“人类的最后考试”面前都黯然失色。实际测试结果表明:DeepSeek R1推理模型足以媲美OpenAI o1推理模型。如果有人不愿意或者不方便付费使用OpenAI o1模型,那么DeepSeek R1绝对是不错的选择,比如用来帮助解决编程、数学和科学方面的难题,况且DeepSeek R1当前是免费提供用户使用,似乎也没有次数限制。

人类的最后考试(Humanity's Last Exam

毫无疑问,OpenAI不会坐以待毙,更不会轻易让DeepSeekAI模型技术、活跃用户等等超越自己。就在今天,OpenAI放出大招,紧急发布了新的推理模型o3-mini——一款最高性价比推理模型,现已在ChatGPTAPI中上线。这款模型于202412月首次亮相,它不仅性能强大、响应迅速,进一步拓展了小模型的能力边界。o3-miniSTEM领域(科学、数学和编程)表现尤为出色,同时保持了与OpenAI o1-mini相同的低成本和低延迟优势。

OpenAI o3-mini是首款支持高需求开发者功能的小型推理模型,包括函数调用、结构化输出和开发者消息,让它从一开始就具备了生产级应用能力。与OpenAI o1-miniOpenAI o1-preview(预览版)模型一样,o3-mini也支持流式响应。此外,开发者可以根据具体需求选择三种不同的推理强度——低、中、高,使模型在解决复杂问题时可以“深入思考”,而在对延迟敏感的场景下优先提升响应速度。不过,o3-mini不具备视觉处理能力,因此需要处理视觉推理任务的开发者仍得继续使用OpenAI o1推理模型。目前,o3-mini已在Chat Completions APIAssistants APIBatch API上线,并首先面向API使用等级为3-5的开发者开放。

对于ChatGPT用户,PlusTeamPro付费订阅者从今天起可以直接使用o3-mini,而Enterprise企业版用户将在2月份获得访问权限。作为升级的一部分,OpenAIChatGPT PlusTeam用户的消息次数o1-mini的每日50条提升至o3-mini的每日150条,是原来的三倍。此外,o3-mini支持搜索功能,能够提供带有相关网页链接的最新答案。目前这只是一个早期原型功能,OpenAI正致力于在所有推理模型中全面集成搜索功能。此外,从今天起,ChatGPT免费用户也可以通过在对话框中选择“Reason”模式或重新生成回答来体验OpenAI o3-mini推理模型——OpenAI首次向免费用户开放推理模型。

OpenAI表示,OpenAI o1仍是面向通用知识推理的核心模型,而OpenAI o3-mini则专注于需要高精度和高速响应的技术领域。在ChatGPT中,o3-mini采用中等推理强度,在速度和准确性之间取得平衡。所有付费用户也可在模型选项中选择更强大的o3-mini-high,该版本的智能水平更高,但响应时间略长。与使用o1模型的次数一样,Plus用户每周使用o3-mini-high的次数同样是50次,但Pro订阅者可无限制使用o3-minio3-mini-high

与其前代模型OpenAI o1类似,OpenAI o3-mini专为STEM(科学、技术、工程、数学)领域的推理任务做了优化。在中等推理强度下,o3-mini在数学、编程和科学领域的表现可媲美o1,同时提供更快的响应速度。经过专家评测,o3-mini在推理能力方面比 OpenAI o1-mini更强,答案的准确度和清晰度均有所提升。测试者在56%的情况下更倾向于o3-mini的回答,并且在现实世界的高难度问题中,重大错误减少39%。在AIME(数学竞赛)和GPQA(博士级科学推理评测)等最具挑战性的推理和智力评测中,o3-mini的中等推理强度表可媲美o1

数学竞赛(AIME 2024

数学能力: 在低推理强度下,o3-mini的表现与o1 mini相当;中等推理强度下,o3-mini可与o1相匹配;高推理强度下,o3-mini超越了o1o1-mini

博士级科学问题(GPQA Diamond

博士级科学推理(生物、化学、物理):低推理强度下,o3-mini的表现已超越OpenAI o1-mini;高推理强度下,o3-mini的表现可媲美OpenAI o1

前沿数学(FrontierMath

在研究级数学领域,o3-mini高推理强度版本的表现优于前代模型。在FrontierMath测试中,当使用Python工具时,o3-mini首次尝试即可解出超过32%的问题,其中包括超过28%的高难度T3级别问题(这些数据仍在更新中)。

编程竞赛(Codeforces

Codeforces竞赛级编程测试中,o3-mini在增加推理强度的情况下获得更高的Elo评分,并全面超越o1-mini;在中等推理强度下,o3-mini的表现已与o1持平。

软件工程(SWE-bench Verified

在软件工程任务上,o3-mini是我们迄今发布的最佳模型。在SWEbench-verified评测中:使用开源Agentless scaffold框架,o3-mini在高推理强度下达到了39%的正确率;使用内部工具scaffoldo3-mini的正确率达到了61%

LiveBench编程

LiveBench代码评测中,即使在中等推理强度下,o3-mini的表现也已超过o1-high;在高推理强度下,o3-mini进一步拉开差距,在各项关键指标上取得显著提升。

通用知识

在通用知识领域的测试中,o3-mini全面超越o1-mini,展现了更强的知识掌握能力。

人类偏好评测

外部专家测试表明,o3-mini的答案更准确、逻辑更清晰,推理能力更强,尤其在STEM领域表现突出;测试者在56%的情况下更喜欢o3-mini的回答,并观察到高难度现实问题中的重大错误减少了39%

模型速度与性能

o3-mini在智能水平上可媲美OpenAI o1,但运行更快、效率更高;除了STEM评测之外,o3-mini在数学和事实准确性评估上也展现出更优的表现;在A/B测试中:o3-mini的平均响应速度比o1-mini提高了24%;o3-mini的平均响应时间仅为7.7秒,而o1-mini10.16秒。

延迟对比

o3-mini(中等推理强度)相比o1-mini,首个Token 的生成时间平均减少了2500ms2.5秒)。

有网友就这样发贴说:“o3-mini终于发布了!就得有人(暗指DeepSeek)治治他们,ChatGPT PlusTeam用户的o3-mini每日消息提升到150条……另外 ChatGPT的界面在向DeepSeek靠拢,而且现在还会展示较为详细的思维过程。”

有网友提问:“你们会考虑公开一些模型权重和研究成果吗?”OpenAI首席执行官萨姆·奥特曼这样回应:“是的,我们正在讨论。我个人认为我们在这个问题上走到了历史的反面,需要找出一种不同的开源策略。不过,并不是所有OpenAI内部的人都同意我的看法,而且这也不是我们目前的最高优先事项。”

@AI Dance在社交平台上发贴,他坚持认为,DeepSeek会在2025年融资(这可能与圈子内的绝大多数人不同)。马斯克的xAI公司也会融资。只不过有没有满足团队的条件,随着DeepSeek的爆火出圈,“现在感觉:越来越接近那个点。只不过估值可能会比我们想象的都高,会一跃成为创业大模型公司最高估值”。

@AI Dance在贴文中也提到:“DeepSeek的人会不会被挖,我们之前就说不会。最近更是发现一个有趣的点,他们的report人员有core contribution,只有几个人,把两句话写在脸上了:敬请来挖,你挖不动;你们别瞎传啊,挖个普通人就说是我的核心了,我告诉告诉你,我们的核心是谁(感觉我快成他们肚子里蛔虫了)。”他在贴文中还写道:“DeepSeek R1可能会开启AI应用的Iphone时刻。2025年的AI应用可能真的要火了,开源模型这么厉害、这么便宜。”

我为科技狂Tech
专注于科技资讯解析分享
 最新文章