OpenAI CEO罕见认错:DeepSeek是非常好的模型,将考虑跟进开源!

科技   2025-02-02 12:02   广东  

北京时间2月1日凌晨,为应对DeepSeek-R1所带来的竞争,OpenAI正式发布了o3-mini模型,这也是OpenAI推理系列中最新、最具成本效益的模型,并且已在ChatGPT和API中开放使用。据悉,该模型在数学代码等基准测试中刷新SOTA,相关测试中o3-mini(high)在准确率和校准误差(Calibration Error)均是最优。


△o3-mini与o1在AIME竞赛数学的得分对比

据介绍,o3-mini的价格比OpenAI o1-mini便宜63%,比满血版o1便宜93%。开发者可根据需求选择高、中、低三种推理强度,让o3-mini在处理复杂问题时进行深度思考,平衡速度和准确性。

具体来说,目前ChatGPT免费用户首次可以体验一个有限速率的o3-mini版本,速率限制与现有的 GPT-4o 限制类似;Plus用户可选择o3-mini-high更高智能版本;每月支付200美元的 Pro 用户可无限使用o3-mini和o3-mini-high;API层面,o3-mini输入1.10美元/百万token、输出4.40美元/百万token,价格比o1-mini便宜63%,比满血版o1便宜93%,但仍是GPT-4o mini的7倍左右。

OpenAI表示,o3-mini的发布是在追求高效能智能技术道路上的又一重要里程碑。通过优化科学(Science)、技术(Technology)、工程(Engineering)和数学(Mathematics)领域的推理能力,同时保持较低的成本,让高质量AI技术变得更加平易近人。

OpenAI联合创始人、首席执行官山姆·奥尔特曼在o3-mini发布后的在线问答中透露,“在未来几周,满血版o3即将上线。”

谈及对于DeepSeek的看法,奥尔特曼表示,“它(DeepSeek)确实是一个非常好的模型,OpenAI会开发出更好的模型,但我们不会像往年那样保持那么大的领先优势了。”

奥尔特曼还罕见地承认了自己的错误,并表示OpenAI正在讨论一个新的开源策略。“我个人认为,在这个问题上我们站错了队,需要想出一个不同的开源策略;不是OpenAI的每个人都持有这种观点,而且这也不是我们目前的最高优先级。”

值得一提的是,图灵奖得主、主导Meta AI研究的首席科学家Yann LeCun日前就曾指出,DeepSeek 成功的最大收获,是AI开源的价值使任何人都能受益。“对那些看到DeepSeek表现并认为‘中国在AI领域正超越美国’的人而言,你的解读错了,正确解读应是‘开源模型正超越专有模型’。DeepSeek 从开放研究和开源获益良多(如同PyTorch和Llama),他们提出新想法,并从其他人的工作基础加以建构。他们发布新的模型并开源,所以每个人都能从中受益,这就是开放研究和开源的力量。”Yann LeCun说道。

近期,中国AI技术厂商DeepSeek推出的V3和 R1 两款开源 AI 模型都颠覆了业界对于“AI算力需求”的看法。特别是DeepSeek推出的推理大模型DeepSeek-R1,其不仅性能比肩OpenAI o1 ,并且其所需的训练成本可能只有后者的约1/20(仅用了2048 个 H800 GPU,花了两个月的时间训练完成,仅花费了约558万美元),API的定价更是只有后者的约1/28,相当于使用成本降低了约97%。

也就是说,DeepSeek采用并不先进的AI芯片,以更低的算力要求和更低的成本,达到了OpenAI等美国AI技术厂商的顶级AI大模型的效果。这一成就被认为对美国的人工智能领导地位构成威胁,不仅引发了OpenAI、Meta、谷歌等众多大模型厂商恐慌,还引发了英伟达等AI芯片企业的价值重估和股价大跌。

然而,据SemiAnalysis,与外界认为DeepSeek公司拥有5万张H100 GPU计算卡看法不同,该机构认为,DeepSeek囤积了6万张英伟达GPU卡,其中包括1万张A100、1万张H100、1万张“特供版”H800、3万张“特供版”H20,算力资本支出的总体拥有成本(TCO)超过140亿元,达19.96亿美元(约合人民币143.45亿元)。DeepSeek 的总服务器资本支出约为 16.29 亿美元,运营此类集群的成本高达 9.44 亿美元,因此总体的成本可能高达 25.73 亿美元。

但是,DeepSeek并未进行过大规模融资,其母公司幻方似乎也不太可能会进行如此大规模的硬件支出。DeepSeek官方公布的数据来看,其DeepSeek-V3的训练仅用了约2080张英伟达H800加速卡,这部分的芯片投资大约为4000万美元左右。而且,DeepSeek训练其AI模型也并不一定非要拥有庞大的自有的硬件基础设施,其完全可以通过租用第三方的硬件基础设施来对自己的大模型进行训练。

不过,如果SemiAnalysis对于DeepSeek囤积了6万张英伟达GPU加速卡的分析是正确的话,那么这也意味着DeepSeek现有的AI算力硬件足以支撑其沿着目前的技术路径在未来持续研发出多代性能更为强大的AI大模型。

编辑:芯智讯-浪客剑

往期精彩文章

净利暴跌63%!ST计划关厂并裁员3000人!
ASML营收创历史新高:中国大陆净系统销售占比跌至27%!
DeepSeek掀起AI算力革命:英伟达暴跌17%!台积电暴跌13%!
Q1财测不及预期,股价大跌7.5%!TI 回应在华倾销被调查传闻
传瑞芯微前副总经理陈锋将加盟安谋科技!
传台积电6万片晶圆报废!内部人士回应
传字节跳动今年将采购240亿元国产AI芯片!
瑞芯微副总经理陈锋辞职!
寒武纪遭前CTO梁军索赔42.9亿元!
黄仁勋宴请35位供应链大佬:每桌菜价约1182元!
前华为悍将李健出任荣耀CEO!赵明:选择放手和离开!
全栈自研!又一家国产GPU厂商启动IPO!引发“寒王”暴跌?
美国将算能/智谱/科益虹源等25家中企列入实体清单!
详解美国对华晶圆代工限制新规(附完整规则)
荷兰宣布对特定测量和检测设备出口管制!

行业交流、合作请加微信:icsmart01
芯智讯官方交流群:221807116

芯智讯
“芯智讯”——有料的科技新媒体!专注于半导体产业链、智能手机产业链、人工智能、AR/VR、智能硬件及汽车电子等相关领域。
 最新文章