Nature报道 | 国产之光!中国的低成本开源AI模型DeepSeek令科学家兴奋!

学术   2025-01-26 08:53   湖北  

中国科技公司DeepSeek悄然崛起,其最新推出的DeepSeek-R1模型不仅推理能力媲美OpenAI的o1,更以开放姿态赢得了全球科研界的瞩目,成为了真正Open的AI公司!

这款模型不仅在化学、数学和编程等任务上表现出色,还以极低的运行成本和高度的可访问性,为研究人员提供了前所未有的便利。

以下是Nature News报道的中文编译版本:

DeepSeek-R1在推理任务上的表现与OpenAI的o1相当,并且对研究人员开放

中国一家名为DeepSeek的公司去年推出了一款大型语言模型。这款名为DeepSeek-R1的模型正在令科学家们兴奋不已,因为它不仅价格实惠,而且对研究人员开放。 

这些模型通过逐步生成响应的方式进行推理,类似于人类的推理过程,这使得它们在解决科学问题方面比早期的语言模型更为出色,可能在研究中发挥重要作用。初步测试显示,R1在化学、数学和编程等任务上的表现与OpenAI的o1相当,而后者在去年9月发布时也令研究人员惊叹不已。 

“这真是令人震惊且完全出乎意料的,”英国AI咨询公司DAIR.AI的联合创始人、AI研究员Elvis Saravia在推特上写道。 

R1之所以引人注目,还因为它背后的公司DeepSeek(总部位于杭州)将其作为“开放权重”发布,这意味着研究人员可以研究和在此基础上进行开发。该模型在MIT许可证下发布,可以自由重用,但并不被视为完全开源,因为其训练数据尚未公开。     

“DeepSeek的开放性相当令人印象深刻,”德国埃尔兰根马克斯普朗克光科学研究所的人工智能科学家Mario Krenn表示。相比之下,OpenAI在加利福尼亚州旧金山发布的o1及其他模型,包括其最新的o3,更像是“黑箱”。 

          

 

AI幻觉无法阻止,但这些技术可以限制其损害

DeepSeek尚未公开R1的完整训练成本,但运行R1的费用仅为o1的约三十分之一。该公司还创建了R1的迷你“蒸馏”版本,以允许计算能力有限的研究人员使用该模型。 

Mario Krenn表示:“一个在o1上花费超过300英镑的实验,在R1上花费不到10美元。这种巨大的差异无疑将在其未来采用中发挥作用。”     

挑战模型

R1是近年来中国大型语言模型(LLMs)繁荣的一部分。DeepSeek起源于一家对冲基金,上个月因发布了一个名为V3的聊天机器人而崭露头角,尽管其预算有限,但该聊天机器人在主要竞争对手中表现优异。 

专家估计,训练该模型所需的硬件租赁费用约为600万美元,而Meta的Llama 3.1 405B则使用了11倍的计算资源,其成本超过6亿美元。 

DeepSeek的成功部分归功于其在面对美国出口管制限制时,仍能成功开发R1。这些限制限制了中国公司在获取用于AI处理的最佳计算机芯片方面的访问权限。“它来自中国这一事实表明,有效利用资源比计算规模本身更重要,”华盛顿州西雅图的一名研究人员François Chollet表示。 

DeepSeek的进展表明,“美国曾经拥有的领先优势已经显著缩小,”台湾沉浸式技术公司HTC的技术专家Alvin Wang Graylin在推特上写道。 

“两国需要采取合作方式来构建先进的AI,而不是继续当前这种没有赢家的军备竞赛。” 

思维链

大型语言模型通过训练数十亿个文本样本,将其分割成称为“token”的词部分,并学习数据中的模式。这些关联使模型能够预测句子中的后续token。然而,大型语言模型容易编造事实,这种现象被称为“幻觉”,并且通常难以通过问题进行推理。 

与o1类似,R1使用“思维链”方法来提高大型语言模型解决更复杂任务的能力,包括有时回溯并评估其方法。DeepSeek通过强化学习对V3进行微调,奖励模型达到正确答案并以一种概述其“思考”的方式解决问题。 

          

 

    

由于计算能力有限,该公司被迫进行“算法创新”。在强化学习过程中,团队在每个阶段估计模型的进度,而不是使用单独的网络进行评估。这有助于降低训练和运行成本,英国剑桥大学计算机科学家Mateja Jamnik表示。 

研究人员还使用了“专家混合”架构,允许模型仅激活与每个任务相关的部分。 

在一项技术论文中报告的基准测试中,DeepSeek-R1在OpenAI创建的数学问题集MATH-500上得分97.3%,并且在Codeforces竞赛中击败了96.3%的人类参与者。 

这些表现与o1相当;o3未包含在比较中(见“AI竞争对手”)。 

很难确定基准测试是否真正捕捉到了模型的推理或泛化能力,或者只是通过这些测试的能力。但因为R1是开放的,其思维链对研究人员来说是可访问的,英国剑桥大学计算机科学家Marco Dos Santos表示。     

“这使得更好地解释模型的推理过程成为可能。” 

研究人员已经开始测试R1的能力。Mario Krenn挑战了两个竞争对手模型,要求它们根据有趣程度对3000个研究想法进行排序,并将结果与人类排名进行比较。 

在这方面,R1的表现略逊于o1。但Krenn表示,R1在量子光学的某些计算上击败了o1。“这相当令人印象深刻。” 

参考链接

https://www.nature.com/articles/d41586-025-00229-6    

学术之友
\x26quot;学术之友\x26quot;旨在建立一个综合的学术交流平台。主要内容包括:分享科研资讯,总结学术干货,发布科研招聘等。让我们携起手来共同学习,一起进步!
 最新文章