上周,中国公司 DeepSeek 发布了一款名为 R1 的大型语言模型,震惊了美国科技界。R1不仅能与本土竞争对手中最好的相媲美,而且成本仅为其一小部分,并且免费提供。
美国股市损失 1 万亿美元,特朗普总统称这是一次警钟,炒作再次升温。“DeepSeek R1 是我见过的最令人惊叹、最令人印象深刻的突破之一——作为开源,它是给世界的一份深厚礼物,”硅谷的主要投资者马克·安德森在 X 上发帖称。
但 DeepSeek 的创新并不是唯一的亮点。通过公布 R1 和之前名为 V3 的模型的构建细节并免费发布这些模型,DeepSeek 揭开了推理模型构建比人们想象的要容易得多的面纱。该公司已经缩小了与世界顶级实验室的差距。
这一消息让世界各地的竞争对手纷纷采取行动。本周,中国科技巨头阿里巴巴宣布推出大型语言模型 Qwen 的新版本,美国顶级非营利实验室艾伦人工智能研究所 (AI2) 宣布更新其大型语言模型 Tulu。两家公司都声称,他们的最新模型击败了 DeepSeek 的同类模型。
OpenAI 联合创始人兼首席执行官 Sam Altman 称 R1 令人印象深刻(就其价格而言),但他也做出了乐观的承诺:“我们显然会提供更好的模型。”OpenAI 随后推出了ChatGPT Gov,这是其聊天机器人的一个版本,专门针对美国政府机构的安全需求,显然是为了回应人们对 DeepSeek 应用程序向中国发送数据的担忧。未来还有更多。
DeepSeek 突然成为一家不可战胜的公司。它到底做了什么,让科技界如此震惊?这种炒作合理吗?从人们对 DeepSeek 下一步发展的热议中,我们可以学到什么?以下是你需要知道的内容。
01
创新的训练步骤
首先,让我们来分析一下大型语言模型的训练过程。主要分为两个阶段,即预训练和后训练。预训练是大多数人谈论最多的阶段。在此过程中,数十亿份文档(大量网站、书籍、代码库等)被反复输入到神经网络中,直到它学会逐字逐句地生成与源材料相似的文本。最终得到的模型称为基础模型。
预训练是大部分工作发生的地方,而且可能会花费大量资金。但正如 OpenAI 联合创始人、特斯拉前人工智能负责人 Andrej Karpathy 在去年的 Microsoft Build 演讲中指出的那样:“基础模型不是助手。它们只是想完成互联网文档。”
将大型语言模型转变为有用的工具需要一些额外的步骤。这是训练后阶段,模型在此阶段学习执行特定任务,例如回答问题(或逐步回答问题,如 OpenAI 的 o3 和 DeepSeek 的 R1)。过去几年中,这样做的方法是采用基础模型并对其进行训练,以模仿大量人类测试人员提供的问答对示例。此步骤称为监督微调。
随后,OpenAI 又开创了另一个步骤,即对模型中的样本答案进行评分(同样由人类测试人员进行评分),并使用这些分数来训练模型,以便让未来的答案更像得分高的答案,而不像得分低的答案。这种技术被称为带人类反馈的强化学习 (RLHF),正是这种技术让 ChatGPT 等聊天机器人如此精巧。RLHF 现在已在整个行业中使用。
但这些训练后步骤需要时间。DeepSeek 已经证明,你完全不需要人工就可以获得相同的结果——至少大多数时候是这样。DeepSeek 用完全自动化的强化学习步骤取代了监督微调和 RLHF。该公司没有使用人工反馈来指导其模型,而是使用计算机生成的反馈分数。
“跳过或减少人工反馈——这是一件大事,”阿里巴巴前研究总监、现任以色列人工智能编码初创公司 Qodo 联合创始人兼首席执行官的 Itamar Friedman 表示。“你几乎完全不需要人工来训练模型。”
02
相对庞大的工程人才库
这种方法的缺点是,计算机擅长对数学和代码问题的答案进行评分,但不太擅长对开放式或更主观的问题的答案进行评分。这就是 R1 在数学和代码测试中表现特别出色的原因。为了训练其模型回答更广泛的非数学问题或执行创造性任务,DeepSeek 仍然必须要求人们提供反馈。
但即便如此,在中国,成本也更低。“相对于西方市场,中国创建高质量数据的成本较低,而且拥有数学、编程或工程领域大学学历的人才库更大,”澳大利亚人工智能公司 Appen 的副总裁、曾担任亚马逊网络服务中国和中国科技巨头腾讯战略主管的 Si Chen 表示。
DeepSeek 使用这种方法构建了一个名为 V3 的基础模型,该模型可与 OpenAI 的旗舰模型 GPT-4o 相媲美。该公司一个月前发布了 V3。上周的 R1 是与 OpenAI 的 o1 相匹配的新模型,它建立在 V3 之上。
为了构建 R1,DeepSeek 采用 V3 并反复运行其强化学习循环。2016 年,谷歌 DeepMind 展示了这种无需人工输入的自动试错方法,可以采用随机移动的棋盘游戏模型并训练它击败大师。DeepSeek 对大型语言模型做了类似的事情:潜在答案被视为游戏中的可能动作。
首先,该模型无法像 DeepSeek 所希望的那样一步步给出解决问题的答案。但通过自动对模型的样本答案进行评分,训练过程逐渐将其推向期望的行为。
最终,DeepSeek 生成了一个在多个基准测试中表现良好的模型。但这个名为 R1-Zero 的模型给出的答案难以阅读,而且是用多种语言编写的。为了进行最后的调整,DeepSeek 用一小组由人们提供的示例答案作为强化学习过程的种子。用这些答案训练 R1-Zero 生成了 DeepSeek 命名为 R1 的模型。
还有更多。为了尽可能高效地利用强化学习,DeepSeek 还开发了一种名为“组相对策略优化”(GRPO)的新算法。一年前,它首次使用 GRPO 构建了一个名为 DeepSeekMath 的模型。
我们将略过细节— 您只需要知道强化学习涉及计算分数以确定潜在动作是好是坏。许多现有的强化学习技术都需要一个完全独立的模型来进行此计算。对于大型语言模型,这意味着第二个模型的构建和运行成本可能与第一个模型一样高。GRPO 不使用第二个模型来预测分数,而是做出有根据的猜测。它很便宜,但仍然足够准确。
03
令人印象深刻的工程创新
DeepSeek 对强化学习的使用是该公司在其 R1 论文中描述的主要创新。但 DeepSeek 并不是唯一一家尝试这种技术的公司。在 R1 发布前两周,微软亚洲的一个团队宣布了一种名为 rStar-Math 的模型,该模型以类似的方式进行训练。人工智能公司 Clarifai 的创始人兼首席执行官 Matt Zeiler 表示:“它的性能同样有巨大的飞跃。”
AI2 的 Tulu 也是使用高效的强化学习技术构建的(但建立在监督微调和 RLHF 等人类主导的步骤之上,而不是替代它们)。美国公司 Hugging Face 正在竞相用 OpenR1 复制 R1,OpenR1 是 DeepSeek 模型的克隆,Hugging Face 希望它能揭示 R1 特殊配方中的更多成分。
此外,OpenAI、Google DeepMind 和 Anthropic 等顶级公司可能已经在使用自己的 DeepSeek 方法来训练新一代模型,这已经是众所周知的秘密。Zeiler 说:“我确信他们做的事情几乎一模一样,但他们有自己的特色。”
但 DeepSeek 的绝招不止一个。它训练其基础模型 V3 执行所谓的多标记预测,即模型学会一次预测一串单词,而不是一次预测一个单词。这种训练更便宜,而且结果也提高了准确性。“如果你想想你说话的方式,当你说了一半的句子时,你就知道剩下的句子会是什么,”Zeiler 说。“这些模型也应该能够做到这一点。”
它还找到了创建大型数据集的更便宜的方法。为了训练去年的模型 DeepSeekMath,它采用了一个名为 Common Crawl 的免费数据集(从互联网上抓取的大量文档),并使用自动化流程提取包含数学问题的文档。这比手动构建新的数学问题数据集便宜得多。它也更有效:Common Crawl 包含的数学知识比任何其他可用的专业数学数据集都要多得多。
在硬件方面,DeepSeek 找到了让旧芯片焕发活力的新方法,使其无需花钱购买市场上最新的硬件即可训练顶级模型。Zeiler 说,他们的创新有一半来自直接工程:“他们的团队中肯定有一些非常非常优秀的 GPU 工程师。”
Nvidia 提供名为 CUDA 的软件,工程师可以使用该软件调整芯片的设置。但 DeepSeek 使用汇编语言(一种与硬件本身对话的编程语言)绕过了这些代码,远远超出了 Nvidia 提供的开箱即用功能。Zeiler 说:“这是优化这些东西最难的部分。你可以做到,但基本上很难,没人能做到。”
DeepSeek 在多个模型上的一系列创新令人印象深刻。但它也表明,该公司声称花费不到 600 万美元来训练 V3 并不是全部。R1 和 V3 建立在现有技术堆栈之上。弗里德曼说:“也许最后一步——最后一次点击按钮——花费了 600 万美元,但之前的研究可能花费了 10 倍,甚至更多。”在一篇揭穿了许多炒作的博客文章中,Anthropic 联合创始人兼首席执行官 Dario Amodei 指出,DeepSeek 可能拥有价值约 10 亿美元的芯片,这一估计基于有报道称该公司实际上使用了 50,000 块 Nvidia H100 GPU。
04
让新范式大白天下
但为什么是现在?全球有数百家初创公司试图打造下一个大事件。为什么我们看到一系列推理模型,如 OpenAI 的 o1 和 o3、Google DeepMind 的 Gemini 2.0 Flash Thinking,以及现在的 R1,在几周之内相继出现?
答案是,基础模型(GPT-4o、Gemini 2.0、V3)现在都足够好,可以从中诱导出类似推理的行为。Hugging Face 的科学家 Lewis Tunstall 说:“R1 表明,有了足够强大的基础模型,强化学习就足以在没有任何人工监督的情况下从语言模型中得出推理。”
换句话说,美国顶级公司可能已经想出了如何做到这一点,但却保持沉默。“似乎有一种巧妙的方法可以把你的基础模型、你的预训练模型,变成一个更强大的推理模型,”Zeiler 说。“到目前为止,将预训练模型转换成推理模型所需的程序并不为人所知。它没有公开。”
R1 的不同之处在于 DeepSeek 公布了他们是如何做到的。“事实证明,这个过程并不那么昂贵,”Zeiler 说。“困难的部分首先是获得预训练模型。”正如 Karpathy 去年在 Microsoft Build 上透露的那样,预训练模型占了 99% 的工作量和大部分成本。
如果构建推理模型并不像人们想象的那么难,我们可以期待大量免费模型的出现,这些模型的功能远超我们目前所见。弗里德曼认为,随着技术公开,小公司之间将有更多的合作,从而削弱大公司所享有的优势。“我认为这可能是一个里程碑式的时刻,”他说。
@THE END
欢迎加入10W+领导者社群
文章来源 :领导者养成笔记「ID:GoToLead 」,转载请公众号回复“转载”
版权说明 :我们尊重原创者版权,除我们确实无法确认作者外,我们都会注明作者和来源。在此向原创者表示感谢。本文所用视频、图片、文字如涉及作品版权问题,请第一时间告知,我们将根据您提供的证明材料确认版权立即删除内容;本文内容为原作者观点,并不代表本公众号赞同其观点和对其真实性负责。