AI界掀起“开源风暴”,DeepSeek-R1成焦点,引爆AI复现狂潮!30美元见证模型【啊哈】时刻,大模型格局或将重塑!

文摘   2025-01-27 21:57   浙江  

近日,AI圈掀起了一股"开源热潮",而这股热潮的中心,正式国产大模型DeepSeek-R1,一场由中国AI公司DeepSeek掀起的全球复现热潮正在席卷AI界。从硅谷到中国,从学术界到工业界,众多机构和研究者纷纷尝试复现DeepSeek的突破性成果。这波热潮不仅展示了开源的力量,更可能重塑整个AI大模型的竞争格局。

DeepSeek 核弹发射,直轰AI圈

东方神秘力量 DeepSeek 的横空出世,让东西方都陷入了沉思。英伟达周五收142.62,周一夜盘-4.58%,两天蒸发3000亿美金。可以想象,如果全球60%的AI算力需求可以经算法优化后由中端芯片承载,那么价值数万亿的 H100 订单,将瞬间沦为泡沫。

DeepSeek 的开源就像一枚核弹,其公布的开源推理成本仅为美国成本的1%。这预示着,当全球开发者争相使用的时候,市场对算力芯片的需求将出现指数级的降低。英伟达将会面临巨大的挑战,而升腾芯片迎来春天。甚至有网友认为 DeepSeek 是 OpenAI 与英伟达都未曾预见的黑天鹅。

除此之外,美国AI初创企业估值体系的核心假设,是模型性能和算力投入正相关,而这个核心逻辑正在瓦解。当投资人意识到,投入产出比的天平,已向算法创新严重倾斜时,那些烧钱续命的 AI 独角兽将会迎来雪崩式的估值回调。OpenAI 高达860亿的估值泡沫,在DeepSeek模型开源的冲击下,CEO Sam Altman也坐不住,突然宣布了GPT-3.5(即o3-mini)的新政策:

  • ChatGPT Plus会员每天可获得100次o3-mini查询
  • Plus会员即将可以使用operator功能
  • 下一代AI助手将对Plus会员优先开放

这一系列举措被网友戏称为"大甩卖",似乎印证了DeepSeek-R1给OpenAI带来的压力。与此同时,从斯坦福到MIT,DeepSeek R1已经成为美国顶尖高校研究人员的"首选模型"。有研究者表示,DeepSeek基本上取代了他们使用ChatGPT的需求。

30美元见证「啊哈」时刻,全球开启 R1 复现热潮

DeepSeek-R1能引发如此轰动,其技术实力功不可没。根据官方报告,DeepSeek-R1在训练过程中采用了创新的多阶段方法,包括:

  • 冷启动阶段:使用长思维链样本进行初步训练
  • 面向推理的强化学习:提升模型在编程、数学等领域的推理能力
  • 拒绝采样和监督微调:增强非推理能力,如事实知识、对话能力等
  • 全场景强化学习:确保模型行为符合人类偏好,提升可用性和安全性

这种独特的训练方法,使得DeepSeek-R1在多个任务上表现出色,甚至在某些方面超越了GPT-4。

近日,来自UC伯克利的研究团队成功复现了DeepSeek R1-Zero模型——TinyZero。据其作者、伯克利 AI 研究所在读博士潘家怡(Jiayi Pan)介绍,该项目是基于 CountDown 游戏实现的:「遵照 DeepSeek R1-Zero 的算法 —— 一个基础语言模型、提示词和 ground-truth 奖励,然后运行强化学习。」

TinyZero采用R1-Zero算法,仅使用强化学习就实现了模型的自我验证和搜索能力。在实验中,他们发现:

  1. 基础模型的质量很重要。0.5B 的小模型在猜测一个解答之后就会停止,而从 1.5B 规模开始,模型会开始学习搜索、自我验证、修正解答,从而可以得到远远更高的分数。
  2. 基础模型的性能是关键,额外的指令微调(SFT)并非必要,这是首个验证LLM推理能力的实现可以纯粹通过RL,无需监督微调的开源研究,指出了额外的指令微调(SFT)并非是必要的,这也印证了R1-Zero的设计决策
  3. 基础模型和指令模型都可行。实验发现,指令模型的学习速度更快,但性能会收敛到与基础模型同等的程度;同时指令模型的输出更加结构化、更可读。
  4. 具体的强化学习算法(如PPO、GRPO、PRIME)对最终结果影响不大。

这一发现不仅验证了DeepSeek的研究路线,更打开了AI民主化的大门,最令人惊讶的是,整个实验的成本仅需30美元,约合人民币217元。高性能AI不再是巨头的专利,普通研究者也有机会参与其中。

紧随其后,香港科技大学的何俊贤(Junxian He)团队也宣布成功复刻了DeepSeek R1-Zero和R1模型。并且他们采用的基础模型和样本量都非常小,从基础模型 Qwen2.5-Math-7B 开始,仅使用来自 MATH 数据集的 8K 样本直接对其进行强化学习。最终得到了 Qwen2.5-SimpleRL-Zero 与 Qwen2.5-SimpleRL。

Junxian He表示:「没有奖励模型,没有 SFT,只有 8K 用于验证的 Math 样本,得到的模型在 AIME 上成绩为(pass@1 准确率)33.3%、在 AMC 上实现了 62.5%、在 MATH 上实现 77.2%,优于 Qwen2.5-math-7B-instruct,可与使用多 50 倍数据和更复杂组件的 PRIME 和 rStar-MATH 相媲美。」

项目地址:https://github.com/hkust-nlp/simpleRL-reason

Qwen2.5-SimpleRL-Zero 的训练动态:

研究团队发现,在训练过程中,模型在第44步左右出现了"啊哈时刻" - 自发形成了自我反思和长链推理能力。

AI巨头下场,HuggingFace掀起模型复刻热潮

DeepSeek的成功引发了全球AI巨头的高度关注。全球最大的AI开源平台HuggingFace官方宣布,发起了一个名为"Open R1"的项目,目标直指DeepSeek-R1,将全面复刻DeepSeek R1的所有pipeline,并承诺将训练数据、脚本等全部开源。知名开源AI平台HuggingFace近日。HuggingFace联合创始人兼CEO Clem Delangue表示:

"我们的科学团队已经开始致力于完全复制和开源R1,包括训练数据、训练脚本……我们希望能充分发挥开源AI的力量,让全世界每个人都能受益于AI的进步!"

这一举动立即引发热烈响应。但HuggingFace为啥搞这一出呢?其实虽然DeepSeek-R1 是开源的,但也没有完全开源 —— 相关的训练数据、训练脚本等并未被公布出来。不过,因为有技术报告,也就有了复现 R1 的指导方针,也因此,最近有不少人都在强调复现 R1 的重要性与可行性。



在这复刻的热潮中,Open R1 宣称是 DeepSeek-R1 的「完全开放复现(A fully open reproduction)」,可以补齐 DeepSeek 没有公开的技术细节。该项目目前还在进行中,已经完成的部分包括:

  • GRPO 实现
  • 训练与评估代码
  • 用于合成数据的生成器

Open R1项目上线一天内就获得了近2000个star和140多个fork,足见其受欢迎程度。

HuggingFace计划通过三个步骤,完整复现DeepSeek-R1的训练过程:

  1. 复现 R1-Distill 模型,蒸馏一个来自 DeepSeek-R1 的高质量语料库。
  2. 复现 DeepSeek 用于创建 R1-Zero 的纯强化学习管线。这一步涉及到编排一个新的大规模数据集,其中包含数学、推理和代码数据。
  3. 实现从基础模型到RL版本的多阶段训练,通过多阶段训练从基础模型得到强化学习微调版模型。

这一系列动作,不仅是对DeepSeek-R1能力的验证,更是对开源AI发展的巨大推动。在Hugging Face中,R1下载量直接登顶,另外3个模型也霸占着热榜。

什么是模型复刻?

复刻模型是指重新实现或复制一个已有的模型,通常是为了验证其性能、研究其内部机制,或者在不同的数据集或任务上进行测试。上面提到的复刻模型特指重新实现DeepSeek的R1-Zero和R1模型,这些模型通过强化学习(RL)而非监督微调来训练,展示了在低算力和低成本条件下的高性能。

复刻模型通常涉及以下步骤:

  1. 理解原始模型:深入研究原始模型的架构、训练方法和关键特性。例如,DeepSeek的R1-Zero模型使用了强化学习(RL)来训练,而不是传统的监督学习。
  2. 准备数据:收集和准备与原始模型相同或类似的数据集。在DeepSeek的案例中,研究人员使用了MATH数据集中的8K样本进行训练。
  3. 选择框架和工具:选择合适的深度学习框架(如PyTorch、TensorFlow等)和工具来实现模型。例如,HuggingFace团队使用了OpenRLHF框架来复刻DeepSeek。
  4. 实现模型架构:根据原始模型的描述,实现相同的模型架构。这包括定义模型的层、激活函数、损失函数等。
  5. 训练模型:使用与原始模型相同或类似的训练方法来训练复刻的模型。在DeepSeek的案例中,研究人员使用了PPO算法进行强化学习训练,并采用了基于规则的奖励函数。
  6. 验证和测试:通过与原始模型相同的评估指标来验证复刻模型的性能。例如,比较模型在AIME、AMC和MATH基准上的准确率。
  7. 分析和优化:分析复刻模型的训练过程和性能,找出与原始模型的差异,并进行优化。例如,研究者观察到模型在训练过程中出现了自我反思机制,并据此调整训练策略。

有了以上理解后,再来回忆一下上面我们提到的几个具体复刻案例:

UC伯克利团队的复刻

  • 项目名称:TinyZero
  • 方法:使用R1-Zero算法,给定一个基础语言模型、提示和真实奖励信号,运行强化学习。
  • 结果:3B的基础语言模型通过强化学习实现了自我验证和搜索,成本不到30美金。

港科大团队的复刻

  • 项目名称:SimpleRL
  • 方法:以Qwen2.5-Math-7B为基础模型,直接进行强化学习,没有进行监督微调。
  • 结果:在AIME基准上实现了33.3%的准确率,在AMC上为62.5%,在MATH上为77.2%。

HuggingFace团队的复刻

  • 项目名称:Open R1
  • 方法:按照DeepSeek-R1技术报告的指导,分三个步骤复刻整个pipeline。
  • 结果:进行中

Meta:四个作战室学习 DeepSeek

Meta 员工在美国匿名职场社区 teamblind 上面发布了一个帖子提到,国内 AI 创业公司 DeepSeek 最近的一系列动作让 Meta 的生成式 AI 团队陷入了恐慌。The Information 最新的文章爆料出更多内容,Meta 生成式 AI 小组和基础设施团队组织了四个作战室来学习 DeepSeek 的工作原理。

其中两个作战室,正在试图了解幻方是如何降低训练和运行 DeepSeek 模型的成本。其中一些开发人员透露,尽管 Meta 的模型是免费的,但它们的运行成本通常比 OpenAI 的模型更高,部分原因是 OpenAI 可以通过批量处理其模型客户的数百万条查询来降低价格。但是,使用 Llama 的小型开发人员却没有足够的查询来降低成本。

据一位直接了解情况的员工透露,第三个作战室正在试图弄清楚幻方可能使用哪些数据来训练其模型。

第四作战室正在考虑基于 DeepSeek 模型的新技术,重构 Meta 模型。Meta 考虑推出一个与 DeepSeek 相似的 Llama 版本,它将包含多个 AI 模型,每个模型处理不同的任务。这样,当客户要求 Llama 处理某项任务时,只需要模型的某些部分进行处理。这样做可以使整个模型运行得更快,并且以更少的算力来运行。

开源浪潮推动AI民主化

DeepSeek的成功及其引发的复现热潮,正在深刻影响着整个AI行业的格局:

  1. 算力不再是唯一壁垒:DeepSeek证明,即便没有顶级芯片,也可以用极低成本训练出突破性模型。这可能威胁到美国在AI领域的霸权地位。
  2. 开源模式的胜利:正如Facebook AI负责人LeCun所言,"这是开源对闭源的胜利"。开放协作正在加速AI技术的进步。
  3. 巨头优势被削弱:OpenAI、Meta、Google等公司引以为傲的技术优势和高估值可能面临挑战。AI民主化趋势下,创新的源泉更加多元。
  4. 投资逻辑需要调整:数百亿美元的巨额投入是否还有必要?资本市场可能需要重新评估AI公司的价值。
  5. 人才竞争加剧:随着门槛降低,更多人才将涌入AI领域,人才争夺战或将进一步升级。

DeepSeek-R1引发的这场"开源风暴",展现了AI技术发展的新趋势。开源不仅加速了技术进步,更推动了AI的民主化进程。随着更多高质量模型开源,AI技术将变得更加透明、可控,最终惠及每一个人。


同桌的AI小纸条
一个专注于将先进的AI人工智能技术融入日常生活的频道。关注让AI为我们所用,探索人工智能领域的无限可能,并征服他们,让AI赋能生活快乐每一天!
 最新文章