不到30美元!重现DeepSeek R1-Zero的核心技术!奥特曼:完犊子了,这下怎么跟投资人解释?

科技   2025-01-30 18:35   美国  

中生代大白

读完需要

3
分钟

速读仅需 1 分钟

近期,DeepSeek 推出的 R1-Zero 模型因其高效的推理能力和极低的训练成本引起了广泛关注。加州伯克利大学在读博士 Jiayi Pan 及其研究团队成功复现了 DeepSeek R1-Zero 的关键技术,且成本低于 30 美元。这一成果不仅展示了 DeepSeek R1-Zero 的强大潜力,也为全球研究者提供了一个低成本、高效率的 AI 模型复现路径。

   

Jiayi Pan团队的复现过程

项目名称:TinyZero

实验目标:通过强化学习(RL),让基础语言模型在“倒计时”游戏中展现出自我验证和搜索能

实验方法:
  1. 基础模型选择:团队选择了不同参数规模(从0.5B到7B)的Qwen-2.5基础语言模

  2. 强化学习算法:采用R1-Zero算法,给定基础语言模型、提示和真实奖励信号,运行强化学

  3. 实验平台:选择“倒计时”游戏作为实验平台,这是一个考验数字运算能力的游戏,玩家需要利用给定的数字和基本的算术运算来尽可能接近目标数

实验结果:
  • 模型进化:从最初的简单输出开始,模型逐步进化出自我纠正和搜索的策。例如,模型能够先提出一个解决方案,自我验证这个方案是否正确,如果发现错误,则会进行迭代修改,直到找到有效的解决方

  • 成本控制:整个实验的成本不到30美元(约217元),使用了2xH200 GPU,每小时6.4美元

  • 性能表现:从1.5B参数开始,模型学会了搜索、自我验证和修正其解决方案,从而能够获得更高的分。而0.5B模型仅仅是猜测一个解决方案然后停止

关键结论:
  • 额外指令微调的非必要性:实验验证了额外的指令微调并非必要,基础模型和指令模型最终能达到相似的性能水平

  • 强化学习算法的有效性:不同的强化学习算法(如PPO、GRPO、PRIME)都能实现长思维链的涌现

  • 模型行为的多样性:模型的推理行为会根据任务特点呈现不同特征,例如在倒计时任务中倾向于搜索和自我验证,而在数字乘法任务中则更倾向于问题分析

复现的局限性与展望尽管Jiayi Pan团队的复现取得了令人瞩目的成果,但目前的验证仅限于“倒计时”游戏,尚未扩展到更通用的推理领域。模型的性能和泛化能力还需要在更多任务和数据集上进行验证。


   

复现的关键技术细节
纯强化学习训练:
DeepSeek R1-Zero 从基础模型出发,直接通过大规模强化学习提升推理能力,跳过了传统的监督微调步骤。这种训练方式证明了即使没有标注数据,模型也能通过试错学习复杂的推理策略。
纯强化学习训练:
GRPO 算法:模型采用了 GRPO(Group Relative Policy Optimization)算法,通过组内归一化奖励信号优化策略。这种方法避免了传统 PPO(Proximal Policy Optimization)中需要额外训练价值模型的高成本。
纯强化学习训练:
奖励机制设计:模型通过稀疏奖励(例如仅在答案正确时给予奖励)来驱动探索,同时支持长上下文(如 32k tokens),为模型进行多步推理和验证提供了足够的空间。
纯强化学习训练:
自我进化与涌现行为:在训练过程中,模型展现出自我进化的能力,例如反思、重新评估推理步骤等复杂行为。这些行为并非预设,而是通过强化学习自然涌现。

   

纯强化学习训练:复现的成本与开源
Jiayi Pan 的研究团队在“倒计时”游戏中展示了模型的自验证和搜索能力。通过消融实验,研究分析了基础模型质量、基础模型和指令模型、特定 RL 算法等因素对模型能力的影响。该项目的代码和资源已开源在 GitHub 上,供全球研究者和实验室使用。
纯强化学习训练:复现的局限性与展望
尽管研究存在局限性,例如目前的验证仅限于“倒计时”游戏,尚未扩展到更通用的推理领域,但 DeepSeek R1-Zero 的影响已经开始显现。全球最大的开源平台 Hugging Face 团队也宣布加入到了复现的队伍之中,他们推出了一个名为 Open-R1 项目,对 DeepSeek-R1 采取了最全面的复现策略。
DeepSeek R1-Zero 的低成本复现不仅为 AI 研究者提供了一个新的研究方向,也为 AI 技术的普及和应用提供了新的可能性。随着更多研究团队的加入和复现,DeepSeek R1-Zero 的技术细节和潜力将被进一步挖掘,为全球 AI 领域带来新的突破。
该项目目前已经有3700多颗星

当然,这个研发团队都是中国人!

参考链接
https://github.com/Jiayi-Pan/TinyZero
https://github.com/volcengine/verl
太猛了!DeepSeek R1 核心技术复现,30 美元实现:小模型 RL Scaling 革命腾讯新闻

  ◆    

往期10万+热文推荐

黄仁勋天都塌了!DeepSeek绕过了CUDA,AMD和华为昇腾已经支持部署!网友调侃:护城河漏水了

DeepSeek遭暴力破解!周鸿祎怒斥某些国家不要脸,网络攻击初创公司!网友建议:要保护好这些带来国运级的科技人员

DeepSeek V2和V3致谢名单!雷总千万年薪挖的AI天才萝莉少女赫然在列!网友点评:注意保护核心研发人员!

热搜第一!雷军余承东直播双双被某平台封禁,回应来了!网友点评:拿雷总的投资,挖雷总的高管,停雷总的直播!雷总最后一次创业:雷音

扎克伯格泼脏水说AI闭源会被中国偷走,还不如开源让技术普及!现在DeepSeek开源震惊全世界,Meta组织4个团队来研究学习

马斯克戳穿特朗普“皇帝的新衣”,后果很严重!网友点评:中国历史上有多少功高盖主的结局是善终?

大白聊IT
一个多年科技从业者分享点对科技的观察
 最新文章