不到30美元！重现DeepSeek R1-Zero的核心技术！奥特曼：完犊子了，这下怎么跟投资人解释？

科技 2025-01-30 18:35 美国

中生代大白

读完需要

分钟

速读仅需 1 分钟

近期，DeepSeek 推出的 R1-Zero 模型因其高效的推理能力和极低的训练成本引起了广泛关注。加州伯克利大学在读博士 Jiayi Pan 及其研究团队成功复现了 DeepSeek R1-Zero 的关键技术，且成本低于 30 美元。这一成果不仅展示了 DeepSeek R1-Zero 的强大潜力，也为全球研究者提供了一个低成本、高效率的 AI 模型复现路径。

Jiayi Pan团队的复现过程

项目名称：TinyZero

实验目标：通过强化学习（RL），让基础语言模型在“倒计时”游戏中展现出自我验证和搜索能。

实验方法：

基础模型选择：团队选择了不同参数规模（从0.5B到7B）的Qwen-2.5基础语言模。
强化学习算法：采用R1-Zero算法，给定基础语言模型、提示和真实奖励信号，运行强化学。
实验平台：选择“倒计时”游戏作为实验平台，这是一个考验数字运算能力的游戏，玩家需要利用给定的数字和基本的算术运算来尽可能接近目标数。

实验结果：

模型进化：从最初的简单输出开始，模型逐步进化出自我纠正和搜索的策。例如，模型能够先提出一个解决方案，自我验证这个方案是否正确，如果发现错误，则会进行迭代修改，直到找到有效的解决方。
成本控制：整个实验的成本不到30美元（约217元），使用了2xH200 GPU，每小时6.4美元。
性能表现：从1.5B参数开始，模型学会了搜索、自我验证和修正其解决方案，从而能够获得更高的分。而0.5B模型仅仅是猜测一个解决方案然后停止。

关键结论：

额外指令微调的非必要性：实验验证了额外的指令微调并非必要，基础模型和指令模型最终能达到相似的性能水平。
强化学习算法的有效性：不同的强化学习算法（如PPO、GRPO、PRIME）都能实现长思维链的涌现。
模型行为的多样性：模型的推理行为会根据任务特点呈现不同特征，例如在倒计时任务中倾向于搜索和自我验证，而在数字乘法任务中则更倾向于问题分析。

复现的局限性与展望尽管Jiayi Pan团队的复现取得了令人瞩目的成果，但目前的验证仅限于“倒计时”游戏，尚未扩展到更通用的推理领域。模型的性能和泛化能力还需要在更多任务和数据集上进行验证。

复现的关键技术细节

纯强化学习训练：

DeepSeek R1-Zero 从基础模型出发，直接通过大规模强化学习提升推理能力，跳过了传统的监督微调步骤。这种训练方式证明了即使没有标注数据，模型也能通过试错学习复杂的推理策略。

纯强化学习训练：

GRPO 算法：模型采用了 GRPO（Group Relative Policy Optimization）算法，通过组内归一化奖励信号优化策略。这种方法避免了传统 PPO（Proximal Policy Optimization）中需要额外训练价值模型的高成本。

纯强化学习训练：

奖励机制设计：模型通过稀疏奖励（例如仅在答案正确时给予奖励）来驱动探索，同时支持长上下文（如 32k tokens），为模型进行多步推理和验证提供了足够的空间。

纯强化学习训练：

自我进化与涌现行为：在训练过程中，模型展现出自我进化的能力，例如反思、重新评估推理步骤等复杂行为。这些行为并非预设，而是通过强化学习自然涌现。

纯强化学习训练：复现的成本与开源

Jiayi Pan 的研究团队在“倒计时”游戏中展示了模型的自验证和搜索能力。通过消融实验，研究分析了基础模型质量、基础模型和指令模型、特定 RL 算法等因素对模型能力的影响。该项目的代码和资源已开源在 GitHub 上，供全球研究者和实验室使用。

纯强化学习训练：复现的局限性与展望

尽管研究存在局限性，例如目前的验证仅限于“倒计时”游戏，尚未扩展到更通用的推理领域，但 DeepSeek R1-Zero 的影响已经开始显现。全球最大的开源平台 Hugging Face 团队也宣布加入到了复现的队伍之中，他们推出了一个名为 Open-R1 项目，对 DeepSeek-R1 采取了最全面的复现策略。

DeepSeek R1-Zero 的低成本复现不仅为 AI 研究者提供了一个新的研究方向，也为 AI 技术的普及和应用提供了新的可能性。随着更多研究团队的加入和复现，DeepSeek R1-Zero 的技术细节和潜力将被进一步挖掘，为全球 AI 领域带来新的突破。

该项目目前已经有3700多颗星

当然，这个研发团队都是中国人！

参考链接

https://github.com/Jiayi-Pan/TinyZero

https://github.com/volcengine/verl

太猛了！DeepSeek R1 核心技术复现，30 美元实现：小模型 RL Scaling 革命腾讯新闻

◆ ◆ ◆ ◆ ◆

往期10万+热文推荐

黄仁勋天都塌了！DeepSeek绕过了CUDA，AMD和华为昇腾已经支持部署！网友调侃：护城河漏水了

DeepSeek遭暴力破解！周鸿祎怒斥某些国家不要脸，网络攻击初创公司！网友建议：要保护好这些带来国运级的科技人员

DeepSeek V2和V3致谢名单！雷总千万年薪挖的AI天才萝莉少女赫然在列！网友点评：注意保护核心研发人员！

热搜第一！雷军余承东直播双双被某平台封禁，回应来了！网友点评：拿雷总的投资，挖雷总的高管，停雷总的直播！雷总最后一次创业：雷音

扎克伯格泼脏水说AI闭源会被中国偷走，还不如开源让技术普及！现在DeepSeek开源震惊全世界，Meta组织4个团队来研究学习

马斯克戳穿特朗普“皇帝的新衣”，后果很严重！网友点评：中国历史上有多少功高盖主的结局是善终？

大白聊IT

一个多年科技从业者分享点对科技的观察

全面脱钩？下载DeepSeek最高判处20年监禁，罚款1亿美元，驱逐出美国！网友点评：一个小小的模型把美国吓成这样？

收购TikTok？特朗普签署一项行政命令设立主权财富基金！网友调侃：不卖怎么收购？

李彦宏觉得开源其实是一种智商税！网友点评：苹果和微软，Linux和DeepSeek各有各的美

“证据”表明DeepSeek有6万张显卡从新加坡“非法”获取！马斯克点赞美国黄皮造谣DeepSeek有5万张H100！

周鸿祎送车营销视频被举报：用力过猛，得不偿失！网友点评：雷军这么牛是有原因的，全靠同行衬托

全美首个，DeepSeek，小红书同时被美国州封杀！网友点评：封杀华为后有经验了，这次速度快得多

女版巴菲特称DeepSeek给我们的启示就是 - AI领域成功并不需要那么烧钱！特朗普：你在说我的星际之门？

Telegram创始人剖析DeepSeek成功的底层逻辑，中国学校里培养学生激烈的竞争意识！网友点评：不是说美国的素质教育最好？

百度 AI 往事：那些触手可及的星辰大海

金一南一针见血指出，未来对人类威胁最大的不是核武器，而是人工智能结合无人机！马斯克也表态，未来战争是无人机战争

春晚随处可见的华为产品，被主持人们后台的苹果手机自拍照破功？网友点评：华为一眼就看出型号了，苹果能么？

年薪千万的“天才AI美少女”萝莉，DeepSeek-V2的关键成员，谁说女孩学不好理工科？

台湾跟风禁止DeepSeek，遭网友嘲笑，跟屁虫贻笑大方！

马斯克驳斥削减拯救熊猫宝宝资金，每天削减40亿美元实则是削减对骗子、恐怖分子的资助！只有在特朗普领导下才能完成

英伟达动荡连番，黄仁勋坐立难安！匆忙赴白宫觐见，特朗普加税芯片

马斯克春节惊叹中国无人机和烟花表演，曾多次指出未来战争一定是无人机战争！

特斯拉暴跌超50%，马斯克欲再次逆势破局

新年王炸！华为+DeepSeek强强组合，来了！

周鸿祎挖出真相，美国对DeepSeek下死手原因不是偷窃模型数据、让英伟达等AI厂商市值暴跌、打脸特朗普的5000亿星际之门

DeepSeek惊动到美商务部：我们要停止帮助中国，如果中国要竞争，不要用我们的工具（芯片、AI模型），当我们说不，答案就是不

OpenAI推o3-mini狙击DeepSeek！奥特曼承认DeepSeek成功，会效仿展示一个更有用，更详细的版本

《哪吒二魔童闹海》的隐喻与明示，“自诩为照世明灯，干的却是恃强凌弱、祸乱人间的勾当”