来源:新智元 作者编辑部HYZ 原标题《全球掀DeepSeek复现狂潮!硅谷巨头神话崩塌,30刀见证啊哈时刻》
就在刚刚,网上已经出现了一波复现DeepSeek的狂潮。
UC伯克利、港科大、HuggingFace等纷纷成功复现,只用强化学习,没有监督微调,30美元就能见证「啊哈时刻」!
全球AI大模型,或许正在进入下一分水岭。
在没有顶级芯片的情况下,以极低成本芯片训出突破性模型的DeepSeek,或将威胁到美国的AI霸权。 大模型比拼的不再是动辄千万亿美元的算力战。 OpenAI、Meta、谷歌这些大公司引以为傲的技术优势和高估值将会瓦解,英伟达的股价将开始动摇。
种种这些观点和讨论,让人不禁怀疑:数百亿美元支出,对这个行业真的必要吗?甚至有人说,中国量化基金的一群天才,将导致纳斯达克崩盘。
指令模型运行速度快,但最终表现与基础模型相当 指令输出的模型更具结构性和可读性
对于Countdow任务,模型学习进行搜索和自我验证 对于数字乘法任务,模型反而学习使用分布规则分解问题,并逐步解决
如果输出以指定格式提供最终答案且正确,获得+1的奖励 如果输出提供最终答案但不正确,奖励设为-0.5 如果输出未能提供最终答案,奖励设为-1
该实现基于OpenRLHF。初步试验表明,这个奖励函数有助于策略模型快速收敛,产生符合期望格式的输出。
第一部分:SimpleRL-Zero(从头开始的强化学习)
接下来,研究者为我们分享了训练过程动态分析和一些有趣的涌现模式。
训练过程动态分析
自我反思机制的涌现
第二部分:SimpleRL(基于模仿预热的强化学习)
训练过程分析
步骤 1:通过从DeepSeek-R1蒸馏高质量语料库,复现R1-Distill模型。 步骤 2:复现DeepSeek用于创建R1-Zero的纯强化学习(RL)流程。这可能需要为数学、推理和代码任务策划新的大规模数据集。 步骤 3:展示我们如何通过多阶段训练,从基础模型发展到经过RL调优的模型。
(编者注:1月27日,Deepseek应用登顶苹果中国地区和美国地区应用商店免费APP下载排行榜,在美区下载榜上超越了ChatGPT。此外,据苹果APP Store中国区免费榜,Deepseek成为中国区第一
。
)
https://x.com/jiayi_pirate/status/1882839370505621655
@THE END
欢迎加入10W+领导者社群
文章来源 :领导者养成笔记「ID:GoToLead 」,转载请公众号回复“转载”
版权说明 :我们尊重原创者版权,除我们确实无法确认作者外,我们都会注明作者和来源。在此向原创者表示感谢。本文所用视频、图片、文字如涉及作品版权问题,请第一时间告知,我们将根据您提供的证明材料确认版权立即删除内容;本文内容为原作者观点,并不代表本公众号赞同其观点和对其真实性负责。