“他山之石,可以攻玉”,站在巨人的肩膀才能看得更高,走得更远。在科研的道路上,更需借助东风才能更快前行。为此,我们特别搜集整理了一些实用的代码链接,数据集,软件,编程技巧等,开辟“他山之石”专栏,助你乘风破浪,一路奋勇向前,敬请关注!
在没有顶级芯片的情况下,以极低成本芯片训出突破性模型的DeepSeek,或将威胁到美国的AI霸权。 大模型比拼的不再是动辄千万亿美元的算力战。 OpenAI、Meta、谷歌这些大公司引以为傲的技术优势和高估值将会瓦解,英伟达的股价将开始动摇。
30美金,就能看到「啊哈」时刻
指令模型运行速度快,但最终表现与基础模型相当 指令输出的模型更具结构性和可读性
对于Countdow任务,模型学习进行搜索和自我验证 对于数字乘法任务,模型反而学习使用分布规则分解问题,并逐步解决
7B模型复刻,结果令人惊讶
如果输出以指定格式提供最终答案且正确,获得+1的奖励 如果输出提供最终答案但不正确,奖励设为-0.5 如果输出未能提供最终答案,奖励设为-1
第一部分:SimpleRL-Zero(从头开始的强化学习)
训练过程动态分析
自我反思机制的涌现
第二部分:SimpleRL(基于模仿预热的强化学习)
训练过程分析
完全开源复刻,HuggingFace下场了
步骤 1:通过从DeepSeek-R1蒸馏高质量语料库,复现R1-Distill模型。 步骤 2:复现DeepSeek用于创建R1-Zero的纯强化学习(RL)流程。这可能需要为数学、推理和代码任务策划新的大规模数据集。 步骤 3:展示我们如何通过多阶段训练,从基础模型发展到经过RL调优的模型。
从斯坦福到MIT,R1成为首选
本文目的在于学术交流,并不代表本公众号赞同其观点或对其内容真实性负责,版权归原作者所有,如有侵权请告知删除。
收藏,分享、在看,给个三连击呗!