【他山之石】创造历史！DeepSeek超越ChatGPT登顶中美AppStore

科技 2025-01-28 18:00 辽宁

“他山之石，可以攻玉”，站在巨人的肩膀才能看得更高，走得更远。在科研的道路上，更需借助东风才能更快前行。为此，我们特别搜集整理了一些实用的代码链接，数据集，软件，编程技巧等，开辟“他山之石”专栏，助你乘风破浪，一路奋勇向前，敬请关注！

DeepSeek 20 日发布以来获得的热度至今依然没有任何消退的迹象。一觉醒来，DeepSeek 发布的 iOS 应用甚至超越了 ChatGPT 的官方应用，直接登顶 AppStore。

不少网友都认为这是他们当之无愧。

毕竟，正如 a16z 合伙人、Mistral 董事会成员 Anjney Midha 说的那样：从斯坦福到麻省理工，DeepSeek-R1 几乎一夜之间就成了美国顶尖大学研究人员的首选模型。

甚至有网友认为 DeepSeek 是 OpenAI 与英伟达都未曾预见的黑天鹅。

与此同时，围绕 DeepSeek-R1 的各路消息也正层出不穷 ——Hugging Face 等组织正在尝试复现 R1、DeepSeek 之前接受的采访被翻译成了英文版并正在 AI 社区引发热议、开发了 Llama 系列模型的 Meta 似乎陷入了焦虑之中…… 下面我们就来简单盘点一下最近两天围绕 DeepSeek 的几个热点议题。

DeepSeek 创始人梁文锋之前接受的采访被翻译成了英文版，正在 AI 社区引发热议

AI 社区开启 R1 复现热潮

DeepSeek-R1 是开源的，但也没有完全开源 —— 相关的训练数据、训练脚本等并未被公布出来。不过，因为有技术报告，也就有了复现 R1 的指导方针，也因此，最近有不少人都在强调复现 R1 的重要性与可行性。

𝕏 博主 @Charbax 总结了 DeepSeek 文档中没有介绍的地方以及复现 R1 的一些难点。

训练流程的细节。虽然其技术报告中介绍了强化学习阶段和蒸馏，但省略了关键的实现细节，包括超参数（例如，学习率、批量大小、奖励缩放因子）、用于生成合成训练数据的数据管道（例如，如何编排 800K 蒸馏样本）、需要人类偏好对齐的任务的奖励模型架构（多语言输出的「语言一致性奖励」）。
冷启动数据生成。报告中虽然提到了创建「高质量冷启动数据」（例如，人工标准、少样本提示）的过程，但缺乏具体的示例或数据集。
硬件和基础设施。没有关于计算资源（例如，GPU 集群、训练时间）或软件堆栈优化（例如，DeepSeek-V3 的 AMD ROCM 集成）的详细信息。
复现难题。缺少多阶段强化学习的脚本等组件。

当然，也确实有些团队已经开始行动了。

Open R1：复现一个真・开源版 R1

在复现 R1 的各式项目中，最受人关注的当属 Hugging Face 的 Open R1 项目。

项目地址：https://github.com/huggingface/open-r1

Open R1 宣称是 DeepSeek-R1 的「完全开放复现（A fully open reproduction）」，可以补齐 DeepSeek 没有公开的技术细节。该项目目前还在进行中，已经完成的部分包括：

GRPO 实现
训练与评估代码
用于合成数据的生成器

Hugging Face CEO Clem Delangue 的推文

据其项目介绍，Open R1 项目计划分三步实施：

第一步：复现 R1-Distill 模型，具体做法是蒸馏一个来自 DeepSeek-R1 的高质量语料库。

第二步：复现 DeepSeek 用于创建 R1-Zero 的纯强化学习管线。这一步涉及到编排一个新的大规模数据集，其中包含数学、推理和代码数据。

第三步：通过多阶段训练从基础模型得到强化学习微调版模型。

7B 模型 8K 样本复现 R1-Zero 和 R1

另一个复现 R1 的团队是来自香港科技大学的何俊贤（Junxian He）团队，并且他们采用的基础模型和样本量都非常小：基于 7B 模型，仅使用 8K 样本示例，但得到的结果却「惊人地强劲」。

项目地址：https://github.com/hkust-nlp/simpleRL-reason

需要注意，该团队的这个实现的实验大都是在 R1 发布之前完成的。他们发现，仅使用 8K MATH 示例，7B 模型就能涌现出长思维链（CoT）和自我反思能力，而且在复杂的数学推理上的表现也非常不错。

具体来说，他们从基础模型 Qwen2.5-Math-7B 开始，仅使用来自 MATH 数据集的 8K 样本直接对其进行强化学习。最终得到了 Qwen2.5-SimpleRL-Zero 与 Qwen2.5-SimpleRL。

或者按其博客的说法：「没有奖励模型，没有 SFT，只有 8K 用于验证的 Math 样本，得到的模型在 AIME 上成绩为（pass@1 准确率）33.3%、在 AMC 上实现了 62.5%、在 MATH 上实现 77.2%，优于 Qwen2.5-math-7B-instruct，可与使用多 50 倍数据和更复杂组件的 PRIME 和 rStar-MATH 相媲美。」

Qwen2.5-SimpleRL-Zero 的训练动态

所得模型与基线模型的 pass@1 准确度

基于 3B 模型用 30 美元复现 R1

TinyZero 则是一个尝试复现 DeepSeek-R1-Zero 的项目，据其作者、伯克利 AI 研究所在读博士潘家怡（Jiayi Pan）介绍，该项目是基于 CountDown 游戏实现的，完整配方有一句话就能说完：「遵照 DeepSeek R1-Zero 的算法 —— 一个基础语言模型、提示词和 ground-truth 奖励，然后运行强化学习。」

实验过程中，模型一开始的输出很蠢笨，但逐渐发展出修改和搜索等策略。下面展示了一个示例，可以看到模型提出解决方案，自我验证，并反复修改，直到成功。

实验中，该团队也得到了一些有意思的发现：

基础模型的质量很重要。0.5B 的小模型在猜测一个解答之后就会停止，而从 1.5B 规模开始，模型会开始学习搜索、自我验证、修正解答，从而可以得到远远更高的分数。

基础模型和指令模型都可行。实验发现，指令模型的学习速度更快，但性能会收敛到与基础模型同等的程度；同时指令模型的输出更加结构化、更可读。

具体采用什么强化学习算法并不重要。该团队尝试了 PPO、GRPO 和 PRIME，但它们的差异并不大。

模型的推理行为严重取决于具体任务。对于 CountDown 游戏，模型会学习执行搜索和自我验证；对于数值乘法，模型会学习使用分配律分解问题并逐步解决。

模型学会乘法分配律

而最惊人的是，整个项目的计算成本不到 30 美元。

Meta 的焦虑：下一代 Llama 可能赶不上 R1

数天前，机器之心报道文章《Meta 陷入恐慌？内部爆料：在疯狂分析复制 DeepSeek，高预算难以解释》引起广泛关注与讨论。

文章中， Meta 员工在美国匿名职场社区 teamblind 上面发布了一个帖子提到，国内 AI 创业公司 DeepSeek 最近的一系列动作让 Meta 的生成式 AI 团队陷入了恐慌。

今日，The Information 最新的文章爆料出更多内容。

在文章中，The Information 爆料称包括 Meta 人工智能基础设施总监 Mathew Oldham 在内的领导表示，他们担心 Meta Llama 的下一个版本性能不会像 DeepSeek 的那样好。

Meta 也暗示 Llama 的下一个版本将于本季度发布。

此外，文章也爆料，Meta 生成式 AI 小组和基础设施团队组织了四个作战室来学习 DeepSeek 的工作原理。

其中两个作战室，正在试图了解幻方是如何降低训练和运行 DeepSeek 模型的成本。其中一名员工表示：Meta 希望将这些技术应用于 Llama。

其中一些开发人员透露，尽管 Meta 的模型是免费的，但它们的运行成本通常比 OpenAI 的模型更高，部分原因是 OpenAI 可以通过批量处理其模型客户的数百万条查询来降低价格。但是，使用 Llama 的小型开发人员却没有足够的查询来降低成本。

据一位直接了解情况的员工透露，第三个作战室正在试图弄清楚幻方可能使用哪些数据来训练其模型。

第四作战室正在考虑基于 DeepSeek 模型的新技术，重构 Meta 模型。Meta 考虑推出一个与 DeepSeek 相似的 Llama 版本，它将包含多个 AI 模型，每个模型处理不同的任务。这样，当客户要求 Llama 处理某项任务时，只需要模型的某些部分进行处理。这样做可以使整个模型运行得更快，并且以更少的算力来运行。

不知道，在这样的压力下，2025 年 Meta 会拿出什么样的开源模型？说不定，Meta 也会加入到复现 R1 的浪潮中。

不过可以预料的是，在 DeepSeek 这条鲶鱼的搅动下，新一年的大模型格局正在发生转变。

对新一年的 AI 技术发展与应用，你有什么样的期待？欢迎留言讨论。

参考链接：https://www.theinformation.com/articles/meta-scrambles-after-chinese-ai-equals-its-own-upending-silicon-valley

本文目的在于学术交流，并不代表本公众号赞同其观点或对其内容真实性负责，版权归原作者所有，如有侵权请告知删除。

收藏，分享、在看，给个三连击呗！

人工智能前沿讲习

领先的人工智能知识平台

【源头活水】NeurIPS 2024 | 超越KL！大连理工提出WKD：基于WD距离的知识蒸馏新方法

【他山之石】ACM Computing Surveys | 港大等基于可靠性视角的深度伪造检测综述，覆盖主流基准库、模型

【源头活水】DEIM: 在DETR中使用多对一匹配的策略加快收敛

【源头活水】GAN归来：模型大幅简化，训练更稳定，逆袭扩散模型，AI社区疯传

【他山之石】DeepSeek V3论文细节：如何绕开CUDA的垄断！

【他山之石】原来，这些顶级大模型都是蒸馏的

【他山之石】创造历史！DeepSeek超越ChatGPT登顶中美AppStore

【他山之石】全球掀DeepSeek复现狂潮！硅谷巨头神话崩塌，30刀见证啊哈时刻

【源头活水】2025年Next Token Prediction范式会统一多模态吗？

【他山之石】DeepSeek-R1持续刷屏，连Open R1都来了！抱抱脸发起，1天狂揽1.9k星

【源头活水】中国AI太强，Meta工程师吓疯？自曝疯狂熬夜复制DeepSeek，天价高管心虚了

【他山之石】Transformer作者初创重磅发布Transformer²！AI模型活了，动态调整自己权重

【他山之石】扩散模型也能推理时Scaling，谢赛宁团队重磅研究可能带来文生图新范式

【他山之石】顶刊TPAMI 2024！北大提出实用、紧致的图像压缩感知网络PCNet，代码已开源

几秒生成逼真3D场景，泛化媲美Stable Diffusion | 浙大&蚂蚁等提出Prometheus

【源头活水】近8年后，谷歌Transformer继任者「Titans」来了，上下文记忆瓶颈被打破

【他山之石】重新思考图像超分辨率中的不平衡问题以实现高效推理(nips2024)

【源头活水】一个关于MoE的猜想

【他山之石】TPAMI-2024 | Uni-AdaFocus视频理解框架，让AI学会「划重点」，计算效率提升4-23倍！

几秒生成逼真3D场景，泛化媲美Stable Diffusion | 浙大&蚂蚁等提出Prometheus

即插即用，无缝集成各种模型，港科大&蚂蚁等发布Edicho：图像编辑一致性最新成果！

纯卷积实现用于图像生成扩散模型？DiC：重新思考扩散模型中的 3×3 卷积

【他山之石】TPAMI 2024 | 倒置金字塔多任务Transformer用于视觉场景理解

【源头活水】NeurIPS 2024 Spotlight | 轻微的预训练数据扰动如何造就更优秀的扩散模型

【他山之石】NIPS 2024 | 注意力掩码和LayerNorm在Transformer中的作用

【他山之石】NeurIPS'24｜新型成员推理方法CLiD：一举破解文生图模型隐私难题

【源头活水】视频任意门来了！港大&达摩院新作VideoAnydoor：向视频无缝传送物体，同时支持准确动作控制

【他山之石】AAAI 2025 | 基于真实世界雾霾驾驶视频的视频去雾和深度估计

【源头活水】英伟达「世界基础模型」诞生，引爆物理AI革命！75页报告出炉，GitHub狂飙2k星

AAAI 2025 | SparseViT：以非语义为中心、参数高效的稀疏化视觉Transformer

注意力计算减少99.5%，端侧文生图扩散模型成功范式！CLEAR：类卷积线性扩散Transformer

【源头活水】英伟达「世界基础模型」诞生，引爆物理AI革命！75页报告出炉，GitHub狂飙2k星

中科院/中科大/芝加哥大学创新动态Token合并框架，无需微调，依然强大，零样本视频理解的突破性进展！

【他山之石】AAAI 2025 | IML领域首个稀疏化视觉Transformer，代码已开源

【源头活水】人工智能是不是走错了方向？

【源头活水】OpenAI奥特曼发长文「反思」：十年艰难创业路，如今已掌握AGI秘诀

【他山之石】AAAI 2025 | 基于真实世界雾霾驾驶视频的视频去雾和深度估计

【源头活水】DeepSeek V3获竞技场最强开源认证！与Claude 3.5 Sonnet对比实测来了

1.4s 即可生成1024px图像！SnapGen：轻量化架构和训练策略实现端侧文生图

【他山之石】ACCV 2024 | ViT涨点神器！DeBiFormer：双层路由注意力新框架

【源头活水】数据不够致Scaling Law撞墙？CMU和DeepMind新方法可让VLM自己生成记忆

【他山之石】AAAI 2025｜腾讯优图实验室10篇论文入选，含大型语言模型、深度伪造检测等研究方向

【源头活水】聊一聊大模型六小虎和四大厂的2024！

【源头活水】NeurIPS 2024｜让模型预见分布漂移：动态系统颠覆性设计引领时域泛化新革命

【他山之石】AAAI 2025 | 港大提出SparX：强化Vision Mamba和Transformer的稀疏跳跃连接机制

【综述专栏】2024->2025必看的十大「人工智能领域综述」论文

【他山之石】国产之光DeepSeek把AI大佬全炸出来了！671B大模型训练只需此前算力1/10，细节全公开

【源头活水】AAAI 2025 | SparseViT：参数高效的稀疏化视觉Transformer

【源头活水】首次！大模型自动搜索人工生命，做出AI科学家的Sakana AI又放大招

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉