性能媲美Deepseek-R1，李飞飞带着仅用1k样本在26分钟内花50美元训练的S1来了

文摘 2025-02-07 08:02 安徽

近年来，AI 领域的模型性能提升主要依赖 “大数据 + 大算力”，例如 OpenAI 的 GPT-4 训练成本高达数千万美元，DeepSeek R1 也使用了 80 万条样本进行训练。那么，是否有更经济高效的方法，能够在有限资源下训练出强大的推理 AI？

斯坦福大学李飞飞团队最近的一项研究提供了一个令人惊讶的答案：只需 1000 条数据、50 美元算力成本，就能训练出与 OpenAI o1 竞品相媲美的 AI 推理模型——s1-32B！

s1 在数学和编码能力测试中与 OpenAI 的 o1 和 DeepSeek 的 R1 等模型的表现不相上下。在通往 AGI 的路上，更高效的新方法带来了更多的创新可能。

s1 论文作者 Niklas Muennighoff 表示：

“DeepSeek-R1 令人兴奋，但缺少 OpenAI 的测试时间扩展图，并且需要大量数据。我们推出了 s1，仅使用 1K 样本和简单的测试时间干预即可重现 o1 的预览扩展和性能。”

训练方法

s1 的研究团队表示，s1 模型是以谷歌推理模型 Gemini2.0 Flash Thinking Experimental 为基础模型，通过蒸馏法提炼出来的。

1. 仅用 1000 条训练样本（s1K）

研究团队先从 16 个数据源中收集 59029 条高质量的数学、科学推理问题，并筛选出最具挑战性、最具多样性、最高质量的 1000 条，构建了 s1K 训练集。
这些数据的推理过程和答案由 Google Gemini Thinking API 生成，并进行质量把控。

2. 训练时间仅 26 分钟

在 Qwen2.5-32B-Instruct 预训练模型上进行监督微调（SFT）。
训练仅使用 16 张 NVIDIA H100 GPU，耗时 26 分钟，成本不到 50 美元。

3. 测试时推理优化（Test-Time Scaling）

提出了预算控制（Budget Forcing）方法，在测试时调整推理时间：

如果模型推理太快：增加“Wait”提示，让模型思考更长时间，提高推理准确性。
如果模型推理过长：强制终止，确保推理效率。

这种方法能在不改变训练数据的情况下提高模型的推理能力！这种方法与传统的大规模强化学习方法（RL）形成鲜明对比，后者的成本通常较高，DeepSeek、OpenAI 都采用了这种方法。而 s1 的研究通过较小的数据集和监督微调（SFT）蒸馏推理模型，大大降低了训练成本并提高了效率。

s1-32B 的惊人成绩

🔹 s1-32B 在 AIME24（数学竞赛）上比 OpenAI o1-preview 高 27%！
🔹 在 MATH500 和 GPQA 任务上，s1-32B 也接近或超过主流开源模型！
🔹 仅用 1000 条数据，s1-32B 竟然达到了 DeepSeek R1（80 万样本）的 70% 性能！

这一结果表明，高效训练+测试时优化可以让模型在极少数据的情况下达到强大的推理能力！

为什么 s1-32B 能成功？

1️⃣ 小样本精炼训练：传统模型用几十万甚至上百万的数据训练，而 s1-32B 仅用 1000 条精心挑选的数据，避免了冗余和低效学习。

2️⃣ 测试时优化策略：Budget Forcing 技术让模型在推理时“思考更久”，在无需额外训练的情况下提升推理表现。

3️⃣ 模型基础足够强：Qwen2.5-32B 作为基础模型，已经具备一定的推理能力，微调可以迅速“激活”其潜能。

这种方法不仅节省训练资源，还能够让开源社区更容易复现和优化强大 AI！

未来的影响

✅ 更低成本的 AI 训练：s1-32B 证明，未来我们可能不再需要天价算力，也能训练出强大 AI。

✅ 开源 AI 的新希望：这项研究完全开源（GitHub 链接见文末），意味着更多人可以利用这些方法开发更强的 AI。

✅ AI 推理能力的新方向：测试时优化（Test-Time Scaling）将成为提升 AI 推理能力的新策略，而不是单纯依赖预训练大数据。

GitHub：

https://github.com/simplescaling/s1

PyTorch研习社

打破知识壁垒，做一名知识的传播者

推荐账号，扫码关注

以最简单的方式揭秘大模型（LLM）复杂的工作原理

这就是DeepSeek R1能以1/30的成本挑战OpenAI等大厂的底气

性能媲美Deepseek-R1，李飞飞带着仅用1k样本在26分钟内花50美元训练的S1来了

试试这些开源免费的DeepResearch，每月省200刀

强化学习 VS 监督微调：从谷歌这篇论文来看哪种方法能更好地应对未知任务？

结合Neo4j与Milvus的图谱与向量搜索构建GraphRAG Agent

OpenAI o3-mini 干翻了 DeepSeek R1？

探索提升RAG系统问答质量的技术路线

微软CoRAG：提升多步骤问答任务的表现

5种LLM微调策略：动态图示清晰解析

RAG从入门到精通系列6：Retrieval（检索）

深度解析DeepSeek-R1——打造推理型大模型的配方

Model2Vec加速RAG：模型小15倍，速度快500倍：

RAG从入门到精通系列5：Indexing（索引）

RAG从入门到精通系列4：Query Construction（查询构造）

RAG中的5种文档切分策略：动态图示清晰解析

OpenAI发布的Operator是什么？

AI制裁无效！DeepSeek-R1、DeepSeek-V3和GRPO论文总结

Kimi k1.5：与全功率o1性能匹敌的LLM技术分析

DeepSeek-R1发布24小时后，AI行业反应怎么样？

DeepSeek-R1：一款革命性的国产开源推理LLM，挑战OpenAI的高性能模型

Medium上20万次阅读的思维链高级提示付费文章

RAG从入门到精通系列3：Routing（路由）

Agentic RAG实战：LangChain+LangGraph+Docling+ChromaDB

GitHub上41.3k颗星的2025年最新免费LLM课程

传统 RAG vs. Agentic RAG：动态图示清晰解析

吴恩达：AI产品管理的黄金时代已来，未来属于懂技术的PM！

RAG从入门到精通系列2：Query Translation（查询翻译）

OpenAI率先突围：AI自我进化

RAG从入门到精通系列1：基础RAG

LLM应用落地：购买GPU的最佳指南

用LangChain的LLM Graph Transformer解锁构建知识图谱构的新姿势

2025年这7种用于构建Agentic RAG系统的架构不可或缺

CAG能取代RAG吗？别被表面现象迷惑！

增强版o1模型：Search-o1=Agentic搜索+文档内推理机制

8000字文章的AI Agent全解析：工具、规划与失败模式的深度探索

传统的SaaS的将在2025 Agent时代走向终结

NVIDIA CES2025 大会凭什么震撼了整个 AI 领域？

2025如何学习Agent？谷歌重磅发布Agent白皮书

探索AI Agent工作流设计模式：构建智能任务协作的未来

微调提升LLM准确性，SQL查询任务实现从0%到90%准确率的突破！

用基于Qwen-2.5-7B的Code Agent打造本地、开源的Multi-Agent RAG系统

大模型不一定是最优解！小模型更适合企业？

四种腾讯最新的QO技术提高RAG系统的效率和准确性：扩展、分解、消歧、抽象

Graph RAG实战：使用知识图谱和AI检索、筛选和总结医学期刊文章

AGI前夜的思考：从o3到AGI，未来已来（前端可能没未来了）

2025 Agent之年：Anthropic万字文章披露如何构建高效的AI Agent系统

从创意到工作效率，谷歌为你整理了321个生成式AI在多个行业的变革性应用

万万没想到，一家中国量化基金公司年底发布了最强开源LLM：DeepSeek V3

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉