性能媲美Deepseek-R1,李飞飞带着仅用1k样本在26分钟内花50美元训练的S1来了

文摘   2025-02-07 08:02   安徽  

近年来,AI 领域的模型性能提升主要依赖 “大数据 + 大算力”,例如 OpenAI 的 GPT-4 训练成本高达数千万美元DeepSeek R1 也使用了 80 万条样本进行训练。那么,是否有更经济高效的方法,能够在有限资源下训练出强大的推理 AI?


斯坦福大学李飞飞团队最近的一项研究提供了一个令人惊讶的答案:只需 1000 条数据、50 美元算力成本,就能训练出与 OpenAI o1 竞品相媲美的 AI 推理模型——s1-32B!



s1 在数学和编码能力测试中与 OpenAI 的 o1 和 DeepSeek 的 R1 等模型的表现不相上下。在通往 AGI 的路上,更高效的新方法带来了更多的创新可能。


s1 论文作者 Niklas Muennighoff 表示:

“DeepSeek-R1 令人兴奋,但缺少 OpenAI 的测试时间扩展图,并且需要大量数据。我们推出了 s1,仅使用 1K 样本和简单的测试时间干预即可重现 o1 的预览扩展和性能。”




 训练方法  



s1 的研究团队表示,s1 模型是以谷歌推理模型 Gemini2.0 Flash Thinking Experimental 为基础模型,通过蒸馏法提炼出来的。


1. 仅用 1000 条训练样本(s1K)

  • 研究团队先从 16 个数据源中收集 59029 条高质量的数学、科学推理问题,并筛选出最具挑战性、最具多样性、最高质的 1000 条,构建了 s1K 训练集。

  • 这些数据的推理过程和答案由 Google Gemini Thinking API 生成,并进行质量把控。


2. 训练时间仅 26 分钟

  •  Qwen2.5-32B-Instruct 预训练模型上进行监督微调(SFT)

  • 训练仅使用 16 张 NVIDIA H100 GPU,耗时 26 分钟,成本不到 50 美元


3. 测试时推理优化(Test-Time Scaling)

  • 提出了预算控制(Budget Forcing)方法,在测试时调整推理时间:

    • 如果模型推理太快:增加“Wait”提示,让模型思考更长时间,提高推理准确性。

    • 如果模型推理过长:强制终止,确保推理效率。

  • 这种方法能在不改变训练数据的情况下提高模型的推理能力这种方法与传统的大规模强化学习方法(RL)形成鲜明对比,后者的成本通常较高,DeepSeek、OpenAI 都采用了这种方法。而 s1 的研究通过较小的数据集和监督微调(SFT)蒸馏推理模型,大大降低了训练成本并提高了效率。




s1-32B 的惊人成绩  






🔹 s1-32B 在 AIME24(数学竞赛)上比 OpenAI o1-preview 高 27%!
🔹 在 MATH500 和 GPQA 任务上,s1-32B 也接近或超过主流开源模型!
🔹 仅用 1000 条数据,s1-32B 竟然达到了 DeepSeek R1(80 万样本)的 70% 性能!


这一结果表明,高效训练+测试时优化可以让模型在极少数据的情况下达到强大的推理能力!



为什么 s1-32B 能成功?  



1️⃣ 小样本精炼训练:传统模型用几十万甚至上百万的数据训练,而 s1-32B 仅用 1000 条精心挑选的数据,避免了冗余和低效学习。


2️⃣ 测试时优化策略:Budget Forcing 技术让模型在推理时“思考更久”,在无需额外训练的情况下提升推理表现。

3️⃣ 模型基础足够强:Qwen2.5-32B 作为基础模型,已经具备一定的推理能力,微调可以迅速“激活”其潜能。


这种方法不仅节省训练资源,还能够让开源社区更容易复现和优化强大 AI


未来的影响  



更低成本的 AI 训练:s1-32B 证明,未来我们可能不再需要天价算力,也能训练出强大 AI。


开源 AI 的新希望:这项研究完全开源(GitHub 链接见文末),意味着更多人可以利用这些方法开发更强的 AI。


AI 推理能力的新方向:测试时优化(Test-Time Scaling)将成为提升 AI 推理能力的新策略,而不是单纯依赖预训练大数据。


GitHub:

https://github.com/simplescaling/s1




PyTorch研习社
打破知识壁垒,做一名知识的传播者
 推荐账号,扫码关注
推荐账号二维码
 最新文章