强化学习上大分！清华团队训练出数学推理超越 GPT-4o 的 7B 模型

文摘 2025-01-06 18:19 中国香港

作者 | PRIME 团队

出品丨AI 科技大本营（ID：rgznai100）

OpenAI o1 和 o3 模型的发布证明了强化学习能够让大模型拥有像人一样的快速迭代试错、深度思考的高阶推理能力，在基于模仿学习的 Scaling Law 逐渐受到质疑的今天，基于探索的强化学习有望带来新的 Scaling Law。

近日，清华大学 NLP 实验室联合上海 AI Lab，清华大学电子系及 OpenBMB 社区提出一种新的结合过程奖励的强化学习方法——PRIME（Process Reinforcement through IMplicit REwards），采用 PRIME 方法，研究人员不依赖任何蒸馏数据和模仿学习，仅用 8 张 A100，花费一万块钱左右，不到 10 天时间，就能高效训练出一个数学能力超过 GPT-4o、Llama-3.1-70B的 7B 模型 Eurus-2-7B-PRIME。

具体而言，研究人员利用 Qwen2.5-Math-7B-Base 作为基座模型，训练出了新模型 Eurus-2-7B-PRIME ，并在美国 IMO 选拔考试 AIME 2024 上的准确率达到 26.7%，大幅超越 GPT-4o，Llama3.1-70B 和 Qwen2.5-Math-7B-Instruct，且仅使用了 Qwen Math 数据的 1/10。其中，强化学习方法 PRIME 为模型带来了 16.7% 的绝对提升，远超已知的任何开源方案。

该项目一经开源就在海外 AI 社区爆火，短短几天 GitHub 取得 300+ star。

未来，基于 PRIME 方法和更强的基座模型有潜力训练出接近 OpenAI o1 的模型。

Blog 链接：https://curvy-check-498.notion.site/Process-Reinforcement-through-Implicit-Rewards-15f4fcb9c42180f1b498cc9b2eaf896f

GitHub 链接：https://github.com/PRIME-RL/PRIME

PRIME 方法介绍

长久以来，开源社区严重依赖数据驱动的模仿学习来增强模型推理能力，但这种方法的局限也显而易见——更强的推理能力需要更高质量的数据，但高质量数据总是稀缺，使得模仿和蒸馏难以持续。虽然 OpenAI o1 和 o3 的成功证明了强化学习有着更高的上限，但强化学习有着两个关键挑战：（1）如何获得精准且可扩展的密集奖励；（2）如何设计可以充分利用这些奖励的强化学习算法。

PRIME 算法从隐式过程奖励（implicit process reward）的思想出发解决这两个问题。隐式过程奖励模型可以仅在输出奖励模型（outcome reward model, ORM）的数据，即答案的最终对错上进行训练，而隐式地建模过程奖励，最终自动训练出一个过程奖励模型，这整个过程都有严格的理论保证。

详细推导见：https://huggingface.co/papers/2412.01981

基于隐式过程奖励模型的这种性质，研究人员指出将其应用于强化学习有三大优势：

1. 过程奖励：隐式过程奖励模型能够为每个 token 提供价值估计，在提供过程奖励的同时无需训练额外的价值模型（value model）

2. 可扩展性：隐式过程奖励模型只需结果标签即可在线更新。所以，我们可以结合策略模型采样与结果验证器来直接更新 PRM，有效缓解分布偏移与可扩展性问题。

3. 简洁性：隐式过程奖励模型本质上就是一种语言模型。在实践中，研究人员发现可以直接用初始的策略模型初始化 PRM。

隐式过程奖励解决了 PRM 在大模型强化学习中怎么用，怎么训，怎么扩展的三大问题，甚至不需要训练额外的奖励模型就可以开始强化学习，易用性和可扩展性极佳。

具体的 PRIME 算法流程如下图所示，它是一种在线强化学习算法，能够将每个 token 的过程奖励无缝应用于强化学习流程中。

实验结果

研究人员详细比较了 PRIME 算法和基线方法，相比于仅用结果监督，PRIME 有着 2.5 倍的采样效率提升，在下游任务上也有着显著提升。

研究人员还验证了 PRM 在线更新的重要性，可以看到，在线的 PRM 更新要显著优于固定不更新的 PRM，这也证明了 PRIME 算法设计和合理性。

此外，研究人员还额外收集数据，基于 Qwen2.5-Math-Instruct 训练了 SOTA 水平的 EurusPRM，能够在 Best-of-N 采样中达到开源领先水平。

Showcase 演示

Question（AIME 2024 试题，Claude-3.5-Sonnet 做错）

Answer

Question（经典比大小问题）

Which number is larger? 9.11 or 9.9?

Answer

强化学习是连接已有智能体（大模型）和现实世界（世界模型，具身智能）的桥梁，以及将世界反馈内化为模型智能的路径，将在下一代人工智能的发展中起到重要作用。PRIME 算法创新性地将隐式过程奖励与强化学习结合，解决了大模型强化学习的奖励稀疏问题，有望推动大模型复杂推理能力的进一步提升。

▶ AI 叛乱打响第一枪！Anthropic 最新论文作者齐聚紧急会议：模型“伪装顺从”，暗中对抗训练

▶ 技术专家和神父在梵蒂冈研讨 AI！MIT 教授当场放教皇深伪视频，现场炸锅

“AI 会取代程序员吗？”——这个问题如今愈发令人困扰。伴随着 Cursor 等 AI 编程助手爆火，面对日新月异的技术，不少开发者感到迷茫：未来的程序员究竟该何去何从？是被 AI 取代，还是与 AI 共舞？在这个充满变革与机遇的时代，我们需要重新思考软件开发的未来。为此，CSDN 特别策划推出了最新一期特刊：《新程序员 008：大模型驱动软件开发》。

读过《新程序员》的开发者曾这样感慨道：“让我惊喜的是，中国还有这种高质量、贴近开发者的杂志，我感到非常激动。最吸引我的是里面有很多人对 AI 的看法和经验和一些采访的内容，这些内容既真实又有价值。”

能学习到新知识、产生共鸣，解答久困于心的困惑，这是《新程序员》的核心价值。欢迎扫描下方二维码订阅纸书和电子书。

AI科技大本营

为AI领域从业者提供人工智能领域热点报道和海量重磅访谈；面向技术人员，提供AI技术领域前沿研究进展和技术成长路线；面向垂直企业，实现行业应用与技术创新的对接。全方位触及人工智能时代，连接AI技术的创造者和使用者。

最新文章

马斯克：3年内我要造50万机器人，人形机器人会让钱失去意义 | AI 2025

英伟达黄仁勋最新访谈：CES 2025 揭秘 AI 与计算的未来蓝图

Anthropic四大专家“会诊”：实现深度思考不一定需要多智能体，AI完美对齐比失控更可怕！

伯克利对齐大师罗素：AGI 会让地球上所有人达到西方中产阶级的生活水平，全球 GDP 将增长约 10 倍 | AI 2025

谷歌新动作！Sora前负责人带队打造“现实世界模拟器”，AI领域再掀波澜

智源发布2025十大AI技术趋势：从Agent到Agentic AI

黄仁勋：英伟达引领机器人行业革命，未来人人都能有超算 | AI 2025

奥特曼开启 AGI 倒计时：很快搞定核聚变，第一批智能体会在今年加入劳动力队伍 | AI 2025

强化学习上大分！清华团队训练出数学推理超越 GPT-4o 的 7B 模型

2025 年，大模型会有哪些新变化？

Agent 炒作一年仍未落地，99% 不懂 AI 的人和剩下 1 % 产生了鸿沟 | AI 2025

昆仑万维周亚辉：人形机器人时代，中国新首富会是张一鸣、雷军或王兴

IBM 八大专家预测：现代编程语言是给人类设计的，AI 需要类似汇编的原生语言 | AI 2025

谷歌前 CEO 施密特：AI 将在今年获得“永久记忆”，2028 美国会耗尽能源储备 | AI 2025

硅谷神预言家库兹韦尔：科技每年将为人类增加一年寿命，2032 年之后实现“倒流” | AI 2025

图灵奖得主杨立昆：统治欲望源于生存需求，而非智能水平，AI 不会有这种想法 | AI 2025

英伟达千万投资后，27 岁 CEO 豪言：前端工程师三年内消失，700 天后数学家失业

迈向 Z 级计算：Cloud4Science 范式加速科学发现进程

英特尔新款游戏显卡卖爆！24G大显存版也在路上，这下AI玩家也要抢？

一位数学家的“现身说法”：OpenAI「王炸模型」o3 ，到底会不会做数学题？

AI 在谷歌，偏偏搜不对。

AI PC 革命已然「夭折」？分析师曝：智能手机和 PC 的“超级周期”难以到来！

“警告：依赖 AI 代码生成，你的编程之路或将越走越窄！”

“AI教父”杨立昆：批评马斯克是因为他先攻击了科学家；现有训练方式永远实现不了人类水平 AI

AI 叛乱打响第一枪！Anthropic 最新论文作者齐聚紧急会议：模型“伪装顺从”，暗中对抗训练

不花钱！程序员编码神器GitHub Copilot免费可用，每月限额2000次代码补全、50条聊天信息

C++ 之父 2024 年末重磅演讲 | 重新认识 C++：跨世纪的现代演进

苹果 AI 遭遇「滑铁卢」？73% 用户直言：Apple Intelligence 几乎没用！

倒计时1天！算法还可以这样学，来直播间免费抽《漫画算法》！

融资百亿美元后，Databricks CEO 警告：AI 泡沫已到顶，许多初创公司徒有其表

对标Sora，Google发布更强大的Veo 2视频生成模型！

“停止雇佣人类”的广告，席卷旧金山！背后 CEO 放话：只有非科技行业的人会感到不满

被「淹没」在AI编写的漏洞报告中，Python安全开发者怒斥：不要再依赖AI工具了！

AI 裁员潮下，为什么高薪岗位比基层更危险？

诺奖&图灵奖双料得主 Geoffery Hinton：“AI 质疑者一错再错，未来还会继续被打脸”

回顾 Sora 20 分钟发布会！Sam Altman：“视频生成已经进入了 GPT-1 时刻”

OpenAI量子计算大神Scott Aaronson：“我不理解为什么有人能自信看衰 AI”

C++之父领衔、海内外大咖齐聚，全球C++及系统软件技术大会圆满收官

C++之父独家回应白宫安全禁令，全球C++及系统软件技术大会盛大开幕

CSDN与华为联合发布新一代AI编程工具InsCode AI IDE ，引领智能编程新时代

搞崩 ChatGPT 的一个神秘名字，David Mayer 究竟是谁？

还剩3天，C++ 之父年末演讲：开发者应该“重新认识”C++！

程序员离不开的数据结构和算法，为什么大多数人都不会？

加速算力价值释放！第三届“移动云杯”总决赛圆满落幕

LeCun改口：5-10年就能实现AGI；马斯克预开发AI游戏 | AI头条

AI 创业水太深，“卷”了 20 个月的天才科学家连夜逃回谷歌？

清华&面壁提出新一代主动 Agent 范式！AI 从此拥有主观能动性

优惠倒计时 3 天！2024 全球 C++ 及系统软件技术大会全日程正式发布

“我已经厌倦了 AI ！”

BAT、字节、昇腾、小米等12大技术专家齐聚，深度解析AI编程与大模型应用创新！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉