NeurIPS 2024｜清华、加州理工重磅研究：强化自训练方法 ReST-MCTS*，让大模型持续“升级”

学术 2024-11-04 10:01 北京

大语言模型（LLM）的自训练（self-training），是验证 Scaling Law 能否继续奏效的关键方法之一。

然而，由于「错误或无用的中间奖励信号」，现有自训练方法通常会产生低质量的微调训练集（如不正确的规划或中间推理），尽管这可能不会影响 LLM 在一些任务中的正确性，但却会限制 LLM 微调复杂任务的最终性能。

语言模型生成的错误或者无用的中间推理步骤，也可能产生正确的解题思路。也就是说，即使推理路径产生正确的解题思路，也不一定意味着整个路径是准确的。

解决方法之一是使用价值函数或者奖励模型来验证推理路径的正确性，然后作为自训练的学习信号。然而，训练一个可靠的奖励模型来验证推理路径中的每一步，通常依赖于密集的人类标注（每个推理步骤），并不能很好地扩展。

如今，来自清华大学知识工程研究室（KEG）和加州理工学院的联合研究团队解决了这一难题。

他们开发的强化自训练方法 ReST-MCTS*，通过树搜索 MCTS* 指导过程奖励，既可以自动获取可靠的推理路径，也能有效地利用奖励信号进行验证和 LLM 自训练。

论文链接：https://arxiv.org/abs/2406.03816

GitHub 地址：https://github.com/THUDM/ReST-MCTS

项目地址：https://rest-mcts.github.io/

具体来说，ReST-MCTS* 通过基于树搜索的强化学习规避了用于训练过程奖励的每步人工标注：在给定 Oracle 最终正确答案的情况下，ReST-MCTS* 能够通过估算每一步有助于得出正确答案的概率，推断出正确的过程奖励。这些推断出的奖励既是进一步完善过程奖励模型的价值目标，也有助于为策略模型的自训练选择高质量的轨迹。

实验结果表明，在相同的搜索预算下，ReST-MCTS* 中的树搜索策略比 LLM 推理基线（如 CoT + Best-of-N 和 Tree-of-Thought）实现了更高的准确率；另外，将这种树搜索策略搜索到的轨迹作为训练数据，可以在多次迭代中持续增强 LLM，优于 Self-Rewarding LM 等其他自训练算法。

研究方法

为了提高模型自动获取可靠推理路径的能力，该研究旨在探索基于模型自动获取高质量推理路径以优化奖励信号和模型自训练性能过程中的关键难点与挑战。

图｜推断过程奖励的过程以及如何进行过程奖励引导树搜索（左），过程奖励模型（PRM）和策略模型（Policy Model）的自训练（右）。

该研究的四个核心组件是：

全新的搜索算法 MCTS*：在过程奖励模型（Process Reward Model，PRM）的指导下，在足够的次数内执行树搜索。
过程奖励模型PRM：用于评估任何部分解答过程的质量并且指导MCTS*。
策略模型：可以为每个问题生成多个中间推理步骤。
LLM 自我训练：使用MCTS*收集推理路径，在正样本上训练策略模型，并在所有生成的路径上训练过程奖赏模型。

首先，针对现有方法的局限性，研究团队建立了一个全新的搜索算法 MCTS*，该算法是蒙特卡罗树搜索（MCTS）的一个变体，使用每个推理步骤的质量值作为一个训练好的基于 LLM 的过程奖励模型的价值目标，并为 MCTS 提供指导，能够通过足够的部署次数自动标注每个中间节点的过程奖励。

此外，他们还提出了一个过程奖励模型（PRM），该模型能够准确地计算每个推理步骤的奖励值。该研究将研究过程奖励引导与树搜索相结合，以探索有效的解空间并合成高质量的轨迹。该研究首先计算对于每个树节点在每棵树中得到正确答案所需的最小推理步骤数，至少有一条推理路径（包括根）。然后，该研究使用过程值的硬估计方法计算奖励值，这意味着一个推理步骤如果能得到每棵树中正确的答案，就被认为是正确的。使用最小推理距离和奖励值，该研究能够推导出在一个正确推理路径上或附近的每个节点的部分解的值。对于每个节点，将至少有一个正确的路径和相关的前进步骤。当推理距离设置为相同的上一步推理距离时，该研究可以使用部分解答过程的质量值的计算过程推导出质量值和加权奖励。该研究从根节点开始更新所有奖励和值，并且收集它们形成成对的新数据集。该数据集用于在下一个迭代中训练过程奖励模型。注意，在上述过程中搜索树会被修剪并且验证推理轨迹。

在此基础上，他们结合了监督学习的微调技术，构建了一个新的自训练方法，旨在生成树搜索的过程奖励和高质量的多步推理路径，用于实现过程奖励模型和语言模型相辅相成的自训练。具体而言，在初始化策略模型和过程奖励模型之后，该研究迭代地使用它们，并且利用过程中生成的搜索树为特定的科学或数学问题生成高质量的解决方案，并进行一个自我提升过程。

实验结果

研究团队从以下三方面验证了 ReST-MCTS* 的有效性。

首先，研究团队使用生成样本并进行多次迭代评估的自训练方法，如 ReST^EM 和 Self-Rewarding，在三个 LLM backbone 下的分布内和分布外基准上进行了评估。结果显示，ReST-MCTS* 在每次迭代中都优于现有方法，且能够通过自身生成的数据不断自我完善，如下表。

表｜通过对策略和价值模型进行多次迭代训练得出的初步结果。对于每个 backbone，都分别采用不同的自训练方法。这意味着每种方法都有自身生成的训练数据和相应的奖励（价值）模型。

然后，他们在 GSM8K 和 MATH500 上对比了 MATH-SHEPHERD（MS）和 SC + MS 等 SOTA 过程奖励模型。结果表明，ReST-MCTS* 学习到了一个很好的过程奖励模型，他们的奖励模型实现了更高的准确率，如下表。

表｜不同验证器在 GSM8K 测试集和 MATH500 上的准确率。SC: Self-Consistency，MS: MATH-SHEPHERD。验证基于 256 个输出。

他们还在 MATH 和 SciBench 上进行了相同搜索预算的评估。结果表明，尽管预算不足，ReST-MCTS* 仍明显优于其他基线。

最后，他们基于 ReST-MCTS*、CoT 和 ToT 树搜索策略分别对比了三个 LLM 在大学水平科学推理基准上的表现，如下表。

表｜代表性模型在 SciBench 评测集上的总体性能比较。

不足与展望

当然，这项研究也存在一定的局限性。

例如，研究团队还需要证明 ReST-MCTS* 可以推广到数学以外（如编码、agent 等）的其他推理任务，以及没有 ground-truth（如对话、SWE-Bench 等）的任务。另外，他们还需要扩展所提出的价值模型，并进一步改进数据过滤技术。一个潜在的想法是结合在线 RL 算法，帮助价值模型和策略模型进行更好的自训练。具体如下：

1.泛化性有待验证

与许多其他自训练研究相似，ReST-MCTS* 也依赖于监督数据集中的 ground-truth oracle 标签来过滤响应；未来，研究团队需要证明 ReST-MCTS* 可以泛化到数学以外（如编码、智能体、对话等）的其他推理任务，以及没有 ground-truth（如对话、SWE-Bench 等）的任务。

此外，对于那些需要多步规划和推理的非常复杂的任务（如实施整个软件，如 SWE-Agent 等），没有 ground-truth 答案，还需要一种更好的方法来收集奖励反馈（来自少数人类标签和符号执行或求解器），并训练一个可通用的奖励模型，使其能够在更广泛的任务中发挥作用并提供帮助。

2.价值模型的规模和多样性仍需扩展

虽然研究团队基于 Mistral7B: MetaMATH 训练出的价值模型比 SOTA 价值模型 MATH-SHEPHERD 性能更好，但要更好地进行过程奖励模型训练，仍然需要更大规模的价值模型 backbone。此外，训练过程奖励模型的初始训练集是由 SciGLM 生成的，该模型侧重于数学和科学推理任务，但仍然缺乏通用性。虽然目前的过程奖励模型在 MATH 和 SciBench 等多个数学和科学推理任务上取得了 SOTA，但仍然值得探索更多样化的训练集，以便将来扩展到代码生成和智能体规划等多个领域。

3.进一步改进自训练数据过滤

推理轨迹的质量影响着自训练的效果，而生成高质量的训练集起着重要作用。因此，研究团队通过训练迭代过程奖励模型来引导树搜索方向，从而获得高质量的轨迹。另一方面，由于价值模型可以帮助筛选出过程值最高的 top-k 生成轨迹，因此他们也希望将更强、更大的 LLM 模型作为价值模型的 backbone。

作者：学术君

如需转载或投稿，请直接在公众号内留言

http://mp.weixin.qq.com/s?__biz=Mzg4MDE3OTA5NA==&mid=2247592964&idx=1&sn=efe888090e7bdcfe8b14f578349c649d

学术头条

致力于学术传播和科学普及，重点关注AI4Science/大模型等前沿科学进展。

深度访谈｜AI 如何改变预测科学？看看统计学家怎么说

AI斩获6枚金牌！华为Kaggle大师级智能体诞生，自主解决数据科学难题

OpenAI官方指南：12条实用建议，手把手教学生用ChatGPT写作

Stability AI出官方教程了，带你轻松玩转Stable Diffusion 3.5

哈佛、MIT提出「精度感知」Scaling Laws；首个金融LLM综合双语基准｜大模型日报

OpenAI首位投资者《时代》刊文：AI将重新定义「人类的意义」

华为科学智能体 Agent K v1.0已达 Kaggle 大师水平；Meta团队提出自一致性偏好优化ScPO｜大模型日报

终于，AlphaFold3 开源了！代码免费下载，可用于非商业用途

OpenAI大改下代大模型方向，scaling law撞墙？AI社区炸锅了

清华、国科大、智谱团队提出LongReward：利用AI反馈改进长文本大语言模型

创纪录！首幅人形机器人绘制作品拍出108万美元；王慧文回归美团，带队探索AI应用｜一周热门

智谱「新清影」是怎样炼成的？CogVideoX+CogSound 技术详解

AI 的「phone use」竟是这样练成的，清华、智谱团队发布 AutoGLM 技术报告

清华、北大团队推出「安卓智能体」训练评估新框架 AndroidLab

Nature重磅：AI化学家再升级！大幅提升实验效率，推动化学合成进入“智能化”新阶段

研究实锤：别让大模型「想」太多，OpenAI o1准确率竟下降36.3%

清华、北大团队推出「安卓智能体」训练评估框架AndroidLab；Meta提出视频生成加速方法AdaCache｜大模型日报

科研人神器！接入5000万篇正版文献，知乎直答「专业搜索」太能打了

Meta 推出全新视频扩散模型 MarDini；周靖人团队：扩散 Transformer 的上下文 LoRA｜大模型日报

NeurIPS 2024｜清华、加州理工重磅研究：强化自训练方法 ReST-MCTS*，让大模型持续“升级”

港大打造 LightRAG：让大模型 RAG 高效又便宜

深夜重磅！ChatGPT可以“AI搜索”了，但并不完美

OpenAI最新研究：「打假高手」大模型事实性基准SimpleQA来了，已开源

小语言模型SLM综述｜大模型论文日报

大模型已过时、小模型SLM才是未来？苹果正在研究这个

超出人类思维的「系统0」：AI正在创造一种新的思维方式吗？

中国AI大模型出海，如何应对美国管制？最新报告给出了5个建议｜附下载链接

Nature封面：“揭穿”一切！Google DeepMind为AI大模型添加了“隐形指纹”

困扰18亿人的“全球干旱”，被AI更准确预测了

OpenAI又有高管走了，还发了篇长文

前OpenAI研究员：我必须离开；a16z创始合伙人：当前AI发展就像“卖大米”｜一周热门

刚刚，智谱推出情感语音模型 GLM-4-Voice，懂你的情绪，人人可用

不止 computer use，AI 的「phone use」也来了

今天，把电脑交给大模型

清华、腾讯团队提出预训练语言模型知识蒸馏框架 MiniPLM｜大模型论文日报

来了！Stability AI 推出 Stable Diffusion 3.5

深夜重磅！Anthropic 推出 Claude 3.5 Sonnet 升级版和 Claude 3.5 Haiku

刚刚，OpenAI最强竞对官宣：大模型可以使用电脑了

DeepMind创始人最新访谈：今年的诺贝尔奖，就像是AI的分水岭

微软提出新型注意力机制SeerAttention；清华、智谱团队提出“预训练蒸馏”｜大模型日报

OpenAI o1 模型推理模式的比较研究｜大模型论文日报

哈佛重磅突破！AI确定17000多种疾病候选药物，罕见病“孤儿药”不再遥远？

132年未解开的李雅普诺夫函数谜题，被Symbolic Transformer攻克了

Meta被斥：他们污染了“开源”一词；李开复：零一万物绝不放弃预训练模型｜一周热门

“AI调解员”登上Science！Google DeepMind打造，“劝架”水平远超人类

Meta提出思维偏好优化TPO；谷歌推出可穿戴基础模型LSM｜大模型论文日报

美国FDA：警惕AI大模型带来的未知问题，亟需监管创新

3B 超越 7B，Mistral AI 推出端侧模型 Ministral 3B 和 8B

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉