计算最优扩展(compute-optimal scaling):通过实现 DeepMind 的技巧来提升测试时开放模型的数学能力。 多样性验证器树搜索 (DVTS):它是为验证器引导树搜索技术开发的扩展。这种简单高效的方法提高了多样性并提供了更好的性能,特别是在测试时计算预算较大的情况下。 搜索和学习:一个轻量级工具包,用于使用 LLM 实现搜索策略,并使用 vLLM 实现速度提升。
自我改进:模型通过在后续迭代中识别和纠错来迭代改进自己的输出或「想法」。虽然这种策略在某些任务上有效,但通常要求模型具有内置的自我改进机制,这可能会限制其适用性。 针对验证器进行搜索:这种方法侧重于生成多个候选答案并使用验证器选择最佳答案。验证器可以是基于硬编码的启发式方法,也可以是学得的奖励模型。本文将重点介绍学得的验证器,它包括了 Best-of-N 采样和树搜索等技术。这种搜索策略更灵活,可以适应问题的难度,不过它们的性能受到验证器质量的限制。
Best-of-N:通常使用奖励模型为每个问题生成多个响应并为每个候选答案分配分数,然后选择奖励最高的答案(或稍后讨论的加权变体)。这种方法强调答案质量而非频率。 集束搜索:一种探索解决方案空间的系统搜索方法,通常与过程奖励模型 (PRM) 结合使用,以优化问题解决中间步骤的采样和评估。与对最终答案产生单一分数的传统奖励模型不同,PRM 会提供一系列分数,其中推理过程的每个步骤都有一个分数。这种细粒度反馈能力使得 PRM 成为 LLM 搜索方法的自然选择。 多样性验证器树搜索 (DVTS):HuggingFace 开发的集束搜索扩展,将初始集束拆分为独立的子树,然后使用 PRM 贪婪地扩展这些子树。这种方法提高了解决方案的多样性和整体性能,尤其是在测试时计算预算较大的情况下。
首先给 LLM 提供一个数学问题,让其生成 N 个部分解,例如,推导过程中的中间步骤。 每个 step 都由 PRM 评分,PRM 估计每个步骤最终达到正确答案的概率。 一旦搜索策略结束,最终候选解决方案将由 PRM 排序以产生最终答案。
模型:使用 meta-llama/Llama-3.2-1B-Instruct 为主要模型,用于扩展测试时计算; 过程奖励模型 PRM:为了指导搜索策略,本文使用了 RLHFlow/Llama3.1-8B-PRM-Deepseek-Data,这是一个经过过程监督训练的 80 亿奖励模型。过程监督是一种训练方法,模型在推理过程的每一步都会收到反馈,而不仅仅是最终结果; 数据集:本文在 MATH-500 子集上进行了评估,这是 OpenAI 作为过程监督研究的一部分发布的 MATH 基准数据集。这些数学问题涵盖了七个科目,对人类和大多数大语言模型来说都具有挑战性。
Min:使用所有步骤中的最低分数。 Prod:使用阶梯分数的乘积。 Last:使用步骤中的最终分数。该分数包含所有先前步骤的累积信息,因此将 PRM 有效地视为能够对部分解决方案进行评分的 ORM。
通过保持固定数量的「集束」或活动路径 N ,迭代生成多个候选解决方案。 在第一次迭代中,从温度为 T 的 LLM 中抽取 N 个独立步骤,以引入响应的多样性。这些步骤通常由停止标准定义,例如终止于新行 \n 或双新行 \n\n。 使用 PRM 对每个步骤进行评分,并选择前 N/M 个步骤作为下一轮生成的候选。这里 M 表示给定活动路径的「集束宽度」。与 Best-of-N 一样,使用「最后」的规约来对每次迭代的部分解决方案进行评分。 通过在解决方案中采样 M 个后续步骤来扩展在步骤 (3) 中选择的步骤。 重复步骤 (3) 和 (4),直到达到 EOS token 或超过最大搜索深度。
计算扩展为 4、16、64、256 时的 N 个集束 固定集束宽度 M=4 在温度 T=0.8 时采样 最多 40 次迭代,即最大深度为 40 步的树
Oracle:使用基本事实标签估计每个问题的 pass@1 分数,对 pass@1 分数的分布进行分类以确定五分位数。 模型:使用每个问题的平均 PRM 分数分布来确定五分位数。这里的直觉是:更难的问题分数会更低。
对于给定的 N 和 M,将初始集束扩展为 N/M 个独立子树。 对于每个子树,选择具有最高 PRM 分数的步骤。 从步骤 (2) 中选择的节点生成 M 个新步骤,并选择具有最高 PRM 分数的步骤。 重复步骤 (3),直到达到 EOS token 或最大树深度。
强验证器:强验证器在提高性能方面发挥着关键作用,提高验证器的稳健性和通用性对于推进这些方法至关重要; 自我验证:最终目标是实现自我验证,即模型可以自主验证自己的输出。这种方法似乎是 o1 等模型正在做的事情,但在实践中仍然难以实现。与标准监督微调 (SFT) 不同,自我验证需要更细致的策略; 将思维融入过程:在生成过程中融入明确的中间步骤或思维可以进一步增强推理和决策能力。通过将结构化推理融入搜索过程,可以在复杂任务上实现更好的表现; 搜索作为数据生成工具:该方法还可以充当强大的数据生成过程,创建高质量的训练数据集。例如,根据搜索产生的正确轨迹对 Llama 1B 等模型进行微调可以带来显著的收益。这种基于策略的方法类似于 ReST 或 V-StaR 等技术,但具有搜索的额外优势,为迭代改进提供了一个有希望的方向; 调用更多的 PRM:PRM 相对较少,限制了其更广泛的应用。为不同领域开发和共享更多 PRM 是社区可以做出重大贡献的关键领域。