语言模型生成的错误或者无用的中间推理步骤,也可能产生正确的解题思路。也就是说,即使推理路径产生正确的解题思路,也不一定意味着整个路径是准确的。
研究方法
全新的搜索算法 MCTS*:在过程奖励模型(Process Reward Model,PRM)的指导下,在足够的次数内执行树搜索。 过程奖励模型PRM:用于评估任何部分解答过程的质量并且指导MCTS*。 策略模型:可以为每个问题生成多个中间推理步骤。 LLM 自我训练:使用MCTS*收集推理路径,在正样本上训练策略模型,并在所有生成的路径上训练过程奖赏模型。