在人工智能领域,大推理模型(LRM)正变得越来越重要,它们不仅能够处理有明确答案的问题,还能够应对那些没有标准答案的开放式问题。Marco-o1 模型的提出,标志着我们在开发能够处理更复杂、更现实问题解决任务的 AI 技术上迈出了重要的一步。
我们翻译解读最新论文:Marco-o1,文末有论文信息。
作者:张长旺,图源:旺知识
目前,OpenAI o1 在大推理模型(LRM)的研究中引起了极大的兴趣。在此基础上,Marco-o1 不仅关注于数学、物理和编程等有标准答案的学科——这些学科适合于强化学习(RL),而且还更加重视开放式问题的解决。我们的目标是解决这个问题:“o1模型能否有效地推广到缺乏明确标准的更广泛领域,并且在这些领域中奖励难以量化?”Marco-o1 由链式思考(CoT)微调、蒙特卡洛树搜索(MCTS)、反射机制和创新的推理策略提供动力——这些策略针对复杂的现实世界问题解决任务进行了优化。
图1 | 我们的Marco-o1模型推理的经典“草莓”问题:“‘草莓’中有多少个‘r’。”
1. 引言
OpenAI 最近推出了开创性的 o1 模型[OpenAI, 2024, Zhong 等人,2024],以其卓越的推理能力而闻名。该模型在 AIME 和 CodeForces 等平台上表现出色,超越了其他领先的模型。受到这一成功的启发,我们旨在进一步推动大型语言模型(LLM)的边界,增强其推理能力,以应对复杂的现实世界挑战。
Marco-o1 利用了 CoT 微调[Wei 等人,2022]、MCTS[Wei 等人,2022, Feng 等人,2023, Silver 等人,2017]和推理行动策略等先进技术来增强其推理能力。如图2所示,通过对 Qwen2-7B-Instruct[Yang 等人,2024]进行微调,结合过滤后的 Open-O1 CoT 数据集[团队,2024]、Marco-o1 CoT 数据集和 Marco-o1 指令数据集,Marco-o1 提高了处理复杂任务的能力。MCTS 允许使用来自 softmax 应用的对数概率的置信分数来探索多个推理路径,引导模型找到最优解。此外,我们的推理行动策略涉及在步骤和微型步骤中变化行动的粒度,以优化搜索效率和准确性。
Marco-o1 在 MGSM(英文)数据集上提高了 6.17% 的准确率,在 MGSM(中文)数据集上提高了 5.60% 的准确率,展示了增强的推理能力[Shi 等人,2022]。此外,在翻译任务中,我们证明了 Marco-o1 在翻译俚语表达方面的优势。例如,模型正确地将中文中字面意思是“这双鞋给人一种踩到屎的感觉”的俚语表达翻译成英文“这双鞋鞋底舒适”,展示了其对俚语细微差别的优越掌握。
我们的工作以以下贡献为特点:
• 使用 CoT 数据进行微调:我们通过在基础模型上进行全参数微调,使用开源 CoT 数据集结合我们自己开发的合成数据,开发了 Marco-o1-CoT。
• 通过 MCTS 扩展解决方案空间:我们将 LLM 与 MCTS(Marco-o1-MCTS)集成,使用模型输出的置信度来指导搜索并扩展解决方案空间。
• 推理行动策略:我们实施了新的推理行动策略和反射机制(Marco-o1-MCTS 微型步骤),包括在 MCTS 框架内探索不同的行动粒度,并提示模型自我反思,从而显著提高了模型解决复杂问题的能力。
• 在翻译任务中的应用:我们是第一个将大型推理模型(LRM)应用于机器翻译任务的团队,探索了多语言和翻译领域的推理时扩展规律。
2. Marco 推理数据集
为了增强 Marco-o1 模型的推理能力,我们采用了多种数据集的监督微调(SFT)策略。
• 过滤后的 Open-O1 CoT 数据集[团队,2024]:我们通过应用启发式和质量过滤过程,完善了 Open-O1 项目的 CoT 数据集。这种增强使模型能够有效地采用结构化推理模式。
• Marco-o1 CoT 数据集(合成):我们使用 MCTS 生成了 Marco-o1 CoT 数据集,这有助于制定复杂的推理路径,进一步加强了模型的推理能力。
• Marco 指令数据集:认识到在执行复杂任务中,强大的指令遵循能力的关键作用,我们整合了一组指令遵循数据。这种整合确保了模型在广泛的任务中保持能力,同时显著提升了其推理能力。
表1 | Marco 推理数据集概览
3. 通过 MCTS 扩展解决方案空间
图2 | Marco-o1 概览
我们集成了 LLM 与 MCTS 来增强我们的 Marco-o1 模型的推理能力:
• 节点作为推理状态:在 MCTS 框架中,每个节点代表问题解决过程中的一个推理状态。
• 行动作为 LLM 输出:从一个节点可能的行动是由 LLM 生成的输出。这些输出代表推理链中的潜在步骤或微型步骤。
• 展开和奖励计算:在展开阶段,LLM 将推理过程继续到一个终端状态。
• 引导 MCTS:这个奖励分数 R用于在 MCTS 中评估和选择有希望的路径,有效地引导搜索朝着更有信心和可靠的推理链发展。
此外,我们通过计算置信分数来获得每个状态的值。对于在展开过程中生成的每个标记 𝑡𝑖,我们通过将其对数概率与前 5 个替代标记的对数概率应用 softmax 函数来计算其置信分数。这由下式给出:
其中𝑐𝑖是展开中第𝑖个标记的置信分数。 𝑝(𝑡𝑖) 是由 LLM 生成的第 𝑖个标记的对数概率。𝑝(𝑡k) 对于k=1到5是第𝑖步预测的前 5 个标记的对数概率。𝑛是展开序列中标记的总数。这个方程确保置信分数反映了所选标记相对于顶级替代品的相对概率,有效地将分数标准化在 0 和 1 之间。
在获得展开序列中所有标记的置信分数后,我们计算所有标记的平均置信分数以得出整体奖励分数:
其中𝑣是展开路径的整体奖励分数。这个平均值作为评估展开期间采取的推理路径质量的奖励信号。更高的𝑣表示更有信心且可能更准确的推理路径。
通过这种方法,我们有效地扩展了解决方案空间,允许模型探索大量的推理路径,并根据计算出的置信分数选择最可能的路径。
4. 推理行动策略
4.1. 行动选择
我们观察到,使用行动作为 MCTS 搜索的粒度相对较粗,经常导致模型忽略对解决复杂问题至关重要的细微推理路径。为了解决这个问题,我们探索了 MCTS 搜索中不同级别的粒度。最初,我们使用步骤作为搜索的单位。为了进一步扩展模型的搜索空间并增强其问题解决能力,我们尝试将这些步骤划分为更小的单位,即 64 或 32 个标记,称为“微型步骤”。这种更细的粒度允许模型更详细地探索推理路径。虽然标记级别的搜索提供了理论上的最大灵活性和粒度,但由于所需的计算资源显著增加以及在这一级别设计有效的奖励模型的挑战,目前尚不切实际。
在我们的实验中,我们在 MCTS 框架内实施了以下策略:
• 步骤作为行动:我们允许模型将完整的推理步骤作为行动生成。每个 MCTS 节点代表一个完整的思考或行动标签。这种方法可以高效地探索,但可能会错过对复杂问题解决至关重要的更细粒度的推理路径。
• 微型步骤作为行动:我们使用 32 或 64 个标记的微型步骤作为行动。这种更细的粒度扩展了解决方案空间,并通过在搜索过程中考虑更细微的步骤,提高了模型导航复杂推理任务的能力。通过在这一级别探索解决方案空间,模型更有能力找到可能被更大行动单位忽视的正确答案。
4.2. 思考后的反思
我们通过在每个思考过程的末尾添加“等等!也许我犯了一些错误!我需要从头重新思考。”这句话引入了反思机制。这提示模型自我反思和重新评估其推理步骤。实施这种反思在解决难题方面取得了显著改进,特别是对原始模型最初解决错误的难题。通过添加反思,大约一半的这些难题被正确回答。
从自我批评的角度[Valmeekam 等人,2023]来看,这种方法允许模型充当自己的批评者,识别其推理中的潜在错误。通过明确提示模型质疑其初步结论,我们鼓励它重新表达和完善其思考过程。这种自我批评机制利用了模型检测其自身输出中的不一致性或错误的能力,从而实现更准确和可靠的问题解决[Madaan 等人,2024, Li 等人,2024, Huang 等人,2022]。反思步骤作为一个内部反馈循环,增强了模型自我纠正的能力,无需外部干预。
5. 实验
基于 Qwen2-7B-Instruct,我们使用我们的训练数据进行 SFT 以创建 Marco-o1-CoT。此外,我们在 MCTS 树搜索框架内使用 Marco-o1-CoT,通过行动区分:
• Marco-o1-MCTS(步骤):使用每个推理步骤作为行动(步骤)。
• Marco-o1-MCTS(64 个标记的微型步骤):使用 64 个标记的微型步骤作为行动(64 个标记)。
• Marco-o1-MCTS(32 个标记的微型步骤):使用 32 个标记的微型步骤作为行动(32 个标记)。
在测试期间,每个模型都使用 CoT 提示以确保推理过程的一致性。然后我们在 MGSM 数据集的英文(En)和中文(Zh)子集上测试了这些配置,得到了以下结果:
表2 | 在 MGSM 数据集上的实验结果
这些结果表明:
在 MGSM-en 数据集中,Marco-o1-CoT 显示出比 Qwen2-7B-Instruct 更优越,如图 4 所示,这是预期的,因为使用了英文 CoT 数据进行微调。然而,在 MGSM-zh 数据集中,Marco-o1-CoT 与 Qwen2-7B-Instruct 相比性能下降。这种下降归因于用于微调的 CoT 数据是英文的,可能不会有效地转移到中文数据集。
图 4 | MCTS 为正确答案扩展解决方案空间。Marco-o1-CoT(左)和 Marco-o1-MCTS(步骤)(右)在 MGSM 数据集上的比较。虽然 Marco-o1-CoT 未能提供正确答案,但将 MCTS 与步骤级行动整合,使模型能够探索更广泛的解决方案空间,增加了得出正确解决方案的可能性。
三个 MCTS 增强型模型显示出比 Marco-o1-CoT 更高的改进,表明整合 MCTS 有助于扩展模型的解决方案空间并增加获得正确答案的概率。然而,由于我们使用置信分数作为奖励,树搜索结果表现出显著的随机性。在 MGSM-en 中,“步骤作为行动”策略表现最佳,而在 MGSM-zh 中,“微型步骤作为行动(32)”策略获得了最高的准确率。目前,如图表 4、5 和 6 所示,我们无法得出哪种行动策略更优越的明确结论。我们认为,随着奖励变得更加准确,MCTS 提供的更大解决方案空间将展现出更大的潜力。
这些结果证明了我们的方法在增强模型的推理能力方面在不同语言和配置中的有效性。
6. 翻译任务案例研究
为了展示我们的 Marco-o1 模型在翻译任务中的能力,我们进行了一个案例研究,将其性能与谷歌翻译在翻译俚语和俚语表达方面进行了比较。我们的模型在理解上下文和细微差别方面表现出色,提供了更准确和自然的翻译。
如图 7、8 和 9 所示,这些案例展示了 Marco-o1 在处理复杂翻译任务,特别是在俚语和俚语语言方面的先进理解和推理能力,超越了像谷歌翻译这样的标准翻译工具。
7. 结论和未来工作
我们的 Marco-o1 通过整合链式思考(CoT)微调、蒙特卡洛树搜索(MCTS)和新的推理行动策略增强了推理能力。Marco-o1 的 MCTS 整合允许扩展解决方案空间,并且不同行动粒度(步骤和微型步骤)的实验表明,更细的搜索分辨率有潜力提高准确性。我们的方法在推理任务中取得了显著改进,并成功翻译了复杂的俚语表达。
展望未来,我们旨在通过结果奖励建模(ORM)和过程奖励建模(PRM)[Lightman 等人,2023]来完善 MCTS 的奖励信号,这将减少随机性并进一步提高性能。此外,我们正在探索强化学习技术来微调 Marco-o1 的决策过程,最终提高其解决复杂现实世界任务的能力。