阿里巴巴达摩院、新加坡科技设计大学和南洋理工大学联合团队提升AI多步推理能力的新方法

文摘 2024-10-17 08:03 美国

大模型在处理更复杂的问题时，仍然容易在推理过程中出现错误，导致推理路径偏离，最终影响模型的整体性能。现有的大语言模型在多步推理任务中，通常会由于推理路径中某一步骤的错误而影响整个推理过程。这些错误不仅降低了模型的准确性，还增加了计算成本和执行延迟。传统的方法如强化学习需要复杂的奖励模型，而其他偏好优化方法往往忽视了多步推理任务中错误发生的具体步骤及其后续分支。

为了解决这些问题，阿里巴巴达摩院、新加坡科技设计大学和南洋理工大学联合团队提出了一种新的训练框架——Reasoning Paths Optimization（RPO）。该框架通过探索和学习多样化的推理路径，优化大语言模型的推理能力。具体而言，RPO在每个推理步骤中鼓励有利分支，惩罚不利分支，从而提高模型的整体问题解决能力。与需要大规模人工注释的传统方法不同，RPO利用模型自身生成的推理路径，使其具备可扩展性和数据高效性。10 月 16 日，他们的技术论文《Reasoning Paths Optimization:Learning to Reason and Explore From Diverse Paths》发表于arXiv，引起广泛关注。

研究团队结合了来自学术界和工业界的资源与智慧，成员包括新加坡科技设计大学、阿里巴巴达摩院和南洋理工大学的专家。他们的跨机构合作为研究提供了强大的技术支持和创新能力，展示了推理路径优化在前沿科技研究中的巨大潜力。主要成员包括新加坡科技设计大学与阿里巴巴达摩院联合博士项目的Yew Ken Chia 和 Guizhen Chen；阿里巴巴达摩院的研究员Weiwen Xu；南洋理工大学的研究人员Luu Anh Tuan 和 Soujanya Poria；阿里巴巴达摩院和新加坡科技设计大学的Lidong Bing。通过此次合作，该团队展示了Reasoning Paths Optimization框架的潜力，不仅在理论上提供了新的方法，也在实际应用中展现了良好的效果。

研究方法

大语言模型在解决复杂问题时，经常需要进行多步推理。为了提高模型的推理能力，研究团队提出了一种新的框架，即Reasoning Paths Optimization（RPO）。该框架旨在生成并优化推理路径，确保模型能在复杂问题中更准确地找到正确答案。推理路径生成的核心在于链式思维提示。

链式思维提示是一种通过展示多个逐步推理示例，来引导模型逐步推理的方法。具体来说，链式思维提示通过给出问题及其对应的推理步骤，帮助模型学习如何进行多步推理。为了生成参考推理路径，首先，他们需要准备一系列示例，每个示例包含一个问题及其对应的推理路径。接着，利用这些示例通过温度采样技术从基础模型中生成推理路径。

图1：模型的推理路径如何很容易地分叉到无法达到正确解的不利分支的示例。虽然我们在这里展示了一个简化的例子，但对于需要更长推理路径的更复杂的问题，挑战被放大了。

在生成参考推理路径的过程中，模型会生成多个可能的推理路径，并最终选择其中能够达到正确答案的路径作为参考路径。如果生成的路径在最后一步包含正确答案，他们将其视为正确路径。如果未能生成正确路径，则继续采样和验证，最多尝试十次。通过这种方式，他们可以确保生成的推理路径尽可能准确，避免错误累积导致推理失败。

为了进一步提高模型的推理能力，他们需要考虑每个推理步骤中可能出现的错误。因此，在推理探索阶段，他们通过多分支探索方法来生成多个可能的解决分支，从而找出有利与不利分支对。

具体来说，在生成参考路径后，他们从每一步开始，生成多个可能的分支，并通过温度采样技术探索这些分支。在这个过程中，他们目标是找到一个有利分支和一个不利分支，其中有利分支能够通向正确答案，而不利分支则不能。通过迭代采样和验证，每一步都会形成一个推理分支对，这些分支对将用于后续的对比反馈和优化过程。

图2：我们用于探索和学习不同推理路径的推理路径优化框架概述。

在推理优化阶段，他们结合参考路径和探索得到的分支对，通过计算参考路径损失和分支对损失，实现对基础模型的优化。首先，参考路径损失是通过标准的因果语言模型损失计算的，目的是提高模型生成参考路径的概率。具体公式为：

其次，对于分支对损失，通过对比有利和不利分支，提供对模型优化的指导。分支对损失的计算基于对数赔率差，具体公式为：

生成分支的赔率通过以下公式计算：

通过聚合每一步的分支对损失，他们可以得到总体的探索损失：

最终，他们综合参考路径损失和探索损失，通过以下公式实现总损失函数的优化：

其中，λ是平衡参考路径优化和探索分支优化的超参数。通过这种方式，RPO框架能够有效提高模型在复杂问题求解中的推理能力，减少错误的发生，提升整体性能。

这部分内容详细介绍了论文中提出的Reasoning Paths Optimization框架的研究方法，包括推理路径生成、推理探索和推理优化的具体步骤和计算方法。接下来，将进一步讨论实验结果和对比分析，以验证该方法的有效性和优势。

实验与结果

在实验部分，他们详细介绍了使用的数据集、实验方法及其结果。这些实验展示了Reasoning Paths Optimization（RPO）框架在提高模型推理能力方面的有效性。通过对比不同基线方法和调整实验参数，他们进一步验证了该方法的优势。

数据集介绍

为了全面评估RPO框架的性能，他们选择了多个具有代表性的数据集进行实验。这些数据集包括GSM8K、MATH和MMLU-STEM。

图3:GSM8K和math中数学推理问题以及MMLU-STEM中基于科学的考试问题的不同训练方法的评估准确率（%）的主要结果。我们还指出，与性能最高的基线相比，我们的方法有所改进。

GSM8K数据集主要用于数学文字问题的推理评估，该数据集包含了8000多个经过人工标注的数学题目，涵盖了从简单到复杂的各种难度等级。由于其多样性和高质量标注，GSM8K成为了评估语言模型推理能力的重要基准。

MATH数据集则专注于竞赛级数学题目，这些题目通常需要复杂的多步推理才能得出正确答案。MATH数据集的引入能够帮助他们评估模型在高难度推理任务中的表现，检测RPO在应对复杂问题时的有效性。

MMLU-STEM数据集是MMLU考试问题数据集的一个子集，专注于科学、技术、工程和数学（STEM）领域的问题。该数据集包含了多个需要多步推理才能解决的问题，能够全面评估RPO在不同领域推理任务中的适用性和效果。

实验方法

在实验过程中，他们采用了多种基线方法进行比较，以验证RPO框架的性能提升。主要的基线方法包括监督微调（SFT）、拒绝采样微调（RFT）、直接偏好优化（DPO）和赔率比偏好优化（ORPO）。

监督微调方法不使用推理路径，仅训练模型生成最终答案。拒绝采样微调方法利用模型自生成的推理路径进行训练，类似于RPO框架的推理生成阶段。直接偏好优化和赔率比偏好优化则提供对比反馈，帮助模型在有利和不利分支之间进行选择。

在模型训练和评估过程中，他们首先通过链式思维提示生成参考推理路径，并结合多分支探索方法生成多个可能的分支对。然后，通过计算参考路径损失和分支对损失，优化模型的推理能力。为了确保结果的可靠性，他们在训练和评估过程中保持一致的实验设置，采用固定的采样温度和批量大小。

实验结果

通过对比不同基线方法，他们发现RPO框架在多个数据集上均表现出了显著的性能提升。特别是在GSM8K和MMLU-STEM数据集上，RPO分别取得了3.1%和4.3%的性能提升。这表明RPO框架能够有效减少推理过程中错误的发生，提高整体推理能力。

此外，他们还研究了不同权重λ值对性能的影响。结果显示，λ值过低会导致对推理探索重视不够，结果不佳；而过高则会影响参考路径的优化效果。因此，在优化参考路径和探索分支之间找到平衡是至关重要的。

图4:LLaMA-3-8B的勘探损失权重对MATH数据集性能的影响。

图5:LLaMA-3-8B在MATH数据集上的推理路径长度性能。

推理路径长度对结果的影响也进行了分析。与最高性能基线ORPO相比，RPO在较长推理路径上的表现更好，表明该方法能够有效减少复杂问题中的错误发生。

案例研究

为了进一步验证RPO框架的有效性，他们进行了案例研究。通过对具体问题的详细分析，他们发现RPO不仅能够得出正确答案，还能通过连贯的推理过程展示推理步骤。相比之下，其他基线方法在没有详细解释的情况下，容易在第一步就出现错误。

常见错误及其修正也在案例研究中得到了详细讨论。通过逐步验证推理路径，RPO框架能够有效减少错误，提升模型的推理能力和可靠性。

基于代码的推理

除了自然语言推理，RPO框架还在代码推理中展现了良好的适用性。他们通过代码示例生成Python程序，得到输出答案。实验结果表明，RPO在文本和代码推理中均表现出相似的优势。这表明该框架不仅在自然语言处理任务中有效，还可以推广到其他领域，如代码生成和代码增强推理。

对比目标和参考路径的影响

在实验中，他们研究了不同对比目标和参考路径的影响。结果显示，RPO框架在不同对比目标下表现出一致的稳健性和性能提升。此外，使用多个参考路径能够进一步增强模型的推理能力，证明了RPO在处理复杂推理任务时的有效性。

通过这些实验结果，他们可以得出结论，Reasoning Paths Optimization框架通过优化推理路径，有效提高了大语言模型在复杂问题求解中的可靠性和效率。这进一步展示了该方法在多步推理任务中的巨大潜力，并为未来研究提供了重要的启示。

相关工作

一致性和基于偏好的优化

在人类反馈强化学习（RLHF）领域，很多研究致力于使大语言模型（LLMs）更好地与人类偏好对齐，并能够遵循指示。RLHF方法通过训练一个单独的奖励模型来提供标量反馈，然后使用该反馈对LLMs进行微调。然而，PPO算法虽然广泛应用，但其复杂性和不稳定性让训练过程充满挑战。此外，RLHF需要分阶段训练奖励模型和策略模型，这进一步增加了技术难度。为了解决这些问题，近来涌现了多种技术，包括直接偏好优化（DPO）、无偏好优化（IPO）、简化偏好优化（SimPO）和赔率比偏好优化（ORPO），这些技术在一定程度上消除了对奖励模型的需求，大大稳定并简化了训练过程。

这些优化方法通过成对比较模型生成的两个响应，推动模型为更有利的响应分配更高的概率。然而，这些偏好优化方法通常在整体上比较两个响应，忽视了多步推理任务中特定步骤及其后续分支中错误的影响。因此，他们提出了Reasoning Paths Optimization（RPO），该方法关注每个中间步骤，提供更精细的对比反馈，有效提高模型的推理能力。

大语言模型中的多步推理

大语言模型在多步推理任务中表现出色，能够通过逐步生成推理步骤来解决复杂的问题。研究表明，通过引导模型生成推理步骤，可以显著提升其多步推理能力。例如，链式思维提示通过向模型展示逐步推理的示例，帮助其学习如何逐步推理。尽管如此，LLMs在推理过程中仍然容易出现错误，特别是在面对复杂的多步推理任务时。为了解决这一问题，逐步验证推理路径成为一种有效的方法，能够在每个推理步骤中捕捉并纠正错误。

此外，最新研究尝试通过构建逐步标签来验证中间步骤，从而减少人工注释的成本。这些方法主要集中在训练验证器（即奖励模型），而他们的RPO框架则通过流程监督将验证方法应用于偏好优化，无需单独的奖励模型。

人工智能中的路径探索

在人工智能领域，路径探索技术被广泛应用于提高复杂任务的性能。比如，AlphaGo使用蒙特卡洛树搜索（MCTS）来探索可能的移动空间。类似地，树状提示（Tree-of-Thought prompting）通过探索语言模型生成的可能解决方案空间，提高模型的决策能力。其他研究也设计了基于树的解码策略，以寻找最佳解决方案。在推理任务中，先前的研究通过自采样解决方案进行训练，并通过树搜索生成路径，进一步优化模型性能。

受这些工作的启发，研究团队提出的RPO框架通过探索多样化的解决方案空间，并在训练期间利用有利和不利分支的对比反馈来优化模型。通过这种方式，他们不仅能够捕捉到推理过程中的错误，还能够通过对比反馈进一步提升模型的整体推理能力。

总结起来，研究团队提出的Reasoning Paths Optimization框架在推理路径生成、推理探索和推理优化方面提供了一种全新的方法。通过对比现有的偏好优化方法和多步推理技术，RPO框架展示了其在提高大语言模型推理能力方面的潜力和优势。

结论与未来工作

研究团队提出了一种新颖的训练框架，即推理路径优化（Reasoning Paths Optimization，简称RPO），旨在提升大语言模型在多步推理任务中的性能。通过生成、探索和优化多样化的推理路径，RPO框架展示了其在复杂问题求解中的卓越能力。该方法通过链式思维提示生成参考推理路径，并在推理过程中探索多个可能的解决分支，形成有利和不利的推理分支对。最终，通过对比反馈和优化，总损失函数结合参考路径损失和探索损失，有效提高了模型的整体推理能力。

实验结果表明，RPO在多个数据集上均表现出显著的性能提升，尤其是在GSM8K和MMLU-STEM数据集上，分别提高了3.1%和4.3%。这些结果证明了RPO框架在减少推理过程中错误发生，提高复杂问题求解中的可靠性和效率方面的优势。

尽管RPO框架展示了显著的性能提升，但其方法仍存在一些局限性。首先，RPO依赖于模型在训练阶段生成正确推理路径的能力，如果基础模型表现不佳，可能难以生成必要的正确路径，从而限制了方法的有效性。其次，生成和探索多个推理路径的过程相对计算密集，尽管这是训练中的一次性成本，但仍需大量计算资源支持，这在资源受限的环境中可能会成为瓶颈。

此外，RPO框架虽然无需大规模人工注释，但在生成初始参考路径和探索分支时，仍可能受到模型自身生成质量的影响。如果生成的参考路径不够准确，或者探索到的分支存在较多错误，可能会影响最终优化结果的质量。

未来的研究可以从以下几个方面进一步改进和扩展RPO框架。

增强基础模型的推理能力：可以考虑结合更多的训练数据和更先进的预训练模型，以提高基础模型在生成正确推理路径时的性能，从而增强RPO的整体效果。

优化计算资源的使用：针对生成和探索过程中的计算密集问题，研究可以尝试引入更加高效的采样和验证方法，以减少计算资源的消耗，提升训练效率。

扩展应用领域：RPO框架在自然语言处理中的推理任务表现优异，未来可以探索其在其他领域的应用，例如代码生成、科学计算和复杂系统建模等，验证其在更多任务中的适用性和有效性。

开发更健壮的验证机制：引入更加智能和自动化的验证机制，减少对模型生成质量的依赖，确保探索到的推理分支更加准确和有效。

人机协作优化：探索人类专家与RPO框架的协作，通过专家指导和反馈进一步优化推理路径，提升模型的整体推理能力和准确性。

总之，Reasoning Paths Optimization框架通过创新的方法和严谨的实验，展示了其在提升大语言模型多步推理能力方面的巨大潜力。尽管存在一些局限性，但随着技术的发展和研究的深入，RPO有望在更多复杂任务中发挥重要作用，推动人工智能技术的持续进步和应用。（END）

参考资料：https://arxiv.org/pdf/2410.10858

波动世界（PoppleWorld)是噬元兽数字容器的一款AI应用，是由AI技术驱动的帮助用户进行情绪管理的工具和传递情绪价值的社交产品，基于意识科学和情绪价值的理论基础。波动世界将人的意识和情绪作为研究和应用的对象，探索人的意识机制和特征，培养人的意识技能和习惯，满足人的意识体验和意义，提高人的自我意识、自我管理、自我调节、自我表达和自我实现的能力，让人获得真正的自由快乐和内在的力量。波动世界将建立一个指导我们的情绪和反应的价值体系。这是一款针对普通人的基于人类认知和行为模式的情感管理Dapp应用程序。

加入AI交流群请扫码加微信

http://mp.weixin.qq.com/s?__biz=MzA3NTY1MDY4MA==&mid=2247486704&idx=1&sn=a7ba6af341e4fd6044c893c722b6a070

大噬元兽

噬元兽FlerkenS 是一个去中心化的AI数字价值容器，捕捉数字时代新型资产，用数据飞轮把你的数据和内容转化成为你的财富，带你走进下一个智能互联网。

心理测量与语言学数据集PhDGPT：大模型的情感与认知分析

解密心智理论：从人类社会到人工智能的集体智慧提升之路

多智能体系统的金融交易,详解FinVision框架如何革新股票市场预测

智能调度新探索，多智能体强化学习在无关平行机调度中的应用

《自然》科学报告：大模型在社会情境判断方面可以胜过人类

微软研究院成果：用于解决复杂任务的Magentic-One通用多智能体系统

多智能体的文明之路，数字人类与AI社会的崛起

揭秘大模型中的神经网络，从ANs到类脑功能组织

中国科学院、上海人工智能实验室等联合团队重新定义语言模型发展，利用语言不平衡实现多语言自我改进

智能体协作进化论，从心智理论到逆向注意力

加州大学伯克利分校团队提出类脑推理的规范理论，泊松分布下的尖峰神经网络创新

谷歌与学术界联手，研究突破多智能体合作瓶颈的新算法

阿里巴巴“通义实验室”突破大模型推理瓶颈，MCoT框架展开在数学推理中的应用

亚马逊、微软、谷歌DeepMind 联合团队的杰作，POLYMATH 引领MLLMs多模态推理新基准

简洁胜于复杂，亚马逊研究团队提出基于LLM的Web代理AGENTOCCAM的研究与应用

从NLP到多智能体系统，通过BERTeam实现多智能体对抗中的最优组合

阿里巴巴达摩院、新加坡科技设计大学和南洋理工大学联合团队提升AI多步推理能力的新方法

人工智能与人类情感的交汇点：一致性评估方法的探索

斯坦福大学和伦敦大学学院联合打造多智能体系统中的安全防线，应对大模型即时感染

中科院、阿里巴巴、澳门科技大学联合团队提出微调LLM的新思路，探索顺序协作多智能体强化学习在LLM微调中的应用

从物理学到人工智能：用哈密顿力学提升AI推理能力

国家人机混合增强智能重点实验室项目：利用生成世界模型优化多智能体系统决策

香港科技大学、阿里巴巴集团和东南大学联合团队优化智能体协作系统，多智能体系统中代理导向规划的设计原则

OpenAI o1模型的规划能力评估：可行性、最优性与普遍性

《自然》Scientific Data：从数据到发现，AI在材料科学中的颠覆性应用

《自然》期刊：上海交通大学与上海人工智能研究所联合推出医学多语言模型

从 ASI到 AHI，人类与AI共生的发展之路

Google Research Scholar和DeepMind奖学金支持项目：多智能体系统中的合作弹性

自然（Nature）科学数据子刊：用于对话情境中情绪识别的 EEG-音频-视频数据集的创新应用

从CoT到ToT，多智能体与思维树结合突破复杂推理瓶颈

智能体在连续环境中的路径优化与冲突解决

基础模型重塑情感计算

从第二届MER2024-SEMI挑战赛看多模态情感识别的最新进展

智能体能自发形成社会吗？昆明理工大团队引入一种用于引发社会出现的生成式多智能体新架构

麻省理工研究团队革新科学研究方式,通过多智能体智能图推理实现科学发现自动化

从大脑到代码，神经科学启发的多智能体CortexCompile利用脑启发架构提升代码生成

自然（Nature）机器智能子刊：多智能体系统中的高效决策与去中心化强化学习的应用

2024人工智能峰会成功召开，华智未来强势发布20余项应用场景

多智能体路径规划新突破：AA-CCBS算法详解

人工智能应用场景高峰论坛暨成果发布会即将启幕，华智未来邀您共创新世界

NVIDIA 联合团队提出长视频理解的前沿技术BREASE，新框架连接情节和语义

从噪声中提取情感：中山大学与腾讯AI实验室基于元学习的多模态情感分析新方法

微软研究院发布无代码开发工具 AUTOGEN STUDIO，简化多智能体系统的构建与调试

从目标分配到路径规划，哈工大团队提出智能仓库的多智能体深度学习解决方案

多模态多智能体心智理论MuMA-ToM：推动AI理解复杂社会互动的前沿基准

情感与情绪在决策中的力量，多准则模糊群体决策系统的应用

多智能体系统中基于策略的资源交换逻辑

《自然》期刊发布最新科学报告：人工智能技术在个性化医疗中的创新与挑战

多智能体大模型协作中的角色不一致性：一致性、虚构性和模仿性

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉