从CoT到ToT，多智能体与思维树结合突破复杂推理瓶颈

文摘 2024-09-21 08:04 美国

随着大模型新范式 OpenAI o1 的发布，AI 技术圈内掀起了一股热潮，大家开始探索其背后的技术细节。奥特曼将o1在推理模型中的地位比作语言模型中的GPT-2阶段。他认为，几年后人们将看到“推理模型的GPT-4”，不过在接下来的几个月里就会有重大改进，新范式的进步曲线非常陡峭。L2“推理者”与L1“聊天机器人”有很大不同，目前大家还在探索如何最佳利用这些模型，我们也尚未决定为APP继续添加哪些功能。不过最令人兴奋的是，L3“智能体”将会很快到来。推理模型让CoT（Chain of Thought）思维链引起了广泛关注。CoT 方法是只要允许 Transformer 模型生成足够多的中间推理 tokens，它们就能解决任何问题，从而使大型语言模型（LLMs）的推理能力达到新的高度。这一发现被认为可能是朝向 AGI（人工通用智能）迈出的重要一步。

在这之前，虽然LLMs在自然语言处理和生成任务中表现出色，但在处理复杂、多步骤的推理任务时，仍然存在显著的局限性。现有的LLMs往往缺乏系统性和可靠性，难以在复杂推理任务中提供准确和可信的答案。

9月19日发布的最新论文《Improving LLM Reasoning with Multi-Agent Tree-of-Thought Validator Agent》中，来自德克萨斯大学和自主实验室的研究团队提出了一种结合多智能体策略和思维树（ToT）方法的新方法，以增强LLMs的推理能力。该方法通过引入多智能体系统和思维验证器代理，旨在提高推理路径的探索深度和答案的可靠性。

这项研究由德克萨斯大学圣安东尼奥分校的安全人工智能与自主实验室（Secure AI and Autonomy Lab）主导，团队成员包括Fatemeh Haji、Mazal Bethany、Maryam Tabar、Anthony Rios和Peyman Najafirad。此外Jason Chiang来自Peraton实验室，为研究带来了不同的视角和专业知识。团队成员在人工智能和自主系统领域拥有丰富的研究经验和技术能力，致力于提升LLMs在复杂推理任务中的表现。

方法

多智能体系统是一种通过多个独立但协作的智能体来解决复杂问题的方法。在增强大型语言模型（LLMs）的推理能力方面，多智能体策略展现了巨大的潜力。每个智能体可以被赋予特定的角色和任务，从而在解决问题的过程中发挥其独特的优势。

在这项研究中，推理者（Reasoner）代理是多智能体系统的核心组件。每个推理者代理负责探索不同的推理路径，并尝试解决给定的问题。通过并行操作，多个推理者代理可以同时处理不同的推理路径，从而提高整体系统的效率和准确性。

推理者代理的主要功能

路径探索：推理者代理使用思维树（ToT）方法来探索多种可能的推理路径。每个推理者代理独立地生成和评估推理步骤，以找到最优解。
状态评估：在每个推理步骤中，推理者代理会评估当前状态的有效性和潜力。这一过程确保了推理路径的合理性和连贯性。
路径选择：推理者代理根据评估结果选择最有前途的路径进行进一步探索。这种选择机制有助于避免不必要的计算开销，并集中资源在最有可能成功的路径上。

通过这种多智能体策略，系统能够更全面地探索问题空间，提高解决复杂推理任务的能力。

思维树（Tree of Thoughts, ToT）方法是一种模拟人类思维过程的技术，通过分支和评估多种推理路径来解决复杂问题。ToT方法的核心思想是将问题分解为多个中间步骤，并在每个步骤中生成和评估多种可能的推理路径。

图1：该过程从多个Reasoner代理处理查询开始。每个Reasoner代理都使用ToT策略探索各种推理路径，其中包括思想步骤的分解、路径的生成、状态评估和路径选择。然后，思想验证器代理评估提出的推理分支，然后是基于共识的投票机制。

如果未达成共识，则启动新一轮推理，并纳入反馈。

ToT方法的主要优势在于其系统性和灵活性。与传统的线性推理方法不同，ToT方法允许模型同时探索多个推理路径，从而提高了找到最优解的概率。

思维生成：在每个推理步骤中，模型会生成多个可能的思维路径。这些路径代表了不同的推理方向和策略。

状态评估：对于每个生成的思维路径，模型会进行状态评估，判断其合理性和潜力。评估标准包括逻辑一致性、事实准确性和问题相关性等。

路径选择：根据评估结果，模型会选择最有前途的路径进行进一步探索。这一过程确保了推理过程的高效性和准确性。

通过这种方式，ToT方法能够模拟人类的思维过程，系统地探索问题空间，从而提高LLMs在复杂推理任务中的表现。

思维验证器代理在多智能体系统中扮演着至关重要的角色，其主要任务是验证推理路径的有效性和可靠性。思维验证器代理通过一系列严格的评估标准，确保最终的推理结果是逻辑一致、事实准确且完整的。

思维验证器代理的工作流程包括以下几个步骤：

逻辑一致性检查：验证推理路径的逻辑一致性，确保每个推理步骤之间的连贯性和合理性。任何逻辑上的跳跃或不一致都会被标记为错误。
事实准确性评估：检查推理路径中涉及的事实和数据的准确性，确保没有错误的事实或数据被引入推理过程。
完整性验证：评估推理路径的完整性，确保所有必要的方面都得到了充分的考虑和解决。任何重要的遗漏都会影响推理结果的可靠性。

通过这些严格的评估标准，思维验证器代理能够有效地过滤掉错误的推理路径，确保最终的推理结果是可信的。这一过程不仅提高了系统的准确性和可靠性，还增强了用户对LLMs推理能力的信任。结合多智能体策略、思维树方法和思维验证器代理的新方法，为提升LLMs在复杂推理任务中的表现提供了一种有效的解决方案。

实验

在本研究中，研究团队使用了GSM8K数据集来测试大型语言模型（LLMs）的算术推理能力。GSM8K数据集由8,500个高质量的数学文字题组成，这些题目由人类问题编写者精心设计，涵盖了多步骤的复杂算术问题。该数据集被广泛认为是测试LLMs推理能力的基准，因为它不仅要求模型具备强大的计算能力，还需要具备良好的逻辑推理能力。

表1：在GSM8K推理数据集上，我们的多代理ToT推理器与思维验证器与其他LLM推理方法的性能比较，在不同LLM之间进行评估。

为了确保实验的代表性和公平性，研究团队从GSM8K数据集中随机抽取了500个样本作为测试集。这些样本涵盖了各种难度和类型的问题，能够全面评估模型在不同情境下的表现。

在实验中，研究团队使用了多种大型语言模型，包括OpenAI的GPT-3.5 Turbo和GPT-4o-mini模型，以及Meta的Llama 3.1模型（8B和70B参数版本）。这些模型代表了当前最先进的语言模型技术，具有不同的参数规模和计算能力。

研究团队使用了以下模型和参数设置

GPT-3.5 Turbo：这是OpenAI的一个高性能模型，具有强大的推理和生成能力。

GPT-4o-mini：这是OpenAI的另一个模型版本，具有较小的参数规模，但在某些任务中表现出色。

Llama 3.1 8B：这是Meta的一个中等规模模型，具有8B参数，适用于多种推理任务。

Llama 3.1 70B：这是Meta的一个大规模模型，具有70B参数，能够处理更复杂的推理任务。

实验在四个Nvidia DGX A100 80 GB GPU上并行运行，整个实验过程耗时约18小时。为了确保结果的可靠性和一致性，研究团队在所有模型上使用了相同的参数设置和提示策略。

在实验中，研究团队比较了不同推理方法的性能，包括标准输入输出（IO）提示、链式思维（CoT）提示和思维树（ToT）提示。每种方法都有其独特的优势和应用场景，但研究团队特别关注了多智能体ToT推理器与思维验证器代理的表现。

标准IO提示：这是最基本的方法，直接将问题输入模型，并要求模型生成答案。尽管这种方法简单直接，但在处理复杂推理任务时往往表现不佳。

链式思维（CoT）提示：这种方法鼓励模型展示其推理过程，通过逐步生成中间推理步骤来解决问题。CoT提示在一定程度上提高了模型的推理能力，但在处理非常复杂的问题时仍然存在局限性。

思维树（ToT）提示：这种方法基于CoT提示，允许模型同时探索多种推理路径，从而提高了找到最优解的概率。ToT提示在处理复杂推理任务时表现出色，但其计算成本较高。

实验结果表明，多智能体ToT推理器与思维验证器代理在处理复杂算术推理任务时表现最佳。具体来说，使用多智能体ToT方法的模型在GSM8K数据集上的准确率显著高于其他方法。例如，GPT-3.5 Turbo模型在使用多智能体ToT方法时的准确率从75.4%提高到84.2%，而Llama 3.1 8B模型的准确率从80.2%提高到89.0%。

这些结果表明，多智能体ToT方法能够显著提高LLMs在复杂推理任务中的表现，特别是在需要系统性探索和验证推理路径的情境下。通过结合多智能体策略和思维验证器代理，研究团队能够更全面地探索问题空间，确保推理结果的准确性和可靠性。

实验提示语

研究团队设计了一系列精心编写的提示语，以指导大型语言模型（LLMs）在推理任务中的表现。这些提示语旨在引导模型生成更准确和连贯的推理路径。以下是实验中使用的主要提示语及其设计目的。

标准输入输出（IO）提示：

设计目的：作为基线方法，直接要求模型解决数学问题并以特定格式提供答案。

提示语：

Answer the following math problem. Your response should conclude with "the answer is n", where n is a number:

{input}

链式思维（CoT）提示：

设计目的：鼓励模型展示其推理过程，通过逐步生成中间推理步骤来解决问题。

提示语：

Answer the following question: {input}

Make a strategy, then write. Your output should be in the following format:

Strategy:

Your strategy about how to answer the question.

Answer:

Your answer to the question. It should end with "the answer is n", where n is a number.

思维树（ToT）提示：

设计目的：基于CoT提示，允许模型同时探索多种推理路径，从而提高找到最优解的概率。

提示语：

Answer the following question: {input}

Make a strategy, then write. Your output should be in the following format:

Strategy:

Your strategy about how to answer the question.

Answer:

Your answer to the question. It should end with "the answer is n", where n is a number.

验证提示语

思维验证器代理在多智能体系统中扮演着至关重要的角色，其主要任务是验证推理路径的有效性和可靠性。为了确保推理过程的准确性和连贯性，研究团队设计了以下验证提示语，指导思维验证器代理进行全面评估：

逻辑一致性检查：

设计目的：验证推理路径的逻辑一致性，确保每个推理步骤之间的连贯性和合理性。

提示语：

As a critical mathematical reasoning verifier, evaluate the following thought process, which builds upon previous steps to reach a final conclusion. Focus on:

1. Question Relevance:

- Ensure the entire reasoning process directly addresses the original question.

- Check if the final answer actually solves what was asked.

2. Reasoning Progression:

- Assess logical flow and consistency, especially in final steps.

- Verify mathematical operations’ correctness and appropriateness.

- Identify logical fallacies or unjustified leaps.

3. Factual Accuracy:

- Check accuracy and relevance of facts and numbers, particularly in final calculations.

- Spot any misuse of mathematical concepts.

4. Completeness:

- Ensure all necessary aspects are addressed, particularly in concluding thoughts.

- Identify significant omissions that could affect the result.

5. Critical Assessment:

- Actively seek potential errors or weak points.

- Don’t hesitate to invalidate reasoning if significant issues are found.

Provide a holistic evaluation of the entire reasoning process, from start to finish. Conclude with "Reasoning is Valid" only if the entire process is relevant, logically sound, and error-free. Otherwise, conclude with "Reasoning is Invalid" and briefly explain why.

通过这些提示语，思维验证器代理能够全面评估推理路径的逻辑一致性、事实准确性和完整性，确保最终的推理结果是可信的。这一过程不仅提高了系统的准确性，还增强了用户对LLMs推理能力的信任。实验提示语和验证提示语在本研究中发挥了关键作用，指导模型生成和评估推理路径，从而提高了LLMs在复杂推理任务中的表现。

讨论

研究团队通过实验验证了多智能体思维树（ToT）方法在增强大型语言模型（LLMs）推理能力方面的有效性。实验结果表明，多智能体ToT方法在处理复杂推理任务时表现出显著优势。

多智能体ToT方法通过并行操作多个推理者代理，能够同时探索多种推理路径。这种并行探索不仅提高了系统的效率，还增加了找到最优解的概率。实验结果显示，使用多智能体ToT方法的模型在GSM8K数据集上的准确率显著高于其他方法。例如，GPT-3.5 Turbo模型在使用多智能体ToT方法时的准确率从75.4%提高到84.2%，而Llama 3.1 8B模型的准确率从80.2%提高到89.0%。

思维验证器代理在确保推理路径的有效性和可靠性方面发挥了关键作用。通过严格的逻辑一致性检查、事实准确性评估和完整性验证，思维验证器代理能够有效过滤掉错误的推理路径，确保最终的推理结果是可信的。这一过程不仅提高了系统的准确性，还增强了用户对LLMs推理能力的信任。

此外实验结果还表明，多智能体ToT方法在不同模型和任务复杂性下表现出色。在处理较简单的任务时，标准输入输出（IO）提示和链式思维（CoT）提示也能取得较好的效果，但在处理复杂、多步骤的推理任务时，多智能体ToT方法的优势更加明显。这表明，多智能体ToT方法特别适用于需要系统性探索和验证推理路径的复杂任务。

尽管多智能体ToT方法在增强LLMs推理能力方面表现出色，但仍存在一些局限性需要进一步研究和改进。

首先计算成本是一个重要的限制因素，多智能体ToT方法需要并行操作多个推理者代理，并在每个推理步骤中生成和评估多种推理路径。这一过程需要大量的计算资源和时间。在本研究中，研究团队使用了四个Nvidia DGX A100 80 GB GPU并行运行实验，耗时约18小时。这表明，多智能体ToT方法在实际应用中可能面临计算资源和时间成本的挑战。

其次，固定的树结构可能导致次优性能。在当前的ToT方法中，树的宽度和深度是预先设定的，这可能在某些情况下导致次优性能。例如，对于一些可以通过较少推理步骤解决的问题，固定的树深度可能引入不必要的复杂性，增加了计算成本和错误的可能性。相反，对于需要更深入分析的问题，固定的树深度可能不足以充分探索所有可能的推理路径。

为了进一步提高多智能体ToT方法的性能和实用性，未来的研究可以从以下几个方面进行改进。

动态树结构：引入动态调整树宽度和深度的方法，根据问题的复杂性和推理路径的进展情况，灵活调整树的结构。这可以在保证推理质量的同时，减少不必要的计算开销。

优化计算资源：探索更高效的计算资源分配和管理策略，例如使用分布式计算和云计算技术，以降低计算成本和时间开销。

改进验证机制：进一步优化思维验证器代理的评估标准和算法，提高其在复杂推理任务中的准确性和效率。例如，可以引入更多的上下文信息和领域知识，增强验证器的评估能力。

扩展应用场景：将多智能体ToT方法应用于更多实际场景和任务中，验证其在不同领域和应用中的表现。例如，可以在医学诊断、法律推理和科学研究等领域进行测试，评估其在不同复杂任务中的适用性和效果。

综上所述，多智能体思维树验证器代理方法在增强LLMs推理能力方面展现了巨大的潜力。尽管存在一些局限性，但通过进一步的研究和改进，这一方法有望在未来的人工智能应用中发挥更大的作用，为解决复杂推理任务提供更加高效和可靠的解决方案。（END）

参考资料：https://arxiv.org/pdf/2409.11527

波动世界（PoppleWorld)是噬元兽数字容器的一款AI应用，是由AI技术驱动的帮助用户进行情绪管理的工具和传递情绪价值的社交产品，基于意识科学和情绪价值的理论基础。波动世界将人的意识和情绪作为研究和应用的对象，探索人的意识机制和特征，培养人的意识技能和习惯，满足人的意识体验和意义，提高人的自我意识、自我管理、自我调节、自我表达和自我实现的能力，让人获得真正的自由快乐和内在的力量。波动世界将建立一个指导我们的情绪和反应的价值体系。这是一款针对普通人的基于人类认知和行为模式的情感管理Dapp应用程序。

加入AI交流群请扫码加微信

http://mp.weixin.qq.com/s?__biz=MzA3NTY1MDY4MA==&mid=2247486533&idx=1&sn=76a3ce7cd31b2c82891a0ebf4a2e6b6c

大噬元兽

噬元兽FlerkenS 是一个去中心化的AI数字价值容器，捕捉数字时代新型资产，用数据飞轮把你的数据和内容转化成为你的财富，带你走进下一个智能互联网。

心理测量与语言学数据集PhDGPT：大模型的情感与认知分析

解密心智理论：从人类社会到人工智能的集体智慧提升之路

多智能体系统的金融交易,详解FinVision框架如何革新股票市场预测

智能调度新探索，多智能体强化学习在无关平行机调度中的应用

《自然》科学报告：大模型在社会情境判断方面可以胜过人类

微软研究院成果：用于解决复杂任务的Magentic-One通用多智能体系统

多智能体的文明之路，数字人类与AI社会的崛起

揭秘大模型中的神经网络，从ANs到类脑功能组织

中国科学院、上海人工智能实验室等联合团队重新定义语言模型发展，利用语言不平衡实现多语言自我改进

智能体协作进化论，从心智理论到逆向注意力

加州大学伯克利分校团队提出类脑推理的规范理论，泊松分布下的尖峰神经网络创新

谷歌与学术界联手，研究突破多智能体合作瓶颈的新算法

阿里巴巴“通义实验室”突破大模型推理瓶颈，MCoT框架展开在数学推理中的应用

亚马逊、微软、谷歌DeepMind 联合团队的杰作，POLYMATH 引领MLLMs多模态推理新基准

简洁胜于复杂，亚马逊研究团队提出基于LLM的Web代理AGENTOCCAM的研究与应用

从NLP到多智能体系统，通过BERTeam实现多智能体对抗中的最优组合

阿里巴巴达摩院、新加坡科技设计大学和南洋理工大学联合团队提升AI多步推理能力的新方法

人工智能与人类情感的交汇点：一致性评估方法的探索

斯坦福大学和伦敦大学学院联合打造多智能体系统中的安全防线，应对大模型即时感染

中科院、阿里巴巴、澳门科技大学联合团队提出微调LLM的新思路，探索顺序协作多智能体强化学习在LLM微调中的应用

从物理学到人工智能：用哈密顿力学提升AI推理能力

国家人机混合增强智能重点实验室项目：利用生成世界模型优化多智能体系统决策

香港科技大学、阿里巴巴集团和东南大学联合团队优化智能体协作系统，多智能体系统中代理导向规划的设计原则

OpenAI o1模型的规划能力评估：可行性、最优性与普遍性

《自然》Scientific Data：从数据到发现，AI在材料科学中的颠覆性应用

《自然》期刊：上海交通大学与上海人工智能研究所联合推出医学多语言模型

从 ASI到 AHI，人类与AI共生的发展之路

Google Research Scholar和DeepMind奖学金支持项目：多智能体系统中的合作弹性

自然（Nature）科学数据子刊：用于对话情境中情绪识别的 EEG-音频-视频数据集的创新应用

从CoT到ToT，多智能体与思维树结合突破复杂推理瓶颈

智能体在连续环境中的路径优化与冲突解决

基础模型重塑情感计算

从第二届MER2024-SEMI挑战赛看多模态情感识别的最新进展

智能体能自发形成社会吗？昆明理工大团队引入一种用于引发社会出现的生成式多智能体新架构

麻省理工研究团队革新科学研究方式,通过多智能体智能图推理实现科学发现自动化

从大脑到代码，神经科学启发的多智能体CortexCompile利用脑启发架构提升代码生成

自然（Nature）机器智能子刊：多智能体系统中的高效决策与去中心化强化学习的应用

2024人工智能峰会成功召开，华智未来强势发布20余项应用场景

多智能体路径规划新突破：AA-CCBS算法详解

人工智能应用场景高峰论坛暨成果发布会即将启幕，华智未来邀您共创新世界

NVIDIA 联合团队提出长视频理解的前沿技术BREASE，新框架连接情节和语义

从噪声中提取情感：中山大学与腾讯AI实验室基于元学习的多模态情感分析新方法

微软研究院发布无代码开发工具 AUTOGEN STUDIO，简化多智能体系统的构建与调试

从目标分配到路径规划，哈工大团队提出智能仓库的多智能体深度学习解决方案

多模态多智能体心智理论MuMA-ToM：推动AI理解复杂社会互动的前沿基准

情感与情绪在决策中的力量，多准则模糊群体决策系统的应用

多智能体系统中基于策略的资源交换逻辑

《自然》期刊发布最新科学报告：人工智能技术在个性化医疗中的创新与挑战

多智能体大模型协作中的角色不一致性：一致性、虚构性和模仿性

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉