香港科技大学、阿里巴巴集团和东南大学联合团队优化智能体协作系统，多智能体系统中代理导向规划的设计原则

文摘 2024-10-05 08:02 美国

多智能体系统（MAS）是通过多个具有不同专业知识和工具的智能体协作，共同解决复杂问题的系统。这些系统在现实世界中的应用非常广泛，包括机器人团队合作、分布式传感器网络、物流管理等。MAS的优势在于能够集成各个智能体的专长，形成更强大的问题解决能力。然而如何有效地规划和协调多个智能体之间的任务，是实现MAS效能的关键挑战。

智能体导向规划（Agent-Oriented Planning）是MAS中的一种重要规划方法。其核心概念是将用户查询分解为多个子任务，并分配给最适合的智能体来解决。这不仅涉及到对任务的细致分解，还需要考虑每个智能体的能力和特长，以确保任务的有效执行和最终结果的高质量。

10 月 4 日arXiv发表的热门技术论文《AGENT-ORIENTED PLANNING IN MULTI-AGENT SYSTEMS》研究的主要目的是评估和分析多智能体系统中的代理导向规划，通过实证研究揭示其在解决复杂实际问题中的潜力。研究将重点探讨代理导向规划在任务分解、任务分配以及实际执行中的有效性，揭示其优点和面临的挑战。同时研究团队希望通过这项研究，为未来的多智能体系统规划和设计提供有价值的见解和指导。

本研究由来自香港科技大学、阿里巴巴集团和东南大学的研究人员共同完成。团队成员包括Ao Li、Yuexiang Xie、Songze Li、Fugee Tsung、Bolin Ding和Yaliang Li，他们在多智能体系统和人工智能领域拥有丰富的研究经验和技术专长。这种跨学科的合作不仅丰富了研究的视角，也为研究结果提供了坚实的理论和实践基础。

研究方法

图1：多智能体系统中面向智能体的规划示例，涉及两个挑战（左侧）和三个设计原则（右侧）。

在本研究中，评估维度集中在可解性、完整性和非冗余性这三个关键方面。

可解性主要评估子任务是否能够被单个代理独立解决。这需要确保每个子任务可以被多智能体系统中的至少一个代理完全处理，从而保证每个子任务的响应是可靠的。如果一个子任务不能被单个代理解决，元代理就需要对其进行修改或进一步分解。

完整性则关注子任务集合是否包含了原始任务的所有必要信息。这意味着每个子任务的总和应该能全面覆盖用户查询的所有关键要素。如果分解后的子任务未能满足这一要求，元代理就需要重新审视和调整任务分解过程。

非冗余性旨在确保子任务集合中没有重复的元素。通过避免执行与解决用户查询无关或重复的任务，非冗余性原则促使子任务集合形成一个最小有效集，提高整体效率。

快速分解和分配

研究提出了一个快速任务分解和分配的过程，通过详细的系统提示，指导元代理执行代理导向规划。

首先，元代理接收用户查询，并结合所有代理的描述，将查询分解为多个子任务。此过程不仅考虑了每个代理的能力，还提供了分配给每个子任务的代理建议。尽管任务分解和分配通常是两个独立的任务，但实验表明，将这两个任务结合起来可以提高规划的有效性。

接下来，元代理按顺序结构化地分解任务，指定子任务之间可能存在的依赖关系，确保任务按正确的逻辑顺序执行。这一步骤有助于确保每个子任务的执行遵循预定计划。

图2：所提出的面向代理的规划框架的总体架构。

为了进一步提高任务分解和分配的准确性，研究还引入了奖励模型和代表性工作机制。奖励模型用于预测代理对子任务响应的质量，而代表性工作则记录了代理已成功解决的任务，以指导未来的任务分配和调整。

实验任务与分析

研究基于一个数值推理数据集进行实验，该数据集要求多个代理协同合作解决查询问题。例如，一个具体的查询问题是：“如果Sarah想购买一辆BMW X5和一辆Tesla Model 3，她需要多付多少钱来购买BMW X5？”解决这个问题需要首先搜索BMW X5和Tesla Model 3的价格，然后计算两者之间的价格差异。

数据集与评估

实验使用的数值推理数据集需要多个代理协同解决查询任务。训练数据集包括1440个查询，测试数据集包括292个标注查询。这些查询涉及多个主题，旨在评估多智能体系统在处理复杂任务时的性能。为了量化比较，研究提供了指导GPT-4o判断执行结果是否与真实值一致的指令，并使用准确性作为评价指标。

实验设置和评价指标

实验中，多智能体系统包括一个元代理和几个不同类型的代理，如代码代理、数学代理、搜索代理和常识代理。代码代理生成Python代码以进行精确计算，数学代理逐步推理回答数学问题，搜索代理调用Bing搜索API获取信息，常识代理使用常识推理回答问题。元代理负责将用户查询分解为子任务，并分配给最适合的代理执行这些子任务。

任务示例与分析

具体任务示例如前述的价格计算问题，需要先搜索相关信息，再进行计算。任务分解和代理分配的过程包括将查询分解为搜索价格和计算差异两个子任务，并分别分配给搜索代理和代码代理。元代理根据每个代理的描述和能力进行任务分配，确保每个子任务都能高效解决。

结果分析

实验结果显示，提出的代理导向规划框架在准确性方面显著优于基线方法。与单代理系统相比，提出的框架在准确性上有明显提升，尤其是通过多个不同代理的协作和元代理的有效调度。此外，尽管框架在推理阶段的资源消耗和推理时间较高，但这些额外成本带来了显著的性能提升，值得在实际应用中考虑。

设计原则与挑战

设计原则

在多智能体系统中，代理导向规划的有效性依赖于三个关键设计原则：可解性、完整性和非冗余性。这些原则旨在确保任务分解和分配的有效性和高效性。

可解性是指每个子任务都应当能够被系统中的至少一个代理独立解决。也就是说，每个子任务的解决方案应该是可靠的，不需要额外的外部资源或进一步的任务分解。如果某个子任务无法被单个代理解决，元代理需要对其进行调整或进一步细化。

完整性强调子任务集合应当涵盖原始任务的所有关键信息。这意味着所有分解出来的子任务共同应该能够完整地反映用户查询的所有要素，从而确保最终的响应能够全面回答用户的问题。如果子任务集合不满足这一要求，元代理需要重新审视分解过程，确保没有遗漏重要信息。

非冗余性要求子任务集合中不应包含冗余的元素。避免执行那些与解决用户查询无关或重复的任务，有助于提高效率。非冗余性原则促使子任务形成一个最小有效集，从而在解决问题时提高资源利用率和执行效率。

挑战与解决方案

在实际操作中，代理导向规划面临着一些挑战，主要集中在子任务描述的关键信息缺失和子任务过于复杂这两个方面。

子任务描述的关键信息缺失是一个常见问题。由于任务分解过程可能忽略某些上下文细节或关键术语，代理在执行子任务时可能无法提供满意的响应。为解决这一问题，研究团队设计了检测器，能够识别和补充子任务描述中的缺失信息，通过这种方式确保代理在执行任务时拥有所有必要的信息。

子任务过于复杂是另一个挑战。当一个子任务包含的内容超出了单个代理的能力范围时，代理可能只能解决其中的一部分。这种情况下，研究提出了进一步分解复杂子任务的机制，将其细化为更简单的子任务，以便多个代理协同完成。这不仅提高了任务解决的效率，也确保了复杂问题能够被有效解决。

系统性能与优化

在评估代理导向规划框架的系统性能时，研究团队首先将其与现有基线方法进行了详细比较。实验结果表明，该框架在多个维度上均表现出显著优势。与单代理系统如GPT-4o、CoT和Zero-Shot CoT相比，提出的代理导向规划框架在准确性上分别提升了10.4%、8.1%和11.5%。这种提升归因于多个代理间的协作以及元代理提供的有效调度。此外，多代理系统的协同工作显著提高了任务执行的效率和稳定性。

表1：拟议的面向代理的规划框架和基线之间的比较。

相比之下，虽然提出的框架在推理阶段消耗了更多的资源和时间，但这些投入换来了显著的性能提升。在实际应用中，这些额外的成本是值得的，因为它们带来了更高的准确性和稳定性。

此外，研究团队还将提出的方法与其他涉及元代理进行任务分解和分配的系统进行了比较，如Meta-Agent和Meta-Agent: Traversal。结果显示，提出的方法在准确性上至少提高了4.1%，并保持了相同水平的计算成本和推理时间。这表明，简单地指示GPT-4o执行任务分解和分配并不能总是产生令人满意的响应，而提出的框架通过引入自动评估和及时修改机制，有效地解决了这一问题。

消融研究

表2：消融研究的实验结果。

为确认不同组件在系统中的贡献，研究团队进行了消融研究。具体而言，研究团队分别禁用了检测器、奖励模型和代表性工作，并观察这些变更对系统性能的影响。结果表明，检测器对执行准确性有显著影响，缺少检测器会导致任务分解阶段的不完整率显著增加。奖励模型和代表性工作在确保任务的可解决性和选择最合适的代理方面也至关重要。所有这些组件共同作用，确保任务分解和分配的可行性，从而对原始用户查询产生满意的响应。

表3：评分者和奖励模型影响的实验结果。

在评分员和奖励模型的影响方面，研究团队还进行了额外的实验。利用人工评分员对响应进行手动评分，结果显示，无论是人工评分还是奖励模型的全参数调整，都能提高性能。这表明，通过提供高质量的数据集来训练健壮的奖励模型，可以进一步改进提出的代理导向规划框架。

未来研究方向

在探索多智能体系统的未来发展时，有几个方向值得深入研究。首先，在动态和不可预测环境中的测试至关重要。现实世界中，很多任务环境不断变化且充满不确定性。对多智能体系统在这种环境下的性能进行测试，可以评估其鲁棒性和适应性。通过模拟动态变化的场景，研究团队能够识别和优化系统在面对不确定性时的应对策略，从而提高系统的实际应用价值。

自我评估机制的改进也是未来研究的一个重要方向。当前的自我评估主要依赖于系统内部的反馈机制，而未来可以考虑引入更复杂的自我评估算法，使智能体能够更精确地判断其操作的正确性和有效性。这将大幅提升系统的自我纠错能力和自主学习能力，使其能够在不断变化的环境中保持高效和稳定的表现。

整合多模态输入是增强系统理解和处理复杂任务能力的关键一步。通过结合视觉、听觉和触觉等多种感官数据，智能体可以获得更丰富的信息，从而对任务环境有更全面的理解。例如，在机器人操作任务中，视觉数据可以帮助机器人更好地导航和识别对象，而触觉数据则可以提供对环境的细节感知。这种多模态输入的整合将显著提升智能体的决策能力和任务执行效率。

复杂多代理规划的扩展也是未来研究的重要领域。许多实际应用场景需要多个智能体之间的高度协同和合作。通过开发更先进的多代理规划算法，可以实现智能体之间的高效协调，优化资源分配，提高任务完成的整体效率。例如，在物流管理中，多智能体系统可以通过智能调度和路径规划，实现货物的快速运输和配送。

最后，人类反馈的持续学习是提升系统智能的重要途径。通过人类用户的互动反馈，智能体可以不断调整和优化其操作策略，提升系统的整体性能。未来研究可以探索更有效的反馈机制，使智能体能够及时获取用户的反馈意见，并将其转化为改进措施，从而实现系统的自我优化和进化。

总之，通过在以上几个方向的深入研究，多智能体系统有望在处理复杂任务和应对动态环境方面取得更大的突破，为现实世界中的各类应用提供强有力的支持。希望这些见解能够为未来研究提供有价值的参考，并推动该领域的进一步发展。(END)

参考资料：https://arxiv.org/pdf/2410.02189

波动世界（PoppleWorld)是噬元兽数字容器的一款AI应用，是由AI技术驱动的帮助用户进行情绪管理的工具和传递情绪价值的社交产品，基于意识科学和情绪价值的理论基础。波动世界将人的意识和情绪作为研究和应用的对象，探索人的意识机制和特征，培养人的意识技能和习惯，满足人的意识体验和意义，提高人的自我意识、自我管理、自我调节、自我表达和自我实现的能力，让人获得真正的自由快乐和内在的力量。波动世界将建立一个指导我们的情绪和反应的价值体系。这是一款针对普通人的基于人类认知和行为模式的情感管理Dapp应用程序。

加入AI交流群请扫码加微信

http://mp.weixin.qq.com/s?__biz=MzA3NTY1MDY4MA==&mid=2247486621&idx=1&sn=9a2c41d9381534184f8b962078726044

大噬元兽

噬元兽FlerkenS 是一个去中心化的AI数字价值容器，捕捉数字时代新型资产，用数据飞轮把你的数据和内容转化成为你的财富，带你走进下一个智能互联网。

心理测量与语言学数据集PhDGPT：大模型的情感与认知分析

解密心智理论：从人类社会到人工智能的集体智慧提升之路

多智能体系统的金融交易,详解FinVision框架如何革新股票市场预测

智能调度新探索，多智能体强化学习在无关平行机调度中的应用

《自然》科学报告：大模型在社会情境判断方面可以胜过人类

微软研究院成果：用于解决复杂任务的Magentic-One通用多智能体系统

多智能体的文明之路，数字人类与AI社会的崛起

揭秘大模型中的神经网络，从ANs到类脑功能组织

中国科学院、上海人工智能实验室等联合团队重新定义语言模型发展，利用语言不平衡实现多语言自我改进

智能体协作进化论，从心智理论到逆向注意力

加州大学伯克利分校团队提出类脑推理的规范理论，泊松分布下的尖峰神经网络创新

谷歌与学术界联手，研究突破多智能体合作瓶颈的新算法

阿里巴巴“通义实验室”突破大模型推理瓶颈，MCoT框架展开在数学推理中的应用

亚马逊、微软、谷歌DeepMind 联合团队的杰作，POLYMATH 引领MLLMs多模态推理新基准

简洁胜于复杂，亚马逊研究团队提出基于LLM的Web代理AGENTOCCAM的研究与应用

从NLP到多智能体系统，通过BERTeam实现多智能体对抗中的最优组合

阿里巴巴达摩院、新加坡科技设计大学和南洋理工大学联合团队提升AI多步推理能力的新方法

人工智能与人类情感的交汇点：一致性评估方法的探索

斯坦福大学和伦敦大学学院联合打造多智能体系统中的安全防线，应对大模型即时感染

中科院、阿里巴巴、澳门科技大学联合团队提出微调LLM的新思路，探索顺序协作多智能体强化学习在LLM微调中的应用

从物理学到人工智能：用哈密顿力学提升AI推理能力

国家人机混合增强智能重点实验室项目：利用生成世界模型优化多智能体系统决策

香港科技大学、阿里巴巴集团和东南大学联合团队优化智能体协作系统，多智能体系统中代理导向规划的设计原则

OpenAI o1模型的规划能力评估：可行性、最优性与普遍性

《自然》Scientific Data：从数据到发现，AI在材料科学中的颠覆性应用

《自然》期刊：上海交通大学与上海人工智能研究所联合推出医学多语言模型

从 ASI到 AHI，人类与AI共生的发展之路

Google Research Scholar和DeepMind奖学金支持项目：多智能体系统中的合作弹性

自然（Nature）科学数据子刊：用于对话情境中情绪识别的 EEG-音频-视频数据集的创新应用

从CoT到ToT，多智能体与思维树结合突破复杂推理瓶颈

智能体在连续环境中的路径优化与冲突解决

基础模型重塑情感计算

从第二届MER2024-SEMI挑战赛看多模态情感识别的最新进展

智能体能自发形成社会吗？昆明理工大团队引入一种用于引发社会出现的生成式多智能体新架构

麻省理工研究团队革新科学研究方式,通过多智能体智能图推理实现科学发现自动化

从大脑到代码，神经科学启发的多智能体CortexCompile利用脑启发架构提升代码生成

自然（Nature）机器智能子刊：多智能体系统中的高效决策与去中心化强化学习的应用

2024人工智能峰会成功召开，华智未来强势发布20余项应用场景

多智能体路径规划新突破：AA-CCBS算法详解

人工智能应用场景高峰论坛暨成果发布会即将启幕，华智未来邀您共创新世界

NVIDIA 联合团队提出长视频理解的前沿技术BREASE，新框架连接情节和语义

从噪声中提取情感：中山大学与腾讯AI实验室基于元学习的多模态情感分析新方法

微软研究院发布无代码开发工具 AUTOGEN STUDIO，简化多智能体系统的构建与调试

从目标分配到路径规划，哈工大团队提出智能仓库的多智能体深度学习解决方案

多模态多智能体心智理论MuMA-ToM：推动AI理解复杂社会互动的前沿基准

情感与情绪在决策中的力量，多准则模糊群体决策系统的应用

多智能体系统中基于策略的资源交换逻辑

《自然》期刊发布最新科学报告：人工智能技术在个性化医疗中的创新与挑战

多智能体大模型协作中的角色不一致性：一致性、虚构性和模仿性

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉