基于共享信息池的多智能体协作，加州大学伯克利分校联合团队提出推箱子问题的创新解决方案

文摘 2024-11-22 08:00 美国

在多智能体系统（MAS）中，各个代理能够在没有中心控制器的情况下完成复杂任务，并适应动态环境。然而这些系统面临的一个主要挑战是代理之间的协调与合作。以推箱子问题为例，当代理在探索过程中从相反方向推箱子时，往往会施加相等且相反的力，导致箱子移动的最小化，从而使训练过程低效。现有的研究通常依赖强化学习来使代理获得完成任务所需的技能，但缺乏高效的协作机制。

加州大学伯克利分校、南加利福尼亚大学高级研究计算中心发表技术论文《Efficient Training in Multi-Agent Reinforcement Learning: A Communication-Free Framework for the Box-Pushing Problem》，他们提出了一种名为“共享信息池”（SPI）的模型，通过提供共享信息来减少代理之间的力冲突，从而提高探索效率。SPI的设计旨在不需要增加通信开销或复杂性，便能增强多智能体系统的协调能力。通过计算机模拟，研究团队展示了SPI不仅加快了训练过程，还显著提高了代理的协作效率。该研究的成果对于广泛的多智能体应用具有重要意义，包括机器人群体、分布式控制系统等。

该研究团队由两位人工智能科学家组成，David Ge来自加利福尼亚大学伯克利分校计算机科学系，专注于多智能体系统和强化学习的研究。Hao Ji来自南加利福尼亚大学高级研究计算中心，研究重点为计算科学和多智能体系统。他们的合作旨在通过提出一个无通信框架，提升代理在推箱子任务中的协调效率，解决多智能体系统中的关键问题。

研究方法

在多智能体强化学习中的推箱子问题研究中，研究方法的设计和实施至关重要。研究团队通过一系列精细设计的实验，验证共享信息池（SPI）模型的有效性。

图1：盒子环境示意图。

图1显示了由补丁、障碍物、代理、盒子和目标组成的环境。该环境是使用Pygame库构建的。图形说明演示了推箱任务的可能状态，其中代理（绿色框）推箱（黑色框）。特工绕过障碍物（由红圈表示）和墙壁（由黑线表示）到达目标（由蓝钻石表示）。当盒子的外周与球门的任何区域碰撞时，成功就发生了，当盒子的外表碰到障碍物或任何墙壁时，失败就发生了。当盒子在300步以下无法达到目标时，也可能发生失败。

环境设计与模拟

为了模拟多智能体系统执行推箱任务，研究团队选择了Pygame库来构建实验环境。Pygame是一个基于Python的开源库，广泛用于游戏开发，它提供了丰富的图形处理和游戏控制功能，非常适合创建复杂的模拟环境。

实验环境由多个元素组成，每个元素在模拟中都有特定的作用。补丁代表地面，代理在其上移动。障碍物是静态的物体，代理必须避开它们。代理是自主的智能体，它们的目标是推箱子。箱子是需要被推动的物体，目标是将其移动到指定的位置。最后，目标则是箱子需要到达的区域，代表任务完成的最终目的地。

动作空间和状态空间

图2：动作空间示意图。

在实验中，每个代理可以在六个可能的区域内选择一个区域施加力来推动箱子。这六个区域是箱子邻域内不同的作用点，每个时间步代理都要选择一个区域进行动作。每个区域用a1到a6表示，代理选择的区域在动作空间A中标记为1，未选择的区域标记为0。

图3：状态空间示意图。

代理依赖环境传感器获取周围信息。传感器能够在150像素的半径内检测环境信息，包括障碍物的位置和箱子与目标之间的角度。这些信息被转换为状态空间S，状态空间由九个值表示，其中s1到s8代表八个方向的障碍物和墙壁状态，s9表示箱子与目标之间的角度。角度值的范围是-1到1，通过这些数据，代理可以做出最优决策。

奖励机制

为了有效地引导代理完成任务，设计了多种奖励机制。距离奖励根据箱子靠近目标的位置变化计算，公式为：

旋转奖励旨在减少箱子的过度旋转，公式为：

碰撞惩罚用于处理箱子碰到障碍物或墙壁的情况，公式为：

目标奖励在箱子成功到达目标时给出，公式为：

总奖励公式的计算

总奖励是上述奖励的加权和，其中每个奖励项都有固定的权重。总奖励公式为：

这些奖励机制确保了代理在训练过程中朝着正确的方向进行探索，避免不必要的行为。

速度因子

速度因子是控制代理施加力的关键参数，影响箱子的位移和旋转。在实验中，通过将速度因子设定为原值的三分之一和二分之一，限制了单个代理的推力，迫使代理通过合作来完成任务。这样设定确保了代理之间需要协作，无法单独高效地移动箱子，从而增强了合作的重要性。

图4：此图说明了代理在训练期间选择操作的过程。

共享信息池（SPI）

共享信息池（SPI）的主要目的是通过提供共享信息来促进隐式协调，减少代理之间的力冲突。SPI由地图和钥匙两部分组成，共同作用使代理能够在无通信的情况下实现高效合作。

SPI包括地图和钥匙两个部分。地图提供了一个理想化的概率分布，描述所有代理同时推箱子时可能的结果。这种分布模拟了在所有代理作为一个整体行动或由一个中心实体控制的情况下，箱子的运动方式。钥匙用于解读地图中的概率分布，使每个代理可以基于共享信息进行伪随机探索。钥匙必须是可随机化的，并且随机范围应大于实验中的代理数量，确保所有代理没有偏向任何特定的分布。

每个训练步生成新的钥匙，所有代理可观察并读取这个值决定动作。具体来说，钥匙通过Python的random库随机生成，在每次训练步中生成一个新的随机值。钥匙必须确保其分布均匀，避免代理对特定分布产生偏见。

PDL（概率分布列表）的生成是SPI的核心过程。首先生成初始值并进行归一化，然后根据这些值创建一个4×4矩阵。接着通过特定变换将其扩展为4×6矩阵，确保每列值符合概率分布。最终对4×6矩阵的每一行进行归一化，确保总和为1。生成的PDL提供了代理在不同钥匙值情况下的动作选择概率分布。

表1：有效和无效PDL示例。

为了验证SPI的有效性，设计了起源避免和角度均匀性测试。起源避免测试评估代理能将箱子移动足够远的时间百分比，如果箱子总位移小于最大位移的三分之一，则认为其接近起源，通过接近起源次数与总测试次数比值衡量合作效果。角度均匀性测试评估箱子能否以相等概率向各方向移动，通过计算角度的变异系数（CV）衡量均匀性，低CV表示高均匀性，反映代理协调能力更强。

实验与结果

实验设计

为了验证共享信息池（SPI）在多智能体强化学习推箱子任务中的有效性，研究团队设计了一系列实验。实验环境由Pygame库构建，包含补丁、障碍物、代理、箱子和目标。实验的主要目的是评估SPI在训练效率和代理协调方面的表现，与随机探索方法进行比较。

实验设置了两个速度因子：1/2和1/3，以考察不同施力强度下的代理表现。速度因子的减少旨在限制单个代理的推力，从而增强合作的必要性。此外，研究团队还设定了PDL（概率分布列表）的数量，确保在多个训练集上进行充分测试。最终实验选择了4000个PDL，以确保较高的角度扩散适应性得分。

图5：针对不同的边际和上限值测试了角度回避适应度得分。较浅的线条代表较高的边距和上限值。较暗的线条表示较低的边距和上限值。

为了全面评估SPI的性能，实验中测量了成功率、步骤数和奖励。成功率衡量箱子到达目标的频率，步骤数记录每个时间步代理的动作选择，奖励则根据距离、旋转、碰撞和目标奖励进行计算。

实验结果分析

实验结果显示，SPI在训练效率和代理协调方面表现优越。在成功率方面，SPI明显优于随机探索。在1/3速度因子的设定下，SPI的成功率在训练后期显著高于随机探索，这表明SPI能够更快地找到高效路径。

图6：使用0.3的裕度值和0.1的上限值计算不同数量的PDL的角度回避适应度得分。

步骤数分析显示，SPI在成功步数和失败步数上的表现也优于随机探索。特别是在训练早期，SPI能够找到更高效的成功路线。在训练后期，SPI的成功步数保持稳定，而随机探索的代理在学习快速达到目标方面表现不佳。

在奖励对比中，SPI同样表现出色。在训练初期，两个速度因子下的代理奖励相似。然而，随着训练的进展，SPI在1/3速度因子下持续获得更高的奖励。这表明SPI能够有效地减少代理间的力冲突，提高训练效率。

图7:SPI和随机勘探的比较。

综合分析表明，共享信息池（SPI）作为一种无通信框架，在多智能体强化学习中的推箱子任务中表现出了显著的优势。它不仅提高了代理的训练效率，还增强了多智能体系统的协调能力，为未来更多复杂任务的应用提供了可能性。

图8：该图显示了盒子在训练中达到目标的成功率。

讨论

在多智能体强化学习中的推箱子任务研究中，SPI的有效性和优越性得到了充分体现。与传统的随机探索方法相比，SPI显示出显著的优势。其通过共享信息池的方式，减少了代理之间的力冲突，从而提高了训练效率。这不仅在成功率和奖励上反映出更优的表现，还在步骤数上显示了更高的训练效率。

与随机探索相比，SPI通过提供一个共同的参考框架，使代理能够更高效地协调动作。这种隐式协调方式，使得代理在无需直接通信的情况下，就能够共同实现任务目标。在训练过程中，SPI使代理更少出现相互抵消的动作，从而实现更快的学习和更高效的路径选择。这一特点使得SPI在多智能体系统中具有广泛的适用性，特别是在需要高效协调和快速响应的应用场景中，如机器人群体和分布式控制系统。

去中心化系统中的应用潜力是SPI的另一大优势。由于SPI不依赖于中心化的控制器或通信渠道，代理可以独立工作但基于共享的信息进行协调。这使得SPI在通信受限或不可用的环境中尤为有用。例如，在灾难救援或深空探索等极端条件下，SPI能够确保多智能体系统仍能有效合作完成任务。

然而SPI的有效性也受到环境的影响。在需要频繁微调动作以避开障碍物的环境中，SPI的最大化位移策略可能会失效。这样的环境下，代理可能需要较多的微小动作来避免碰撞，此时SPI的效果会大打折扣。此外在更复杂的环境中，SPI需要进一步改进其数据结构，以适应多样化的任务需求。研究团队建议，未来可以探索更加动态和自适应的SPI算法，能够根据不同环境和任务需求进行调整，以提升其通用性和适应性。

SPI在多智能体系统中的高效训练展示了其巨大的潜力。未来的研究可以继续深化SPI在更复杂和多样化环境中的应用，进一步验证其在不同应用场景下的有效性和稳定性。

结论

研究团队通过引入共享信息池（SPI）模型，在多智能体强化学习中的推箱子问题上取得了显著进展。研究的主要发现表明，SPI通过提供共享的环境信息，显著减少了代理之间的力冲突，从而大幅提高了训练效率和代理间的合作效果。SPI模型在训练过程中表现出色，尤其是在代理需同时协作完成复杂任务的情景下，其效果尤为显著。

具体来说，SPI在推箱问题中的表现出众。通过计算机模拟，我们发现使用SPI的代理在成功率、步骤数和奖励等方面均显著优于采用随机探索的代理。SPI不仅加快了训练过程，还显著提升了代理的协作效率，展示了其作为一种无通信框架的强大潜力。

未来的研究方向将集中在不同SPI算法的测试和更复杂环境下的应用和评估上。首先，可以进一步探索不同的SPI算法，以优化代理的协调和合作策略。其次，在更复杂的环境中应用SPI，评估其在多样化任务中的适应性和有效性，将是未来研究的重要课题。最后，研究SPI在动态和不可预测环境中的表现，以及如何在这些条件下进一步提升其效率和稳定性，也是未来研究的方向。

总的来说，SPI模型为多智能体系统中的高效协调提供了一个新颖且有效的解决方案，为未来的研究和应用奠定了坚实的基础。（END）

参考资料：https://arxiv.org/pdf/2411.12246

波动世界（PoppleWorld)是噬元兽数字容器的一款AI应用，基于意识科学和情绪价值的理论基础，通过AI技术驱动帮助用户进行情绪管理的工具和传递情绪价值的社交产品，波动世界将人的意识和情绪作为研究和应用的对象，探索人的意识机制和特征，培养人的意识技能和习惯，满足人的意识体验和意义，提高人的自我意识、自我管理、自我调节、自我表达和自我实现的能力，让人获得真正的自由快乐和内在的力量。波动世界将建立一个指导我们的情绪和反应的价值体系。这是一款针对普通人的基于人类认知和行为模式的情感管理Dapp应用程序。

加入AI交流群请扫码加微信

http://mp.weixin.qq.com/s?__biz=MzA3NTY1MDY4MA==&mid=2247486944&idx=1&sn=b21d27ac29c91067f6eaca853fd163c8

大噬元兽

噬元兽FlerkenS 是一个去中心化的AI数字价值容器，捕捉数字时代新型资产，用数据飞轮把你的数据和内容转化成为你的财富，带你走进下一个智能互联网。

心理测量与语言学数据集PhDGPT：大模型的情感与认知分析

解密心智理论：从人类社会到人工智能的集体智慧提升之路

多智能体系统的金融交易,详解FinVision框架如何革新股票市场预测

智能调度新探索，多智能体强化学习在无关平行机调度中的应用

《自然》科学报告：大模型在社会情境判断方面可以胜过人类

微软研究院成果：用于解决复杂任务的Magentic-One通用多智能体系统

多智能体的文明之路，数字人类与AI社会的崛起

揭秘大模型中的神经网络，从ANs到类脑功能组织

中国科学院、上海人工智能实验室等联合团队重新定义语言模型发展，利用语言不平衡实现多语言自我改进

智能体协作进化论，从心智理论到逆向注意力

加州大学伯克利分校团队提出类脑推理的规范理论，泊松分布下的尖峰神经网络创新

谷歌与学术界联手，研究突破多智能体合作瓶颈的新算法

阿里巴巴“通义实验室”突破大模型推理瓶颈，MCoT框架展开在数学推理中的应用

亚马逊、微软、谷歌DeepMind 联合团队的杰作，POLYMATH 引领MLLMs多模态推理新基准

简洁胜于复杂，亚马逊研究团队提出基于LLM的Web代理AGENTOCCAM的研究与应用

从NLP到多智能体系统，通过BERTeam实现多智能体对抗中的最优组合

阿里巴巴达摩院、新加坡科技设计大学和南洋理工大学联合团队提升AI多步推理能力的新方法

人工智能与人类情感的交汇点：一致性评估方法的探索

斯坦福大学和伦敦大学学院联合打造多智能体系统中的安全防线，应对大模型即时感染

中科院、阿里巴巴、澳门科技大学联合团队提出微调LLM的新思路，探索顺序协作多智能体强化学习在LLM微调中的应用

从物理学到人工智能：用哈密顿力学提升AI推理能力

国家人机混合增强智能重点实验室项目：利用生成世界模型优化多智能体系统决策

香港科技大学、阿里巴巴集团和东南大学联合团队优化智能体协作系统，多智能体系统中代理导向规划的设计原则

OpenAI o1模型的规划能力评估：可行性、最优性与普遍性

《自然》Scientific Data：从数据到发现，AI在材料科学中的颠覆性应用

《自然》期刊：上海交通大学与上海人工智能研究所联合推出医学多语言模型

从 ASI到 AHI，人类与AI共生的发展之路

Google Research Scholar和DeepMind奖学金支持项目：多智能体系统中的合作弹性

自然（Nature）科学数据子刊：用于对话情境中情绪识别的 EEG-音频-视频数据集的创新应用

从CoT到ToT，多智能体与思维树结合突破复杂推理瓶颈

智能体在连续环境中的路径优化与冲突解决

基础模型重塑情感计算

从第二届MER2024-SEMI挑战赛看多模态情感识别的最新进展

智能体能自发形成社会吗？昆明理工大团队引入一种用于引发社会出现的生成式多智能体新架构

麻省理工研究团队革新科学研究方式,通过多智能体智能图推理实现科学发现自动化

从大脑到代码，神经科学启发的多智能体CortexCompile利用脑启发架构提升代码生成

自然（Nature）机器智能子刊：多智能体系统中的高效决策与去中心化强化学习的应用

2024人工智能峰会成功召开，华智未来强势发布20余项应用场景

多智能体路径规划新突破：AA-CCBS算法详解

人工智能应用场景高峰论坛暨成果发布会即将启幕，华智未来邀您共创新世界

NVIDIA 联合团队提出长视频理解的前沿技术BREASE，新框架连接情节和语义

从噪声中提取情感：中山大学与腾讯AI实验室基于元学习的多模态情感分析新方法

微软研究院发布无代码开发工具 AUTOGEN STUDIO，简化多智能体系统的构建与调试

从目标分配到路径规划，哈工大团队提出智能仓库的多智能体深度学习解决方案

多模态多智能体心智理论MuMA-ToM：推动AI理解复杂社会互动的前沿基准

情感与情绪在决策中的力量，多准则模糊群体决策系统的应用

多智能体系统中基于策略的资源交换逻辑

《自然》期刊发布最新科学报告：人工智能技术在个性化医疗中的创新与挑战

多智能体大模型协作中的角色不一致性：一致性、虚构性和模仿性

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉