基于共享信息池的多智能体协作,加州大学伯克利分校联合团队提出推箱子问题的创新解决方案

文摘   2024-11-22 08:00   美国  

在多智能体系统(MAS)中,各个代理能够在没有中心控制器的情况下完成复杂任务,并适应动态环境。然而这些系统面临的一个主要挑战是代理之间的协调与合作。以推箱子问题为例,当代理在探索过程中从相反方向推箱子时,往往会施加相等且相反的力,导致箱子移动的最小化,从而使训练过程低效。现有的研究通常依赖强化学习来使代理获得完成任务所需的技能,但缺乏高效的协作机制。

加州大学伯克利分校、南加利福尼亚大学高级研究计算中心发表技术论文《Efficient Training in Multi-Agent Reinforcement Learning: A Communication-Free Framework for the Box-Pushing Problem》,他们提出了一种名为“共享信息池”(SPI)的模型,通过提供共享信息来减少代理之间的力冲突,从而提高探索效率。SPI的设计旨在不需要增加通信开销或复杂性,便能增强多智能体系统的协调能力。通过计算机模拟,研究团队展示了SPI不仅加快了训练过程,还显著提高了代理的协作效率。该研究的成果对于广泛的多智能体应用具有重要意义,包括机器人群体、分布式控制系统等。

该研究团队由两位人工智能科学家组成,David Ge来自加利福尼亚大学伯克利分校计算机科学系,专注于多智能体系统和强化学习的研究。Hao Ji来自南加利福尼亚大学高级研究计算中心,研究重点为计算科学和多智能体系统。他们的合作旨在通过提出一个无通信框架,提升代理在推箱子任务中的协调效率,解决多智能体系统中的关键问题。

研究方法

在多智能体强化学习中的推箱子问题研究中,研究方法的设计和实施至关重要。研究团队通过一系列精细设计的实验,验证共享信息池(SPI)模型的有效性。

图1:盒子环境示意图。

图1显示了由补丁、障碍物、代理、盒子和目标组成的环境。该环境是使用Pygame库构建的。图形说明演示了推箱任务的可能状态,其中代理(绿色框)推箱(黑色框)。特工绕过障碍物(由红圈表示)和墙壁(由黑线表示)到达目标(由蓝钻石表示)。当盒子的外周与球门的任何区域碰撞时,成功就发生了,当盒子的外表碰到障碍物或任何墙壁时,失败就发生了。当盒子在300步以下无法达到目标时,也可能发生失败。

环境设计与模拟

为了模拟多智能体系统执行推箱任务,研究团队选择了Pygame库来构建实验环境。Pygame是一个基于Python的开源库,广泛用于游戏开发,它提供了丰富的图形处理和游戏控制功能,非常适合创建复杂的模拟环境。

实验环境由多个元素组成,每个元素在模拟中都有特定的作用。补丁代表地面,代理在其上移动。障碍物是静态的物体,代理必须避开它们。代理是自主的智能体,它们的目标是推箱子。箱子是需要被推动的物体,目标是将其移动到指定的位置。最后,目标则是箱子需要到达的区域,代表任务完成的最终目的地。

动作空间和状态空间

图2:动作空间示意图。

在实验中,每个代理可以在六个可能的区域内选择一个区域施加力来推动箱子。这六个区域是箱子邻域内不同的作用点,每个时间步代理都要选择一个区域进行动作。每个区域用a1到a6表示,代理选择的区域在动作空间A中标记为1,未选择的区域标记为0。

图3:状态空间示意图。

代理依赖环境传感器获取周围信息。传感器能够在150像素的半径内检测环境信息,包括障碍物的位置和箱子与目标之间的角度。这些信息被转换为状态空间S,状态空间由九个值表示,其中s1到s8代表八个方向的障碍物和墙壁状态,s9表示箱子与目标之间的角度。角度值的范围是-1到1,通过这些数据,代理可以做出最优决策。

奖励机制

为了有效地引导代理完成任务,设计了多种奖励机制。距离奖励根据箱子靠近目标的位置变化计算,公式为:

旋转奖励旨在减少箱子的过度旋转,公式为:

碰撞惩罚用于处理箱子碰到障碍物或墙壁的情况,公式为:

目标奖励在箱子成功到达目标时给出,公式为:

总奖励公式的计算

总奖励是上述奖励的加权和,其中每个奖励项都有固定的权重。总奖励公式为:

这些奖励机制确保了代理在训练过程中朝着正确的方向进行探索,避免不必要的行为。

速度因子

速度因子是控制代理施加力的关键参数,影响箱子的位移和旋转。在实验中,通过将速度因子设定为原值的三分之一和二分之一,限制了单个代理的推力,迫使代理通过合作来完成任务。这样设定确保了代理之间需要协作,无法单独高效地移动箱子,从而增强了合作的重要性。

图4:此图说明了代理在训练期间选择操作的过程。

共享信息池(SPI)

共享信息池(SPI)的主要目的是通过提供共享信息来促进隐式协调,减少代理之间的力冲突。SPI由地图和钥匙两部分组成,共同作用使代理能够在无通信的情况下实现高效合作。

SPI包括地图和钥匙两个部分。地图提供了一个理想化的概率分布,描述所有代理同时推箱子时可能的结果。这种分布模拟了在所有代理作为一个整体行动或由一个中心实体控制的情况下,箱子的运动方式。钥匙用于解读地图中的概率分布,使每个代理可以基于共享信息进行伪随机探索。钥匙必须是可随机化的,并且随机范围应大于实验中的代理数量,确保所有代理没有偏向任何特定的分布。

每个训练步生成新的钥匙,所有代理可观察并读取这个值决定动作。具体来说,钥匙通过Python的random库随机生成,在每次训练步中生成一个新的随机值。钥匙必须确保其分布均匀,避免代理对特定分布产生偏见。

PDL(概率分布列表)的生成是SPI的核心过程。首先生成初始值并进行归一化,然后根据这些值创建一个4×4矩阵。接着通过特定变换将其扩展为4×6矩阵,确保每列值符合概率分布。最终对4×6矩阵的每一行进行归一化,确保总和为1。生成的PDL提供了代理在不同钥匙值情况下的动作选择概率分布。

表1:有效和无效PDL示例。

为了验证SPI的有效性,设计了起源避免和角度均匀性测试。起源避免测试评估代理能将箱子移动足够远的时间百分比,如果箱子总位移小于最大位移的三分之一,则认为其接近起源,通过接近起源次数与总测试次数比值衡量合作效果。角度均匀性测试评估箱子能否以相等概率向各方向移动,通过计算角度的变异系数(CV)衡量均匀性,低CV表示高均匀性,反映代理协调能力更强。

实验与结果

实验设计

为了验证共享信息池(SPI)在多智能体强化学习推箱子任务中的有效性,研究团队设计了一系列实验。实验环境由Pygame库构建,包含补丁、障碍物、代理、箱子和目标。实验的主要目的是评估SPI在训练效率和代理协调方面的表现,与随机探索方法进行比较。

实验设置了两个速度因子:1/2和1/3,以考察不同施力强度下的代理表现。速度因子的减少旨在限制单个代理的推力,从而增强合作的必要性。此外,研究团队还设定了PDL(概率分布列表)的数量,确保在多个训练集上进行充分测试。最终实验选择了4000个PDL,以确保较高的角度扩散适应性得分。

图5:针对不同的边际和上限值测试了角度回避适应度得分。较浅的线条代表较高的边距和上限值。较暗的线条表示较低的边距和上限值。

为了全面评估SPI的性能,实验中测量了成功率、步骤数和奖励。成功率衡量箱子到达目标的频率,步骤数记录每个时间步代理的动作选择,奖励则根据距离、旋转、碰撞和目标奖励进行计算。

实验结果分析

实验结果显示,SPI在训练效率和代理协调方面表现优越。在成功率方面,SPI明显优于随机探索。在1/3速度因子的设定下,SPI的成功率在训练后期显著高于随机探索,这表明SPI能够更快地找到高效路径。

图6:使用0.3的裕度值和0.1的上限值计算不同数量的PDL的角度回避适应度得分。

步骤数分析显示,SPI在成功步数和失败步数上的表现也优于随机探索。特别是在训练早期,SPI能够找到更高效的成功路线。在训练后期,SPI的成功步数保持稳定,而随机探索的代理在学习快速达到目标方面表现不佳。

在奖励对比中,SPI同样表现出色。在训练初期,两个速度因子下的代理奖励相似。然而,随着训练的进展,SPI在1/3速度因子下持续获得更高的奖励。这表明SPI能够有效地减少代理间的力冲突,提高训练效率。

图7:SPI和随机勘探的比较。

综合分析表明,共享信息池(SPI)作为一种无通信框架,在多智能体强化学习中的推箱子任务中表现出了显著的优势。它不仅提高了代理的训练效率,还增强了多智能体系统的协调能力,为未来更多复杂任务的应用提供了可能性。

图8:该图显示了盒子在训练中达到目标的成功率。

讨论

在多智能体强化学习中的推箱子任务研究中,SPI的有效性和优越性得到了充分体现。与传统的随机探索方法相比,SPI显示出显著的优势。其通过共享信息池的方式,减少了代理之间的力冲突,从而提高了训练效率。这不仅在成功率和奖励上反映出更优的表现,还在步骤数上显示了更高的训练效率。

与随机探索相比,SPI通过提供一个共同的参考框架,使代理能够更高效地协调动作。这种隐式协调方式,使得代理在无需直接通信的情况下,就能够共同实现任务目标。在训练过程中,SPI使代理更少出现相互抵消的动作,从而实现更快的学习和更高效的路径选择。这一特点使得SPI在多智能体系统中具有广泛的适用性,特别是在需要高效协调和快速响应的应用场景中,如机器人群体和分布式控制系统。

去中心化系统中的应用潜力是SPI的另一大优势。由于SPI不依赖于中心化的控制器或通信渠道,代理可以独立工作但基于共享的信息进行协调。这使得SPI在通信受限或不可用的环境中尤为有用。例如,在灾难救援或深空探索等极端条件下,SPI能够确保多智能体系统仍能有效合作完成任务。

然而SPI的有效性也受到环境的影响。在需要频繁微调动作以避开障碍物的环境中,SPI的最大化位移策略可能会失效。这样的环境下,代理可能需要较多的微小动作来避免碰撞,此时SPI的效果会大打折扣。此外在更复杂的环境中,SPI需要进一步改进其数据结构,以适应多样化的任务需求。研究团队建议,未来可以探索更加动态和自适应的SPI算法,能够根据不同环境和任务需求进行调整,以提升其通用性和适应性。

SPI在多智能体系统中的高效训练展示了其巨大的潜力。未来的研究可以继续深化SPI在更复杂和多样化环境中的应用,进一步验证其在不同应用场景下的有效性和稳定性。

结论

研究团队通过引入共享信息池(SPI)模型,在多智能体强化学习中的推箱子问题上取得了显著进展。研究的主要发现表明,SPI通过提供共享的环境信息,显著减少了代理之间的力冲突,从而大幅提高了训练效率和代理间的合作效果。SPI模型在训练过程中表现出色,尤其是在代理需同时协作完成复杂任务的情景下,其效果尤为显著。

具体来说,SPI在推箱问题中的表现出众。通过计算机模拟,我们发现使用SPI的代理在成功率、步骤数和奖励等方面均显著优于采用随机探索的代理。SPI不仅加快了训练过程,还显著提升了代理的协作效率,展示了其作为一种无通信框架的强大潜力。

未来的研究方向将集中在不同SPI算法的测试和更复杂环境下的应用和评估上。首先,可以进一步探索不同的SPI算法,以优化代理的协调和合作策略。其次,在更复杂的环境中应用SPI,评估其在多样化任务中的适应性和有效性,将是未来研究的重要课题。最后,研究SPI在动态和不可预测环境中的表现,以及如何在这些条件下进一步提升其效率和稳定性,也是未来研究的方向。

总的来说,SPI模型为多智能体系统中的高效协调提供了一个新颖且有效的解决方案,为未来的研究和应用奠定了坚实的基础。(END)

参考资料:https://arxiv.org/pdf/2411.12246

波动世界(PoppleWorld)是噬元兽数字容器的一款AI应用,基于意识科学和情绪价值的理论基础,通过AI技术驱动帮助用户进行情绪管理的工具和传递情绪价值的社交产品,波动世界将人的意识和情绪作为研究和应用的对象,探索人的意识机制和特征,培养人的意识技能和习惯,满足人的意识体验和意义,提高人的自我意识、自我管理、自我调节、自我表达和自我实现的能力,让人获得真正的自由快乐和内在的力量。波动世界将建立一个指导我们的情绪和反应的价值体系。这是一款针对普通人的基于人类认知和行为模式的情感管理Dapp应用程序。

加入AI交流群请扫码加微信

大噬元兽
噬元兽FlerkenS 是一个去中心化的AI数字价值容器,捕捉数字时代新型资产,用数据飞轮把你的数据和内容转化成为你的财富,带你走进下一个智能互联网。
 最新文章