1.25-1|多智能体长距离路径规划,共享递归记忆

文摘   2025-01-25 08:21   河南  

多智能体强化学习与路径规划:多智能体长距离路径规划,共享递归记忆

SRMT: Shared Memory for Multi-agent Lifelong Pathfinding

2025-01-22|AIRI, MIPT, LIMS|🔺44

http://arxiv.org/abs/2501.13200v1
https://huggingface.co/papers/2501.13200
https://github.com/Aloriosa/srmt

研究背景与意义

在多智能体系统中,协调多个智能体的行为一直是一个重要且具有挑战性的研究问题。尤其是在多智能体强化学习(MARL)领域,智能体之间的有效合作和竞争是实现复杂任务的关键。本文提出了一种新的模型——共享递归记忆变换器(SRMT),旨在通过共享记忆机制来改善智能体之间的协调能力。当前的多智能体路径规划(MAPF)方法往往依赖于复杂的通信协议或集中控制,这限制了其在实际应用中的可扩展性和灵活性。因此,研究如何在没有明确通信的情况下,通过共享记忆提高智能体的决策能力,具有重要的理论和实际意义。

研究方法与创新

SRMT的核心创新在于将共享记忆引入多智能体系统,通过全局共享的记忆池来增强智能体之间的信息交换。与传统的MARL方法相比,SRMT允许智能体在没有显式通信的情况下,通过共享的记忆状态来协调行动。具体而言,SRMT结合了记忆变换器的架构,通过对每个智能体的个人记忆和共享记忆进行交叉注意力处理,使得每个智能体能够在决策时融入全局上下文信息。这种方法不仅提高了智能体在稀疏奖励环境下的表现,还增强了其在未见过的环境中的泛化能力。

在实验设计中,SRMT被应用于部分可观测的多智能体路径规划任务中,尤其是在瓶颈导航任务和POGEMA基准测试中进行评估。通过与多种基线模型的比较,SRMT在多个测试场景中表现出色,尤其是在面对稀疏奖励和较长的路径时,显示出其出色的自适应能力和协调能力。

实验设计与结果分析

在瓶颈任务中,SRMT的表现优于多种强化学习基线,尤其是在稀疏奖励的设置下。实验结果表明,SRMT不仅在合作成功率(CSR)和个体成功率(ISR)等指标上均表现突出,而且在所有智能体完成任务所需的总时间(SoC)上也显示了显著的优势。此外,SRMT在面对训练时未见过的环境时,依然能够保持较高的成功率,证明了其良好的泛化能力。

进一步的实验还展示了SRMT在不同环境下的有效性,包括迷宫、随机地图和动态场景等。在这些环境中,SRMT不仅能够有效处理智能体之间的冲突,还能够在高密度场景中保持较高的任务完成率,显示出其优越的协调能力。

结论与展望

本研究提出的共享递归记忆变换器(SRMT)为多智能体系统中的协调与决策提供了一种新的解决方案。通过共享记忆机制,SRMT能够在没有显式通信的情况下实现智能体之间的信息共享,从而提高了系统的整体性能和灵活性。未来的研究可以进一步探索SRMT在更复杂环境中的应用,以及如何结合其他学习与规划算法,以提升其在实际应用中的表现和可扩展性。


AI研究前瞻
欢迎来到AI研究前瞻 - 您的人工智能研究前沿指南! 我们致力于为您提供最新、最前沿的AI研究论文解读和分析,并以通俗易懂的方式呈现其核心思想和潜在影响。 一起探索AI的无限可能,共同见证人工智能改变世界的每一步!
 最新文章