【论文荐读】基于异步多智能体强化学习的高效实时多机器人协同探索

文摘   科技   2023-12-30 20:35   江苏  


标题:Asynchronous Multi-Agent Reinforcement Learning for Efficient Real-Time Multi-Robot Cooperative Explorationn

来源:Proceedings of the 2023 International Conference on Autonomous Agents and Multiagent Systems (AAMAS), Pages 1107–1115.
作者:Chao Yu, Xinyi Yang, Jiaxuan Gao, Jiayu Chen, Yunfei Li, Jijia Liu, Yunfei Xiang, Ruixin Huang, Huazhong Yang, Yi Wu, Yu Wang
单位:Tsinghua University,  Shanghai Artificial Intelligence Laboratory,  Tongji University, Shanghai Qi Zhi Institute

1、研究背景:

多机器人协同探索问题需要尽可能快地探索未知区域,机器人间可以传递本地信息,以避免重复探索而提高效率。然而现有的方法假设所有智能体以完全同步的方式行动,即每个智能体同时产生动作,在每个时间步上动作立即执行。尽管在数学上实现起来很简单,但这种同步对现实世界的机器人可能会产生问题。例如,不同的机器人完成一个动作的时间略有不同,甚至会因为硬件问题而周期性脱机。要等待全部机器人为下一个动作做好准备可能会特别浪费时间,当其中一个智能体脱机时,整个系统将无法工作。
为了解决上述问题,本文提出了一个异步的多智能体强化学习(MARL)解决方案:异步协同探索方法(asynchronous Coordination Explorer,ACE)

2、论文创新点:

1)将经典多智能体近端策略优化算法PPO (MAPPO)扩展到异步设置;

(2)利用动作延迟随机化更好地模拟现实世界的不同机器人间的动作延迟;

(3)为每个智能体配备了一个能够高效通信的策略(Multi-tower-CNN-based Policy,MCP)

3、研究方法:

(1)同步设置与异步设置的对比差异如图1所示:

1同步与异步执行策略的差异

图1中以2个智能体为例;在同步设置中,只有当全部智能体每执行完成一次动作后才能进行传输数据和执行策略推理。系统执行速度受到最长执行时间的智能体限制。相比在异步设置中,每个智能体在完成自己的动作后,可以向其他智能体请求数据,并立即进行策略推理。这种异步设置对于多智能体探索任务来说更省时,不会因为智能体脱机阻塞。

Async-MAPPO的伪代码如图2所示。第1~6行进行参数初始化;第7~20行将机器人的状态和观测到环境的信息储存起来,并采取决策;21行到22行进行损失函数的更新。

图2 Async-MAPPO的伪代码
(2)动作延迟随机化:在每个动作制定步骤结束时,强制每个智能体在查询下一个宏动作之前等待一个随机周期(在基于网格环境中等待35个执行步,在Habitat中等待1015个执行步),以学习现实中机器执行动作发生延迟的情况。

(3)基于CNN的策略(Multi-tower-CNN-based Policy,MCP)。MCP由3部分组成:基于CNN的局部特征提取器、基于注意力的关系编码器和动作解码器,总体框架如图3所示。

1)局部特征提取器是一个3层CNN,可从每个智能体的S×S×7局部信息中提取G×G×4的特征嵌入,其中包括1个障碍物通道、1个探索区域通道、1个热点位置通道、1个历史轨迹通道和3个智能体局部观察通道(一共7个通道,提供了关于环境和智能体状态的不同方面的信息)。而智能体提取的特征嵌入,只有一些低维特征,大大减少了通信流量,从而大幅提高通信效率。

2)关系编码器:聚合从不同智能体提取的特征映射,以更好地捕获智能体内部的交互。在基于协同探索中,智能体不仅要探索未被发现的区域,还要了解团队成员间的运动,以便更好在智能体之间进行调度。(使用注意力机制,获取整个团队的交互信息)

3)动作解码器:主要任务是用CNN投影和线性变换,将来自关系编码器的抽象表示映射到适合的动作概率分布的形式,从平面中选择一个网格单元𝑔作为全局目标(x, y)。

图3 MCP总体架构

图4 MCP的工作流程

每个智能体通过执行动作得到本地信息后,请求其他智能体嵌入最新的特征(由特征提取器输出),即智能体传递低维特征嵌入,而不传递整个局部信息。由Async-MAPPO训练基于CNN的策略,在每个动作步生成下一个宏动作(全局目标)前,智能体根据全局目标在局部地图上进行路径规划,在每个时间步输出动作。

(4)实验过程:实验分别在基于网格的2D场景、Habitat中3D虚拟环境以及现实中

与网格环境尺寸相同的真实网格地图中进行。每个机器人的局部信息输送到RL训练的策略或基于规划的方法(baseline)中,生成全局目标,并用A*算法在局部地图上规划5个原子动作以遵循全局目标。Baseline考虑了4种基于规划的方法,包括效用最大化方法(Utility)、基于搜索的最近边界方法(Nearest)、基于快速探索随机树的方法(RRT)、以及人工势场法(APF)。所有Baseline使用全局信息在每个宏动作之后进行规划,全局目标点是根据每个机器人的局部信息得出的。Utility选择具有最大信息增益的边界点作为全局目标点,Nearest选择最近的边界点作为全局目标点,RRT通过随机探索获取一定数量的边界点,选择具有最大效用的边界点作为全局目标点,APF计算每个机器人的路径,以边界点作为全局目标点。

1)基于网格环境下2个智能体分别在同步和异步训练下的实验结果如表所示。
表1 同步与异步在不同地图的实验结果
2)现实世界地图上,2个智能体以异步方式进行探索任务。
表2 现实世界探索实验数据

3)此外,文章考虑了不同通信流量和不同随机动作延迟区间的对探索性能的影响,分别做了实验进行验证,如表3、4所示。在不同通信流量的实验中,4种方式对通信的限制依次减少,探索效率也逐渐增加;在不同随机动作延迟区间实验中,选取不同的延迟时间,发现对探索效率产生不同作用,延迟区间在3-5的范围时效果最好。
表3 不同通信流量对探索任务的影响
表4 不同随机动作延迟区间对探索任务的影响
4、结论:
文章所提出一种现实多机器人探索解决方案——异步协调探索方法(ACE),可以弥补现实中多智能体探索任务中同步和异步行动决策过程间的时间差。通过将多智能体PPO扩展到异步动作决策环境中进行训练,并采用动作延迟随机化泛化到现实世界。每个智能体配备基于CNNMCP策略,提取低维特征嵌入,实现智能体间高效通信。

仿真和实际结果表明,在基于网格环境下,ACE的探索效率比传统方法提高了10%。基于视觉的试验台Habitat中,ACE优于基于规划的基线,探索时间减少了28%以上



智能自主无人系统课题组
智能自主无人系统(IAUS)课题组坚持“面向国家重大科技需求,引领行业技术进步”的思路,专注于人工智能技术在自主无人系统、机器人、智能工程装备领域的基础和应用研究,分享和发布最新科研动态及研究成果。
 最新文章