标题:Asynchronous Multi-Agent Reinforcement Learning for Efficient Real-Time Multi-Robot Cooperative Explorationn
1、研究背景:
(2)利用动作延迟随机化更好地模拟现实世界的不同机器人间的动作延迟;
(3)为每个智能体配备了一个能够高效通信的策略(Multi-tower-CNN-based Policy,MCP)。
3、研究方法:
图1同步与异步执行策略的差异
图1中以2个智能体为例;在同步设置中,只有当全部智能体每执行完成一次动作后才能进行传输数据和执行策略推理。系统执行速度受到最长执行时间的智能体限制。相比在异步设置中,每个智能体在完成自己的动作后,可以向其他智能体请求数据,并立即进行策略推理。这种异步设置对于多智能体探索任务来说更省时,不会因为智能体脱机阻塞。
(3)基于CNN的策略(Multi-tower-CNN-based Policy,MCP)。MCP由3部分组成:基于CNN的局部特征提取器、基于注意力的关系编码器和动作解码器,总体框架如图3所示。
1)局部特征提取器是一个3层CNN,可从每个智能体的S×S×7局部信息中提取G×G×4的特征嵌入,其中包括1个障碍物通道、1个探索区域通道、1个热点位置通道、1个历史轨迹通道和3个智能体局部观察通道(一共7个通道,提供了关于环境和智能体状态的不同方面的信息)。而智能体提取的特征嵌入,只有一些低维特征,大大减少了通信流量,从而大幅提高通信效率。
2)关系编码器:聚合从不同智能体提取的特征映射,以更好地捕获智能体内部的交互。在基于协同探索中,智能体不仅要探索未被发现的区域,还要了解团队成员间的运动,以便更好在智能体之间进行调度。(使用注意力机制,获取整个团队的交互信息)
3)动作解码器:主要任务是用CNN投影和线性变换,将来自关系编码器的抽象表示映射到适合的动作概率分布的形式,从平面中选择一个网格单元𝑔作为全局目标(x, y)。
图3 MCP总体架构
每个智能体通过执行动作得到本地信息后,请求其他智能体嵌入最新的特征(由特征提取器输出),即智能体传递低维特征嵌入,而不传递整个局部信息。由Async-MAPPO训练基于CNN的策略,在每个动作步生成下一个宏动作(全局目标)前,智能体根据全局目标在局部地图上进行路径规划,在每个时间步输出动作。
(4)实验过程:实验分别在基于网格的2D场景、Habitat中3D虚拟环境以及现实中
与网格环境尺寸相同的真实网格地图中进行。每个机器人的局部信息输送到RL训练的策略或基于规划的方法(baseline)中,生成全局目标,并用A*算法在局部地图上规划5个原子动作以遵循全局目标。Baseline考虑了4种基于规划的方法,包括效用最大化方法(Utility)、基于搜索的最近边界方法(Nearest)、基于快速探索随机树的方法(RRT)、以及人工势场法(APF)。所有Baseline使用全局信息在每个宏动作之后进行规划,全局目标点是根据每个机器人的局部信息得出的。Utility选择具有最大信息增益的边界点作为全局目标点,Nearest选择最近的边界点作为全局目标点,RRT通过随机探索获取一定数量的边界点,选择具有最大效用的边界点作为全局目标点,APF计算每个机器人的路径,以边界点作为全局目标点。
仿真和实际结果表明,在基于网格环境下,ACE的探索效率比传统方法提高了10%。基于视觉的试验台Habitat中,ACE优于基于规划的基线,探索时间减少了28%以上。