标题:Hierarchical multi-robot navigation and formation in unknown environments via deep reinforcement learning and distributed optimization
1、研究背景:
为了解决上述问题,本文从两个方面提出分层框架的解决方案:
(1) 基于深度强化学习(DRL)的技术和深度确定性策略梯度(DDPG) 网络结构解决导航问题。训练中结合课程学习(CL),专门设计了难度可调的训练环境(例如不同宽度和长度的通道),并根据当前导航性能增加难度。
(2) 提供预期队形的抽象(如等边三角形),其他参数(如队形的方向和队形中每个机器人目标)尚未确定。分布式优化算出最优的实时队形,以避免周围障碍并最小化成本。根据最优队形,机器人调整导航的速度,与最优队形协调一致。(由于队形需求,机器人在运动中需要共享必要的信息。
(1) 基于DDPG的单机器人导航方法,构建了CL的训练环境,设计了多样化的密集奖励,极大地提高了在障碍物分布困难的未知环境(如窄/之形通道、急转弯和局部最小值)中的导航能力。
(2) 分布式优化寻找最优的队形,连续地为每个成员提供队形目标。在环境允许下保持预期的队形。并允许在线重新配置编队,可随机器人数量增加而扩展队列。
(3) 针对导航和编队的速度进行调整。模块根据每个机器人的编队目标调整其导航速度,使所有机器人在预期的编队中导航到目标。
3、研究方法:
1) 文章的整体模块框架如下图所示;
图1 分层框架结构图
第一个导航模块主要是用于单机器人导航的交流结构的DDPG网络。该模块将处理后的LiDAR数据和一些离散状态(如速度和目标距离)作为输入,输出导航速度。训练后,将得到的策略应用于所有机器人。
第三个模块协调了全局导航和编队维护的需求。对于每个机器人,该模块根据其编队目标(来自第二模块) 调整其导航速度(来自第一模块),使输出速度在考虑编队完整性的同时避免导航轨迹不佳。如果在编队模块中没有找到可行的编队队形,则跳过第三模块的速度调整,每个机器人只使用训练好的导航策略进行导航。
2) 观察空间由处理后的雷达数据和三种离散状态组成。360°实时雷达测得的角度-距离对,作为图2中数据处理网络的输入,并最终映射到动作空间上,输出预期的线速度和角速度。对输出的动作进一步裁剪,预期速度变成可执行速度。
图2 雷达数据处理框图(左)及动作空间的映射(右)
图3 基于CL的陷阱环境设计
4) 最优编队的整体位置由固定的𝑐和优化后的旋转角𝜃确定。需要给每个机器人分配编队目标。下图显示了相同机器人分布和优化编队下的两个编队目标分配,每个机器人的绿色箭头指向分配的编队目标。显然左边的分配更加合理和可行。以图为例,对于节点顺序[A B C],左侧分配可以用机器人索引[1 3 2]来描述,右侧分配可用机器人索引[2 1 3]来描述。
机器人成员根据自身的观察,通过求解约束优化,以最小的编队成本找到一个局部最优的队形。
每个机器人首先单独计算局部最优配置(第2-3行),然后通过通信否定其他成员提出的不可行配置(第4行),最后获得成本最低的可行配置(第5-6行)。若没有机器人找到一个可行配置,或者所有的局部配置都被其他机器人否定,特别是在障碍物多或高动态环境中。该算法返回空集(第7-8行),每个机器人在目标点附近导航到其最近的全局目标。
5) 速度调节模块,机器人的导航速度朝着编队目标进行调整,兼顾导航和编队的需要。
角速度调整:避免大转向对导航性能带来破坏性影响,机器人不会直接转向编队目标。相反,机器人调整其方向,使编队目标接近其中轴线,而不考虑目标是在前面还是后面。
1) 二维环境实验。在四种训练环境下的成功率也随着训练的进行而增加。最简单的空环境在训练开始后不久达到峰值,并保持在100%。随机环境排在第二位,然后是两个基于课程的困难环境。最后所有的环境都收敛到成功率接近100%。
2) 三维仿真环境实验测试。设计三个预期的编队抽象:线性编队4个机器人;正方形4个机器人;五边形队形5个机器人。本次评估的总时间为77.6s。
最初,机器人1-4从编队1开始导航。在8.8s时,预期的构造抽象变为正方形。在50.3s时,机器人5加入导航,预期的编队抽象变为五边形,直到最后。行人以0.85m/s的弧线速度行走,机器人障碍物以1.05m/s的直线速度移动。
图8 三维仿真环境下的实验轨迹及部分细节
4、结论:
针对存在静态和动态障碍物的未知环境,提出了一种分层框架,以一种新的方式解决多机器人导航和编队问题。用基于课程环境和奖励训练一个DDPG网络,使每个机器人能够独立导航。设计分布式优化算法,计算包含各机器人成员编队目标的最优编队构型。通过速度调整模块,使得输出速度适应整个编队的队形维持。未来工作的一个有趣的方向是允许小障碍物穿过队形,同时保持完整性,这可能依赖于更充分的环境感知或更强的运动能力。