【论文荐读】基于深度强化学习和分布式优化的未知环境下多机器人导航与编队控制

文摘   科技   2024-05-06 12:07   江苏  


标题:Hierarchical multi-robot navigation and formation in unknown environments via deep reinforcement learning and distributed optimization

来源:Robotics and Computer-Integrated Manufacturing, 83 (2023): 102570.
作者:Lu Chang, Liang Shan, Weilong Zhang, Yuewei Dai
单位:School of Automation, Nanjing University of Science and Technology; School of Electronic and Information Engineering, Nanjing University of Information Science and Technology

1、研究背景:

随着传感、计算、机械和通信技术的发展,多机器人系统(Multi-robot systems, MRS)已广泛应用于环境探测、目标包围、自主农牧、安全监控等领域。机器人编队,即多个机器人在各自的状态上达到规定的限制,通常比单个机器人更容易完成运输或检查等任务。任务成功的关键因素包括:(1) 导航,编队根据先验地图或局部感知找到通往全局目标的无碰撞路径;(2) 队形,向全局目标前进时,每个机器人尽量保持预期队形。比如MRS被部署在工厂的装配线上进行巡逻检查。出发点和目标是规定的,但运动过程中可能遇到复杂障碍,包括工人、堆叠的材料或其他机器人,因此MRS首先需要根据实时感知安全导航到目标。然后考虑到每个机器人的检测范围有限,专家可能会指定一个期望的队形,使检测效率最大化。

为了解决上述问题,本文从两个方面提出分层框架的解决方案:

(1) 基于深度强化学习(DRL)的技术和深度确定性策略梯度(DDPG) 网络结构解决导航问题。训练中结合课程学习(CL),专门设计了难度可调的训练环境(例如不同宽度和长度的通道),并根据当前导航性能增加难度。

(2) 提供预期队形的抽象(如等边三角形),其他参数(如队形的方向和队形中每个机器人目标)尚未确定。分布式优化算出最优的实时队形,以避免周围障碍并最小化成本。根据最优队形,机器人调整导航的速度,与最优队形协调一致。(由于队形需求,机器人在运动中需要共享必要的信息

2、论文创新点:

(1) 基于DDPG的单机器人导航方法,构建了CL的训练环境,设计了多样化的密集奖励,极大地提高了在障碍物分布困难的未知环境(如窄/之形通道、急转弯和局部最小值)中的导航能力。

(2) 分布式优化寻找最优的队形,连续地为每个成员提供队形目标。在环境允许下保持预期的队形。并允许在线重新配置编队,可随机器人数量增加而扩展队列。

(3) 针对导航和编队的速度进行调整。模块根据每个机器人的编队目标调整其导航速度,使所有机器人在预期的编队中导航到目标

3、研究方法:

1) 文章的整体模块框架如下图所示;

图1 分层框架结构图

第一个导航模块主要是用于单机器人导航的交流结构的DDPG网络。该模块将处理后的LiDAR数据和一些离散状态(如速度和目标距离)作为输入,输出导航速度。训练后,将得到的策略应用于所有机器人。

第二个模块通过分布式优化,实时寻找最优编队。考虑预期编队抽象,模块对编队的其他参数进行优化,即编队的角度和各机器人在编队中的位置(也是各机器人的编队目标)。由于探测距离有限或遮挡,单个机器人的二维LiDAR可能无法观测到与其他机器人编队目标碰撞的障碍物,需要一定程度的机器人间通信。

第三个模块协调了全局导航和编队维护的需求。对于每个机器人,该模块根据其编队目标(来自第二模块) 调整其导航速度(来自第一模块),使输出速度在考虑编队完整性的同时避免导航轨迹不佳。如果在编队模块中没有找到可行的编队队形,则跳过第三模块的速度调整,每个机器人只使用训练好的导航策略进行导航。

2) 观察空间由处理后的雷达数据和三种离散状态组成。360°实时雷达测得的角度-距离对,作为图2中数据处理网络的输入,并最终映射到动作空间上,输出预期的线速度和角速度。对输出的动作进一步裁剪,预期速度变成可执行速度

图2 雷达数据处理框图(左)及动作空间的映射(右)

3) 基于CL的训练环境设置。训练环境包括四种环境:陷阱型环境、之字形环境、随机环境和空环境。整体形状为方形,边长为20米,是探测范围的两倍。前两个环境基于课程,针对训练具有挑战性的障碍分布的能力,手动设计障碍来形成这些分布,并在训练过程中增加难度。使整体培训环境多样化,丰富经验积累,提高泛化能力。

训练环境的起点和目标随机选择,且在特定的难度下,障碍的大小和位置仍然具有随机性,环境的难度随着学习的进展而增加。下图展示了陷阱环境的最小难度(b)和最大难度(c),之字形环境的设计与这个类似。

3 基于CL的陷阱环境设计

4) 最优编队的整体位置由固定的𝑐和优化后的旋转角𝜃确定。需要给每个机器人分配编队目标。下图显示了相同机器人分布和优化编队下的两个编队目标分配,每个机器人的绿色箭头指向分配的编队目标。显然左边的分配更加合理和可行。以图为例,对于节点顺序[A B C],左侧分配可以用机器人索引[1 3 2]来描述,右侧分配可用机器人索引[2 1 3]来描述。

4 编队成员的位置确定(左)及编队目标的分配(右)

机器人成员根据自身的观察,通过求解约束优化,以最小的编队成本找到一个局部最优的队形。

图5   分布式优化求解伪代码

每个机器人首先单独计算局部最优配置(第2-3行),然后通过通信否定其他成员提出的不可行配置(第4行),最后获得成本最低的可行配置(第5-6行)。若没有机器人找到一个可行配置,或者所有的局部配置都被其他机器人否定,特别是在障碍物多或高动态环境中。该算法返回空集(第7-8行),每个机器人在目标点附近导航到其最近的全局目标。

5) 速度调节模块,机器人的导航速度朝着编队目标进行调整,兼顾导航和编队的需要。

角速度调整:避免大转向对导航性能带来破坏性影响,机器人不会直接转向编队目标。相反,机器人调整其方向,使编队目标接近其中轴线,而不考虑目标是在前面还是后面。

线速度调整:通过角速度调节机器人方向,线速度调节接近编队目标。由于导航模块输出的线速度往往接近最大值,因此调整策略是根据编队目标位置限制可执行导航线速度。
图6   导航及编队速度调整伪代码
由训练策略获得每个机器人的预期速度(第5行),如果找到可行的编队配置(第7行),先变为执行速度,然后输入速度调节模块,变为调整速度(第8行)。如果没有找到可行的配置(第9行),则直接使预期速度可执行,变为执行速度(第10行)。在速度执行之前,如果预测到机器人之间会发生碰撞,则刹车(第11行)。
实验在2D训练场景、虚拟3D仿真环境中进行。

1)  二维环境实验。在四种训练环境下的成功率也随着训练的进行而增加。最简单的空环境在训练开始后不久达到峰值,并保持在100%。随机环境排在第二位,然后是两个基于课程的困难环境。最后所有的环境都收敛到成功率接近100%。

图7   在不同训练环境下的实验结果(左)及测试轨迹展示(右)

2) 三维仿真环境实验测试。设计三个预期的编队抽象:线性编队4个机器人;正方形4个机器人;五边形队形5个机器人。本次评估的总时间为77.6s。

最初,机器人1-4从编队1开始导航。在8.8s时,预期的构造抽象变为正方形。在50.3s时,机器人5加入导航,预期的编队抽象变为五边形,直到最后。行人以0.85m/s的弧线速度行走,机器人障碍物以1.05m/s的直线速度移动。

图8  三维仿真环境下的实验轨迹及部分细节

4、结论:

针对存在静态和动态障碍物的未知环境,提出了一种分层框架,以一种新的方式解决多机器人导航和编队问题。用基于课程环境和奖励训练一个DDPG网络,使每个机器人能够独立导航。设计分布式优化算法,计算包含各机器人成员编队目标的最优编队构型。通过速度调整模块,使得输出速度适应整个编队的队形维持。未来工作的一个有趣的方向是允许小障碍物穿过队形,同时保持完整性,这可能依赖于更充分的环境感知或更强的运动能



智能自主无人系统课题组
智能自主无人系统(IAUS)课题组坚持“面向国家重大科技需求,引领行业技术进步”的思路,专注于人工智能技术在自主无人系统、机器人、智能工程装备领域的基础和应用研究,分享和发布最新科研动态及研究成果。
 最新文章