【论文荐读】不同环境下从避障到可推动障碍物导航的课程强化学习

文摘   科技   2024-03-07 09:44   江苏  


标题:Curriculum Reinforcement Learning From Avoiding Collisions to Navigating Among Movable Obstacles in Diverse Environments

来源:IEEE Robotics and Automation Letters, 2023, 8(5): 2740-2747.
作者:Hsueh-Cheng Wang, Siao-Cing Huang, Po-Jui Huang, Kuo-Lun Wang, Yi-Chen Teng, Yu-Ting Ko, Dongsuk Jeon, and I-Chen Wu
单位:National Yang Ming Chiao Tung University (NYCU), Hsinchu 30010, Taiwan, China; the Seoul National University, Seoul 08826, South Korea

1、研究背景:

智能体在包含可推动障碍物环境下的导航避障问题具有高度复杂性。NAMO(navigation among movable obstacles)问题,其目的是通过推开可移动障碍物来引导智能体到达目标。现有针对NAMO问题的研究通常采用收集人类的示范来避开探索的过程、以及行为克隆进行模仿学习。然而,这两种方法训练得到的最终模型性能将受到给定数据集中最佳演示的限制,并且需要从头开始学习每个任务,要求大量的数据和相当长的时间。针对于此问题,论文提出一种基于课程强化学习的新方法,采用D4PG强化学习框架结合两阶段、子任务的课程学习方法实现可推动障碍环境下的智能体导航

2、论文创新点:

1)研究不同环境中的模型收敛与导航策略和难度指标之间的关系;

(2)开发了一种面向复杂NAMO任务的课程强化学习,与从头开始的标准训练相比,课程学习可以加快训练速度,提高样本效率;

(3)提出的方法在在模拟和真实环境中,与最先进的路径规划方法对比并做出综合评估

3、研究方法:

论文提出了一种新的针对NAMO问题使用课程强化学习的导航方法,该方法包括针对不同训练环境难度的判断方法和强化学习训练过程中的课程学习方法。
针对不同环境中的模型收敛与导航策略和难度指标之间的关系,论文首先收集了各种不同的环境模型,并对每个环境进行基准测试获取一组描述环境难度的指标。这些指标分别是:平均最近距离(Dist),即相距最近障碍物的平均距离、能见度(Vis),即雷达360°扫描中沿每条射线到障碍物的平均距离、散布(Disp),即给定位置以外的潜在路径的变化数量,高散布(如十字路口)表明环境更复杂、特征维数(CD),即到目标点的线段穿过能见度最低的单元的能见度,它反映了空间的紧密度、弯曲度(Tor),即与选定的起始点/目标点对的轨迹有关,通过运行了TARE算法计算Tor。针对不同仿真地图的测试结果如表1所示。
表1 不同环境下的难度测试指标

论文根据模型收敛与每个度量或它们的组合之间的关系,发现Tor和Dist指标是从头开始成功训练的关键。因此,论文针对Tor和Dist两个关键指标,通过多维缩放(MDS)将Tor、Dist从多维映射到抽象的笛卡尔二维空间,如图1所示,分布在左下角(绿色点)的环境更容易导航

图1 环境难易程度可视化

针对本文所提出的课程强化学习方法,论文将导航序列决策问题表示为一个部分可观察马尔可夫决策过程(POMDP),并建立了密集奖励函数,如下所示:

其中,rhg表示朝向目标前进的奖励, rrg表示到达目标的奖励, rmv表示智能体保持运动的奖励,rbc表示移动基座与静态(如墙壁)和动态障碍物(行人)碰撞的惩罚,rec表示机械臂末端执行器与静态和动态障碍物碰撞惩罚。

部分可观察马尔可夫决策过程的观测空间包括4帧连续的雷达距离数据和10帧相对于目标的位置数据,如图2所示,其中雷达数据使用二维激光扫描,从−120°到120°以1°为间隔采样的总范围为241个值,同时包含一层可移动障碍物的语义分割作为观察输入(指向可移动障碍物的点标记为1,否则标记为0)。

图2 强化学习网络框架

部分可观察马尔可夫决策过程的动作空间包含导航和手臂运动命令 (ν, ω, L),分别表示移动平台的线速度、角速度和手臂末端的前向位移。论文使用D4PG作为强化学习框架,针对NAMO问题的整体课程强化学习框架如图3所示。

图3 课程强化学习框架

NAMO课程学习:课程强化学习算法如算法1所示,提出的训练算法包括两个课程学习:

(1)两阶段课程学习(S1):对强化学习的训练分为两个阶段,首先在简单地图中训练模型,当经验回放区B中最后100条记录的平均成功率达到70%更换为复杂地图训练。

(2)课程子步骤(S2):论文通过起始点和目标点对p1,…, p4设计了四个课程步骤,难度按起点和终点之间的距离排序。当每个起始、目标点对平均成功率大于50%(基于回放区中的最近50条记录),切换到下一起始、目标点对。

算法本文所提出的课程强化学习

论文的实验部分分别验证了课程学习对强化学习训练速度的提升,以及本文基于D4PG所提出的课程强化学习在NAMO环境下的表现。

针对课程学习效果的验证,论文首先针对两阶段课程学习进行5个地图环境下的测试,结果显示:使用两阶段的课程学习方法训练模型可以更快地收敛,如图4所示。其次,为明确两阶段和子任务的课程学习对模型收敛的影响,在T-maze环境下对比了不使用课程学习、仅使用两阶段课程学习、仅使用子任务课程学习以及同时使用两中课程学习方法的收敛曲线,结果显示:同时使用两种课程学习方法有最好的效果,如图5所示。

图4 不同环境下不同训练方法回报值收敛曲线

图5 不同课程学习方法收敛曲线对比

针对课程强化学习在NAMO环境下的效果验证,论文采用成功率和平均碰撞次数(一条路线的平均碰撞次数)作为指标,将基于规划的先进算法TARE-L作为对比方法,分别在仿真、现实环境下对机器人导航进行评估,结果见表2。

表2 针对NAMO问题的两种方法测试结果

4、结论:

论文提出了一种课程学习方法,用于带有机械手的移动机器人在可推动障碍物(NAMO)环境下进行导航。
本文首先将导航难度与一系列不同环境中的模型收敛的因素联系起来,通过逐渐增加难度的课程式训练对智能体进行训练。针对更为复杂的NAMO任务,本文采用了两阶段学习和课程子步骤设计的方法,并将深度强化学习策略与当今最先进的本地规划器TARE-L进行了对比,对目标导航和NAMO任务进行了综合评估。在真实的机器人实验中,本研究方法的定性结果显示,其可在实际环境中得到有效部署



智能自主无人系统课题组
智能自主无人系统(IAUS)课题组坚持“面向国家重大科技需求,引领行业技术进步”的思路,专注于人工智能技术在自主无人系统、机器人、智能工程装备领域的基础和应用研究,分享和发布最新科研动态及研究成果。
 最新文章