标题:Robot Mapless Navigation in VUCA Environments via Deep Reinforcement Learning
单位:School of Control Science and Engineering, Shandong University, Jinan, China;Academy of Intelligent Innovation, Shandong University, Jinan, China; Shandong Xinchen Artificial Intelligence Technology Company, Ltd., Jinan, China
1、研究背景:
(1)提出一种结合人群和静态障碍物信息的机器人无地图导航价值网络,引入时空推理和激光雷达地图来理解周围环境。
(2)根据机器人与人之间的相对速度和人类的舒适距离,设计机器人危险区域,并制定安全导航的奖励函数。
3、研究方法:
1) 本文所提出的价值网络如图所示,对动态对象和静态对象的信息分别处理。利用空间地图和递归神经网络(RNN)对行人的时空关系进行推理,雷达以实时激光雷达数据为输入,对机器人与静态障碍物间的距离进行编码。
图1 价值网络结构图
3) 障碍信息处理。为了感知周围静态障碍物的信息,机器人与静态障碍物之间的距离由激光雷达地图编码,并以实时激光雷达数据为输入。
假设激光雷达可以一次扫描可生成n个数据。为获得f个新雷达特征,激光雷达地图的机制是将n个原始数据分割成f个部分,在每个部分中对此部分内的数据求和再求平均。因此,通过激光雷达地图得到处理后的雷达一维矢量,将激光雷达矢量输入到MLP中获取静态障碍特征。
4)基于人群特征、障碍特征和机器人自身状态,最终得到的一个价值网络的状态值,机器人通过评估此状态值完成导航任务。
5) 奖励函数。机器人完成导航得到奖励,与人或障碍碰撞受到惩罚。本文还通过谈论机器人与行人的相对速度定义了一个危险区域。危险区域包括行人周围的不舒适区以及潜在活动区,当机器人在危险区域内部也会扣分。
6) 实现细节。价值网络的训练过程如图3所示。利用奖励函数,价值网络通过时间差分方法与经验回放以及固定目标网络技术进行训练。首先初始化价值网络(第1-3行)。利用ORCA策略收集3000回合,模型训练50次,学习率为0.01。根据机器人在探索和交互过程中获得的经验,强化学习更新模型15000回合(第4-17行)。在第7行,贪婪策略选择动作,其中 在前4000个回合从0.5线性下降到0.1,之后保持0.1。学习率和折现因子γ分别设置为0.001和0.9。
图3 价值网络的训练过程
7) 动作空间。考虑一个具有非完整运动约束的机器人,其动作空间构造为由45个离散动作组成。线速度有5个不同取值 (0, vpref),角速度在9个不同方向 [−(π/4),(π/4)]。
8)实验过程。
8×8 m仿真环境,包含6个静态障碍物,行人个数∈{3,5,7,9},人由ORCA策略控制。仿真环境中,行人初始位置是随机,速度区间∈[0.5m/s, 2.5m/s],以任意速度随机移动。静态障碍物塑造成随机大小的块,在环境中随机分布。为了消除歧义和显示机器人的决策能力更直观,机器人对人类将是无形的, 人类只对其他人避障。对比实验中,本文方法和基线方法分别用500个测试回合评估,500个测试回合对应500个不同的模拟场景。
(1) 实验性能评价指标如下:
①成功率:机器人达到目标的次数与测试次数比值;
②碰撞率:机器人与人或静态障碍碰撞次数与测试次数之比;
③超时率:机器人导航时间超过最大时间次数与测试次数比值;
④时间:机器人到达目标所需平均导航时间(单位 s);
⑤距离:机器人与人的平均最小距离(单位 m);
⑥不适频率:机器人与人类距离小于人类舒适距离的持续时间与总导航时间的比值。
(3) 与网络模型进行比较。在3个行人的环境下,将四种最先进的模型SARL、LM-SARL、SOADRL-OG和SOADRL-AM与所提出的模型进行对比,实验结果如表2所示。不同模型在训练阶段的SR曲线如图4所示。COADRL除了导航时间以外均为最优表现,很好地平衡舒适性和导航效率;SARL和LM-SARL中没有包含静态障碍处理模块,容易与静态障碍发生碰撞或被卡住,导致更高的碰撞和超时,从而影响DF值的可靠性。
本文开发一个无地图导航的DRL框架。通过结合人群和静态障碍信息分析,所提出的价值网络使机器人能够适应未知的拥挤和混乱环境,实现安全和符合社会要求的导航。
仿真实验证明技术优于最新的方法,具有最高的导航成功率的同时保证了人类安全性和舒适性。虽然在现实世界的实验中存在一定局限性:随着导航距离的增加,机器人的性能会有一定程度的下降。但是现实实验的成功还是进一步验证了方法的有效性和实用性,机器人能够在VUCA环境更好地完成无地图导航。