【论文荐读】基于深度强化学习的VUCA环境下机器人无地图导航

文摘   科技   2024-10-07 07:02   辽宁  


标题:Robot Mapless Navigation in VUCA Environments via Deep Reinforcement Learning

期刊:IEEE Transactions on Industrial Electronics (Early Access, 2024)
作者:Bingxin Xue, Fengyu Zhou, Chaoqun Wang, Lei Yin, and Ming Gao

单位School of Control Science and Engineering, Shandong University, Jinan, China;Academy of Intelligent Innovation, Shandong University, Jinan, China; Shandong Xinchen Artificial Intelligence Technology Company, Ltd., Jinan, China

1、研究背景:

机器人在人类共存的社会环境中越来越受欢迎。现实各种应用场景对机器人导航的安全性和稳定性提出了巨大的挑战。VUCA的意义及挑战如下:

(1)波动性(Volatility):由于行人动作的高度随机性,机器人很难预测行人的意图,从而威胁到人机交互安全性,而机器人需要保证人类的舒适。

(2)不确定性(Uncertainty):机器人使用的地图可能无法提前提供或实时更新,限制了机器人导航性能。

(3)复杂性(Complexity):真实应用场景复杂,静态障碍较多,增加机器人碰撞风险,影响机器人导航安全性。

(4)模糊性(Ambiguity):通过传感器获取人体状态可能不准确,威胁到人机交互的安全性。

为了解决在VUCA环境下机器人无地图导航的难题,本文提出COA (crowds and obst-acles avoidance)方法作为解决方案,通过采用此方法后,机器人不但能完成VUCA环境下的无地图导航且表现优于几种经典算法和先进算法。

2、论文创新点:

(1)提出一种结合人群和静态障碍物信息的机器人无地图导航价值网络,引入时空推理和激光雷达地图来理解周围环境。

(2)根据机器人与人之间的相对速度和人类的舒适距离,设计机器人危险区域,并制定安全导航的奖励函数。

(3)在 ROS基础上,构建以本技术为核心的机器人无地图导航系统,该系统更好地适应真实VUCA场景,利用多传感器信息获取人的状态,缓解模糊(ambiguity)的挑战。

3、研究方法:

1) 本文所提出的价值网络如图所示,对动态对象和静态对象的信息分别处理。利用空间地图和递归神经网络(RNN)对行人的时空关系进行推理,雷达以实时激光雷达数据为输入,对机器人与静态障碍物间的距离进行编码。

价值网络结构图

2)行人状态处理。机器人以周围的行人为中心,处理行人的状态信息。空间映射如图2所示,在大小为L的邻域,以第i个人为中心构建尺寸为L×L的地图网格,以了解周围人是否存在及其运动速度。基于地图网格,得到包含L×L×3个特征的一维地图向量。
为了处理行人特征,将第i个人的可观察状态、空间关系的地图向量和机器人状态输入到RNN单元中。由于不同场景中行人数量可能变化很大,利用注意力模块将任意数量的输入转换为固定大小的输出。再将隐藏状态输入到多层感知器(MLP)中,以获得机器人与第i个人之间的成对交互特征;同时,将隐藏状态转换为注意权值;基于交互特征和第i个人的注意力权值,最终得到处理后的人群特征。

图2  空间映射图

3) 障碍信息处理。为了感知周围静态障碍物的信息,机器人与静态障碍物之间的距离由激光雷达地图编码,并以实时激光雷达数据为输入。

假设激光雷达可以一次扫描可生成n个数据。为获得f个新雷达特征,激光雷达地图的机制是将n个原始数据分割成f个部分,在每个部分中对此部分内的数据求和再求平均。因此,通过激光雷达地图得到处理后的雷达一维矢量,将激光雷达矢量输入到MLP中获取静态障碍特征。

4)基于人群特征、障碍特征和机器人自身状态,最终得到的一个价值网络的状态值,机器人通过评估此状态值完成导航任务。

5) 奖励函数。机器人完成导航得到奖励,与人或障碍碰撞受到惩罚。本文还通过谈论机器人与行人的相对速度定义了一个危险区域。危险区域包括行人周围的不舒适区以及潜在活动区,当机器人在危险区域内部也会扣分。

6) 实现细节。价值网络的训练过程如图3所示。利用奖励函数,价值网络通过时间差分方法与经验回放以及固定目标网络技术进行训练。首先初始化价值网络(第1-3行)。利用ORCA策略收集3000回合,模型训练50次,学习率为0.01。根据机器人在探索和交互过程中获得的经验,强化学习更新模型15000回合(第4-17行)。在第7行,贪婪策略选择动作,其中  在前4000个回合从0.5线性下降到0.1,之后保持0.1。学习率和折现因子γ分别设置为0.001和0.9。

图3  价值网络的训练过程

7) 动作空间。考虑一个具有非完整运动约束的机器人,其动作空间构造为由45个离散动作组成。线速度有5个不同取值 (0,  vpref),角速度在9个不同方向 [−(π/4),(π/4)]。

8)实验过程。

8×8 m仿真环境,包含6个静态障碍物,行人个数∈{3,5,7,9},人由ORCA策略控制。仿真环境中,行人初始位置是随机,速度区间∈[0.5m/s, 2.5m/s],以任意速度随机移动。静态障碍物塑造成随机大小的块,在环境中随机分布。为了消除歧义和显示机器人的决策能力更直观,机器人对人类将是无形的, 人类只对其他人避障。对比实验中,本文方法和基线方法分别用500个测试回合评估,500个测试回合对应500个不同的模拟场景

(1) 实验性能评价指标如下:

①成功率:机器人达到目标的次数与测试次数比值;

②碰撞率:机器人与人或静态障碍碰撞次数与测试次数之比;

③超时率:机器人导航时间超过最大时间次数与测试次数比值;

④时间:机器人到达目标所需平均导航时间(单位 s);

⑤距离:机器人与人的平均最小距离(单位 m);

⑥不适频率:机器人与人类距离小于人类舒适距离的持续时间与总导航时间的比值。

(2) 与经典方法进行比较。在3个行人的环境下,将本文方法与两种经典方法APF和VFH进行比较。实验数据如表1所示,本文方法具有最高的SR,分别比APF和VFH高30%和27%。在距离度量方面,所有方法的性能都是一样的。但与APF和VFH相比,我们的方法的DF分别降低了48.42%和41.31%。结果表明,与经典方法相比,本文方法能够更好地完成VUCA环境下的无地图导航任务,同时有效地保证了人类的安全与舒适。

表1  本文方法与两种经典方法比较

(3) 与网络模型进行比较。在3个行人的环境下,将四种最先进的模型SARL、LM-SARL、SOADRL-OG和SOADRL-AM与所提出的模型进行对比,实验结果如表2所示。不同模型在训练阶段的SR曲线如图4所示。COADRL除了导航时间以外均为最优表现,很好地平衡舒适性和导航效率;SARL和LM-SARL中没有包含静态障碍处理模块,容易与静态障碍发生碰撞或被卡住,导致更高的碰撞和超时,从而影响DF值的可靠性。

表2  本文方法与网络模型比较

图4 不同模型在训练中的成功曲线
4、结论:

本文开发一个无地图导航的DRL框架。通过结合人群和静态障碍信息分析,所提出的价值网络使机器人能够适应未知的拥挤和混乱环境,实现安全和符合社会要求的导航。

仿真实验证明技术优于最新的方法,具有最高的导航成功率的同时保证了人类安全性和舒适性。虽然在现实世界的实验中存在一定局限性:随着导航距离的增加,机器人的性能会有一定程度的下降。但是现实实验的成功还是进一步验证了方法的有效性和实用性,机器人能够在VUCA环境更好地完成无地图导航。


智能自主无人系统课题组
智能自主无人系统(IAUS)课题组坚持“面向国家重大科技需求,引领行业技术进步”的思路,专注于人工智能技术在自主无人系统、机器人、智能工程装备领域的基础和应用研究,分享和发布最新科研动态及研究成果。
 最新文章