标题:Multimodal Fusion for Autonomous Navigation via Deep Reinforcement Learning with Sparse Rewards and Hindsight Experience Replay
期刊:Displays, 78, (2023), 102440.
作者:Wendong Xiao, Liang Yuan, Teng Ran, Li He, Jianbo Zhang, Jianping Cui
单位:Xinjiang University, Beijing University of Chemical Technology
论文提出了一种仅使用RGB-D相机进行自主避障导航的DRL框架,该深度强化学习方法使用稀疏奖励和事后经验回放(HER)策略以增强其泛化性。如图1所示,该框架由三阶段架构组成:机器人平台、感知模块和决策模块。
图1 DRL自主导航的多模态融合框架
机器人平台是Gazebo中的模拟3D环境供机器人探索,该机器人配备了Kinect传感器使用RGB-D相机生成深度图像。感知模块旨在全面感知周围环境,并为行为决策提供多模态信息,其中RGB-D相机提供深度图像,伪激光雷达数据通过ROS中的depthimage_to_laserscan功能包从单个深度图像中获得,将两部分数据融合在一起获得对周围环境的整体感知。决策模块在获得感知特征后,使用稀疏奖励和HER的决斗双深度Q网络(D3QN)来产生运动命令,生成两种不同的动作输出(方向盘角度和车速)。
由于自主导航任务是避开障碍物并到达特定的目的地,为避免密集奖励导致机器人的行为出乎意料并陷入局部最优,论文定义了稀疏奖励并使用HER策略解决稀疏奖励所导致的奖励值收敛速度慢的问题,以此提出了事后经验回放-决斗双深度Q网络(HER-D3QN)框架,该框架采用多模态信息融合方法来感知周围环境,同时将当前速度和目标位置连接到强化学习状态量中实现无碰撞导航,如图2所示。
图2 HER-D3QN框架
论文的实验部分在Gazebo简单训练环境下进行,如图3所示。其中,机器人只在简单环境中训练,并在简单、复杂两个环境中评估了其性能。在每回合训练开始阶段,机器人在地图中心点初始化,目标位置在障碍物之外的区域内随机化。
为了显示所提出方法的有效性,在相同的环境中训练了一系列方法进行比较,其中包括:D3QN、MDRLAT、Depth-only(仅用深度图像特征的HER-D3QN)、LiDAR-only(仅用伪雷达信息特征的HER-D3QN)和HER-D3QN。所有模型用平均成功率、平均碰撞率、平均超时率和平均回合奖励四个指标进行评估,其实验结果如图4所示。
同时为了对比不同DRL模型的泛化性,论文将简单环境中训练好的模型分别在简单、复杂环境中测试,测试结果如表1所示。实验结果表明,论文模型在未知和复杂的环境中获得了最佳的泛化性能,同时还验证了基于HER和稀疏奖励的多模态融合DRL的有效性。
3、结论:
论文展示了一种采用稀疏奖励和HER策略的深度强化学习方法,用于解决移动机器人多传感器融合的避障导航任务。针对单传感器对不同障碍物的感知能力较弱问题,论文采用多传感器融合方法同时提取深度图像和雷达信息特征进行强化学习状态量的表征。同时,针对稀疏奖励所导致的算法收敛速度慢的问题,论文采用HER策略从失败经验中学习,实现安全高效的导航。通过实验验证,论文提出的方法在未知和复杂的环境中,显示出更强的鲁棒性和泛化能力。