【论文荐读】多模态融合的自主导航方法：采用稀疏奖励和事后经验回放策略的深度强化学习

文摘科技 2023-05-19 14:51 江苏

标题：Multimodal Fusion for Autonomous Navigation via Deep Reinforcement Learning with Sparse Rewards and Hindsight Experience Replay

期刊：Displays, 78, (2023), 102440.

作者：Wendong Xiao, Liang Yuan, Teng Ran, Li He, Jianbo Zhang, Jianping Cui

单位：Xinjiang University, Beijing University of Chemical Technology

1、主要解决问题：

移动机器人的多模态感知对于实现无碰撞和高效的导航至关重要。由于单个传感器对不同障碍物的感知能力较弱，当仅使用视觉或激光雷达传感器数据获取感知时，自主导航具有极大的挑战性。并且采用深度强化学习（DRL）方法设计密集奖励很容易导致机器人的行为出乎意料，陷入局部最优。为解决上述问题，论文重点关注深度强化学习的多模态融合方法，并采用稀疏奖励和事后经验回放策略以获得更好的自主导航效果。

2、研究方法：

论文提出了一种仅使用RGB-D相机进行自主避障导航的DRL框架，该深度强化学习方法使用稀疏奖励和事后经验回放（HER）策略以增强其泛化性。如图1所示，该框架由三阶段架构组成：机器人平台、感知模块和决策模块。

图1 DRL自主导航的多模态融合框架

机器人平台是Gazebo中的模拟3D环境供机器人探索，该机器人配备了Kinect传感器使用RGB-D相机生成深度图像。感知模块旨在全面感知周围环境，并为行为决策提供多模态信息，其中RGB-D相机提供深度图像，伪激光雷达数据通过ROS中的depthimage_to_laserscan功能包从单个深度图像中获得，将两部分数据融合在一起获得对周围环境的整体感知。决策模块在获得感知特征后，使用稀疏奖励和HER的决斗双深度Q网络（D3QN）来产生运动命令，生成两种不同的动作输出（方向盘角度和车速）。

由于自主导航任务是避开障碍物并到达特定的目的地，为避免密集奖励导致机器人的行为出乎意料并陷入局部最优，论文定义了稀疏奖励并使用HER策略解决稀疏奖励所导致的奖励值收敛速度慢的问题，以此提出了事后经验回放-决斗双深度Q网络（HER-D3QN）框架，该框架采用多模态信息融合方法来感知周围环境，同时将当前速度和目标位置连接到强化学习状态量中实现无碰撞导航，如图2所示。

图2 HER-D3QN框架

该框架采用RGB-D相机作为传感器生成深度图像，同时通过对深度图像编码生成伪雷达数据，将深度图像与伪雷达数据作为多模态输入，分别利用卷积神经网络进行特征提取，再将两个特征向量融合并加入机器人当前速度和目标位置信息作为强化学习状态输入。论文所采用的D3QN框架融合HER策略，通过将机器人训练过程中的最终状态视为机器人应该到达的额外目标，设置新的奖励值，从不成功的训练经验中学习避障经验。

论文的实验部分在Gazebo简单训练环境下进行，如图3所示。其中，机器人只在简单环境中训练，并在简单、复杂两个环境中评估了其性能。在每回合训练开始阶段，机器人在地图中心点初始化，目标位置在障碍物之外的区域内随机化。

图3 仿真实验中的不同训练环境

为了显示所提出方法的有效性，在相同的环境中训练了一系列方法进行比较，其中包括：D3QN、MDRLAT、Depth-only（仅用深度图像特征的HER-D3QN）、LiDAR-only（仅用伪雷达信息特征的HER-D3QN）和HER-D3QN。所有模型用平均成功率、平均碰撞率、平均超时率和平均回合奖励四个指标进行评估，其实验结果如图4所示。

图4 不同模型在DRL训练过程中的评价曲线

同时为了对比不同DRL模型的泛化性，论文将简单环境中训练好的模型分别在简单、复杂环境中测试，测试结果如表1所示。实验结果表明，论文模型在未知和复杂的环境中获得了最佳的泛化性能，同时还验证了基于HER和稀疏奖励的多模态融合DRL的有效性。

表1 不同模型的泛化性评估

3、结论：

论文展示了一种采用稀疏奖励和HER策略的深度强化学习方法，用于解决移动机器人多传感器融合的避障导航任务。针对单传感器对不同障碍物的感知能力较弱问题，论文采用多传感器融合方法同时提取深度图像和雷达信息特征进行强化学习状态量的表征。同时，针对稀疏奖励所导致的算法收敛速度慢的问题，论文采用HER策略从失败经验中学习，实现安全高效的导航。通过实验验证，论文提出的方法在未知和复杂的环境中，显示出更强的鲁棒性和泛化能力。

http://mp.weixin.qq.com/s?__biz=MzU1ODg5NzQ0NA==&mid=2247484066&idx=1&sn=8b09a09ed761fc917568fbc19c274411

智能自主无人系统课题组

智能自主无人系统（IAUS）课题组坚持“面向国家重大科技需求，引领行业技术进步”的思路，专注于人工智能技术在自主无人系统、机器人、智能工程装备领域的基础和应用研究，分享和发布最新科研动态及研究成果。

最新文章

【论文荐读】基于多智能体近端策略优化的有限感知无人艇集群分布式追逃博弈

课题组硕士研究生成果发表在工业人工智能领域TOP期刊IEEE TIM

【论文荐读】滤波融合：图像-激光雷达融合的3D目标检测

【论文荐读】基于Pathways架构的自适应多尺度时间序列预测

【论文荐读】一种用于表面缺陷实时检测的高效靶向设计方法

【论文荐读】基于深度强化学习的VUCA环境下机器人无地图导航

课题组硕士研究生成果发表在工业人工智能领域一区TOP期刊Computers in Industry

【论文荐读】具备预判避碰决策的无人艇集成智能引导和运动控制研究

【论文荐读】面向表面缺陷检测的多分支结构多层特征融合网络

【论文荐读】一种用于粒度分析的煤粉图像分割方法

【论文荐读】水声目标识别的联合学习模型

【论文荐读】未知环境下多机器人协同探索的混合多策略快速探索随机树算法

【论文荐读】速度与输入受限的多机器人系统鲁棒避障编队导航方法

【论文荐读】基于机器视觉的目标检测技术二十年发展综述

【论文荐读】基于自适应类内和类间卷积神经网络的变速箱变工况智能故障诊断

【论文荐读】ESDMR-Net：一种具有扩展压缩和双多尺度残差连接的轻型网络

【论文荐读】基于多智能体强化学习的无人艇协同多目标围捕

【论文荐读】时间序列预测：一种具有概率分解表示的分层Transformer

【论文荐读】基于深度强化学习和分布式优化的未知环境下多机器人导航与编队控制

21级专硕王家卿《面向空地协同的无人机对地目标跟踪与自主降落研究》

21级学硕鲁宇琦《水面无人艇集群协同的侦察-驱逐-布防控制方法研究》

21级专硕夏煜《基于红外热成像的铝箔封口缺陷检测研究》

21级学硕吴建彬《退化环境下激光雷达与IMU融合的移动机器人自主探索研究》

21级学硕王浩《数据驱动的绞吸船横移挖掘过程建模及自学习控制研究》

【论文荐读】基于近端策略优化的有限感知无人艇集群避障

21级专硕杨颖《基于机器视觉的柱状产品贴标及喷码缺陷检测研究》

22级学硕李亚军《基于激光和视觉融合的移动机器人自主导航研究》

【论文荐读】基于CNN和Transformer的无人机实时目标检测网络

【论文荐读】一种能够学习多尺度上下文感知特征的通用伪装目标检测框架

【论文荐读】一种具有多级注意力机制的U-Net医疗图像分割方法

【论文荐读】一种用于表面缺陷检测的具有全局和局部特征增强的实时无锚缺陷检测器

【论文荐读】MLDFR：一种用于异常检测和定位的受损图像多级特征恢复方法

【论文荐读】基于几何线索提取和圆分解的多机器人复杂场景探索

【论文荐读】不同环境下从避障到可推动障碍物导航的课程强化学习

【论文荐读】基于机器视觉的径向圆跳动测量方法

【论文荐读】关于迁移学习驱动的智能故障诊断设计的调查、见解和展望

【论文荐读】UIU-Net: 用于红外小目标检测嵌套U-Net模型

【论文荐读】3U:面向协同目标搜索的UAV-USV-UUV网络联合设计

【论文荐读】基于深度强化学习的无人船避障方法

【论文荐读】基于优化权重谱指数的机械故障诊断自适应故障分量提取

【论文荐读】基于异步多智能体强化学习的高效实时多机器人协同探索

【论文荐读】MR-TopoMap: 通信受限条件下基于拓扑图的多机器人探索

【论文荐读】面向多智能体强化学习的共享学习方法

【论文荐读】多模态融合的自主导航方法：采用稀疏奖励和事后经验回放策略的深度强化学习

【论文荐读】基于图像增强和改进Faster R-CNN的故障卫星部件检测方法

【论文荐读】空间变形鲁棒场景中构建超分辨率文本图像的文本注意网络

【论文荐读】基于深度学习的二维激光雷达车辆检测

【论文荐读】Informer：超越Transformer的长序列时间序列预测方法

【文献综述】深度学习和深度强化学习的特征提取网络

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉