杨烨峰,李博扬,温志涌等 | 复杂场景中机器人高效轨迹规划与避障方法
文摘
科技
2024-09-15 12:02
北京
研究团队
杨烨峰,黄涛:香港理工大学航空及民航学系,哈尔滨工业大学航天学院控制理论与制导技术研究中心
王天奇,杨雯语,陈汉:香港理工大学航空及民航学系
李博扬:澳大利亚纽卡斯尔大学工程学院
温志涌:香港理工大学航空及民航学系,无人自主系统研究中心
文章下载
Yefeng YANG, Tao HUANG, Tianqi WANG, Wenyu YANG, Han CHEN, Boyang LI & Chih-yung WEN. Sampling-efficient path planning and improved actor-critic-based obstacle avoidance for autonomous robots. Sci China Inf Sci, 2024, doi: 10.1007/s11432-022-3904-9
复杂场景下机器人的路径规划与避障问题一直是机器人领域的一个研究热点。对于全局路径规划,当机器人所处环境比较简单、开阔时,现有的诸多轨迹规划方法可以很容易地找到一条路径。但是当场景比较复杂时,很多规划算法的效率会有很大程度的下降。对于局部路径规划,当机器人模型未知,或机器人所处场景变化比较大的时候,很多传统算法不能及时有效地给出一条无碰路径。因此,解决复杂场景下的机器人路径规划和避障方法是很有研究意义的。为了解决上述问题,本文提出了一个完整的移动机器人路径规划-避障框架,并将主要研究分为全局轨迹规划和局部轨迹规划(避障)两部分。首先,对于全局轨迹规划,本文使用了一种自适应聚类的方法对场景中的障碍物进行分类。分类之后,每一个障碍物聚类作为整体并计算该障碍物聚类的凸包。在得到所有障碍物凸包和凸包的边界点之后,算法可以忽略凸包内部的障碍物构型,直接使用凸包的边界点和凸包之间的连接线进行全局轨迹规划。如此设计会使得当场景中障碍物非常复杂的时候,显著提升算法效率。图1给出了算法的流程图,图2给出了算法的规划结果。其次,对于局部轨迹规划,本文使用了深度强化学习来自主学习机器人的避障策略。与传统方法不同的是,强化学习框架能够实现端到端的学习,即建立传感器数据到控制指令的直接映射,进而将避障策略与控制逻辑结合为一个整体,简化了设计流程。此外,对于强化学习本身,本文使用了网络分离技术来对数据进行预处理。在学习时,本文将机器人有关运动的数据和有关激光雷达的数据分别在两个不同的网络中进行预处理,并在网络输出的前一层进行合并,通过这种设计方式来降低算法的学习时间并提高避障的成功率。
图3. 网络结构图
图4 给出了带有网络分离 (ND-TD3,ND-DDPG) 和不带网络分离 (TD3,DDPG) 情况下的训练和测试的对比曲线图。
图4. 训练-测试对比曲线图
(1) 提出了一种基于自适应聚类的全局轨迹规划方法来提高复杂场景下的规划效率。通过将障碍物聚类并生成凸多边形包络的方式来提高算法的速度。 (2) 改进了深度强化学习中的网络结构,通过使用网络分离的方法来提高神经网络学习的效率与效果。本文所提出的控制方案在冰达机器人平台上进行了验证。整体仿真结果图如图5所示。