标题:Integrated Intelligent Guidance and Motion Control of USVs With Anticipatory Collision Avoidance Decision-Making
单位:College of Marine Electrical Engineering, Dalian Maritime University
1、研究背景:
无人艇技术正逐步从研究领域转向实际应用,特别是在运输和环境监测方面。为了完成这些任务,无人艇需具备良好的自主导航能力,这依赖于其避障决策能力。然而,目前针对无人艇在多动态船只的密集环境中的避障研究仍然较为稀缺。论文利用深度强化学习(DRL)对密集环境下无人艇的避障问题进行了深入研究。
4、通过DCNN建立Actor-Critic网络。
3、研究方法:
3.1 问题建模
如图1所示,无人艇在密集环境中行驶,目的是在不发生碰撞的情况下以最短的时间驶向终点。无人艇能够探测到周围25海里动态船只的状态。静态障碍物采用多边形来近似。在tn时刻无人艇、周围船只和静态障碍物的状态为:
如图2所示,无人艇的目的是依据上述信息和策略,做出避障决策,并经过运动控制来执行避障行为。
图2 避障运动控制原理
整个问题可以抽象成一个如下式的最优化问题:
3.2.1数据编码器
应用深度强化学习范式需要状态信息的维度恒定,而这与无人艇的密集环境有冲突。将周围船只的信息表征成雷达数据,再进一步表示成257*257的雷达图片可以有效解决这个问题。具体步骤如下。
上式中,i,j是像素点的位置,k是RGB的三通道,分别表征了动态船只的三自由度。
由此状态空间可以表示为下式。
当无人艇与障碍物发生碰撞,会受到-1的奖励值,当无人艇抵达终点,会受到1的奖励值。若无人艇既没有抵达终点,又没有发生碰撞,则获得上式第三行的奖励。其中是关于终点的误差,表示为下式。
上式分为三个误差,无人艇艏向角相对于终点的航向角的偏差、无人艇与终点的距离偏差以及无人艇的速度与最大速度的偏差。
碰撞风险指数分为动态碰撞指数和静态碰撞指数,计算公式如下。
其中,dCPA和tCPA分别是无人艇距离动态船只的距离和预计的时间,dSPA和tSPA是设定的安全距离和安全时间。根据高斯分布的性质,dCPA和tCPA越低,动态碰撞指数越高,无人艇距离静态障碍物越近,c越大,动态碰撞指数越大。
3.2.3 DCNN网络的建立
Actor网络和Critic网络采用梯度的方法进行网络参数的更新,目标网络采用软更新的方式,计算公式如下。
3.3 实验结果
为了训练神经网络,文章设置了训练环境,其中包含0-20只动态船只,船只的数量和状态信息随机,但是与无人艇的初始距离大于2海里,动态船只采用动态窗口法控制。
无人艇的一次航行作为一个case,当最近的100个case的成功率超过75且平均奖励大于-0.25是认为策略已经收敛至最佳,训练图如下所示。
从图中可以看出,算法具有较快的收敛速度,在约300回合就收敛。为了进一步测试算法的性能,论文将提出的RPDRL与MPC、VO方法进行对比,每种方法在6艘动态船只和18艘动态船只的环境中分别测试100次,实验结果如下。
从图5-图7可知,RPDRL方法的路径更短,距离障碍物和动态船只的距离较远,推进器和舵角的控制指令也更为合理。
根据动态船只的数量将训练的100个case分类成三组:第一组0-7,第二组8-14,第三组15-20,三组的数量分别为29,35,36。统计其最小DCPA和航行距离偏差,如下图所示。
图8 最小DCPA图
论文针对海上密集障碍物环境下的无人艇避障进行了深入研究,构建了复杂真实的障碍物环境,提出了RPDRL方法,通过对动态船只信息进行编码,既保留了特征又保证了状态空间维度的统一,且通过高斯分布来设计碰撞风险评估函数来计算奖励值。实验结果证明了所提出的RPDRL方法具备鲁棒性和有效性。