【论文荐读】具备预判避碰决策的无人艇集成智能引导和运动控制研究

文摘   科技   2024-09-25 06:00   江苏  


标题:Integrated Intelligent Guidance and Motion Control of USVs With Anticipatory Collision Avoidance Decision-Making

期刊:IEEE Transactions on Intelligent Transportation Systems (Early Access)
作者:Yihan Tao, Jialu Du, Frank L. Lewis

单位College of Marine Electrical Engineering, Dalian Maritime University

1、研究背景:

无人艇技术正逐步从研究领域转向实际应用,特别是在运输和环境监测方面。为了完成这些任务,无人艇需具备良好的自主导航能力,这依赖于其避障决策能力。然而,目前针对无人艇在多动态船只的密集环境中的避障研究仍然较为稀缺。论文利用深度强化学习(DRL)对密集环境下无人艇的避障问题进行了深入研究。

2、论文创新点:

1、提出了一种基于风险预测的深度强化学习方法(RPDRL);
2、设计了数据编码器将动态船只信息转换成雷达数据的格式,有效保留了特征又保证了维度的统一;

3、建立了一个碰撞风险评估模型来计算奖励值;

4、通过DCNN建立Actor-Critic网络。

3、研究方法:

3.1 问题建模

如图1所示,无人艇在密集环境中行驶,目的是在不发生碰撞的情况下以最短的时间驶向终点。无人艇能够探测到周围25海里动态船只的状态。静态障碍物采用多边形来近似。在tn时刻无人艇、周围船只和静态障碍物的状态为:

1 问题建模

如图2所示,无人艇的目的是依据上述信息和策略,做出避障决策,并经过运动控制来执行避障行为

图2 避障运动控制原理

整个问题可以抽象成一个如下式的最优化问题:

即无人艇要在到达终点且不发生碰撞的前提下,选择满足物理限制的速度和角速度,来使得构建的目标函数值最大。
3.2 论文方法

3.2.1数据编码器

应用深度强化学习范式需要状态信息的维度恒定,而这与无人艇的密集环境有冲突。将周围船只的信息表征成雷达数据,再进一步表示成257*257的雷达图片可以有效解决这个问题。具体步骤如下。

上式中,ij是像素点的位置,kRGB的三通道,分别表征了动态船只的三自由度。

由此状态空间可以表示为下式。

其中是动态船只的状态,是无人艇自身的状态,是静态障碍物的状态。
3.2.2 碰撞风险评估模型
论文设计了碰撞风险评估模型用于计算奖励值,具体公式如下。

当无人艇与障碍物发生碰撞,会受到-1的奖励值,当无人艇抵达终点,会受到1的奖励值。若无人艇既没有抵达终点,又没有发生碰撞,则获得上式第三行的奖励。其中是关于终点的误差,表示为下式。

上式分为三个误差,无人艇艏向角相对于终点的航向角的偏差、无人艇与终点的距离偏差以及无人艇的速度与最大速度的偏差。

碰撞风险指数分为动态碰撞指数和静态碰撞指数,计算公式如下。

其中,dCPAtCPA分别是无人艇距离动态船只的距离和预计的时间,dSPAtSPA是设定的安全距离和安全时间。根据高斯分布的性质,dCPAtCPA越低,动态碰撞指数越高,无人艇距离静态障碍物越近,c越大,动态碰撞指数越大。

3.2.3 DCNN网络的建立

论文利用CNN网络建立Actor网络和Critic网络,动态船只信息经过雷达编码器进入多层卷积网络然后分别输入Actor网络输出动作,输入Critic网络输出价值。
图3 Actor-Critic网络结构图

Actor网络和Critic网络采用梯度的方法进行网络参数的更新,目标网络采用软更新的方式,计算公式如下。

3.3 实验结果

为了训练神经网络,文章设置了训练环境,其中包含0-20只动态船只,船只的数量和状态信息随机,但是与无人艇的初始距离大于2海里,动态船只采用动态窗口法控制。

无人艇的一次航行作为一个case,当最近的100case的成功率超过75且平均奖励大于-0.25是认为策略已经收敛至最佳,训练图如下所示。

图4 训练奖励值图

从图中可以看出,算法具有较快的收敛速度,在约300回合就收敛。为了进一步测试算法的性能,论文将提出的RPDRLMPCVO方法进行对比,每种方法在6艘动态船只和18艘动态船只的环境中分别测试100次,实验结果如下。

图5 航行轨迹图
图6 DCPA图

图7 控制指令图

从图5-7可知,RPDRL方法的路径更短,距离障碍物和动态船只的距离较远,推进器和舵角的控制指令也更为合理。

根据动态船只的数量将训练的100case分类成三组:第一组0-7,第二组8-14,第三组15-20,三组的数量分别为293536。统计其最小DCPA和航行距离偏差,如下图所示。

图8 最小DCPA图

图9 航行偏差图
从图8-图9可以看出,随着障碍物船只的增加,最小DCPA逐渐减小,航行偏差逐渐增加,但是RPDRL方法在三种方法表现最佳。
4、结论:

论文针对海上密集障碍物环境下的无人艇避障进行了深入研究,构建了复杂真实的障碍物环境,提出了RPDRL方法,通过对动态船只信息进行编码,既保留了特征又保证了状态空间维度的统一,且通过高斯分布来设计碰撞风险评估函数来计算奖励值。实验结果证明了所提出的RPDRL方法具备鲁棒性和有效性。

智能自主无人系统课题组
智能自主无人系统(IAUS)课题组坚持“面向国家重大科技需求,引领行业技术进步”的思路,专注于人工智能技术在自主无人系统、机器人、智能工程装备领域的基础和应用研究,分享和发布最新科研动态及研究成果。
 最新文章