【论文荐读】基于近端策略优化的有限感知无人艇集群避障

文摘   科技   2024-04-27 21:58   江苏  


标题:Collision avoidance control for limited perception unmanned surface vehicle swarm based on proximal policy optimization

来源:Journal of the Franklin Institute, 361:106709, 2024.
作者:Mengmeng Yin, Yiyun Zhao, Fanbiao Li, Bin Liu, Chunhua Yang, Weihua Gui
单位:School of Automation, Central South University, Changsha; School of Artificial Intelligence and Automation, Huazhong University of Science and Technology, Wuhan

1、研究背景:

水面无人艇(USV)集群由于具有自主性、可实时监控和快速响应的优点,在海洋救援和岛屿防卫等领域上有很广泛的应用前景。完成上述任务需要USV具备合作避障的能力。传统簇控制方法(traditional cluster control)会受限于海上动态环境和无人艇之间的通信条件。为了解决上述问题,论文设计了一种基于深度强化学习的无人艇集群避障策略

2、论文创新点:

(1)提出了一种基于ORCA(Optimal reciprocal collision avoidance)和PPO(proximal policy optimization)相结合的分布式无人艇集群控制方法;

(2) 设计了一种新颖奖励函数以驱动策略网络取得更好的避障效率;

(3) 采用BiGRU网络对观测数据进行处理,解决了状态空间维度变化的问题;

(4) 训练环境和实验环境中随机因素的设置

3、研究方法:

原理阐述:速度障碍法(Velocity Obstacle

速度障碍法是无人艇避障领域的一种经典的控制算法。

①通过Minkowski sum(将两个形状之间的每一个点相加形成一个新形状)的方法将USVA抽象成一个点,USVB扩展成一个RA+RB的圆形;

②过A点对这个圆作两条切线,就可以得到速度障碍区域,VA若是落到该区域则认为会发生碰撞;

③考虑到USVB也是运动的,则将VO区域沿着VB向量平移

图1 速度障碍法

原理阐述:Optimal reciprocal collision avoidance (ORCA)

由于VO方法只考虑到了无限时间内的碰撞可能,可行解会受到限制,因此可能无法得到最优解,因此采用ORCA的方法将时间要素考虑进去,对比VO有更小的速度变化;

①当VA进入VO区,对VO区域边界做垂直线得到最小变化速度ΔV,USVA在时间步内走ΔV则可以避免碰撞;

②若USVA和USVB采用同样的策略,则两者都只需要走0.5个ΔV即可完成避碰。

图2 Optimal reciprocal collision avoidance方法

问题建模:一个集群中有n艘USV,每艘USV的安全半径为Ri,在k时刻,第i艘USV的位置和速度分别为Pi和Vi。第i艘USV可以观测到以其质心为圆心,Rg为半径的圆内的其他m艘USV的状态(第j艘USV产生的VO(速度障碍法)区域,ORCA区域,距离和预估碰撞时间)。这些状态和第i艘USV自身的状态(当前的速度,艏向角,期望速度和碰撞半径)构成了第i艘USV的状态空间,如下式所示:

无人艇避障可以抽象成如下式所示的一个最优化问题。

无人艇的动作空间如下式所示,为了速度的稳定,论文采取了速度的增量,同时对速度设置了阈值。

在奖励函数的设置上将稠密奖励(dense reward)和稀疏奖励(sparse reward)相结合,设置了ORCA奖励,碰撞奖励,到达奖励和艏向角振荡奖励,如下式所示:

论文的整体框架如图3所示,第i艘USV所观测到的维数不确定的观测量被输入到BiGRU网络中分别生成一个128维的前向特征和一个128维的后向特征。这些特征经过归一化被输入至策略网络和价值网络中。

图3 论文总体框架

论文采用了近端策略优化(PPO)框架对神经网络进行训练,其框架如图4所示。

图4 基于PPO的无人艇训练架构

首先根据旧策略选出动作,进而产生新的观测值并计算出广义优势估计(Generalized Advantage Estimation,GAE),如下式所示。

再从经验回访池随机采样数据进行策略网络更新和价值网络更新,可以表示为下式:

其中clip函数和rt(θ)的作用是防止旧策略和新策略的偏差过大产生振荡,可以表示为:

在更新策略网络的参数时考虑了KL散度,KL散度是用来评估两个概率分布的偏差的指标,在本文即是旧策略和新策略的偏差,当偏差大于一个设定的上界时,不会更新策略网络的参数以防止偏差过大的参数更新,有利于收敛。

4、实验结果

论文基于OpenAI Gym界面设置了两个无人艇集群场景,如图5所示。分为线性场景和圆形场景,目标是让无人艇尽快地到达对应地目标点且不发生碰撞。

图5 无人艇避障场景

为了验证BiGRU模块的有效性,在线性场景下将其与RNN和LSTM模块进行对比,实验结果如图6所示。实验结果显示BiGRU模块在收敛的平滑性,收敛的速度和内存占用量方面都有优势。

图6 奖惩函数图
在线性实验中,将本文的方法和SARL和DRL-VO方法进行对比,实验结果如图7和表1所示。从实验结果中可以看出论文提出的方法在航行时间,平均速度、平均奖励和成功率上都是最好的并且USV的路径也是最平滑的。

图7 线性实验轨迹图
表1 线性实验数据

同样地,在圆形实验中,也是将论文方法与上述两种方法进行对比,实验结果如图8和表2所示。实验结果表明论文算法显著优于其他两个算法。同时作者对这三种算法所需的计算量进行测试,测试结果如图9所示。从结果可以看出DRL-VO和论文算法的计算量都远远小于SARL,结合之前的实验数据可以得出论文方法最优的结论。

图8 圆形实验轨迹图

表2.圆形实验数据

图9 计算量对比

为了验证算法的泛化性还搭建了ROS环境进行仿真实验,如图10所示。仿真实验中算法也有很好的表现。

10 基于ROS的仿真实验

4、结论:

论文将ORCA与PPO算法相结合,提出了一种无人艇集群的避障方法,采用了BiGRU模块解决了状态空间维度变化的问题,在策略网络的更新上采用了优势函数,clip函数和KL散度等机制来侧近算法收敛。实验结果证明了论文方法在时间,成功率,速度,计算量等多个指标上具备优越性



智能自主无人系统课题组
智能自主无人系统(IAUS)课题组坚持“面向国家重大科技需求,引领行业技术进步”的思路,专注于人工智能技术在自主无人系统、机器人、智能工程装备领域的基础和应用研究,分享和发布最新科研动态及研究成果。
 最新文章