标题:Collision avoidance control for limited perception unmanned surface vehicle swarm based on proximal policy optimization
1、研究背景:
(1)提出了一种基于ORCA(Optimal reciprocal collision avoidance)和PPO(proximal policy optimization)相结合的分布式无人艇集群控制方法;
(2) 设计了一种新颖奖励函数以驱动策略网络取得更好的避障效率;
(3) 采用BiGRU网络对观测数据进行处理,解决了状态空间维度变化的问题;
(4) 训练环境和实验环境中随机因素的设置。
3、研究方法:
速度障碍法是无人艇避障领域的一种经典的控制算法。
①通过Minkowski sum(将两个形状之间的每一个点相加形成一个新形状)的方法将USVA抽象成一个点,USVB扩展成一个RA+RB的圆形;
②过A点对这个圆作两条切线,就可以得到速度障碍区域,VA若是落到该区域则认为会发生碰撞;
③考虑到USVB也是运动的,则将VO区域沿着VB向量平移。
原理阐述:Optimal reciprocal collision avoidance (ORCA)
由于VO方法只考虑到了无限时间内的碰撞可能,可行解会受到限制,因此可能无法得到最优解,因此采用ORCA的方法将时间要素考虑进去,对比VO有更小的速度变化;
①当VA进入VO区,对VO区域边界做垂直线得到最小变化速度ΔV,USVA在时间步内走ΔV则可以避免碰撞;
图2 Optimal reciprocal collision avoidance方法
无人艇避障可以抽象成如下式所示的一个最优化问题。
无人艇的动作空间如下式所示,为了速度的稳定,论文采取了速度的增量,同时对速度设置了阈值。
在奖励函数的设置上将稠密奖励(dense reward)和稀疏奖励(sparse reward)相结合,设置了ORCA奖励,碰撞奖励,到达奖励和艏向角振荡奖励,如下式所示:
图3 论文总体框架
论文采用了近端策略优化(PPO)框架对神经网络进行训练,其框架如图4所示。
图4 基于PPO的无人艇训练架构
再从经验回访池随机采样数据进行策略网络更新和价值网络更新,可以表示为下式:
其中clip函数和rt(θ)的作用是防止旧策略和新策略的偏差过大产生振荡,可以表示为:
图5 无人艇避障场景
同样地,在圆形实验中,也是将论文方法与上述两种方法进行对比,实验结果如图8和表2所示。实验结果表明论文算法显著优于其他两个算法。同时作者对这三种算法所需的计算量进行测试,测试结果如图9所示。从结果可以看出DRL-VO和论文算法的计算量都远远小于SARL,结合之前的实验数据可以得出论文方法最优的结论。
图8 圆形实验轨迹图
表2.圆形实验数据
4、结论:
论文将ORCA与PPO算法相结合,提出了一种无人艇集群的避障方法,采用了BiGRU模块解决了状态空间维度变化的问题,在策略网络的更新上采用了优势函数,clip函数和KL散度等机制来侧近算法收敛。实验结果证明了论文方法在时间,成功率,速度,计算量等多个指标上具备优越性。