标题:Distributed Pursuit-Evasion Game of Limited Perception USV Swarm Based on Multiagent Proximal Policy Optimization
单位:School of Automation, Central South University
1、研究背景:
1)本文提出基于多智能体强化学习(MARL)的分布式控制方法,使追逐者在接近逃避者后形成动态包围圈,防止逃避者逃脱。
2)设计了一种结合障碍物速度和方向的碰撞向量奖励结构,更全面地反映了碰撞风险。
本文的方法基于深度强化学习的分布式捕获控制策略,主要利用了多智能体的近端策略优化(MAPPO)算法,并结合了课程学习和虚拟障碍的策略来优化USV集群的追捕能力。在多USV的追捕逃逸博弈场景中,研究方法考虑了每个追捕者的有限感知范围,并通过一种新设计的速度控制机制引导追捕者在动态环境中围捕逃逸者。
1)控制目标
为了实现理想的追捕效果,本文设定了三项控制目标。首先是距离控制目标,追捕者的首要目标是逐步缩短与逃避者的距离,最终达到理想的包围半径dE。如图1所示,理想的包围结构为追捕者和逃避者之间保持一个固定半径的包围圈,且追捕者之间具有均匀的安全距离。公式表示如下:
其中,Pi和PE分别表示第i个追捕者和逃避者的位置,dE为预设的包围半径。
图1 理想的包围结构
其次是速度同步目标,即在包围形成后,追捕者需要调整自身速度与逃避者保持一致,以确保形成稳定的动态包围圈,防止包围圈因追捕者的速度变化而扩散或收缩。速度同步目标公式为:
其中,Vi和VE分别为追捕者和逃避者的速度。
为实现有效的追捕和动态包围,本文提出了一种接近速度与绕行速度相结合的速度控制机制。在追捕的初始阶段,追捕者需要加速靠近逃避者,但随着距离缩小,接近速度逐步衰减,以确保追捕平稳。接近速度公式为:
其中,Vic为引导追捕者i靠近逃避者的速度,V0是初始速度,Ct为速度系数,dEi为当前距离,dE为目标包围半径,rEi是指向逃避者的单位向量,D(·)是空间中的平滑速度衰减函数。
追捕者进入包围圈时,需要以固定角速度绕目标旋转,以达到较好的包围圈效果。绕行速度公式为:
在追捕过程中,避免追捕者之间及与障碍物的碰撞至关重要。本文采用速度障碍(VO)区域概念来避免碰撞,即表示可能导致碰撞的速度区域。追捕者在速度选择时避免进入该区域,公式如下:
PA和VA是USVA的位置和速度,PB和VB为USVB的相应参数,图2展示了VO区域的表示方式。为了方便进行DRL训练,向量CVO=[VP,Vl,Vr]T用于表示。
图2 速度障碍(VO)区域
此外,本文还基于追捕者与逃避者的速度方向之间的角度αr重新组织观测状态,这种排序策略保证了输入数据的一致性,解决了排列不变性问题,提升了神经网络的训练效率、特征提取能力和模型的泛化性能。
奖励函数是引导追捕者行为的核心,本文的奖励函数为:
rvo是即时奖励,用于鼓励追捕者在追捕过程中尽可能选择VO区域外的速度以避开障碍;rcol是一种延迟奖励,在发生碰撞时提供负奖励;rf是包围编队的奖励,鼓励追捕者围绕逃避者形成均匀分布的包围圈。
其中:
CVO=[VP,Vl,Vr]T可以用来确定当前速度v是否在VO区域内。
本文提出了一种改进的MAPPO算法,该算法具有集中训练、分布式执行(CTDE)的特点。通过在训练框架中引入虚拟障碍,以进一步增强了策略的探索能力,训练框架如图4所示。
图4 集中式训练分布式执行框架
在训练开始时,将每个USV的局部状态oi连接到全局状态St中。随后,奖励函数根据全局状态St生成一个全局奖励rt。随后,USVi根据策略网络πθ(oi)和即时奖励ri生成动作 ai,其中动作ai用以下公式表示:
其中rf表示奖励阈值,kf表示固定时间步长的评估奖励。如果奖励ri<rf,本文将在当前位置设置为虚拟障碍,并在动作空间随机采样。另外,为了提高观测数据的利用率,本文采用了经验回放的技术。当收集到的数据达到指定容量时,计算策略网络和价值网络的更新梯度。
算法1总结了训练框架。首先初始化策略网络和价值网络,清空经验池,然后每个追捕者根据局部观察产生动作并与环境交互。随后,计算奖励和优势函数,并将其加入到经验池中。当经验池中的数据达到一定数量时,从经验池中随机抽取一批数据进行训练。策略网络的优化目标函数和价值网络分别表示为LCLIP(θ))和LCLIP(ξ),学习率分别为lra和lrc。此外,本文使用Kullback-Leiber (KL)散度来表示新旧策略之间的差异,并且只有当差异小于时才更新策略网络。
为提升训练效率,本文采用了课程学习策略,多usv PE场景通常包括多个追捕者和逃避者。直接针对大规模捕获任务进行训练,经常会导致策略收敛缓慢和奖励稀疏问题。此外,追捕者和逃避者的相对速度,以及包围半径,也会影响捕获任务的难度。因此,文章将课程学习融入到训练过程中,从小规模的捕获任务、更大的包围半径、更慢的运动速度开始训练。这种方法鼓励追击者在初始阶段探索复杂的捕获行为。随后,通过调整USV群的大小、包围圈半径、无人潜航器的速度,逐步提高捕获任务的难度,直至与实际难度相符。
3.3 实验验证
本文基于OpenAI Gym构建了一个多usv PE训练场景,并使用Pytorch (Python 3.9)实现捕获策略。如图5所示,仿真场景中存在一个逃避者(USV0)和两个追捕者(USV1和USV2))。将逃避者的目标区域记为g0,如果逃避者在有限时间内到达该区域,则认为逃脱成功。而追捕者则需要形成包围圈,防止逃避者到达目标区域。此外,场景中存在圆形障碍物,追捕者在捕获过程中必须避免与障碍物和其他追捕者发生碰撞。每个追捕者的感知范围设置为4米。所有追捕者共享相同的捕获策略。如果发生碰撞或当系统达到最大运行步数(1000步)时,环境将被重置。另外,将人工势场(APF)方法作为逃逸者的逃逸策略。
(a)无障碍物情况下二对一PE场景下USV的运动轨迹 (b)USV在有障碍物的二对一PE场景中的运动轨迹
在第二次训练时,引入了四个圆形障碍物。从图5(b)中可以发现,逃避者最终到达目标区域g0,捕获任务再次失败。虽然在两个追击者和一个逃避者的场景中,捕获任务都失败了,但失败的原因可能是追击者数量有限,导致包围圈队形间隙过大,让逃避者在某些时刻突破了周界。尽管如此,这次训练迭代仍然具有重要意义,因为追捕者在训练过程中已经获得了基本的包围和避障策略。为了解决这个问题,在第三次训练中引入了一个额外的追捕者,追捕者成功拦截了逃避者,阻止它到达目标区域g0。测试过程中不同步骤的轨迹如图6所示。
(a)步长=250 (b)步长=500 (c)步长=750 (d)步长=1000
最后,追捕者的数量增加到4个。在测试过程中,USV的轨迹如图6所示。与3个追捕者的场景相比,增加第4个追捕者在距离目标区域更大的距离上拦截了逃避者。这就形成了更有效的动态包围圈编队。
图7 有障碍物的四对一PE场景中USV不同步长运动轨迹
(a)步长=250 (b)步长=500 (c)步长=750 (d)步长=1000
为了验证方法的探索性、稳定性和泛化能力,本文与COMA、MAPPO和MADDPG进行了比较。训练好的策略在1000个随机场景中进行测试,通过评估捕获成功率和逃避者到目标区域的距离来比较不同训练框架的优势。
从图8中观察到MAPPO和COMA在累积奖励方面表现相似,MAPPO略优于COMA,而本文的方法超过了其他三种方法。
图9 四种方法的成功率对比
表1 四种方法性能对比
虚拟现实场景测试:为了进一步验证策略的泛化能力,本文使用gazebo 3-D构建了一个多usvPE场景。这个场景包括一个逃避者和四个追捕者。逃避者采用APF方法进行逃避,而追捕者的策略是基于在4对1PE场景中训练的策略。追捕者和逃避者在整个追捕过程中的轨迹如图9所示。
图10 USV运动轨迹