【论文荐读】基于多智能体近端策略优化的有限感知无人艇集群分布式追逃博弈

文摘   科技   2024-11-16 07:00   江苏  


标题:Distributed Pursuit-Evasion Game of Limited Perception USV Swarm Based on Multiagent Proximal Policy Optimization

期刊:IEEE Transactions on Systems Man Cybernetics-Systems,2024,54(10):6435-6446
作者Fanbiao Li,Mengmeng Yin,TengdaWang,Tingwen Huang,Chunhua Yang,Weihua Gui

单位:School of Automation, Central South University

1、研究背景:

随着海洋探索和无人系统技术的发展,无人水面车辆(USV)在海洋探索、协同防御和救援等任务中扮演着越来越重要的角色。然而,在多无人系统的追捕-逃避(PE)任务中,USV的感知范围有限、行动能力受限、环境中存在障碍物等因素,使得设计高效的追捕策略变得复杂且充满挑战。

本文旨在解决多USV协同追捕逃避任务中的动态捕获问题,尤其是在USV个体感知有限的情况下。传统方法通常依赖于集中控制,存在单点故障风险,且在大规模系统中带来高通信和计算负担。已有的分布式控制方法未充分考虑现实环境的复杂性,如有限感知范围、欠驱动特性和随机障碍物的影响。因此,本文提出了一种分布式捕获策略优化方法,使得每个追捕者能够在有限感知信息下实现有效的动态包围,从而提升捕获效率和系统的鲁棒性。

2、论文创新点:

1)本文提出基于多智能体强化学习(MARL)的分布式控制方法,使追逐者在接近逃避者后形成动态包围圈,防止逃避者逃脱。

2)设计了一种结合障碍物速度和方向的碰撞向量奖励结构,更全面地反映了碰撞风险。

3)提出改进版MAPPO算法,采用CTDE框架和课程学习,增强了算法的探索与泛化能力,适用于大规模USV群体的训练。

3、研究方法:

本文的方法基于深度强化学习的分布式捕获控制策略,主要利用了多智能体的近端策略优化(MAPPO)算法,并结合了课程学习和虚拟障碍的策略来优化USV集群的追捕能力。在多USV的追捕逃逸博弈场景中,研究方法考虑了每个追捕者的有限感知范围,并通过一种新设计的速度控制机制引导追捕者在动态环境中围捕逃逸者。

3.1 PE场景

1)控制目标

为了实现理想的追捕效果,本文设定了三项控制目标。首先是距离控制目标,追捕者的首要目标是逐步缩短与逃避者的距离,最终达到理想的包围半径dE。如图1所示,理想的包围结构为追捕者和逃避者之间保持一个固定半径的包围圈,且追捕者之间具有均匀的安全距离。公式表示如下:

其中,Pi和PE分别表示第i个追捕者和逃避者的位置,dE为预设的包围半径。

图1 理想的包围结构

其次是速度同步目标,即在包围形成后,追捕者需要调整自身速度与逃避者保持一致,以确保形成稳定的动态包围圈,防止包围圈因追捕者的速度变化而扩散或收缩。速度同步目标公式为:

其中,Vi和VE分别为追捕者和逃避者的速度。

最后是动态包围目标,在包围圈形成后,追捕者需要以期望的角速度绕行逃避者,以确保动态包围的稳定性。图1展示了动态包围的示意,追捕者围绕逃避者的相对角度保持一致,以避免逃避者逃脱包围圈。公式表示为:

其中θi表示当前追捕者相对于目标的角位置,ω*表示期望的角速度。

2)速度控制机制

为实现有效的追捕和动态包围,本文提出了一种接近速度与绕行速度相结合的速度控制机制。在追捕的初始阶段,追捕者需要加速靠近逃避者,但随着距离缩小,接近速度逐步衰减,以确保追捕平稳。接近速度公式为:

其中,Vic为引导追捕者i靠近逃避者的速度,V0是初始速度,Ct为速度系数,dEi为当前距离,dE为目标包围半径,rEi是指向逃避者的单位向量,D(·)是空间中的平滑速度衰减函数。

追捕者进入包围圈时,需要以固定角速度绕目标旋转,以达到较好的包围圈效果。绕行速度公式为:

式中,vr为包围率,vtan为追逃线方向的法向量。
最终的期望速度为接近速度和环绕速度之和,即
3)避障

在追捕过程中,避免追捕者之间及与障碍物的碰撞至关重要。本文采用速度障碍(VO)区域概念来避免碰撞,即表示可能导致碰撞的速度区域。追捕者在速选择时避免进入该区域,公式如下:

PAVAUSVA的位置和速度PBVBUSVB的相应参数,图2展示了VO区域的表示方式。为了方便进行DRL训练,向量CVO=[VPVlVr]T用于表示

2 速度障碍(VO)区域

3.2 针对追捕的深度强化学习

为有效建模追捕者的决策过程,本文将单个追捕者的追捕过程表述为一个由元组{S,a,R,P,γ}表示的马尔可夫决策过程(MDP),其中st∈S,at∈A,rt∈R分别表示追击者在时间t的观察状态、行动和奖励,P是状态转移概率,γ是累积奖励的折扣因子。

在状态表示和特征提取方面,考虑到每个追捕者的感知范围有限,局部观测oi的长度随感知范围RP内的附近的USV和障碍物的数量而变化。为此,本文采用双向门控循环单元(BiGRU)网络,将可变长度的观测序列转换为固定长度的向量,从而增强了对局部观测的鲁棒性。图3展示了特征网络的架构。
图3 特征网络

此外,本文还基于追捕者与逃避者的速度方向之间的角度αr重新组织观测状态,这种排序策略保证了输入数据的一致性,解决了排列不变性问题,提升了神经网络的训练效率、特征提取能力和模型的泛化性能。

奖励函数是引导追捕者行为的核心,本文的奖励函数为:

rvo是即时奖励,用于鼓励追捕者在追捕过程中尽可能选择VO区域外的速度以避开障碍;rcol是一种延迟奖励,在发生碰撞时提供负奖励;rf是包围编队的奖励,鼓励追捕者围绕逃避者形成均匀分布的包围圈。

其中:

CVO=[VPVlVr]T可以用来确定当前速度v是否在VO区域内。

本文提出了一种改进的MAPPO算法,该算法具有集中训练、分布式执行(CTDE)的特点。通过在训练框架中引入虚拟障碍,以进一步增强了策略的探索能力,训练框架如图4所示。

4 集中式训练分布式执行框架

在训练开始时,将每个USV的局部状态oi连接到全局状态St中。随后,奖励函数根据全局状态St生成一个全局奖励rt。随后,USVi根据策略网络πθ(oi)和即时奖励ri生成动作 ai,其中动作ai用以下公式表示:

其中rf表示奖励阈值,kf表示固定时间步长的评估奖励。如果奖励ri<rf,本文将在当前位置设置为虚拟障碍,并在动作空间随机采样。另外,为了提高观测数据的利用率,本文采用了经验回放的技术。当收集到的数据达到指定容量时,计算策略网络和价值网络的更新梯度。

算法1总结了训练框架。首先初始化策略网络和价值网络,清空经验池,然后每个追捕者根据局部观察产生动作并与环境交互。随后,计算奖励和优势函数,并将其加入到经验池中。当经验池中的数据达到一定数量时,从经验池中随机抽取一批数据进行训练。策略网络的优化目标函数和价值网络分别表示为LCLIP(θ))和LCLIP(ξ),学习率分别为lralrc。此外,本文使用Kullback-Leiber (KL)散度来表示新旧策略之间的差异,并且只有当差异小于时才更新策略网络。

为提升训练效率,本文采用了课程学习策略,多usv PE场景通常包括多个追捕者和逃避者。直接针对大规模捕获任务进行训练,经常会导致策略收敛缓慢和奖励稀疏问题。此外,追捕者和逃避者的相对速度,以及包围半径,也会影响捕获任务的难度。因此,文章将课程学习融入到训练过程中,从小规模的捕获任务、更大的包围半径、更慢的运动速度开始训练。这种方法鼓励追击者在初始阶段探索复杂的捕获行为。随后,通过调整USV群的大小、包围圈半径、无人潜航器的速度,逐步提高捕获任务的难度,直至与实际难度相符。

3.3 实验验证

本文基于OpenAI Gym构建了一个多usv PE训练场景,并使用Pytorch (Python 3.9)实现捕获策略。如图5所示,仿真场景中存在一个逃避者(USV0)和两个追捕者(USV1和USV2))。将逃避者的目标区域记为g0,如果逃避者在有限时间内到达该区域,则认为逃脱成功。而追捕者则需要形成包围圈,防止逃避者到达目标区域。此外,场景中存在圆形障碍物,追捕者在捕获过程中必须避免与障碍物和其他追捕者发生碰撞。每个追捕者的感知范围设置为4米。所有追捕者共享相同的捕获策略。如果发生碰撞或当系统达到最大运行步数(1000步)时,环境将被重置。另外,将人工势场(APF)方法作为逃逸者的逃逸策略。

(a)              (b)
5 运动轨迹

(a)无障碍物情况下二对一PE场景下USV的运动轨迹 (b)USV在有障碍物的二对一PE场景中的运动轨迹

图5(a)中是第一次训练结束后,在无障碍物场景中测试时的运动轨迹,其中包括两个追捕者和一个逃避者。从图5中可以发现,逃避者最终到达目标区域g0,表示捕获任务失败。

在第二次训练时,引入了四个圆形障碍物。从图5(b)中可以发现,逃避者最终到达目标区域g0,捕获任务再次失败。虽然在两个追击者和一个逃避者的场景中,捕获任务都失败了,但失败的原因可能是追击者数量有限,导致包围圈队形间隙过大,让逃避者在某些时刻突破了周界。尽管如此,这次训练迭代仍然具有重要意义,因为追捕者在训练过程中已经获得了基本的包围和避障策略。为了解决这个问题,在第三次训练中引入了一个额外的追捕者,追捕者成功拦截了逃避者,阻止它到达目标区域g0。测试过程中不同步骤的轨迹如图6所示。

图6 有障碍物的三对一PE场景中USV不同步长运动轨迹

(a)步长=250  (b)步长=500  (c)步长=750  (d)步长=1000

最后,追捕者的数量增加到4个。在测试过程中,USV的轨迹如图6所示。与3个追捕者的场景相比,增加第4个追捕者在距离目标区域更大的距离上拦截了逃避者。这就形成了更有效的动态包围圈编队。

图7 有障碍物的四对一PE场景中USV不同步长运动轨迹

(a)步长=250  (b)步长=500  (c)步长=750  (d)步长=1000

为了验证方法的探索性、稳定性和泛化能力,本文与COMA、MAPPO和MADDPG进行了比较。训练好的策略在1000个随机场景中进行测试,通过评估捕获成功率和逃避者到目标区域的距离来比较不同训练框架的优势。

从图8中观察到MAPPO和COMA在累积奖励方面表现相似,MAPPO略优于COMA,而本文的方法超过了其他三种方法。

图8 四种方法的累积奖励对比

图9显示了四种训练方法在1000个随机场景中捕获任务的成功率,从图中可以看出,本文的方法在使用4个、5个、6个和8个追捕者方法中成功率最高。MAPPO的成功率略高于COMA,MADDPG的综合性能最差。当追击者数量超过7个时,任务的成功率实际上会下降,这是由于追击者数量过多导致的碰撞。

图9 四种方法的成功率对比

表1显示,本文的方法具有最低的碰撞概率、最少的捕获步数和最短的行进距离,这使得追捕者能够在距离目标区更大的距离上拦截逃避者。这说明文章的方法在随机场景中具有很强的泛化能力。

表1 四种方法性能对比

虚拟现实场景测试:为了进一步验证策略的泛化能力,本文使用gazebo 3-D构建了一个多usvPE场景。这个场景包括一个逃避者和四个追捕者。逃避者采用APF方法进行逃避,而追捕者的策略是基于在4对1PE场景中训练的策略。追捕者和逃避者在整个追捕过程中的轨迹如图9所示。

图10 USV运动轨迹

从图中可以观察到追捕者从相当远的距离开始追击,同时实现对逃避的USV的无碰撞捕获,并动态建立一个包围编队,尽管训练环境和测试环境存在显著差异,但训练后的策略仍然可以有效地指导追捕者完成测试环境下的捕获任务。这说明我们的方法具有较强的泛化能力和实际适用性。
4、结论:
本文研究了USV追逃博弈问题,提出了一种适用于感知范围有限的一组USV的分布式捕获控制方法。该方法是一种不需要系统模型知识的端到端控制方法,并且具有在未知环境下自主学习和持续优化捕获策略的能力。通过改进传统的多智能体近端策略优化(MAPPO)训练框架,并在训练过程中融入课程学习,该方法进一步提高了策略的探索性能和收敛速度。通过对比仿真实验和虚拟现实场景测试,验证了该方法的有效性。实验结果表明,该方法在策略收敛速度、捕获效率、泛化能力等方面具有显著优势,在现实场景中具有潜在的适用性。未来的研究将集中在探索涉及多个追捕者者和多个逃避者的PE问题,以及从模拟到实践的策略转移。

智能自主无人系统课题组
智能自主无人系统(IAUS)课题组坚持“面向国家重大科技需求,引领行业技术进步”的思路,专注于人工智能技术在自主无人系统、机器人、智能工程装备领域的基础和应用研究,分享和发布最新科研动态及研究成果。
 最新文章