标题:Cooperative multi-target hunting by unmanned surface vehicles based on multi-agent reinforcement learning
单位:College of Weaponry Engineering, Naval University of Engineering, Wuhan, 430033, China; Institute of Vibration and Noise, Naval University of Engineering, Wuhan, 430033, China.
1、研究背景:
随着无人车辆和智能技术的快速发展,未来战场上无人集群的智能作战将成为一种有前景的战斗模式。然而,与无人飞行器(UAVs)、无人地面车辆(UGVs)等技术成熟的设备相比,USV舰队在自主作战方面的应用仍处于探索阶段。在该领域中,USV舰队的多目标围捕是USV自主作战的重要方面,涉及到态势感知、协作、决策与控制以及竞争博弈。传统上,解决USV舰队的多目标围捕问题的方法主要包括确定性方法和启发式方法,然而,传统方法在围捕策略设计中存在一些局限性。此外,现有研究主要集中在多个智能体围捕单个目标的情况下,对于协作多目标围捕的研究不够充分。这在很大程度上是由于与单目标围捕相比,多目标围捕的问题复杂性增加,为了尽快围捕所有目标,智能体不仅需要学会合作,还需要根据态势感知选择适当的目标。
因此,本文提出了一个无边界约束的围捕环境模型,并给出了USV成功围捕的标准。在此基础上,建立了USV运动模型和逃避者的规避机动策略。然后,将多USV协作围捕问题建模为去中心化局部可观测马尔科夫决策过程(Dec-POMDP),并提出了一种适用于USV的分布式局部可观测多目标围捕近端策略优化(DPOMH-PPO)算法。
(1) 针对实际应用中存在的连续、无边界限制和局部可观测问题,提出了一种多USV多目标协同围捕方法。
(2) 采用端到端训练方法,设计整个任务过程的状态特征和奖励函数,通过单一策略网络实现智能体的目标分配和协同围捕等决策过程。
(3) 引入局部可观测条件下适用于智能体的特征嵌入块,使策略网络能够高效地处理动态维度的观测特征,使USV舰队更加灵活且具有鲁棒性。
3、研究方法:
问题建模:大海中有Np个同构的USV和Ne个逃逸船。双方的战术目的相反,USV需要合作围捕逃逸船,而逃逸船则试图避开USV。当一个逃逸船被USV成功包围时,它将被中立化,然后USV可以选择继续围捕其他没有被中立化的目标。当所有Ne个逃逸船被中立化后,任务完成。单目标的围捕场景如图1所示。
对于逃逸者,本文借鉴路径规划中常用的人工势场法作为逃逸目标的逃逸策略. 假设各USV在逃逸目标的向量方向施加斥力,各斥力分量随着二者间的距离增大而减小。
本文所设计的观测特征由友军观测特征、逃逸者观测特征、包围特征和USV状态特征组成,其中友军观测特征用于描述智能体通信范围内友军USV的状态,逃逸者观测特征用于描述逃逸者在USV的观测半径内的状态,包围特征描述了智能体在合作状态下的最优位置机动趋势。从包围情况中提取包围角特征,解耦到笛卡尔坐标分量中作为包围特征。USV状态特征描述智能体本身的状态属性,包括USV的当前速度以及前一时刻的动作输出。
在奖励函数的设置上将引导奖励和稀疏奖励相结合,奖励函数由捕获奖励、引导奖励、碰撞惩罚和时间消耗惩罚按权重组成,定义为:
图2 特征嵌入块(FEB)结构示意图
策略网络的结构设计如图3所示。策略网络输入智能体的观测特征,首先,友军观测特征和逃逸者观测特征分别输入两个独立的FEB。对友军观测特征传递的FEB采用Dropout技术,然后用CMP和CAP层来进行处理,得到4个32维的嵌入特征。然后将它们与包围特征和USV状态特征连接,形成长度为134的特征向量。最后,分别由两层完全连接(FC)网络和门控循环单元(GRU)网络计算后,控制量的高斯分布的平均值和标准差被输出。
图3 策略网络结构示意图
价值网络的结构设计如图4所示。价值网络将所有智能体的观测特征作为输入。与策略网络不同的是,所设计的价值网络将包围特征和USV状态特征横向连接,在特征嵌入块对其进行处理后,输出长度为64的嵌入特征。网络的中间层结构与策略网络一致,最终网络输出状态值Q的预测值。
图4 价值网络结构示意图
图5 集中式训练分布式执行框架图
实验验证:本文使用Pytorch作为深度学习训练框架,OpenAI Gym作为强化学习环境框架,针对协同多目标围捕问题,构建了多智能体运行环境。在网络训练过程中,采用课程学习来缓解稀疏奖励问题。首先,从一个简单的围捕任务开始训练,然后逐渐将任务难度提高到实际难度的水平。决定围捕难度的因素包括逃逸者的速度和包围半径。在训练初期,降低目标速度,增加包围半径,使USV容易获得奖励和有足够的探索机会。
图6 不同场景下DPOMH-PPO算法的奖励曲线
在算法性能对比方面,选择了另外三种算法与DPOMH-PPO进行比较,分别是DPOMH-PPO的IL(独立学习)版本、直方图法(HIS)和Minimap法,如图7所示。
实验结果表明,所有方法在训练步骤内都可以收敛,DPOMH的每步平均奖励在所有场景中都是最高的。
为了验证算法的泛化性,将学习到的围捕策略迁移到比训练时更大的测试环境中。如图8所示验证了DPOMH-PPO具有更好的泛化性能。
图8 不同算法的泛化性比较
为了分析算法的鲁棒性,采用节点失效的方法对USV的损坏进行了仿真。如图9所示为六艘USV损坏的围捕过程图。结果表明,DPOMH-PPO具有较强的适应性,在移除一半USV的情况下仍能继续执行任务,从而验证了USV编队在遭受损坏情况下的自组织和灵活协调能力。
4、结论:
1) DPOMH-PPO能够使舰队中的USV在不同智能体数量的不同测试场景下进行学习和合作,快速有效地完成多目标围捕任务。
2) 消融实验证明,本文提出的包含CAP和CMP层的特征嵌入块是提高算法性能的关键,其中CAP层的贡献突出。
3) 与其他算法相比,DPOMH-PPO在学习效率、泛化和鲁棒性方面具有明显优势,具有推广实际应用的潜力。