【论文荐读】基于多智能体强化学习的无人艇协同多目标围捕

文摘   科技   2024-05-17 21:25   江苏  


标题:Cooperative multi-target hunting by unmanned surface vehicles based on multi-agent reinforcement learning

期刊:Defence Technology, 29(2023): 80-94.3.
作者:Jiawei Xia, Yasong Luo, Zhikun Liu, Yalun Zhang, Haoran Shi, Zhong Liu

单位:College of  Weaponry Engineering, Naval University of Engineering, Wuhan, 430033, China; Institute of Vibration and Noise, Naval University of Engineering, Wuhan, 430033, China.

论文下载地址:
https://www.sciencedirect.com/science/article/pii/S221491472200215X

1、研究背景:

随着无人车辆和智能技术的快速发展,未来战场上无人集群的智能作战将成为一种有前景的战斗模式。然而,与无人飞行器(UAVs)、无人地面车辆(UGVs)等技术成熟的设备相比,USV舰队在自主作战方面的应用仍处于探索阶段。在该领域中,USV舰队的多目标围捕是USV自主作战的重要方面,涉及到态势感知、协作、决策与控制以及竞争博弈。传统上,解决USV舰队的多目标围捕问题的方法主要包括确定性方法和启发式方法,然而,传统方法在围捕策略设计中存在一些局限性。此外,现有研究主要集中在多个智能体围捕单个目标的情况下,对于协作多目标围捕的研究不够充分。这在很大程度上是由于与单目标围捕相比,多目标围捕的问题复杂性增加,为了尽快围捕所有目标,智能体不仅需要学会合作,还需要根据态势感知选择适当的目标。

因此,本文提出了一个无边界约束的围捕环境模型,并给出了USV成功围捕的标准。在此基础上,建立了USV运动模型和逃避者的规避机动策略。然后,将多USV协作围捕问题建模为去中心化局部可观测马尔科夫决策过程(Dec-POMDP),并提出了一种适用于USV的分布式局部可观测多目标围捕近端策略优化(DPOMH-PPO)算法

2、论文创新点:

(1) 针对实际应用中存在的连续、无边界限制和局部可观测问题,提出了一种多USV多目标协同围捕方法。

(2) 采用端到端训练方法,设计整个任务过程的状态特征和奖励函数,通过单一策略网络实现智能体的目标分配和协同围捕等决策过程。

(3) 引入局部可观测条件下适用于智能体的特征嵌入块,使策略网络能够高效地处理动态维度的观测特征,使USV舰队更加灵活且具有鲁棒性

3、研究方法:

问题建模:大海中有Np个同构的USVNe个逃逸船。双方的战术目的相反,USV需要合作围捕逃逸船,而逃逸船则试图避开USV当一个逃逸船被USV成功包围时,它将被中立化,然后USV可以选择继续围捕其他没有被中立化的目标。当所有Ne个逃逸船被中立化后,任务完成。单目标的围捕场景如图1所示

1 单目标围捕示意图
对于追捕者和逃逸者,建立二阶运动方程:
其中, 分别为USV的航速,航向和角速度,航速和角速度受到约束限制,角速度在最小角速度与最大角速度之间,航速在0和最大航速之间,分别为加速度和角加速度。

对于逃逸者,本文借鉴路径规划中常用的人工势场法作为逃逸目标的逃逸策略. 假设各USV在逃逸目标的向量方向施加斥力,各斥力分量随着二者间的距离增大而减小。

USV舰队的多目标协同围捕任务可以被描述为一个去中心化的局部可观测马尔可夫决策模型(Dec-POMDP),其由一个元组代表:,其中,为状态空间,为每个智能体的共享动作空间,为局部观测值的集合,表示观测模型,该模型确定了智能体i在给定状态s下的局部观测值,表示状态转移概率,表示全局奖励函数。该模型具有两个重要特征:1)所有智能体只能通过观测模型观察到局部的环境状态2)所有同构智能体共享相同的策略,为保证系统的同质性,设定智能体的状态转移模型和观测模型是置换不变的。

本文所设计的观测特征由友军观测特征、逃逸者观测特征、包围特征USV状态特征组成,其中友军观测特征用于描述智能体通信范围内友军USV的状态,逃逸者观测特征用于描述逃逸者在USV的观测半径内的状态,包围特征描述了智能体在合作状态下的最优位置机动趋势。从包围情况中提取包围角特征,解耦到笛卡尔坐标分量中作为包围特征。USV状态特征描述智能体本身的状态属性,包括USV的当前速度以及前一时刻的动作输出。

在奖励函数的设置上将引导奖励和稀疏奖励相结合,奖励函数由捕获奖励、引导奖励、碰撞惩罚和时间消耗惩罚按权重组成,定义为:

其中:

对于USV,控制的量是加速度和角加速度。然而,与奖励函数之间存在复杂的耦合关系,当两者直接作为网络输出时,很难保证网络的学习效率和收敛性。考虑到设计的观测特征主要是坐标的正交分量,本文设计的动作空间为,其为xy方向上两个正交的独立控制量。引入USV跟踪控制算法,间接控制,使USV按照预期的导航参数进行导航。
由于智能体的局部可观测性,在观测范围内的友军智能体和逃逸智能体的数量是动态变化的,导致观测到的维度特征具有不确定性。因此,本文设计一种适用于不确定维度特征输入的网络结构,首先设计了基于学习的特征嵌入块,然后分别设计了策略网络和价值网络的结构。特征嵌入块的结构示意图如图2所示。

图2 特征嵌入块(FEB)结构示意图

特征嵌入块FEB的设计是将具有参数学习能力的网络层应用于智能体二维观测特征中的每一项,然后将输出的二维特征进一步压缩为固定维度的一维特征。受卷积神经网络池化层的启发,提出了最大池化和平均池化两种特征压缩方法,实现了特征降维。FEB输入观测特征,首先,对不同项目的同类型属性进行标准化处理,使角度、距离等观测值在同一定量尺度上。然后,每个项目通过相同权重的全连接层,得到相同维度的特征。为了提高网络的鲁棒性,在最后一步加入Dropout操作,随机屏蔽一些观测特征,再采用了两种特征压缩方法:逐列最大池化(CMP)和逐列平均池化(CAP)。最后,FEB通过CMP或CAP层获得嵌入特征。

策略网络的结构设计如图3所示。策略网络输入智能体的观测特征,首先,友军观测特征和逃逸者观测特征分别输入两个独立的FEB。对友军观测特征传递的FEB采用Dropout技术,然后用CMP和CAP层来进行处理,得到4个32维的嵌入特征。然后将它们与包围特征和USV状态特征连接,形成长度为134的特征向量。最后,分别由两层完全连接(FC)网络和门控循环单元(GRU)网络计算后,控制量的高斯分布的平均值和标准差被输出。

图3 策略网络结构示意图

价值网络的结构设计如图4所示。价值网络将所有智能体的观测特征作为输入。与策略网络不同的是,所设计的价值网络将包围特征和USV状态特征横向连接,在特征嵌入块对其进行处理后,输出长度为64的嵌入特征。网络的中间层结构与策略网络一致,最终网络输出状态值Q的预测值。

图4 价值网络结构示意图

本文采用集中式训练和分布式执行(CLDE)框架来实现USV的多目标围捕。在训练过程中,构建集中式控制中心获取全局状态信息,用于训练智能体。在评估过程中,每个智能体只需要根据自己的观测结果做出动作执行决策,而不需要考虑其他智能体的状态和动作。本文采用MAPPO作为多USV协同围捕问题的学习方法。如图5所示为集中式训练分布式执行的框架图。

图5 集中式训练分布式执行框架图

实验验证:本文使用Pytorch作为深度学习训练框架,OpenAI Gym作为强化学习环境框架,针对协同多目标围捕问题,构建了多智能体运行环境。在网络训练过程中,采用课程学习来缓解稀疏奖励问题。首先,从一个简单的围捕任务开始训练,然后逐渐将任务难度提高到实际难度的水平。决定围捕难度的因素包括逃逸者的速度和包围半径。在训练初期,降低目标速度,增加包围半径,使USV容易获得奖励和有足够的探索机会。

为评估DPOMH-PPO在不同初始USV数量下的有效性,进行不同围捕数量下的实验,结果如图6所示。实验结果表明在前100万步中,每步平均奖励迅速增加,在200万步后逐渐趋于稳定和收敛。此外,随着问题规模的增加,每一步的平均奖励减少。

图6 不同场景下DPOMH-PPO算法的奖励曲线

为了研究特征嵌入块(FEB)和网络结构参数对DPOMH-PPO性能的影响,设计了消融实验。如表1所示。结果表明:Dropout方法、CMP和CAP层均能提高算法的性能,其中CAP层的贡献最为显著,特征尺寸减半,每步平均奖励减少,虽然增加特征尺寸可以提高奖励,但网络的训练时间和计算复杂度也会增加一倍
表1 消融实验

在算法性能对比方面,选择了另外三种算法与DPOMH-PPO进行比较,分别是DPOMH-PPO的IL(独立学习)版本、直方图法(HIS)和Minimap法,如图7所示。

图7 不同算法的奖励曲线比较

实验结果表明,所有方法在训练步骤内都可以收敛,DPOMH的每步平均奖励在所有场景中都是最高的。

为了验证算法的泛化性,将学习到的围捕策略迁移到比训练时更大的测试环境中。如图8所示验证了DPOMH-PPO具有更好的泛化性能。

图8 不同算法的泛化性比较

为了分析算法的鲁棒性,采用节点失效的方法对USV的损坏进行了仿真。如图9所示为六艘USV损坏的围捕过程图。结果表明,DPOMH-PPO具有较强的适应性,在移除一半USV的情况下仍能继续执行任务,从而验证了USV编队在遭受损坏情况下的自组织和灵活协调能力

图9 六艘USV损坏的围捕过程的可视化结果

4、结论:

针对USV编队围捕多目标问题,基于USV在作战过程中的自主决策思想,提出了DPOMH-PPO算法。通过对围捕场景的综合分析,将问题建模为Dec-POMDP,设计合理的观测空间、奖励函数、动作空间和网络结构。最后,构建仿真环境,采用集中式训练、分布式执行的框架对USV舰队围捕策略进行训练。实验结果表明:

1) DPOMH-PPO能够使舰队中的USV在不同智能体数量的不同测试场景下进行学习和合作,快速有效地完成多目标围捕任务。

2) 消融实验证明,本文提出的包含CAP和CMP层的特征嵌入块是提高算法性能的关键,其中CAP层的贡献突出。

3) 与其他算法相比,DPOMH-PPO在学习效率、泛化和鲁棒性方面具有明显优势,具有推广实际应用的潜力

智能自主无人系统课题组
智能自主无人系统(IAUS)课题组坚持“面向国家重大科技需求,引领行业技术进步”的思路,专注于人工智能技术在自主无人系统、机器人、智能工程装备领域的基础和应用研究,分享和发布最新科研动态及研究成果。
 最新文章