一种跨域集群对抗的动态弹性评价方法

文摘   2024-11-01 09:56   北京  

Zhang C, Liu T, Bai G, et al. A dynamic resilience evaluation method for cross-domain swarms in confrontation[J]. Reliability Engineering & System Safety, 2024, 244: 109904.

摘要

作为典型的物联网系统,无人集群能够高效执行任务,同时降低操作风险并确保人员安全。由于不同物理领域中的集群具有不同的优势,因此跨领域集群最近受到了很多关注。由于集群具有通过自组织和自重构来抵抗损害和从损害中恢复的能力,因此弹性已成为对抗环境中集群设计和任务规划的一个重要指标。现有的弹性评估方法需要系统性能的完整退化-恢复-稳定过程,这对于动态和不确定环境下的跨领域集群并不合适。本文提出了一种用于对抗场景下跨领域集群的动态弹性评估方法。首先,开发了一个跨领域集群对抗模型,并提出了集群对抗性能指标。其次,提出了一个针对跨领域集群的动态弹性评估方法。然后,基于弹性测量给出了一个对抗策略选择模型。提供了一个空中地面集群对抗的案例研究,用于说明和分析。从模拟结果可以看出,所提出的动态弹性方法能更好地捕捉对抗中跨领域集群的动态和不确定性。所提出的策略选择模型可以提高集群的整体弹性,并最终提高跨领域集群在对抗中的胜率。

引言

随着人工智能(AI)的持续发展,它对社会的各个方面产生了变革性的影响。AI开始被研究并应用于各种智能军事活动,如军事指挥控制、现代防御系统以及协调导弹攻击。无人群集对抗作为一种典型的智能作战模式,在当前军事智能研究领域受到了更多的关注。

通过实时数据共享、多单元网络和合作,智能集群可以完成对抗任务,如搜索和攻击、侦察和压制等。在实际战斗执行任务时,由于故障、外部环境、敌人干扰等原因,一些智能体可能会失败或崩溃。集群具有通过自组织和自重配置等固有属性抵抗损害和从损害中恢复的能力,这种能力被定义为集群的弹性。

无论是单一领域群还是跨领域群,其在战斗环境下的密集动态和高度不确定性使得弹性分析更具挑战性。例如,在群被攻击并处于重新配置阶段时,损伤过程可能会与恢复过程重叠。现有的弹性方法通常需要系统性能的完整退化-恢复-稳定过程,这在面对动态环境时降低了弹性估计的准确性和效率。

针对上述问题,本文提出了相应的解决方案。本文的创新点和贡献如下。

  1. 不同集群间的信息交互以及对对抗决策的影响:对于鲜少研究的跨域集群对抗场景,我们开发了一个跨域集群对抗模型。以无人机-无人地面车辆(UGV)跨域集群为例。如果将跨域集群协作应用于对抗场景,无人机集群通过侦察和监视获得的对手信息可以及时传输给UGV。UGV可以使用弹性作为性能指标,根据实时战场信息有效决定是否接受干预以消除麻烦。这不仅可以丰富集群的任务规划和策略分析,还可以提高性能水平和任务成功率。
  2. 考虑动态对抗和退化性的动态弹性评估:现有的弹性评估方法不适合在高度动态和不确定对抗场景中的跨域集群。在对抗过程中,跨域集群需要实时把握自身的性能弹性,以做出一系列战略调整。因此,我们提出了一种适用于动态对抗场景下跨域集群的动态弹性评估方法。与现有的弹性不同,动态弹性将实时计算系统在每个时刻的弹性,包括仅系统性能退化的过程。可以实时掌握系统的性能水平和恢复能力。基于动态弹性,系统可以在战略和结构等多个方面实时调整,以提高性能水平。
  3. 基于马尔可夫链的动态决策:在集群对抗场景中,智能集群将预先准备多种对抗策略以应对不同情况。因此,基于动态弹性评估结果,提出了一种策略选择模型。智能集群的对抗策略基于多个策略之间的马尔可夫链转换。状态转移概率取决于不同策略的弹性评估结果。集群将切换到弹性水平最高的策略。

跨域集群模型

在本节中,我们提供了一个简单的跨域集群模型用于弹性分析。在这类研究中,有几种定义域的方法。

图1 跨域集群模型示意图

根据不同的能力,域可分为感知、指挥与控制、战斗等。或者,也可根据不同的物理空间来定义域,如空中、地面、水面、水下等。在本文中,我们关注不同域的协作,其中不同域中的每个集群都具备一定的能力。如图 1 所示,不同物理域中的集群相互协作,在不同的能力域中执行任务,形成一个跨域集群。域 1(如空中)提供感知功能,域 2(如地面)提供战斗功能。从物理空间的角度来看,这两个域可以是空中、地面、水面和水下空间的任意组合。需要注意的是,我们没有为指挥与控制提供一个域,因为集群中的每个智能体都是以完全分布式和自组织的方式运行的。

图2 跨域集群模型示意图

图 2 展示了该模型的运行框架。对于感知域集群(ADS),它主要执行战场侦察、监视和损伤评估等任务。在任务执行前,智能集群被部署在任务区域。在任务执行阶段,它对敌人进行实时侦察和监视,并获取对手智能集群的地理坐标、数量和对抗策略等信息。然后,ADS 将这些信息传输回战斗域集群(CDS)。

对于 CDS,它主要执行区域占领和攻击等对抗任务。然而,为了使 CDS 更智能,在任务执行前会进行一次推演,在推演中智能集群会针对不同的敌人对抗策略进行模拟训练。然后它会存储不同策略下的战斗性能指标结果,如胜率、生存率、弹性等。在任务执行阶段,ADS 会将敌人的对抗策略信息实时传输给 CDS。CDS 会比较接收到的实时数据信息,并选择与战斗性能指标最优值相对应的战斗策略。

跨域集群对抗中的动态弹性模型

对抗中跨域集群的动态弹性框架

跨域集群模型的动态弹性框架如图 3 所示。

图3 跨域集群性能水平变化概念图

在初始阶段,ADS 通过分布式部署在任务区域展开,而 CDS 进入任务区域准备区域占领和火力打击。跨域集群的性能水平为 A 值(坐标中的蓝线)。假设跨域集群在 B 点遭遇对手并开始对抗。战斗损伤导致集群性能从 A 下降到 C 点(红线)。图 3 中绿色阴影突出显示的基于弹性的策略选择循环将开始运行。通过 ADS 获取对手战场信息,CDS 转换为优势策略。通过重复侦察监测 - 信息传递 - 策略选择的过程,集群性能水平逐渐提高。跨域集群的性能水平逐渐上升到 D 点(绿线)。之后,B - C - D 的过程将重复,直到任务结束。该模型的弹性变化是一个动态的往复过程。

当 ADS 和 CDS 无法通信时,优化循环无法执行。同样,当 ADS 中的一些智能体失效时,相连的 CDS 智能体无法接收侦察信息,优化也无法进行。为了解决这个问题,跨域集群将触发一个重新连接机制。当失去通信连接的 CDS 智能体在其他幸存的 ADS 智能体的通信范围内时,它们可以重新连接。CDS 智能体与 ADS 智能体重新连接以恢复优化循环。如果所有的 CDS 或 ADS 都失效,优化循环将被中断。

对抗中跨域集群的性能指标

对于智能集群对抗,每个智能体都有一定的感知范围和攻击范围。如图 4 所示,感知范围大于攻击范围。红蓝两队的智能体将分别向中心点移动并攻击对方智能体。当智能体能够感知到对手智能体时,智能体的感知将更新。根据不同的感知情况,每个智能体将做出相应反应并更新感知信息。根据文献,提出智能集群的感知参数来表示每个智能体随时间变化的整体情况。感知参数主要取决于三个方面,即运行角度、速度差距和两个智能体之间的距离。这些方面将决定智能体在战场上的优劣情况。此外,感知对智能体的下一步行动具有实际指导意义。感知参数越大,智能体的优势越大,感知参数可以取负值。

图4 智能体感知示意图
  1. 角度感知: 智能体和智能体之间的角度感知如式 (1) 所示,其中是智能体的滞后角度,{t}是智能体的领先角度。
  1. 速度感知: 智能体和智能体之间的速度感知如式 (2) 所示,的值在-1到1之间,其中是智能体的运行速度,是智能体j的运行速度。
  1. 距离感知: 距离感知与角度感知相关。当智能体的角度感知占优时,距离越近表示感知越好。如果智能体的情况处于劣势,距离越近表示感知越差。因此,我们有如下关系。

结合上述三种感知,智能体的整体感知如下:

其中分别是角度、距离和速度感知的权重因子。是智能体感知范围内所有敌方智能体的集合。

跨域集群在对抗过程中的目的是确保自身生存并消灭对手智能体,这对于其他非对抗任务,如侦察和监视、巡逻、定位和引导等也是适用的。因此,本文提出生存率作为面向任务的集群性能指标用于集群弹性评估。对于智能集群中的智能体,其生存率定义如下:

其中是智能体的生存率。是智能体在敌方智能体影响下的感知。是在智能体感知范围内对智能体感知有优势的敌方智能体集合。智能体相对于这些敌方智能体处于劣势,这些敌方智能体将极大地影响智能体的生存率。如果敌方智能体不存在,则。对于智能集群,总体生存率定义如下:

其中代表智能集群中智能体的总数。当集群尚未与敌方集群接触时,所有智能体的生存率为1,集群的总体生存率为

跨域集群对抗中的动态弹性模型

通过任务区域中 ADS 的侦察、监测和识别,对敌方智能集群的编队和对抗策略等战斗信息进行分析,并实时传输回 CDS。CDS 根据接收到的信息改变对抗策略。当 CDS 根据传输的战场信息调整其状态和对抗策略时,其生存率也会实时变化。然后,原有的单域集群弹性评估在跨域协同下升级为跨域集群动态弹性评估。

对于智能集群中的智能体,其生存率基于式 (5)。考虑到信息的实时变化,对抗策略定义如下:

其中是对抗信息数据库,是 CDS 在时间采用的实时对抗策略。ADS 每隔时间传输战场信息。对于跨域集群,生存率定义如下:

假设跨域集群的任务时间从有限。是集群在时间所需的最小生存率。是时间的最优集群生存率。根据 Liu 等人提出的面向任务的弹性评估指标,跨域集群的动态弹性模型定义如下:

其中是艾弗森括号。只有当为真时,,否则。参数是时间弹性模型和性能弹性模型之间的切换参数,取值为 0 或 1。 如果

这是跨域集群的时间弹性模型。如果

这是跨域集群的性能弹性模型。是集群满足最小所需生存率的累积时间弹性。是集群满足最小所需生存率的累积性能弹性。因此,结合时间和性能两个维度的弹性指标,跨域集群的综合弹性模型如下:

其中是弹性的权重,其值取决于任务的评估倾向。 需要注意的是,传统弹性的计算要求系统完成性能下降 - 恢复的整个过程(如图 5 所示的)。此外,传统弹性是一个非连续值。系统的弹性计算从系统性能下降直到性能恢复到稳定状态的整个过程。与现有的弹性不同,动态弹性将实时计算系统在每个时刻的弹性,包括系统性能下降的过程。动态弹性是一个连续值。由于弹性是系统本身的一个属性,即使系统性能正在下降,其自身的弹性实际上已经开始抵抗损伤并降低性能下降的速率和程度。这对应于在重新配置过程中集群再次受到攻击时损伤过程可能与恢复过程重叠的情况。经过一段时间后,它将完全停止性能下降并逐渐恢复性能。因此,在每个时刻,系统都有一个当前时刻的动态弹性值。系统恢复到稳定状态后的动态弹性值与传统弹性的计算值相同。

图5 传统弹性与动态弹性示意图
  1. 动态弹性是一个实时值。与现有弹性相比,可以实时掌握系统的性能水平和恢复能力。
  2. 基于动态弹性,可以在策略和结构等各个方面实时调整系统,以提高性能水平。
  3. 在系统经历损伤并恢复到稳定状态后,传统弹性值与此时的动态弹性值相同。这表明动态弹性具有传统弹性的特征,并符合弹性的属性。

跨域集群对抗策略的选择模型

ADS 为 CDS 提供实时敌人信息,使 CDS 能够调整其优势策略以提高任务成功率。ADS 的侦察成功率将极大地影响这一过程的进展。

ADS 的侦察任务受许多因素影响。根据文献,侦察任务的成功率如下:

其中是 ADS 的最佳探测区域,是实际探测区域。是环境因素,值越大,集群侦察效果越好。是敌人采取的反侦察措施,值越大,集群侦察效果越差。本文简化了通信和侦察模型,并以通信和侦察成功率的形式影响集群的策略变化。

在集群对抗场景中,智能集群会提前准备多种对抗策略以应对不同情况。对于不同的对抗情况,集群采用不同的指标,如移动方向、移动速度、攻击战术和攻击对象等,以最大程度地完成指定任务,从而形成不同的对抗策略。根据集群对抗策略,CDS 采用种策略进行大量对抗训练。设置对照组集群(CGS)对 CDS 进行对抗训练。CGS 作为 CDS 的敌对集群,其所有属性与 CDS 相同。然后可以获得两个集群在不同策略下的实时对抗数据(包括感知、生存率、弹性、胜率等)。同时,将不同策略下的对抗数据信息形成一个对抗信息数据库如下:

其中分别代表 CDS 和 CGS 的实时策略数据信息。分别代表两个集群在时间采用的实时对抗策略。代表实时集群生存率。策略转换评估标准参数代表 CDS 策略相对于 CGS 策略的优劣程度。需要注意的是,评估标准参数可能会因不同的任务要求而改变其物理意义。

通过大量对抗训练获得对抗信息数据库后,跨域集群将基于该数据库与 CGS 进行对抗实验。ADS 对 CGS 进行侦察和监测,获取对抗策略信息并传输给 CDS。根据传回的 CGS 策略信息,CDS 将通过对数据库的分析实时调整到针对 CGS 策略的参数值最高的策略

如表 1 所示,给出了对抗信息数据库的数据结构和形式。当 CDS 和 CGS 进行模拟训练时,它们的实时生存率和弹性数据将每隔时刻记录一次。每次比赛后将记录基于生存率和弹性的最终胜负。这些数据将以 “.txt” 格式存储,以便后续调用。

表1 对抗性信息数据库的数据结构和形式

根据 ADS 传输的策略信息,CDS 进行相应的策略转换。这相当于一个具有有限空间状态的马尔可夫链,其中代表七种对抗策略和后退状态 0。CDS 将根据策略信息在这个状态中转换,以提高性能值和评估标准参数。当返回的信息表明参数的值低于阈值要求时,将执行后退命令()。如果信息传输间隔为,CDS 的状态 - 策略转移概率如下:

其中是评估标准参数阈值。如果大于或等于阈值,任务可以继续执行。如果低于阈值,需要实施后退策略。当 ADS 的侦察任务失败时,CDS 不会改变其策略,因为没有敌人数据信息。CDS 将继续等待下一次侦察信息。当 ADS 侦察任务成功时,需要根据数据库判断策略值和策略值。然后,我们有:

  1. 如果 ,直接实施后退策略以避免不必要的损失,此时任务终止。
  2. 如果,当前执行策略保持不变。
  3. 如果,则集群及时转换为策略,以最大化集群的性能和任务成功率。

空地集群对抗案例研究

在本文中,基于图 1,在对抗环境下开发了一个典型的空地协作跨域集群模型,如图 6 所示。

图6 对抗环境下的空地协同跨域集群模型

跨域智能集群的模拟,包括相关环境和参数设置,是基于 AnyLogic 8.5.0开发的。AnyLogic 是唯一一款基于智能体的工业级专业建模软件。此外,它可以将基于智能体的模型与离散事件或系统动力学元素无缝集成,使建模更高效。同时,AnyLogic 模拟模型可以显示为 2D/3D 动画,使概念和想法更容易验证、交流和理解。更值得注意的是,通过添加直观的导航和控制,可以使模型具有交互性,将模拟转化为功能齐全的管理仪表盘。

图7 UGV集群对抗模型图

首先,通过智能体建模形成分布式红蓝 UGV 集群的对抗模型,如图 7 所示。红蓝两队都有五十个 UGV,每个单元的性能规格相同。两队从图 7 中左右两侧的对称位置出发,前往任务区域的中心点。两队的任务是消灭对方所有智能体并占领中心点。图 7 中的房屋和树木是障碍物,会影响 UGV 的移动和攻击。当 UGV 靠近房屋和树木时,它会采取避障措施绕开并继续完成任务。图 7 中的圆圈代表山地地形,越靠近内圈,地形海拔越高。当 UGV 进入圆圈时,它们的速度会根据地形海拔降低。然后,一个红色 UAV 集群分布在任务区域上方,为区域集群提供实时战场信息,如图 8 和 9 所示。UAV 集群只提供信息支持,不参与攻击。

图8 跨域集群对抗仿真模型的二维图
图9 跨域群体对抗仿真模型的三维图

对抗中集群的集体行为模型

集群的集体行为是指集群中个体在移动过程中接近并与邻近个体相互作用的行为。本案例中跨域集群的集体行为主要包括信息传递、行为规则、损伤模型等。

  1. 信息传递

由于本文主要关注跨域集群的弹性和策略优化,智能体之间的信息传递被简化。无人机在集群中共享侦察信息,并将信息传递给无人地面车辆集群。无人地面车辆集群接收无人机集群传输的对抗信息数据。

每架无人机都有一定的通信范围和最大通信连接数。当在范围内有多个无人地面车辆时,如果无人地面车辆数量小于,则与这些无人地面车辆建立通信连接;如果数量大于,则优先与最近的个无人地面车辆建立通信连接。如果在对抗过程中一些无人机受损无法使用,与之相连的无人地面车辆将失去连接。此时,跨域智能集群的重新连接机制将被触发。仍然存活且连接数小于的无人机将与断开连接的无人地面车辆重新连接。跨域智能集群通信连接流程图如图 10 所示。

图10 跨域智能集群通信连接流程图
  1. 行为规则

经典的 Boid 模型主要包括三个行为规则:分离、凝聚和对齐。基于经典的 Boid 模型,给出了一个面向任务的 Boid 模型。增加了三个新原则,即边界排斥、避障和目标导向。

a. 分离:

其中是智能体的分离控制量。是智能体的位置,是智能体的排斥距离。是智能体邻域内其他智能体的数量。

b. 凝聚:

其中是智能体的凝聚控制量。是智能体的凝聚距离。

c. 对齐:

其中是智能体的对齐控制量。是智能体的速度。

d. 边界排斥:

其中是智能体的边界排斥控制量。是智能体在边界产生的排斥力。是智能体与边界的距离。是智能体的排斥距离。是调整系数。 e. 避障:

其中是智能体的避障控制量。是障碍物的位置。是调整系数。 f. 目标导向

其中是智能体的目标导向控制量。是目标点的位置。

上述规则组合形成智能集群的面向任务的 Boid 模型。

其中是相应的权重因子。

  1. 损伤模型

除了有一定的感知范围外,无人地面车辆在交战时有一定的攻击角度和攻击距离。只有当敌人在攻击范围内时,无人地面车辆才能以概率和间隔攻击敌人。如果在攻击范围内有多个敌人智能体,将选择攻击范围内最近的敌人智能体作为优先目标。

无人地面车辆对无人地面车辆的损伤程度满足以下公式:

其中是单次攻击对智能体的最大损伤程度,是双方的距离。这个公式意味着敌人越近,损伤越大。

  1. 分布式覆盖模型

无人机集群在任务区域采用分布式覆盖。无人机将被任务区域中心()吸引,同时无人机之间存在排斥力(),并且无人机也会被边界()排斥。无人机集群在任务区域的覆盖是通过这三种力的动态平衡实现的。

集群对抗策略

在集群对抗过程中,智能体根据当前的感知信息做出决策。为集群选择对抗策略以减少不必要的损失至关重要。因此,有必要研究和判断集群的当前感知情况,以确定下一个集群对抗策略。例如,Shahid 等人评估了无人机的情况,并计算了其相对于所有检测到的敌人的优势。然后无人机分配目标,以实现总利润最大化。然而,该模型没有考虑多个智能体或整个集群相对于敌方集群的优势。在实际操作中,集群将从预设的策略集中选择不同的策略,并根据感知情况进行调整。基于文献,我们将优势概念从一对一的智能体扩展到多对多的智能体,并给出了一些具体的对抗策略。在本文中,基于数量和感知提出了总共 7 种对抗策略,用于无人地面车辆集群的模拟分析。其中有 3 种基于数量的对抗策略和 4 种基于感知的对抗策略。基于数量的策略考虑智能体邻域内友方智能体和敌方智能体的数量,以确定追击或逃跑的目标位置。基于感知的策略基于公式 (1)、(2)、(3) 和 (4) 来评估智能体的战场感知情况,包括其自身感知以及邻域内所有友方智能体的感知。智能体追击或逃跑的目标位置根据感知的优势或劣势来确定。

1)基于数量的对抗策略

假设无人地面车辆感知范围内的友方无人地面车辆数量为,敌方无人地面车辆数量为,则有:

其中是优势阈值。当无人地面车辆数量的差异大于优势阈值时,采取进攻行为;否则采取逃跑行为。在此基础上,推导出三种具体的数量优先对抗策略。

a. 数量优先策略 1(Q1)

无人地面车辆攻击的目标位置是感知范围内所有敌方无人地面车辆的中心点。在逃跑的情况下,无人地面车辆远离该点。

b. 数量优先策略 2(Q2)

我们应该获取所有无人地面车辆的感知情况。无人地面车辆攻击的目标位置是所有敌方无人地面车辆平均感知的中心点。在逃跑的情况下,无人地面车辆远离该点。

c. 数量优先策略 3(Q3)

时,无人地面车辆的目标位置是感知范围内感知最好的敌方无人地面车辆的位置。在数量优势的前提下,所有无人地面车辆将优先移动到感知最好的敌方无人地面车辆的位置。

时,无人地面车辆的目标位置是感知范围内感知最差的敌方无人地面车辆的位置。在数量劣势的前提下,所有无人地面车辆将优先移动到感知最差的敌方无人地面车辆的位置。

2) 基于感知的对抗策略

a. 感知优先策略 1(A1)

如果无人地面车辆的感知为,无人地面车辆的目标位置是感知范围内感知最好的敌方无人地面车辆的位置。

如果无人地面车辆的感知为,无人地面车辆的目标位置是感知范围内感知最差的敌方无人地面车辆的位置。

b. 感知优先策略 2(A2)

如果无人地面车辆的感知为$S_i(t)\geq 0,如公式 (29) 所示,无人地面车辆攻击的目标位置是感知范围内所有敌方无人地面车辆的中心点。

如果无人地面车辆的感知为,无人地面车辆远离该点。

c. 感知优先策略3(A3)

获取无人地面车辆和其感知范围内所有友方无人地面车辆的感知之和,如果,无人地面车辆的目标位置是感知范围内感知最好的敌方无人地面车辆的位置。

如果,无人地面车辆的目标位置是感知范围内感知最差的敌方无人地面车辆的位置。

d. 感知优先策略4(A4)

如果,如公式(29)所示,无人地面车辆攻击的目标位置是感知范围内所有敌方无人地面车辆的中心点。

如果,无人地面车辆远离该点。

所提出的7中对抗策略见表2

表2 对抗策略汇总表

单域集群对抗模拟与讨论

根据提出的七种无人地面车辆集群对抗策略,对红蓝无人地面车辆集群采用七种策略进行对抗博弈模拟。无人地面车辆集群对抗模拟参数如表 3 所示。假设红蓝无人地面车辆集群采用七种策略轮流战斗,每轮胜利条件是完全消灭敌方无人地面车辆。红蓝无人地面车辆集群性能相同,它们在固定时间间隔内攻击敌方在攻击范围内的车辆,并以一定概率对敌方造成伤害。每轮红蓝无人地面车辆集群的生存率和弹性将被实时计算和记录。

表3 UGV的对抗参数设置

通过 30,000 次模拟,得到对抗后红队的胜率,如表 4 所示。由于有 7 种对抗策略且双方初始位置不同,游戏中共有 49 种策略。双方将随机选择策略进行游戏。在实验过程中,通过记录双方在每个时刻的战略信息、实时生存率和弹性信息,形成一个数据库

表4 红队在每次策略对抗下的获胜率

表 4 的第一行和第一列分别代表红队和蓝队采用的对抗策略,数值表示双方采用不同策略对抗后红队的胜率。基于此,可以得到红队在不同对抗策略模式下的胜率,如图 11 所示。

图11 不同对抗策略模式下的红队对抗胜率(a)基于数量的对抗策略。(b)基于意识的对抗策略

图 11 中的红圈表示红队采用某一策略对抗七种不同蓝队策略时红队的胜率。蓝圈表示红队采用七种不同策略对抗某一蓝队策略时红队的胜率。紫色虚线表示蓝队采用某一策略时红队的平均胜率(RAWP)。可以看出,除策略 A3 外,感知优先策略劣于数量优先策略,且数量优先策略具有更大优势。在数量优先策略中,策略 Q1 在三种策略中胜率最低,而策略 Q2 和 Q3 势均力敌。在感知优先策略中,策略 A3 处于绝对优势地位,其余三种策略相互制约:A1 > A2 > A4 > A1。

跨域集群与单域集群对抗模拟及讨论

基于单域智能集群对抗结果形成的数据库,进行跨域智能集群的模拟实验。在单域智能集群的基础上,在任务区域上方发射红队的无人机集群,并且每隔单位时间将实时检测到的敌人信息发送回无人地面车辆集群。假设红队的初始策略是随机生成的,蓝队的策略是某一确定策略。在空地协同下,红队根据无人机集群传回的敌人策略信息,每隔单位时间改变其策略,转变为当时针对敌人具有最高弹性的优势策略。在每轮中,胜利条件是完全消灭敌方集群或占领中心区域。通过模拟,得到空地协同背景下红蓝两队的弹性和胜率,如表 5 和图 12 所示。

表5 跨域群体对抗下的红队胜率
图12 不同对抗策略模式下的红队对抗胜率(a)基于数量的对抗策略。(b)基于意识的对抗策略

表 5 的第一行表示蓝队采用的对抗策略。“优化前” 表示红队的无人地面车辆集群在没有无人机集群信息辅助时,采用各种策略对抗七种蓝队策略的平均胜率。“优化后” 是红队在有无人机集群信息辅助下对抗七种蓝队策略的胜率。从图 12 可以看出,当红队通过策略选择对抗蓝队的 A1、A2 和 A4 策略时,双方的弹性分布明显两极分化,红队具有绝对优势。在其他情况下,双方的弹性相互交织,红队未来仍有提高弹性的空间。一般来说,红队相对于蓝队的弹性越高,获胜的概率越大。

图13 基于弹性的策略选择前后红蓝对抗获胜率的变化

如图 13 所示,红队的无人地面车辆集群通过无人机集群的信息辅助实时调整策略,使得对抗七种蓝队策略的胜率超过优化前的胜率。这表明跨域智能集群可以通过实时信息传输和最优策略的实时转换有效提高无人地面车辆集群的对抗能力。从弹性角度来看,通过策略选择,红队的整体弹性提高,而蓝队的弹性在图 14 中则大幅降低。这进一步证明了基于弹性的策略选择的有效性和正确性。此外,分析了空地协同背景下双方在对抗过程中的实时生存率和弹性曲线的变化,如图 15 所示。在蓝队的每种对抗策略下,尽管红队通过策略选择有较高的胜率,但仍存在失败的情况。因此,分析了在同一种蓝队策略下红队胜负情况的性能曲线变化。

图14 红蓝对抗策略前后弹性变化
图15 红蓝两队对抗下的生存率和适应力

从图 15 可以看出,从数量优先策略到感知优先策略,双方的性能曲线变得越来越复杂。在数量优先策略中,当蓝队采用策略 Q1 和 Q2 时,双方的无人地面车辆集群开始感知并相互对抗,双方的生存率将显著下降。当蓝队采用策略 Q3 时,在集群接触的初始阶段,红队的生存率和弹性将显著下降,而蓝队的性能将保持较高水平。随后,红队将通过战略选择调整使生存率恢复。在这个阶段,如果红队的弹性高于蓝队的弹性,生存率可以更高,并且可以实时抑制蓝队的生存率,红队将赢得最终胜利。如果此时蓝队的弹性更高,红队生存率的恢复将被抑制,并一直处于较低状态,最终失败。在感知优先策略中,双方的生存率在对抗的前期和中期没有明显的抑制关系,红队通过不断调整策略优化,使得双方的生存率交替领先。直到对抗的中后期,生存率的关系才比较明显。与生存率曲线相比,弹性曲线更清晰。与数量优先策略一样,弹性较高的队伍将赢得最终胜利。

在一些对抗情况下,红队的生存率曾经下降到比蓝队更低的水平。然而,通过空地协同的信息传输和实时战略调整,它恢复到了更高的水平。可以这样解释:跨域智能集群的合作对对抗有积极影响,基于弹性的策略选择是有效的。进一步,红队的弹性曲线保持相对稳定。根据生存率曲线,可以微观详细地了解双方在对抗游戏中的性能变化和对抗细节,而通过弹性曲线可以宏观地了解双方当前的优势和劣势。与生存率相比,弹性能够更准确地预测胜负。

综上所述,基于弹性的策略选择对抗游戏方法是有效的,它可以显著提高智能集群的胜率和弹性。这使得智能集群能够更好地调整和适应战场。然而从图 15 可以看出,通过策略选择仍然存在红队弹性迅速下降并导致最终失败的情况。事后分析的具体原因如下:

(1) 如果红队在双方初始策略(初始策略是随机策略)的对抗中处于劣势且有较大损失,红队稍后通过调整策略将恢复一定的生存率。然而,由于前期劣势较大,生存率的临时恢复无法改变弹性的下降,导致最终战斗失败。在这种情况下,根据之前的模型,应该实施后退策略以减少不必要的损失。

(2) 蓝队的策略有碾压红队所有策略的趋势,即红队所有策略对该策略的胜率都很低,这导致最终失败。这种情况将促使红队形成新的优势策略。

(3) 红队无人机集群的侦察失败或信息传输失败。此时,红队的无人地面车辆集群无法知道蓝队的战略信息,使得战场情况不明,导致最终失败。在实际情况中,红队无人机集群会因为各种因素侦察失败,甚至一些无人机因为蓝队的攻击而失败,导致一些红队无人地面车辆没有信息支持。

为了进一步验证弹性的有效性,我们比较了基于弹性和基于胜率的策略选择方法(在当前生存率下选择胜率最高的策略)。为了反映普遍性,蓝队也会每隔固定时间随机改变策略。对每种方法进行 300 次对抗实验,结果如表 6 和图 16 所示。当跨域智能集群采用两种不同的策略选择方法时,胜率都有所提高,基于弹性和基于胜率的方法的胜率分别为 71% 和 59%。基于弹性的策略选择方法可以更高地提高对抗胜率。另一方面,基于弹性的策略选择可以提高红队的平均弹性并降低蓝队的平均弹性。

表6 基于弹性和基于获胜百分比的策略选择的数据比较
图16 基于弹性和基于获胜百分比的策略选择的比较

跨域集群与跨域集群对抗模拟及讨论

从 5.4 节的实验结果可以看出,基于动态弹性的策略选择可以显著提高集群的整体生存率、弹性和最终胜率。基于表 6 和图 16 可知,基于动态弹性的策略选择将优于基于胜率的策略选择。为了进一步排除实验中的其他影响因素,体现弹性的优势,模拟了红跨域集群与蓝跨域集群的实验。红跨域集群的设置与 5.4 节的实验相同。蓝队增加了无人机集群,其功能与红队的无人机集群相同,它为蓝队提供战场信息,使蓝跨域集群能够根据信息实时调整其对抗策略。

总共模拟了三组对抗实验,即(a)基于动态弹性的策略选择与基于胜率的策略选择对比,(b)基于传统弹性的策略选择与基于胜率的策略选择对比,以及(c)基于动态弹性的策略选择与基于传统弹性的策略选择对比。当跨域集群采用基于动态弹性的策略选择时,集群将根据实时动态弹性及时调整对抗策略。当跨域集群采用基于胜率的策略选择时,策略也根据实时生存率进行调整。当跨域集群采用基于传统弹性的策略选择时,集群不会实时调整策略,而是在每次对抗完成后根据最终弹性调整策略。实验结果如表 7 和图 17 所示。

表7 基于动态弹性的策略选择方法、基于胜率的策略选择方法、传统的基于弹性的策略选择方法的数据比较
图17 三组对抗实验的弹性分布比较

与 5.4 节的实验相比,对抗模拟(a)表明动态弹性作为集群的内在属性,可以更好地反映集群的性能水平。基于动态弹性的策略选择可以更有效地提高集群的对抗胜率。从两种不同对抗方法(a)和(b)的模拟结果可以看出,动态弹性与传统弹性相比,可以显著提高集群的对抗胜率。胜率从 0.26 提高到 0.64,提高率高达 146%。同时,平均弹性值也从 0.354 提高到 0.607,提高率为 71.47%。这表明了动态弹性的时效性优势。对抗模拟(c)更好地验证了动态弹性相对于传统弹性的优越性。

结论

在对抗中,双方可能会根据各种因素调整其策略,包括对抗过程中的战场感知和损伤评估等。实际上,所提出的策略已经考虑了战场态势感知、邻域内智能体数量评估以及追击或逃跑选择等因素。对于未来的工作,我们计划在制定对策时考虑更丰富和实用的因素,包括损伤评估。此外,对于跨域智能集群的弹性评估,存在多个层次的性能评估指标,如集群移动性能、集群通信性能、集群任务性能等。我们计划开发一个综合的集群性能评估框架以及它们在不同场景下合适的任务目标。

本文研究了对抗环境下作为典型物联网系统的跨域智能集群的弹性。建立了基于跨域多智能体的对抗模型和模拟框架。利用智能集群的感知和生存率这两个参数,提出了对抗环境下跨域智能集群的动态弹性评估和研究方法。跨域智能集群在每个时刻的弹性取决于前一时刻的弹性以及当前时刻实施的对抗策略。因此,建立了一个基于动态弹性的对抗策略选择模型,并通过最大化弹性指标来选择对抗策略。利用集群数量和感知这两个实时变化的指标,提出了 7 种不同的对抗策略。通过分析和模拟,基于弹性选择不同策略的跨域智能集群的平均胜率和弹性水平都得到了提高。所提出的弹性指标揭示了跨域智能集群在对抗环境中的任务能力以及任务规划所需的冗余水平。基于策略选择模型的弹性揭示了弹性指标的有效性和重要性,这在跨域智能集群的架构设计和任务规划中是必要且突出的。

基于 MResNet-LSTM 的滚动轴承故障诊断

空间挠性作动器的可靠性验证试验方法

组合加权包络谱:一种用于提取旋转机械特征频率的增强解调框架

基于多保真度深度神经网络的偶然不确定性量化

乘积包络谱优化- Gram:一种用于滚动轴承故障诊断的增强包络分析

基于物理信息残差网络的滚动轴承故障诊断

基于混合注意力的多小波系数融合滚动轴承剩余寿命预测方法

ReF-DDPM: 一种基于DDPM的滚动轴承故障诊断数据增强新方法

基于物理信息与数据驱动的贝叶斯网络的锂离子电池事故风险分析

基于深度隐变量状态空间模型的轴承退化预测

学术人人
传播科学与学术研究动态,发布学术领域重要研究成果。 重点推广可靠性系统工程(包括可靠性、维修性、保障性、测试性、安全性和环境适应性)理论研究成果,传播相关知识。
 最新文章