基于蚁群劳动分工的无人机群搜寻打击策略

科技   2024-11-01 17:08   北京  
引用格式



沈亮,程湘钧,高杨军.基于蚁群劳动分工的无人机群搜寻打击策略[J].无人系统技术,2024,7(4):75-83.


基于蚁群劳动分工的无人机群搜寻打击策略

沈亮程湘钧高杨军

空军工程大学装备管理与无人机工程学院,西安710051

摘 要 针对无人机集群在信息不对称条件下对地固定目标察打任务分配问题,受蚁群劳动分工群智能进化思想启发,设计了一种融合差分进化算法和动态蚁群劳动分工模型的动态搜寻打击策略。首先,将无人机搜寻打击目标的分配过程映射为蚁群觅食的劳动分工过程,综合分析无人机与目标相对距离、发现时间、暴露状态等因素对目标选择的影响,提出目标“诱惑度”。然后,充分考虑任务分配的马尔可夫性质,引入带有先验知识的精英保留策略的差分进化算法,在每次目标选择前,实时更新“诱惑度”,形成动态环境刺激更新机制。最后,建立信息不对称条件下对地固定目标察打任务分配仿真环境,采取对比实验方法,在确定的12种实验条件下对无人机搜寻打击方案进行验证。仿真结果表明,所提出的策略与两种传统策略相比,蓝方平均损失数提升3.78%、3.90%,红方任务平均消耗时间下降6.26%、6.39%,能够有效解决无人机集群在信息不对称条件下的任务分配问题,为提升无人机集群动态决策能力提供了算法支撑。
关键词 蚁群劳动分工;动态任务分配;差分进化算法;无人机集群;信息素;动态环境刺激

1 引 言

随着人工智能的飞速发展,各个领域逐步显现智能化与无人化发展趋势。无人机作为典型的智能应用载体,凭借先进的协同控制与指挥决策系统,在军民两用环境中,展现出高效、精确执行复杂多样任务的能力,针对无人机任务规划方向的理论与技术研究,受到国内外学者的广泛关注,而无人机集群自主任务分配问题更是其中最重要的研究内容。
Wei等1提出一种基于快速探索随机树与RTS滤波器相结合的无人机编队路径规划方法,用于解决复杂约束条件下无人机的编队路径规划问题,Su等2使用状态网络逼近器求解无人机的非线性动力学模型,Yu等3提出一种基于自适应扩展卷积的A*优化算法用于实现无人机路径规划。以上研究可以优先解决规划问题,但均存在收敛速度慢、易于陷入局部最优的问题。生物集群所展现出的高度智能为无人机任务分配策略提供了宝贵的借鉴与启示。蚁群是一种典型的具备自组织特性的社会性系统,呈现高度明确的社会分工,是进行群智能优化和群智能进化理论研究的重要研究对象4。自Dorigo提出蚁群算法,国内外学者不断完善蚁群算法的优化理论,扩充并改进了蚁群算法的编码形式与更新机制,在提升算法优化能力的同时,扩展了应用领域。陈焱等5提出一种A*蚁群融合的复合启发式路径规划算法,改善了传统A*算法搜索效率低、迭代次数多、路径拐点多的不足。迟玉伦等6利用蚁群算法优化支持向量机参数,构建ACO-SVM故障诊断模型,实现机床故障精确诊断。周振等7提出一种改进融合蚁群算法,通过缩短路径长度和减少转角次数使得相较于传统方法明显提升寻路效率。以上研究中采用的蚁群算法属于群智能优化算法,在处理动态任务分配问题时,需将问题转换为多阶段决策模型,算法机制设计复杂,较少考虑蚁群个体对任务的决策过程,应用效果不佳。
基于上述分析,本文从多智能体视角,分析了无人机个体在侦察打击行动中,随内外部环境变化自主决策的动态过程8-10,结合智能优化算法和群智能进化模型——蚁群劳动分工,设计了一种融合差分进化算法和动态蚁群劳动分工模型的动态搜寻打击策略。首先,将无人机搜寻打击目标的分配过程映射为蚁群觅食的劳动分工过程,综合分析无人机与目标相对距离、发现时间、暴露状态等因素对目标选择的影响,提出目标“诱惑度”。然后,引入带有先验知识的精英保留策略的差分进化算法,在每次目标选择前,实时更新“诱惑度”,形成动态环境刺激更新机制。最后,建立信息不对称条件下对地固定目标察打任务分配仿真环境,采取对比消融实验方法,在确定的12种实验条件下对无人机搜寻打击方案进行验证。后续主要研究内容包括:第2节介绍典型蚁群劳动分工模型和融合“诱惑度”的改进劳动分工机制设计,第3节介绍无人机协同侦察打击劳动分工模型,第4、5节分别完成了满足对比消融实验条件的仿真平台搭建以及数值仿真分析,最后一节对研究内容进行总结。

2 蚁群劳动分工模型

2.1 蚁群气味分工行为特征

蚂蚁是一种劳动分工明确的昆虫,当它们组成一个种群时,会在个体分工的基础上展现出群体层面的智能。经研究发现,蚂蚁主要依靠气味来进行交流进而实现分工。不同的气味代表不同的含义,在不同的生存环境中11,根据外界刺激,蚁群通过气味来调节自身与同伴的行为与策略。
针对蚁群基于气味的劳动分工体系特征,人们建立了蚁群劳动分工模型来描述一个蚁群中不同的蚂蚁个体之间高效的任务分配和协作,不同的个体根据其行为特点被分配到不同的岗位执行不同的任务,进而实现整个种群的利益最大化。将蚁群根据气味分工的模式映射到无人机群之中,使无人机群能够像蚁群一样,通过某种形式的信息传递和感知机制,实现个体之间的精准协作与高效分工12-14,每一架无人机都可以根据自身的特点和任务需求,被分配到不同的角色和岗位上,当外界环境以及任务需求变化时,集群也可以快速调整策略,适应环境、满足需求并最终高效完成任务。

2.2 基于蚁群劳动分工的无人机群任务分配机制

在作战中15-17,据点具有5种不同的状态,分别为已侦察且打击的据点、已侦察且未打击的据点、已侦察发现无目标的据点、未侦察据点、未侦察且要侦察的据点。无人机具有2种不同状态,分别为有弹药无人机以及无弹药无人机。受到蚁群根据气味进行劳动分工的启发,在此基础上设计了蚁群劳动分工模型,将无人机假设成蚂蚁,无人机需要打击的目标假设为食物,食物会发出气味吸引蚂蚁前去觅食,蚂蚁也可以留下气味吸引同伴,并且随着时间的增长,气味对蚂蚁的诱惑也随之增加。不同状态的无人机表示不同状态的蚂蚁,有弹药的无人机(饥饿蚂蚁)可以对目标进行打击,无弹药的无人机(饱腹蚂蚁)无法打击目标但是有勘察能力。不同状态的目标表示食物在不同的地点有着不同大小的气味,不同地点对不同状态的蚂蚁有着不同的吸引力。将这种吸引力定义为诱惑度,整个蚁群觅食模型满足以下几个条件:
(1)蚂蚁总会不断去诱惑度最大的地点找食物;
(2)饱腹的蚂蚁会忽视有食物的地点;
(3)饥饿蚂蚁吃掉食物并达到饱和状态即为饱腹蚂蚁;
(4)蚂蚁侦察到食物时会强化气味作为标记,气味会随着时间延长而增大其影响;
(5)蚂蚁会忽视吃光食物的地点;
(6)未探明情况的地点对蚁群具有基本的吸引力。

3 无人机群搜寻打击策略设计

假设无人机个体数目为N,任务目标数量为S,据点数量为L。其中任务目标数量小于据点数量,且目标按照一定规律散布在据点当中。
无人机在搜寻打击目标时的行为与蚁群根据气味寻找食物十分相似,蚂蚁依靠气味可以高效分工快速找到食物,无人机也可以判别目标的“气味”,依靠“气味”进行分工。定义目标散发出的气味为“诱惑度”。
在单位时间内无人机(x1y1)向选定的目标(x2y2移动dr,利用公式,可以计算出无人机在水平与竖直方向上的位移,利用公式

(1)

(2)

(3)
可以计算出无人机的瞬时移动坐标(x1+dxy1+dy)。

(4)
Fd是一个关于距离的线性函数,表示诱惑度随距离的增加而减小,避免无人机在任务分配时舍近求远,锁定距离太远的目标,从而浪费时间与资源导致分配不合理。系数a的含义为单位路程对诱惑度的影响,a的大小会直接决定无人机的航迹,从而间接影响任务分配的效率。经过仿真调整,最终确定系数a大小为10。
Tf是一个关于时间的线性函数,表示诱惑度随着时间的增加而增加。无人机携带弹药消耗完毕时,可以继续侦察据点寻找目标,当侦察到某个据点内存在目标时便会做标记,留下“气味”告知其他携带弹药的无人机前来打击此目标。为保证在任务后期此类已经侦察过但是没有来得及打击的目标能够被重视,加快全局打击效率,需要慢慢将此类目标的重要度提高,因此设定留下的“气味”会随时间增加。

(5)
Tf表示诱惑度中时间对其影响的部分,对全部据点适用。Ib为一个判断函数,当无人机Wj消耗完弹药对据点Ci进行侦察时,发现了目标,此时无人机Wj对据点Ci进行标记留下“气味”,Ib函数取值为1,其他时候Ib判断函数取值为0。时间t表示当前时间,时间t0表示据点被标记的时刻。据点被标记之后,诱惑度中时间对其影响的部分才会开始生效,并且随着时间的增加慢慢积累。Ib判断函数存在的意义是表示据点被标记这一行为,只有被标记的据点的诱惑度才有时间加成,没有被标记的据点就没有任何影响,由此保证函数Tf可以对全部据点适用。
惩罚值Cf是为了避免重复分工而设定的惩罚系数。例如,当无人机Wj选择对据点Ci进行侦察打击时,会规划一条路径赶去据点Ci所在位置,在此过程中可能会出现无人机Wj+1也选择了据点Ci为侦察打击对象,即两架无人机由于不同时间、距离导致相同阵地的诱惑度对其都是最大,出现由于局部最优而产生分工重复的情况。为解决这个问题设置了惩罚值Cf,当一个阵地对多架无人机各自诱惑度都是最大时,选择绝对诱惑度最大的无人机去侦察打击此阵地,并且对此加上惩罚值Cf以降低对其他无人机的诱惑度,避免其他无人机选择其为侦察打击对象,减少了分工混乱导致资源浪费的情况,跳出局部最优,确保全局分配最优化。

(6)
式中,m为惩罚值。当阵地被一架无人机确定为侦察打击目标时,If判断函数取值为1,其余情况取值为0。

(7)
式中,M表示无穷大。当据点经过侦察发现无目标或者存在目标且被打击摧毁时,就失去价值,需要将其诱惑度降低,防止无人机反复侦察浪费时间与资源而造成效率降低。
诱惑度Y由惩罚值Cf、时间函数Tf与距离函数Fd三部分组成。未侦察与已侦察确定有目标的据点诱惑度计算公式为

(8)
式中,函数If与函数Ib为判断函数;a为经验系数;函数dxy为无人机瞬时移动距离;时间t表示当前时间,时间t0表示据点被标记时刻。
算法流程图如图1所示,开始时输入初始变化量,确定无人机、据点、目标数量位置等信息,随后用诱惑度公式计算所有据点对各个无人机的诱惑度,无人机选择诱惑度最大的那个据点为侦察打击对象,接着判断其是否为已证明无目标或者已摧毁,若不是,则对其进行分工标记并加上惩罚值。此时无人机开始朝其选择的据点方向进行移动,到达时进行侦察判断是否有目标,若无目标则标记,否则判断无人机是否有弹药,若无弹药则进行“气味标记”,有弹药则对目标进行打击,接着更新步长、时间与全局情况。最后判断是否达到时间或者消灭了所有目标,若没有则重新计算新的据点诱惑度进入循环,若达到时间或者消灭完所有目标完成任务,则结束并统计成本与毁伤情况。

图1   算法流程图Fig.1   Algorithm flowchart

4 仿真平台搭建

无人机采取蚁群劳动分工机制,分别用轮盘算法、总体求解算法、基于精英保留策略的差分进化算法以及具有先验知识的精英保留策略差分进化算法进行动态任务分配求解。
采用轮盘算法对模型进行求解的过程如下所述18-19。首先求解各据点对i号无人机的诱惑度,将诱惑度降序排列,将诱惑度最大的据点作为当前无人机的搜寻攻击目标,同时此据点不再分配给其他无人机。随后对其余无人机,依次分别计算与未被分配据点的诱惑度,选择当次诱惑度最大的据点作为搜寻打击目标,直至全部确定所有无人机各自最优的搜寻攻击目标,完成初次任务分配。在一定时间间隔后,重新分配无人机任务,直至所有无人机搜寻打击完所有据点。
采用总体分配法对模型进行求解的过程如下所述20-21。计算各据点对各无人机的诱惑度,将其按照诱惑度大小进行排列,每架无人机按照诱惑度最大原则进行据点选择,且先被选择的据点其他无人机不可再次选择,避免了轮盘算法中可能因为先后顺序导致最终结果局部最优的情况。确定所有无人机各自最优的搜寻攻击目标后,即完成了初次任务分配。选择一定时间间隔,重复此过程重新分配任务,直至所有无人机搜寻打击完所有据点,任务完成,结束算法。
采用遗传算法对模型进行求解的过程如下所述22。在此问题中,将各无人机的任务分配目标作为变量进行遗传编码,随机生成初始种群,将当前任务分配方案的总诱惑度作为种群适应度标准,通过父代差分向量、交叉向量生成变异的新个体,从父代个体与新个体中采取保留精英与适应度趋向选择产生下一代,迭代进行全局优化不断收敛,作为当前的任务分配方案。一定时间间隔后重复该过程重新分配任务,直至无人机群完成协同察打任务。
采用具有先验知识的遗传算法对模型进行求解,过程如下所述。在精英保留策略的差分进化算法基础上,基于时空的连续性与任务分配的马尔可夫性质,进一步将上一轮的任务分配方案作为先验知识用于初始化种群,指导搜索方向,帮助算法在搜索过程中更快地收敛接近最优解,实现态势不断变化牵引任务分配方案的动态优化。
仿真实验为红方相同无人机配置的情况下,采取不同的策略对蓝方进行搜寻打击。仿真实验中对单位无量纲化,在500×500的作战场地中以战场中心为坐标原点,向右为x轴,向上为y轴。实验记录两个数据作为评价指标,分别为指定时间内红方打击目标数量以及指定时间下红方打击所有目标总时间,反映红方任务完成能力,以判断算法性能与策略优劣。作战想定:蓝方在作战场地中存在45个据点,并在其中投放10个目标。根据作战经验与任务需求23-24,蓝方在投放目标时需要让据点的防御能力达到一定标准,通常是将目标按照一定规律投放在据点中的。收集经验数据得到各个目标隐藏在各据点中的概率,进行归一化处理,将原始计算分值整理成所有元素权重之和为1的概率分布,即可得到目标投放概率分布,如图2所示。

图2   目标投放位置概率图Fig.2   Probability map of target placement location
红方出动5架察打一体无人机,侦察打击范围为以自身为圆心半径为10的圆,自身携带弹药状态下侦察到目标即可进行打击,自身无弹药状态下侦察到目标时会对据点进行标记,告知其他携带弹药无人机前去打击。每架无人机额定携带2 枚弹药,按照额定速度0.12进行移动。每次仿真实验开始时,蓝方在45个固定的据点中依据规律选择10个据点投放目标,红方从固定位置进入战场,开始搜寻打击目标。假设每架无人机均保持0.12速度前进,可自由改变方向。
仿真实验中,按照100/帧记录下全局情况。蓝方据点为静止的方形,红方无人机为可以移动的圆形。其中红蓝方各自状态表如表1、2所示。

表1   蓝方颜色配置Table 1   Blue force color configuration


表2   红方颜色配置Table 2   Red force color configuration


5 仿真分析

实验按照图3仿真思路进行,红蓝双方在时刻为0时全部部署完毕,进行仿真推演。红方打击目标数量的指定时间为3600,打击所有目标总时间的指定时间为5000,即仿真实验总时长不超过5000。

图3   仿真流程图Fig.3   Simulation flowchart
仿真实验共进行12次,每次实验中进行100轮仿真以排除偶然因素、保证结果稳定。实验通过控制变量的方法探究在气味函数、距离函数系数变化情况下,求解算法对策略的影响,用以验证本文所提出的融合差分进化算法和动态蚁群劳动分工模型的动态搜寻打击策略优越性。
实验1,蓝方为45个据点,10个目标根据概率分布部署在据点中。红方诱惑度计算公式中惩罚值Cf取值为较小值,距离函数Fd中系数取值为1,时间函数Tf为线性函数,采用轮盘算法进行求解。对100次仿真数据进行统计,得到规定时间内蓝方平均损失数量为0.814,任务平均消耗时间为4146.75。
实验1中100次仿真中有6次仿真在到达时间5000时并没有打击完所有目标,任务消耗时间大于5000。其中第78次仿真具有代表性,其过程体现由于未能有效平衡时间函数与距离函数,使得诱惑度中气味因时间增加太快而过于“浓重”,导致出现无人机忽视距离更近据点的情况。
如图4所示,据点C18在仿真前期被气味标记,随着时间推移其气味快速增加,时间因素超过距离因素的影响作用,使得无人机W4选择据点C18作为目标,而无人机W5以据点C17为目标,路途中消耗大量时间导致时间达到5000时任务没有完成,由此可见气味随时间变化与距离之间的关系需要加以平衡。

图4   第78次仿真态势图Fig.4   78th simulation situation
接下来进行平稳性检测,计算100次仿真的任务消耗时间以及规定时间内蓝方损失数的平均值,并以10次仿真为一组计算其方差,如图5所示。

图5   平稳性检验Fig.5   Stationarity test
蓝方损失数的平均数方差随着仿真次数的增加而逐渐趋于稳定,表明评价指标趋于稳定,证明仿真结果可信,评价指标可以稳定反映当前算法性能与策略优劣。
实验2,设置诱惑度公式中时间函数Tf为常数,即无人机分工标记的气味不随时间变化。进行100次仿真后得到任务平均消耗时间为4019.75,规定时间内蓝方平均损失数为8.73。结果均优于实验1,说明气味随时间增加的函数,在没有找到合适系数的时候对分工造成了影响,使得策略效率降低。但是在实验2的第56次仿真中,发现当不考虑时间的影响时,若两个据点距离无人机非常近时,会出现无人机分工不稳定的情况。无人机始终处于移动状态,使得距离不断变化,出现在短时间内两次任务分配有相近的总体诱惑度,但具体任务分配差异较大的情况,使得每次策略调整都会更换侦察打击对象,导致无人机任务分配不稳定,整体分工混乱而割裂了侦察打击过程中的任务连续性。
基本条件不变,采取传统智能算法进行了实验3、4。分别采用了一定的剪枝策略,但造成迭代次数不足使得结果劣化,规定时间蓝方损失数只有3,说明问题具有复杂非线性使得在遗传算法中不易剪枝。进行实验5,不增加气味函数,距离函数Fd中系数取值为10,放宽进化代数发现结果有较大改善,但分工不稳定,陷入局部最优解现象严重,如图6所示。随后持续更改条件,包括修正气味公式、调整距离函数Fd中系数、使用不同算法,对比结果如表3所示。

图6   实验5无人机分工时序图Fig.6   Timing diagram of UAV division of labor in 5th

表3   对比实验详情Table 3   Details of comparative experiments


由表3可知,实验1、2是在两种常规算法中探究气味对策略的影响,气味公式有利于算法收敛,实验2、7证明总体法优于轮盘法。实验6、8、11,实验5、10和实验1、9、12对比得到,采用具有先验知识的精英保留策略的差分进化算法求解能够使指定时间内红方打击的目标数量显著上升,同时红方打击所有目标所用时长显著降低。
以实验6、8、11为例,传统智能算法在复杂非线性问题中难以稳定求得最优解,导致分工不稳定,在效率上劣于规则化的总体法,而具有先验知识的智能算法下无人机分工如图7所示,使得无人机群完成了高效且稳定的任务分配,与传统智能算法与总体法相比,蓝方平均损失数提升3.78%、3.90%,红方任务平均消耗时间下降6.26%、6.39%,实现了协同察打的全局最优化。

图7   第11次实验无人机分工时序图Fig.7   Timing diagram of UAV division of labor in 11th
通过12次实验之间的相互消融对比,可以得知在改变其他变量的情况下,本文所提出的融合差分进化算法和动态蚁群劳动分工模型的动态搜寻打击策略在打击效率与打击效果上均优于传统算法,为更好地解决无人机集群在信息不对称条件下对地固定目标察打任务分配问题提供参考。

6 结 论

本文充分借鉴智能体建模思想和蚁群群智能进化机制,综合运用人工智能算法和劳动分工模型对无人机群搜索打击策略进行深入研究。以“诱惑度”作为劳动分工模型中蚁群个体选择偏好和全局环境刺激更新的关键指标,重构了传统蚁群劳动分工模型,合理运用差分进化算法设计“诱惑度”更新机制,强化全局搜索性能,弥补传统劳动分工模型易早熟的不足。多轮次对比消融数值仿真实验结果表明,本文所提出的基于蚁群劳动分工的无人机群搜寻打击策略能够快速有效解决无人机群察打地面未知目标的动态任务分配问题,具有先验知识的精英保留策略的差分进化算法可以很好地适应马尔可夫性质,在线求解任务分配方案,使其随任务推进与态势更新而动态优化,显著提高了无人机群协同搜寻打击效率,为提升无人机群协同作战任务分配的自主决策能力提供了算法支撑。由于本文尚未考虑多种无人机的互补使用与战场的复杂电磁环境,下一步将从异构无人机群与分布式交互等方面展开研究,期望进一步提高无人机群在复杂战场环境下的总体稳定性。


来源丨《无人系统技术》2024年第四期
转自:无人系统技术 微信公众号

 关注公众号了解更多

会员申请 请在公众号内回复“个人会员”或“单位会员


 欢迎关注中国指挥与控制学会媒体矩阵

CICC官方抖音

CICC头条号

CICC微博号

CICC官方网站

CICC官方微信公众号

《指挥与控制学报》官网

国际无人系统大会官网

中国指挥控制大会官网

全国兵棋推演大赛

全国空中智能博弈大赛

搜狐号              

一点号              


中国指挥与控制学会
中国指挥与控制学会是中国科协、国家民政部批准成立的国家一级学会,是由我国从事指挥与控制科学技术领域的单位和科技工作者自愿结成的学术性、全国性社团组织。学会办事机构挂靠中国兵器工业集团公司。
 最新文章