杨孟超,西北工业大学航空学院2021级航空宇航科学与技术专业硕士研究生,指导教师为张伟伟教授,主要研究方向为智能空战与深度强化学习。硕士期间主要研究成果:
1. 单圣哲, 杨孟超, 张伟伟, 等. 自主空战连续决策方法[J]. 航空工程进展, 2022, 13(5): 47-58.
2. Yang M, Shan S, Zhang W. Research on Decision-Making and Confrontation in Close-Range Air Combat based on Reinforcement Learning. (CJA 退修)
3.张伟伟,杨孟超,单圣哲.一种空战智能决策方法[P].陕西省:CN116911193A,2023-10-20.
空战的一般流程可以概括为OODA循环,即观察判断战场信息,做出决策,操纵飞机执行机动获取有利的态势。而随着武器设备的迅速发展,动态战场环境信息变得更为错综复杂,决策环节的负担进一步加重;数字智能化技术的发展为决策环节带来了新的机遇,各国纷纷部署智能化空战项目,寻求智能方法在决策与训练中的应用。智能决策方法依据求解方法原理主要可以分为纯数学理论求解、模型推理、优化方法与人工智能四大类;前三种方法往往需要对场景做以简化,且受观测与机动维度的影响而被诟病;相较之下深度强化学习方法降低了对环境模型的数学描述要求,神经网络提升了非线性拟合能力,已成为空战决策领域的主流方法。强化学习的一般流程可以描述为智能体与环境的交互过程;智能体根据观测与策略,执行动作,改变环境状态,环境给予智能体奖励反馈,引导策略更新寻优,最终实现累计奖励最大化的目标。经典方法分为基于模型(Model Based)与不基于模型(Model-Free)两大类,其中不基于模型的方法不依赖于复杂环境模型的建立,因此成为当前深度强化学习的主流方法,代表性的算法有PPO、DDPG、SAC等。综合背景与方法,本文的主题是近距场景下的智能机动决策与仿真,面向辅助决策与飞行训练应用,构建动力学模型,搭建视景平台,设计强化学习环境,开展算法研究,进行对抗试验与轨迹分析,总结算法模型特点。首先需要建立战机的动力学模型,区别于大多数同类研究,本文基于开源F-16气动数据,利用六自由度动力学方程建立战机模型,与开源程序进行了仿真对比,说明了建模的合理性。为进一步提升模型的真实性,研究后期基于JSBSim进行了二次开发,最终以包含增稳回路的战机作为智能体控制对象。要建立较为真实的战场场景,仅有战机本体模型是不足的,因此本文除战机本体外附加了雷达建模,根据经验公式设定雷达探测距离,设置平扫、垂扫与定轴扫描三种子模式,各模式具有不同的扫描范围与搜索时间,主要以及两个参数控制雷达的扫描模式与天线偏置,当目标处于当前雷达探测距离及范围内t时间时,设定雷达以一定的概率P截获目标。战机主要通过红外导弹及机炮攻击敌方,本文采用经验公式拟合红外导引头搜索范围及导弹攻击区,以射击瞄准线与距离矢量的夹角表述机炮的攻击参数。为适当降低问题复杂度,本文考虑导弹与机炮飞行中的重力影响,转换为攻击初始状态的几何关系进行判据。当敌方小于机炮射程,机炮攻击参数一定时间内保持大于0.97,则判定机炮击杀。使用参数控制导弹的发射模式,不同模式具有不同的红外导引头搜索范围。引入微分环节实现雷达与武器工作模式动态控制。当敌方目标处于导引头探测距离内且位于导引头搜索距离中,判定锁定敌方目标,转为自动跟踪发射模式,当保持红外导弹锁定一定时间后,判定导弹击杀成功。自此,动力学模型建立完毕,而强化学习环境主要在于观测、动作与奖励空间的设计。本文以战场中的双方位置、姿态、速度等基本信息,方位角、偏移角等几何信息以及雷达武器、操纵面状态作为模型观测输入,并且考虑到决策的时序特性,对输入特征进行了延迟10阶堆叠;选取升降舵、副翼、方向舵、油门以及雷达导弹7维连续操纵指令,以端到端的模式建立智能体模型。奖励的设计将决定训练的优化方向,是强化学习的核心。本文主要设计了连续的态势引导奖励与离散的事件奖励;设定进攻区与角度、能量引导奖励,当战机进入敌方尾后、占据角度或能量优势时给予正奖励,该类奖励能够避免长时间交互过程中的梯度消失,同时引导智能体做出较为合理的决策;当达成事件时给予稀疏的离散奖励,并对各奖励权重进行了优化设计,避免引导奖励过大导致结果奖励失效。为进一步可视化空战机动过程,本文基于Unity3D引擎搭建视景平台,并使用python、C#与C++混合编程,实现动力学、智能模型与可视化的统一封装,动力学模型基于JSBSim进行二次开发封装为dll动态链接库,视景系统与智能算法间通过网络通信传输数据,实现多个模块的统一封装。整体的平台架构可以描述为:以时序战场观测作为输入,依据网络模型输出动作决策控制战机智能体,根据智能体动作及当前状态量,推进动力学模型仿真,改变战场形势,根据下一时刻的双方态势关系给予智能体奖励反馈,构成的样本集合,当满足算法训练要求时,通过产生的样本数据梯度下降进行策略优化。基于搭建的平台,首先进行了经典单智能体算法的训练测试。固定场景为近距迎面起始态势,即红方初始化坐标为(-1,-1,3)km,蓝方为(1,1,3)km,双方迎面飞行。蓝方以固定机动控制,即以均匀分布采样随机选取平飞、爬升、转弯等动作,红方由智能体模型进行控制考虑到各单智能体强化学习算法的特点,本文选取训练稳定性好、应用最为广泛的PPO算法与Actor-Critic架构,通过交互产生的样本数据计算损失,更新网络参数。在合理设计的强化学习环境中,训练能够快速收敛。由奖励曲线可以看到,智能体在开始训练时经历了短时间的探索阶段,奖励负向增长,随后逐步上升,在3e7训练步左右收敛至1;回合长度曲线更为清晰地反映了训练探索过程,由初期回合长度逐渐增长到后期下降,说明智能体找到了快速击杀敌方的策略。由视景仿真可以看到智能体能够实现固定场景下的尾后击杀。但同时注意到,当加入位置与航向随机初始化后模型表现出过拟合的现象,迁移性较差。针对上述问题,为提升模型的迁移性与决策能力,本文进一步开展了优化自博弈算法的研究,该算法的逻辑以历史策略模型作为对手,解决对手模型构建的难题,具体的算法逻辑可以表述为:每隔𝜅个训练步骤,当前策略片段会被加入到模型池中。如果策略池中的模型超过𝑀个,则最早的模型会被丢弃。对手的策略每隔𝜏个步骤会重新选择,训练团队在满足间隔𝜁后会轮换。每次选择对手时,有𝜉的概率从专家动作库中选择一个固定动作,也有1−𝜉的概率从策略池中抽取。将历史策略与固定策略混合,进一步丰富对手策略,提升模型泛化性,同时一定程度上避免了训练过程中的模型退化。进一步优化了网络结构,添加LSTM网络层,匹配决策的时序特性;附加好奇心奖励模块,以预测状态与实际状态的差别作为附加奖励,鼓励智能体探索;并借鉴课程训练的思路,分阶段放开场景随机化,降低训练难度,同时提升模型在多场景下的适用能力。多种网络模型的自博弈算法均能有效收敛,ELO评分均能收敛至较高水平,同时注意到基本自博弈方法较早收敛,对应其一定程度上陷入局部最优或导致模型过拟合。进一步在随机场景下,将优化自博弈模型、添加好奇心机制的自博弈模型以及基本自博弈模型进行了对抗测试,LSTM-ICM架构表现出了最高的胜率,能够在多个场景下实现自主决策。多个场景的拆解。在均势时表现为双环作战;面对固定机动对手能够快速转弯实现击杀;态势占优时能够迅速锁定敌机完成击杀。
使用Thrustmaster飞行模拟驾驶杆、脚蹬与头瞄设备,通过Unity接口配置功能实现硬件设备与智能空战平台的交互。基于仿真平台与设备,于2023年8月组织飞行员开展了人机对抗试验。分别使用单智能体模型(Model B)与优化自博弈模型(Model A)与学生(Level Ⅱ)和飞行员(Level Ⅰ)进行近距场景下的仿真对抗试验并记录数据,对抗结果表明优化自博弈模型能够显著提升智能体模型的泛化能力与进攻性,在与人对抗中能够取得75%以上的胜率。通过数据回放给出几段典型的获胜、失败与平局轨迹。可以较为清晰地看到智能体决策具有一定的合理性。红方为飞行员操纵,蓝方为智能体。AI获胜轨迹。轨迹一,双方以双环战起始,红方尝试转入敌方尾后,最终以速度、过载较大冲前出界导致失败;轨迹二,双方进入斜平面机动,智能体以较低的高度从下方实现了对红方的锁定击杀。飞行员获胜轨迹。轨迹一,飞行员开始选择拉起,双方同时转向对方,随后飞行员转入垂直面机动,俯冲拉起完成斜平面转弯,成功进入敌方尾后实现击杀;轨迹二,双方开始进行了双环战持续,高度降低后,飞行员通过急拉起摆脱敌方锁定,随后实现击杀。平局轨迹,双方持续双环战,因距离过近相撞导致平局。
https://www.researchgate.net/profile/Weiwei_Zhang23