美国空军全力以赴开发联合仿真环境 (JSE),以彻底改变作战人员为未来战斗的训练方式。作战分析主要利用人类操作员和主题专家 (SME),他们拥有必要的军事知识和专业知识,可以就战斗交战或任务做出现实的决策。最近的运营挑战促使人们对机器辅助任务工程工具重新产生兴趣,这些工具可以推动国防领域的决策和创新。这些工具能够模拟高保真战斗交战,以分析多个领域的作战概念、平台、系统和能力,从而为任务工程领域内错综复杂的问题开发最佳解决方案。
强化学习 (RL) 掌握高度复杂的输赢博弈的能力凸显了它在任务工程领域的潜力。通过 RL 训练的代理可以解释环境并学会通过经验导航游戏,从理论上讲,这一成功应该可以很好地转化为战斗模拟。然而,在实践中,将战斗模拟工具与 RL 方法结合使用会带来特殊的挑战,因为代理很难与不是为 RL 参与构建的模拟器进行交互。但是,离线或数据驱动的 RL 通过消除代理对与环境交互的依赖,而是使用历史数据进行训练来克服这些挑战。本研究建议使用离线或数据驱动的 RL 来使用合成战斗模拟数据训练代理。
JSE 和 HII 的任务技术部门(JSE 发展的贡献者)将成为空军提高部队战备状态任务的核心组成部分,这是空军部长弗兰克·肯德尔 (Frank Kendall) 概述的首要作战要务之一。
Mission Technologies 实时、虚拟、建设性 (LVC) 解决方案业务小组的美国空军产品组合副总裁 Mike Aldinger 表示:“JSE 采用企业方法,这意味着它是使用通用的非专有解决方案构建的,以应对联合全域作战训练挑战。“企业方法是 HII 业务战略的核心,也是空军物资司令部战略计划的一个要素。JSE 解决方案的一个主要优势是提供一个单一、统一、高保真环境,该环境可生成天气、武器效果和电子战 (EW) 等条件。结果是一个常见的模拟战场,多个模拟器可以使用 F-35 和下一代空中优势等下一代平台进行交互。
传统的依赖地面站的指挥操作难以适应高度动态和不确定性的无人机空战环境。由于假设过于简化、计算庞大复杂以及缺乏灵活性,以往关于无人机自主机动决策的研究存在局限性。针对红蓝无人机的空战场景,建立了基于马尔可夫决策过程(MDP)的三维无人机空战模型。我们使用双延迟深度确定性策略梯度 (TD3) 算法训练 Red UAV 自主完成空战任务。通过情景转移训练和自博弈训练技术提高性能。随着训练场景逐渐由简单走向复杂,红军无人机不断稳步学习以往经验,提升能力。通过自我博弈训练提高智力水平。仿真结果表明,所提出的机动决策模型和训练方法可以帮助无人机获得有效的决策策略,从而在对抗中获得优势并击败对手。
目前已制定计划,到 2028 年将 JSE 整合到内华达州内利斯空军基地的虚拟培训和测试中心 (VTTC) 中。初始实例将包括 8 个 F-35、4 个 F-22 和 8 个虚拟空中威胁。HII 正在支持 Nellis 这项新技术的发展,在现场工作以集成系统和模型,并执行软件开发以确保模拟环境在发展过程中反映现实世界的变化。
如今,各种依赖无人机 (UAV) 的创新空战范式,即无人机集群和无人机-载人飞机合作,在世界范围内受到高度关注。在行动过程中,无人机应根据动态任务需求和复杂的战场环境进行敏捷、安全的机动。深度强化学习 (DRL) 适用于顺序决策过程,为空战机动决策 (ACMD) 提供了强大的解决方案工具,近五年来已发表数百篇相关研究论文。然而,作为一个新兴的话题,缺乏系统的综述和教程。为此,本文首先提供了全面的文献综述,以帮助人们全面了解该领域。它从 DRL 本身开始,然后扩展到它在 ACMD 中的应用程序。并且特别关注奖励函数的设计,这是基于 DRL 的 ACMD 的核心。然后,提出一种基于一对一空战场景的机动决策方法,使无人机能够赢得短距离空战。详细介绍了模型建立、程序设计、训练方法和性能评估。相关的 Python 代码可在 gitee.com/wangyyhhh 获得,因此研究人员只需稍作修改即可快速启动构建自己的 ACMD 应用程序。最后,还讨论了所考虑模型的局限性,以及智能空战未来可能的研究方向。
“JSE 是所有训练平台查询结果的通用环境,”Aldinger 说。“输入(武器交战)被传输到这个共同环境中,然后提供裁决以确定 [是否] 成功,然后反映在战场参与者中。”Aldinger 说,当今的分布式训练环境由通过广域网连接的不同系统组成,这可能会导致训练环境分段。这些分段的环境会影响训练的互操作性,并且由于更新许多训练系统的过程漫长,有时会导致使用过时的战场参数(例如,模型、威胁、EW)。
最近,强化学习 (RL) 出现在自主空战领域。然而,众所周知,RL 在实际应用中存在勘探效率低、训练时间长的问题。在本文中,我们提出了基于深度 Q-学习网络 (DQN) 并结合专业知识的自主机动决策模型。首先,我们根据专业知识设计一系列探索规则。借助探索规则,无人机不再是全空间的随机探索,而是能够避免无效的太空探索,提高探索效率。此外,我们还引入了模仿学习 (IL),从人类专家演示的决策轨迹数据中获得 RL 的初始策略,这可以加快训练过程。最后,仿真结果验证了无人机自主机动决策模型的有效性。
基于深度强化学习,提出了一种智能战术决策方法来解决无人作战飞行器(UCAV)空战决策问题。空战环境日益复杂,导致在使用强化学习解决空战问题时出现维数诅咒。在本文中,我们采用深度神经网络作为函数逼近器,并将其与 Q-learning 相结合,实现了动作值函数的精确拟合,是减少传统强化学习带来的维数诅咒的好方法。为了验证算法的有效性,我们在空战平台上对我们的深度 Q-learning 网络 (DQN) 进行了仿真。仿真结果表明,DQN 算法在奖励和动作价值效用方面均具有良好的性能。所提算法为 UCAV 智能决策的研究提供了新的思路。
“JSE 包括一组系统和流程,使美国空军能够快速更新模型,例如雷达模型 [和] 威胁模型,”Aldinger 说。“随着我们的同行对手的发展,我们可以快速更新这种 JSE 架构,这样当我们使用未来的平台和当前的第五代进行训练时,它们 [准确地] 代表了我们将要面对的近乎对等的对手。”
HII 的 LVC 解决方案业务组技术总监 John Bell 表示,这个概念是为仿真环境提供一个所有模型都可以使用的通用架构。
“特别是,共同开发 JSE 的空军和海军可以构建一组通用模型,例如下一代威胁系统 (NGTS),它正在提供 JSE 的构建仿真组件,”Bell 说。“截至今年,我们正在 VTTC 开始一项新的软件开发工作,以在 NGTS 中开发新的威胁模型和新的武器系统模型,特别是使用我们从国家航空航天情报中心获得的数据。概念是:我们获得收集的有关真实威胁的 [新] 数据,并在几个月内实施这些数据。根据数据的性质和威胁的性质,我们可能需要几周时间才能在新的威胁系统中实施这些数据。
Aldinger 和 Bell 都表示,JSE 是一种“边打边训练”的解决方案,通过全系列第五代(和下一代 Air Dominance)平台为作战人员提供他们需要的高保真、真实的体验。例如,F-35 飞行员可以在 JSE 中打开他们无法在射程上打开的所有传感器,而不会将能力暴露给对手。
“这与他们今天在美国空军分布式任务行动中的训练方式不同,”奥尔丁格说。“训练平台 [将] 包括作战飞行计划。空气中的东西在 VTTC 中得到了充分的体现,因此您可以通过这种 JSE 方法获得最真实的培训。如果没有 Mission Technologies 的 LVC 专业知识,就不可能实现这种简化、高保真和高效的培训解决方案。HII 的企业解决方案和支持对于空军追求 JSE 至关重要,JSE 是一个革命性的力量倍增器,让今天的战士为明天的战斗做好准备。
人工智能在空战的视觉范围内的自主决策和控制中发挥着关键作用。需要精确动力学模型的传统机动决策方法仅限于点质量模型飞机。无模型强化学习使空战研究能够解决具有高保真非线性飞行动力学模型的实际情况。本研究解决了代理如何在看不见的任务中操纵和控制的问题,这对于提高代理对训练期间可能遇到的复杂情况的适应性至关重要。
随着计算机科学、自动控制、飞机设计等学科的发展,人工智能驱动的无人驾驶战斗飞行器(UCAV)空战决策技术带来了空战理论和模式的革命性变化。针对六自由度 UCAV 近距离空战自主决策问题,本文提出了一种基于深度强化学习方法的 UCAV 空战决策方法。首先,基于六自由度 UCAV 模型开发了近距离空战环境模型;其次,基于深度神经网络建立多维连续状态输入和多维连续动作输出的无人机近距离空战自主决策模型,接收战况信息并输出无人机的摇杆位移命令;然后,设计了考虑导弹攻击区和空战方向的奖励函数,包括角度奖励、距离奖励和高度奖励;在此基础上,采用双延迟深度确定性策略梯度算法训练空战自主决策模型。最后,对无人机近距离空战场景进行了仿真实验,仿真结果表明,所提出的智能空战决策机胜率是专家系统的3.57倍,占据的平均态势奖励是敌机的1.19倍。
因此,在空战决策中首先引入了元强化学习框架,用于训练代理控制进攻态势并击倒土匪。特别是,元训练任务是根据典型的交战情况构建的,以便学习空战中的基本战斗机机动。每个任务的相应奖励函数都是根据情境评估的潜在函数形成的。相比之下,元评估任务的设计具有统一但更难的目标条件,这需要整合元训练。在实现中,提出了一种元强化学习算法,以促进对多个任务的快速适应。在元评估任务的背景下,我们的算法的成功率约为 80%。此外,比较结果证明了我们方法的有效性。一项消融研究还确定了元强化学习框架的效率。介绍了空战过程的可视化和分析。最后,可以得出结论,在空战问题的背景下,用在元训练中学到的组合技能来完成看不见的任务。
涉及的技术资料如下:
涉及的技术文件已上传知识星球:
近期上传资料如下:
【智慧兵棋推演专题】美国在人工智能兵棋推演的使用介绍--21份技术资料,超50万字的干货
提高空中和导弹防御(AMD)系统在人类与人工智能之间的信任-182页论文+145页技术论文
工智能用于防空和导弹防御安全风险评估的技术报告-162页
基于代理的模型对马赛克战争的建模技术介绍-涉及180页资料共计13万字的干货
【人工智能与杀伤链专题】以机器速度做出决策:将 AI 引入命令链-含30份技术资料-共406页-超100万字干货
【反无人机蜂群专题】关于在战斗中对小型无人机蜂群防御和手段-涉及28份资料-超100万字
海军兵棋推演战斗管理辅助工具中的博弈论和规范分析-2022最新84页论文
多域作战中的风险感知-美国陆军55页报告
游荡弹药和不可预测性:武器系统的自主性和对人类控制的挑战-72页
技术报告基于人工智能(AI)的空中和导弹防御(AMD):以结果为导向的辅助决策-145页
近日推出反无人机专题-含关于在战斗中对小型无人机蜂群防御和手段-涉及28份资料-超100万字
本文节选自原文的一部分内容,原文进入知识星球下载: