强化学习 | 利用深度强化学习掌握空战博弈

学术   2024-11-22 17:00   北京  

中英文互译及英文润色服务 点击查看详情

原文信息

中文摘要

近年来,强化学习已被应用于空战问题中,课程学习的概念通常应用于强化学习,但传统课程学习存在神经网络可塑性丧失的问题。可塑性丧失指的是网络在收敛后学习新知识的困难。为此,我们提出了一种激励课程学习分布式近端策略优化(MCLDPPO)算法。通过该算法,训练出的智能体明显优于预测游戏树和主流强化学习方法。激励课程学习旨在通过观察智能体的不良表现并提供适当的奖励作为引导,逐步提高其战斗能力。此外,基于现有的空战知识,我们封装了一整套战术机动,通过灵活运用这些机动,可以实现一些超越人类知识的战术。此外,我们为智能体设计了一种中断机制,以提高智能体在面临紧急情况时的决策频率。当智能体收到的威胁数量发生变化时,中断当前行动以重新获取观测并再次进行决策。采用中断机制可显著提高智能体的性能。为了更好地模拟实际空战,我们使用数字孪生技术模拟真实的空战,并提出了一个并行战场机制,能够同时运行多个模拟环境,从而有效提高了数据吞吐量。实验结果表明,智能体可以充分利用态势信息做出合理决策,并在空战中提供战术适应,验证了本文所提出算法框架的有效性。    

扫描二维码

查看下载全文


原文链接

https://doi.org/10.1016/j.dt.2023.08.019    


主要结论

(1)本文提出了基于激励课程学习的分布式近端策略优化(DPPO)算法,以解决传统课程学习中神经网络可塑性丧失的问题。激励课程学习通过观察智能体的不足并提供适当奖励作为引导,逐步提高智能体的战斗能力。
(2)中断机制提高了智能体在紧急情况下的决策频率,从而增强了其战斗能力。战术机动封装了现有的空战知识,使智能体能够利用多种战术。我们设计了一种基于深度长短时记忆网络(LSTM)的演员-评论家网络架构,采用局部和全局观测制定决策,具有良好的行动特征能力。
(3)分布式架构框架利用了分布式环境的特性,能够同时运行多个对抗环境。使用数字孪生技术构建了与真实空战场景非常相似的模拟环境。每个对抗环境生成的数据异步发送到Redis缓存,加速了智能体的训练。
(4) 在实验中,使用激励课程学习分布式近端策略优化算法训练的智能体在单机空战中表现优于专家系统、预测游戏树模型和主流强化学习方法。实验验证了根据智能体在空战中的实际表现所增加的奖励具有指导性。对网络结构和超参数进行了分析,并提供了适当的建议。
目前,空战领域的研究仍局限于通过人类专家知识设置行动集和奖励函数,以帮助无人机学习有效的策略。随着未来研究的发展,无人机将能够自主形成有效的行动和奖励函数,从而突破人类知识的限制,将无人机作战提升到一个新的水平。    

论文选图


编辑:陈微,曹文丽

审核:田丽



Defence Technology

往期目录

2024-V1

2024-V2

2024-V3

2024-V4

2024-V5

2024-V6

2024-V7

2024-V8

2024-V9

期刊

简介

《Defence Technology》是由中国兵工学会主办的科技类综合性学术期刊,目前已被SCI、EI、Scopus、中国科技核心期刊数据库、中国引文数据库核心版和瑞典开放获取指南等多家数据库收录,期刊主要发表基础理论、应用科学和工程技术领域高水平原创性学术论文,包括理论研究、数值模拟和实验研究类文章。

DEFENCE

TECHNOLOGY

期刊系统投稿教程

DT tutorial

请点击查看详情

推荐指数 : ★★★★★

添加防务技术DT_小编微信

欢迎添加“防务技术DT_小编”为好友!


Defence Technology
Defence Technology 期刊由中国兵工学会主办,为SCI-E, Ei 收录期刊。
 最新文章