西南交大李天瑞团队 | 基于深度强化学习的卫星动态任务实时调度时效性优化方法
文摘
科技
2024-09-23 12:00
北京
文章下载
李可, 熊顺蕊, 戴朋林, 宋彤雨, 禹旭敏, 李天瑞. 基于深度强化学习的卫星动态任务实时调度时效性优化方法. 中国科学:信息科学, 2024, doi: 10.1360/SSI-2023-0368
随着国际商业航天产业的蓬勃发展和天基网络卫星“智慧天网一号01星” “高分辨率对地观测系统” “第三代北斗卫星导航系统”等国家重大专项工程加速建设,全球范围内卫星数量呈爆炸式增长,迫切需要设计高效的卫星任务调度策略,以确保天基信息系统的有效部署和稳定运行。卫星任务调度涵盖了对卫星执行任务的规划、管理与优化。以对地观测卫星为例,其任务调度的效率和质量直接决定了观测数据采集的效率,进而影响卫星系统能否及时响应诸如自然灾害、环境监测、农业管理、城市规划等多种应用需求。高效的卫星任务调度策略不仅能够优化卫星资源的利用,降低数据获取的延迟,还能提升观测的覆盖范围和频次,从而显著提升整个对地观测系统的服务能力和响应速度。这对于支撑科学决策和提升人类生活的质量具有至关重要的意义。因此,卫星任务调度已经成为学术界和工业界广泛关注和深入研究的热点领域。当前对地观测卫星任务调度的研究大多针对“常规周期性任务”进行批处理调度,这些研究通常基于一个关键假设:所有与卫星任务调度相关的信息都是确定的,一旦调度方案确定,就不再发生改变。然而,现实情况并非如此,尤其是在面对突发的应急观测任务时,这种假设不再成立。 应急观测任务不仅具有不确定性,还伴随着严格的时效性要求,这是传统的批处理调度技术难以满足的。目前,结合时效性要求、任务特征、卫星资源,从问题建模到算法设计的研究仍十分欠缺。针对应急观测需求、任务动态到达、卫星资源有限等情况,本文针对如图3所示动态任务实时到达场景,提出时效性优化动态任务实时调度问题,建立数学规划模型,并设计基于深度强化学习的算法,以赋予卫星更高层次的智能决策能力。这种能力使得卫星能够迅速响应观测需求,及时进行资源分配,从而满足任务的观测时效性要求,为面向实时应用的卫星任务调度领域带来突破。本文针对对地观测卫星研究了时效性优化的动态任务实时调度问题,首先定义了任务观测时效性指标,并以最大化所有任务观测时效性作为优化目标,建立了时效性优化AEOS动态任务实时调度问题(Timeliness-RSADT)的数学规划模型。在此基础上,设计了两阶段算法PPODL-HR对问题进行求解。第一阶段为任务选择阶段,为了加快神经网络模型训练的收敛速度,提出了基于深度神经网络和长短期记忆网络的近端策略优化PPODL,通过实验证明了引入LSTM能够加快模型地收敛。第二阶段为资源分配,提出了启发式规则HR以确定任务的观测时间,即任务的开始和结束观测时刻。最后,数值仿真和STK仿真实验结果表明,PPODL-HR在不同侧摆速率、不同任务密度和不同紧急任务占比的情况下,都优于现有实时调度算法。本文提出的任务观测时效性指标及相关深度强化学习算法,通过任务的调度与资源的分配实现了在卫星资源有限和任务不确定情况下的时效性最大化,不仅提高了卫星管控的自动化与自主化效率,而且简化了卫星管控流程并降低人员管理成本,为智能化天基信息系统设计提供重要参考。(1) 本文定义了任务观测时效性的关键指标,这一指标综合考虑了任务观测的延迟和接收任务总收益。基于此,本文提出了以最大化所有对地观测任务的时效性为目标的优化问题,即“时效性优化的AEOS动态任务实时调度”(Timeliness RSADT)。(2) 为了求解该问题,本文设计了融合深度神经网络、长短期记忆网络的近端策略和启发式规则的算法(PPODL-HR)。 (3) 通过数值仿真和STK仿真实验,表明了本文所提出PPODL-HR在不同侧摆速率、不同任务密度和不同紧急任务占比的情况下,都优于现有的实时调度算法。为了模拟卫星真实场景,首先使用STK仿真软件进行卫星观测场景模拟,产生如7(a)所示的卫星轨道,然后在实验场景中产生2000个观测目标点,这些目标点分布在经度80° ∿ 120° 、纬度10° ∿ 40°的空间范围内,分布情况如图7(b)所示。最后,计算观测机会集合TW和可见时间窗口W。图12给出了在100轮测试下的各实时调度算法在不同任务密度下的性能分析。平均观测延迟是观测延迟与任务总数的比值。PPODL-HR在接收任务的总收益上优于A3C和PPODL,在任务延迟上低于A3C和PPODL。 与A3C相比PPODL-HR性能更优,原因有三点:一是PPO的引入避免了A3C由于学习率的不合理设置造成的学习效果差的影响;二是在网络框架上使用LSTM替换了原有的FC层,使得算法的性能提升;三是引入了启发式规则,降低了调度时段下的观测延迟,通过比较PPODL-HR和PPODL也可以说明。因此PPODL-HR适用于任何任务密度的场景,同时适用于随之而来的任务密度大的调度场景。但是为了确保任务的观测延迟,在调度时段内,任务密度不易过大,需要根据卫星的剩余存储资源容量加以判断。