推荐论文|回合制轨道博弈中MCTS算法的改进与应用

学术   2024-11-04 09:04   北京  

引用格式

郑鑫宇,张轶,周杰,等.回合制轨道博弈中MCTS算法的改进与应用[J].中国空间科学技术(中英文),2024,44(5):75-82.

ZHENG X Y,ZHANG Y,ZHOU J,et al.Improvement and application of MCTS in turn-based orbital games[J].Chinese Space Science and Technology,2024,44(5):75-82(in Chinese).

一、文章导读

1.研究背景

随着各国对太空领域的加速开发,空间中的航天器与太空垃圾数量也不断增多,通过在轨服务技术可以有效地对其进行维修与延寿。此类情形下的在轨服务目标大多为非合作目标,美国正加速进行针对非合作目标的在轨服务技术研究。对非合作目标进行在轨服务的首要任务是要完成抵近与交会,特别是在非合作目标仍存在机动能力的情况下,这一任务变得更加复杂。可以将其看作航天器追逃博弈问题进行研究,航天器追逃博弈问题指的是追踪航天器尝试接近逃逸航天器并交会、而逃逸航天器朝着远离追踪航天器的方向运动并避免交会的一类博弈问题。


微分对策法是目前求解追逃博弈问题的一类较为成熟的方法,该方法最早由Isaacs提出,将博弈论与最优控制理论结合,利用极大值原理求解最优轨迹,最终得到纳什均衡解。微分对策法有着严格的数理支撑,在航天器追逃博弈领域得到了广泛的应用。吴其昌等人基于生存型微分对策理论对航天器追逃博弈进行了研究,发现追逃博弈主要发生在航天器运行的轨道平面内,并且推力大小会直接影响追逃博弈的时间。李振瑜等人利用微分对策法对信息不完全条件下的追逃博弈问题进行了研究,提出了一种基于逃逸航天器估计预测的最优逃逸策略,发现该策略下即使追踪航天器的博弈策略未知,逃逸航天器也可以进行有效的躲避,并有可能在机动性能力处于劣势的条件下取得博弈胜利。微分对策法要求航天器在追逃博弈之初就能够实时感知非合作目标的轨道动态情况,而目前对非合作目标的感知能力难以支撑微分对策法的工程应用。这使其在求解存感知延迟和脉冲推力情况下的回合制追逃博弈问题上面临困难。


基于强化学习的人工智能法是求解航天器追逃博弈问题的另一个有效手段,其包含的马尔可夫决策过程使得该方法在求解回合制脉冲轨道博弈问题上有着天然优势。耿远卓等人针对脉冲推力航天器追逃博弈问题,提出了一种基于终端诱导的强化学习决策方法,有效地提高了追击成功率。许旭升等人利用多智能体深度确定性策略梯度算法对“多对一”航天器追逃博弈问题进行了研究,结果表明追踪航天器可以利用数量优势弥补速度劣势,完成协同追捕。赵力冉等人采用人工智能方法对航天器脉冲回合制博弈问题进行了研究,并提出了PRD-MADDPG(predict-reward-detect multi-agent deep deterministic policy gradient)算法,将脉冲之间的状态预测添加到奖励更新中去,结果表明该算法有效提高了航天器的博弈能力。利用深度强化学习可以在脉冲推力、感知延迟以及各种复杂条件下求解回合制博弈问题,但是上述方法在应用之前需要依靠先验信息确定感知延迟时间、追逃方奖励函数等超参数,然后经过上百万代的训练。并且在实际的运用中,不可避免地存在先验信息不完全、追逃博弈双方根据局面改变追逃意图的情况。除此之外,深度神经网络可解释性弱,将其直接用于航天器轨道控制决策上存在一定的风险。因此亟需一种可靠性高、可解释性强并且可以根据先验信息的完善而随即调整参数进行下一回合博弈计算的方法。


蒙特卡洛树搜索(Monte Carlo tree search,MCTS)是强化学习方法的一种,其构建博弈树进行搜索并以随机采样的方式进行仿真,最终基于统计结果给出决策,MCTS方法的特点是有着清晰可靠的算法架构,并且在调整参数后不需要重新训练,可以实时搜索产生决策。MCTS方法已经广泛应用于空战机动决策、全域指挥控制协同、星际争霸智能对抗等具有复杂因素的智能博弈领域,并取得了良好的表现。综上所述,基于MCTS的航天器追逃博弈算法在变轨感知延迟、先验信息不足的背景下有着良好的工程应用前景。


在上述研究的基础上,本文考虑航天器轨道运动的可预知性,结合MCTS方法提出了一种预测价值积累的蒙特卡洛树搜索(predictive-value-accumulate Monte Carlo tree search,PVA-MCTS)算法,并将其用于求解航天器回合制追逃博弈问题,通过与MCTS算法对比体现PVA-MCTS在航天器回合制追逃博弈中的优越性。


2.文章梗概

航天器回合制追逃博弈中的变轨感知延迟使得微分对策法求解困难,基于深度强化学习的博弈算法可解释性弱,在工程上的运用仍存在风险。针对航天器回合制追逃博弈问题,提出了一种预测价值积累的蒙特卡洛树搜索(PVA-MCTS)算法。该算法基于航天器轨道运动的可预知性,对博弈过程中的决策价值进行预测并积累,解决了航天器回合制追逃博弈奖励稀疏、时间跨度大的问题,采用的自适应扩展方法提升了学习效率。将其用于求解航天器回合制追逃博弈问题,并与蒙特卡洛树搜索(MCTS)算法求解得到的结果对比,结果表明PVA-MCTS算法对追踪航天器和逃逸航天器分别有约27.6%的追捕用时缩短和约6.8%的逃逸时间延长。该算法的提出可加快推进后续轨道博弈技术在非合作目标接近、碰撞规避等领域应用的落实落地。


3.总结与展望

本文针对航天器回合制追逃博弈问题开展了研究,首先在追逃模型的建立上充分考虑感知时间延迟的约束,采用回合制的博弈形式,模型构建更贴合实际。其次针对回合制追逃博弈奖励稀疏、时间跨度大的问题提出了一种基于PVA-MCTS的航天器追逃博弈算法。该算法充分考虑了航天器轨道运动的可预知性,提升了强化学习的效率。最终进行仿真计算,结果显示相比于基于MCTS航天器追逃博弈算法,追逃博弈中的任意一方采用PVA-MCTS算法都将使得博弈结果朝着对其有利的方向发展:对追踪航天器来说PVA-MCTS算法可将追捕时间缩短大约27.6%,并明显缩小了追逃博弈的轨迹范围;对逃逸航天器来说PVA-MCTS算法可将追捕时间延长大约6.8%,并明显扩大了追逃博弈的轨迹范围。


下一步的研究重点是将深度学习方法进一步融入PVA-MCTS算法中,帮助蒙特卡洛树完成节点的先验评分与剪枝;探索采用CPU多核并行或者GPU加速计算的方法,进一步调用现有计算资源,提高搜索效率。


二、作者简介

郑鑫宇,中国空间技术研究院钱学森空间技术实验室助理工程师,研究方向为航天任务规划。


彭升人,中国空间技术研究院钱学森空间技术实验室高级工程师,研究方向为航天任务规划。


点击文末“阅读原文”

登录官网下载原文



来源:《中国空间科学技术(中英文)》2024年第5期

编辑:陈飚

监制:祁首冰




往期推荐


1

《中国空间科学技术(中英文)》2024年第5期出版啦!


2

推荐专题文章|嫦娥六号环月飞行双环容错姿态控制


3

推荐专题文章|鹊桥二号中继星总体设计与验证


4

推荐专题文章|月球背面无人自动采样返回任务分析与要点设计


5

地月空间基础设施专题|连通地月,加速探索



中国空间科学技术
本公众号是《中国空间科学技术(中英文)》期刊的网络推广平台;作者和读者的服务平台;空间科学技术领域研究者的交流平台。聚焦空间科学技术领域全球最新科研进展,引领空间科学、技术的创新发展之路!
 最新文章