【顶会速递】清华大学提出“利用强化学习破解火箭回收过程的控制难题”

文摘   2024-07-28 11:16   印度尼西亚  


摘要:清华大学李升波教授团队与蓝箭航天合作开展火箭回收控制技术的研究,所形成论文《Rocket Landing Control with Random Annealing Jump Start Reinforcement Learning》将于国际会议International Conference on Intelligent Robots and Systems (IROS) 2024进行口头报告展示。该研究工作使用强化学习方法设计火箭回收过程的控制策略,针对其终端约束严格且过程奖励稀疏的特点,提出Random Annealing Jump Start(RAJS)机制克服了火箭动态运动过程的样本数据生成难题,实现高水平火箭回收控制,将任务成功率从基准控制器的8%提升至97%。这一研究体现了强化学习方法对于求解复杂工业控制问题的巨大潜力。

         

 

火箭回收的意义:火箭回收不仅是航天技术的重要方向,更是开启太空经济新时代的关键,将极大降低航天发射成本,使太空探索与卫星部署更加经济可行。通过重复使用火箭最昂贵的部分——发动机及主体结构,航天公司能够大幅削减单次发射费用,助力商业航天进一步发展。此外,火箭回收可减少太空垃圾的产生,减轻对地球轨道环境的污染,保障未来太空活动的安全性。    
(火箭部件的造价占比)
火箭回收任务要求:通过实时控制火箭发动机的推进方向与推力,克服环境扰动,使火箭以适当位姿着陆于指定位置(图中的Vertical landing段)。其中,回收任务的初始位置在较大范围内随机取值,终端位姿与速度需要满足严格约束,以保证着陆后的稳定性和安全性。
(火箭回收阶段示意)

现有方案的不足:
  • 预先求解轨迹的开环控制方案,应对过程扰动能力不足,火箭控制精度受限;
  • 基于模型的闭环控制方案,难以通过单套参数应对大范围初始状态与非线性动力学,状态空间分块又将显著加大设计复杂度;   
  • 模型预测控制等在线优化方案,计算消耗大,难以满足实时控制需求;
          

     

方案与结果:
强化学习,通过离线求解神经网络策略,并在线应用于被控对象,有潜力实现实时智能控制,但面临环境探索方面的困难。探索(exploration)与利用(exploitation)的平衡是强化学习的核心命题之一。本任务过程中无任何中间目标,是一个具有稀疏奖励(sparse reward)的强化学习问题。缺乏奖励信号的引导,通过随机探索实现终端目标的概率随控制时域的长度指数级降低,对策略优化构成显著挑战。
本研究提出Random Annealing Jump Start(RAJS)机制,可与任意强化学习算法组合,实现探索效率与策略水平的显著提升。其核心在于利用基准控制器蕴含的先验信息辅助探索,最终获取独立于基准控制器的高水平强化学习策略。对本任务而言,基准控制器为跟踪预设轨迹的PID控制器。
具体而言,RAJS将单次任务划分为引导与探索两个阶段。引导阶段由基准控制器进行控制,在进入探索阶段时由强化学习策略接管,直至任务结束,从而限制强化学习的探索空间。引导时域长度从0(即完全无引导)到上限之间随机均匀取值,时域上限则由初始取值在训练过程中逐步退火至0,具体退火过程由训练指标(如成功率)进行自动调控。该方案基于原有Jump Start方法发展而来,克服其分布偏移与目标不匹配的缺陷,实现训练稳定性与性能的提升。
面向火箭回收具体任务,本研究进一步优化终端奖励函数与终止条件以降低探索难度,同时使用增量控制并调整策略损失函数以改善控制平滑性。最终,将任务成功率从基准控制器的8%提升至97%,实现高精度、高安全且动作平滑的火箭回收控制。    
(火箭回收控制案例视频)
      
工具链介绍:
本研究的强化学习训练使用GOPS最优控制问题求解器进行,火箭动力学与基准控制器Simulink模型由GOPS的slxpy工具实现向Python模块与强化学习环境的自动转化。
GOPS(General Optimal control Problems Solver)是一款面向工业对象的通用最优控制问题强化学习求解器,具有支持数据驱动求解、离线求解在线应用、策略自动代码部署等特点,旨在为工业控制提供一站式解决方案,构建实时、高性能的控制器。GOPS实现了各类型的经典强化学习算法,包括针对具有状态约束和模型不确定性的特殊工业控制系统的约束和鲁棒算法。GOPS采用高度模块化的结构,为二次开发提供了灵活的框架。考虑到工业控制任务的多样性,GOPS还包含一个转换工具,允许使用MATLAB/Simulink来进行环境搭建、控制器设计和性能验证。为了处理大规模问题,GOPS可以通过灵活组合内嵌模块来自动创建不同的串行和并行训练器。GOPS在线性二次控制、车辆跟踪、仿人机器人等多个典型控制任务中展现出了高精度的求解性能。    
         

 

参考文献:
[1]Y Jiang, et al. Rocket landing control with random annealing jump start reinforcement learning. 2024. Available: https://arxiv.org/abs/2407.15083
[2]W Wang, et al. GOPS: A general optimal control problem solver for autonomous driving and industrial control applications. Communications in Transportation Research, vol. 3, p. 100096, 2023.
[3]S Eben Li. Reinforcement Learning for Sequential Decision and Optimal Control. Springer Verlag, Singapore, 2023.
[4]Y Guan, et al. Direct and indirect reinforcement learning. International Journal of Intelligent Systems, vol. 36, no. 8, pp. 4439–4467, 2021.    

深度强化学习实验室
【开源开放、共享共进】强化学习社区\x26amp;实验室,分享推动DeepRL技术落地与社区发展,社区 deeprlhub.com
 最新文章