【顶会速递】清华大学提出“利用强化学习破解火箭回收过程的控制难题”

文摘 2024-07-28 11:16 印度尼西亚

摘要：清华大学李升波教授团队与蓝箭航天合作开展火箭回收控制技术的研究，所形成论文《Rocket Landing Control with Random Annealing Jump Start Reinforcement Learning》将于国际会议International Conference on Intelligent Robots and Systems (IROS) 2024进行口头报告展示。该研究工作使用强化学习方法设计火箭回收过程的控制策略，针对其终端约束严格且过程奖励稀疏的特点，提出Random Annealing Jump Start（RAJS）机制克服了火箭动态运动过程的样本数据生成难题，实现高水平火箭回收控制，将任务成功率从基准控制器的8%提升至97%。这一研究体现了强化学习方法对于求解复杂工业控制问题的巨大潜力。

火箭回收的意义：火箭回收不仅是航天技术的重要方向，更是开启太空经济新时代的关键，将极大降低航天发射成本，使太空探索与卫星部署更加经济可行。通过重复使用火箭最昂贵的部分——发动机及主体结构，航天公司能够大幅削减单次发射费用，助力商业航天进一步发展。此外，火箭回收可减少太空垃圾的产生，减轻对地球轨道环境的污染，保障未来太空活动的安全性。

（火箭部件的造价占比）

火箭回收任务要求：通过实时控制火箭发动机的推进方向与推力，克服环境扰动，使火箭以适当位姿着陆于指定位置（图中的Vertical landing段）。其中，回收任务的初始位置在较大范围内随机取值，终端位姿与速度需要满足严格约束，以保证着陆后的稳定性和安全性。

（火箭回收阶段示意）

现有方案的不足：

预先求解轨迹的开环控制方案，应对过程扰动能力不足，火箭控制精度受限；
基于模型的闭环控制方案，难以通过单套参数应对大范围初始状态与非线性动力学，状态空间分块又将显著加大设计复杂度；
模型预测控制等在线优化方案，计算消耗大，难以满足实时控制需求；

方案与结果：

强化学习，通过离线求解神经网络策略，并在线应用于被控对象，有潜力实现实时智能控制，但面临环境探索方面的困难。探索（exploration）与利用（exploitation）的平衡是强化学习的核心命题之一。本任务过程中无任何中间目标，是一个具有稀疏奖励（sparse reward）的强化学习问题。缺乏奖励信号的引导，通过随机探索实现终端目标的概率随控制时域的长度指数级降低，对策略优化构成显著挑战。

本研究提出Random Annealing Jump Start（RAJS）机制，可与任意强化学习算法组合，实现探索效率与策略水平的显著提升。其核心在于利用基准控制器蕴含的先验信息辅助探索，最终获取独立于基准控制器的高水平强化学习策略。对本任务而言，基准控制器为跟踪预设轨迹的PID控制器。

具体而言，RAJS将单次任务划分为引导与探索两个阶段。引导阶段由基准控制器进行控制，在进入探索阶段时由强化学习策略接管，直至任务结束，从而限制强化学习的探索空间。引导时域长度从0（即完全无引导）到上限之间随机均匀取值，时域上限则由初始取值在训练过程中逐步退火至0，具体退火过程由训练指标（如成功率）进行自动调控。该方案基于原有Jump Start方法发展而来，克服其分布偏移与目标不匹配的缺陷，实现训练稳定性与性能的提升。

面向火箭回收具体任务，本研究进一步优化终端奖励函数与终止条件以降低探索难度，同时使用增量控制并调整策略损失函数以改善控制平滑性。最终，将任务成功率从基准控制器的8%提升至97%，实现高精度、高安全且动作平滑的火箭回收控制。

（火箭回收控制案例视频）

工具链介绍：

本研究的强化学习训练使用GOPS最优控制问题求解器进行，火箭动力学与基准控制器Simulink模型由GOPS的slxpy工具实现向Python模块与强化学习环境的自动转化。

GOPS（General Optimal control Problems Solver）是一款面向工业对象的通用最优控制问题强化学习求解器，具有支持数据驱动求解、离线求解在线应用、策略自动代码部署等特点，旨在为工业控制提供一站式解决方案，构建实时、高性能的控制器。GOPS实现了各类型的经典强化学习算法，包括针对具有状态约束和模型不确定性的特殊工业控制系统的约束和鲁棒算法。GOPS采用高度模块化的结构，为二次开发提供了灵活的框架。考虑到工业控制任务的多样性，GOPS还包含一个转换工具，允许使用MATLAB/Simulink来进行环境搭建、控制器设计和性能验证。为了处理大规模问题，GOPS可以通过灵活组合内嵌模块来自动创建不同的串行和并行训练器。GOPS在线性二次控制、车辆跟踪、仿人机器人等多个典型控制任务中展现出了高精度的求解性能。

参考文献：

[1]Y Jiang, et al. Rocket landing control with random annealing jump start reinforcement learning. 2024. Available: https://arxiv.org/abs/2407.15083

[2]W Wang, et al. GOPS: A general optimal control problem solver for autonomous driving and industrial control applications. Communications in Transportation Research, vol. 3, p. 100096, 2023.

[3]S Eben Li. Reinforcement Learning for Sequential Decision and Optimal Control. Springer Verlag, Singapore, 2023.

[4]Y Guan, et al. Direct and indirect reinforcement learning. International Journal of Intelligent Systems, vol. 36, no. 8, pp. 4439–4467, 2021.

深度强化学习实验室

【开源开放、共享共进】强化学习社区\x26amp;实验室，分享推动DeepRL技术落地与社区发展，社区 deeprlhub.com

清华团队提出RL专用神经网络优化器，性能位居榜首

【第二弹】强化微调，用少量样本训练专家模型

【清华大学】当鲁棒控制遇到强化学习：零和博弈视角的非线性拓展

【重磅】阿尔伯塔大学提出“Stream-X”强化学习新范式，无需经验重放、目标网络或批量更新。

强化学习之父Sutton万字采访：炮轰深度学习只是瞬时学习，持续学习才是智能突破的关键

开放式物理RL环境空间，智能体零样本解决未见过人类设计环境！

控制系统可控性检验理论的变革：从模型驱动到数据驱动

【图灵奖得主Yoshua Bengio】提出强化学习新策略，解决策略KL正则化漏洞问题。

【NeurlPS2024分享】北航提出“结构信息原理指导的高效智能体探索”(末尾附开源代码)

【Nature重磅】AlphaChip，谷歌用强化学习设计多代TPU芯片速度超越人类，开源预训练代码

【清华北大腾讯等】联合综述OpenAI o1背后的自博弈(Self-Play)方法原理与技术细节

【重磅发布】OpenAI o1模型(草莓)问世，五级AGI再突破！使用「强化学习」再立大功。

【Nature重磅】RL教父Rich. S. Sutton提出持续反向传播算法，Mujoco中效果良好，深度学习还不如浅层网络？

【清华大学】李升波教授团队总结“强化学习和模型预测控制的区别与联系”

【顶会速递】RLC2024—128篇Accept论文汇总

【首届RL领域会议】Barto、Sutton、Sliver师徒3代，7篇杰出论文奖，独有论文评审机制公布。

【重磅头条】Agent Q智能体发布，利用自我对弈和强化学习, 实现自我纠正和自主改进！

【人物观点】RLHF 只是勉强 RL，前OpenAI大牛Andrej Karpathy全面解读与AlphaGo区别

【滴滴实习生招聘】强化学习项目落地(有转正机会)

【重磅快讯】强化学习大牛John Schulman离职OpenAI, 曾开发PPO|TRPO等, 领导OpenAI强化学习团队！

【重磅最新】OpenAI为RL设计出新的奖励机制

【字节招聘】强化学习智能体研究员

【顶会速递】清华大学提出“利用强化学习破解火箭回收过程的控制难题”

【粉丝福利】抽奖赠书《GPT图解：大模型是怎样构建的》

【腾讯招聘】游戏AI强化学习算法研究员

从文字模型到世界模型！Meta新研究让AI Agent理解物理世界

【重磅开源】LeCun新作Puppeteer=基于强化学习+数据驱动+视觉全身人形控制方法

【好书力荐】大规模语言模型与强化学习：从理论到实践(文末抽奖赠送5本)

【最新综述！】「大模型+强化学习」详解四条主流技术路线

【今日头条招聘】机器人强化学习研究员(2024届优先)

重磅 | 南栖仙策发布强化学习工业决策软件REVIVE 1.0

【开放源码】强化学习经典教材《RL for Sequential Decision and Optimal Control》

【腾讯招聘】强化学习岗位汇总

【吴恩达来信】AI智能体的黎明时刻

【LSTM之父Schmidhuber总结博客】利用循环世界模型和人工好奇心进行强化学习和规划

Richard Sutton ||智能决策器通用模型的探索

【Nature重磅】DeepMind数学模型AlphaGeometry，做对25道几何题，GPT-4惨败得0分

2023计算机科学7项重大突破！「P与NP」50年经典难题，大模型密集涌现上榜

论文分享| AAAI 2024 北航开源社交机器人行为对抗仿真计算平台SIASM，高效提升网络行为对抗能力

【真伪鉴别】OpenAI内幕文件惊人曝出，Q*疑能破解加密！是否具有元认知能力？

新书《面向工业控制的强化学习理论与方法》

【书籍推荐】清华大学李升波教授撰写《面向工业控制的强化学习理论与方法》

OpenAI神秘Q*项目解密！诞生30+年「Q学习」算法引全球网友终极猜想

【官方公布】2023中国科学院院士、中国工程院增选当选院士名单公布

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉