强化学习和模型预测控制的区别与联系

文摘 2024-08-30 09:21 北京

强化学习（Reinforcement Learning, RL）和模型预测控制（Model Predictive Control, MPC）在许多领域都有广泛的应用，如自动驾驶、机器人控制和能源管理等。它们都是求解最优控制问题策略的方法，但在方法和应用上有一些显著的区别和联系。本文将以清华大学李升波教授编著的强化学习教材《Reinforcement Learning for Sequential Decision and Optimal Control》为参考，深入对比分析强化学习（RL）和模型预测控制（MPC）。

从架构上看，强化学习（RL）和模型预测控制（MPC）均可统一为求解马尔可夫决策过程中的最优策略，即优化累计奖励或代价函数：

subject to

其中，分别表示状态和动作空间，表示系统转移概率，值函数为累计奖励或代价函数。

RL起源于人工智能领域，主要依赖于试错和奖励机制来训练智能体，在解决复杂系统和未知环境中的决策问题时表现突出，广泛应用于机器人控制、游戏 AI 和自动驾驶等领域。RL的核心思想是通过试错来获得经验，并根据这些经验调整策略。在强化学习中，智能体在每个时间步与环境进行交互，执行动作，并接收环境的奖励。强化学习的求解算法可以分为直接法和间接法：

（1）直接法直接优化策略的参数，例如策略梯度方法（Policy Gradient Methods）。这类方法通过估计策略梯度来更新参数，使得策略能够更好地选择价值更高的动作；

（2）间接法通过求解贝尔曼方程（Bellman Equation）来间接优化策略。这类方法包括值迭代（Value Iteration）和策略迭代（Policy Iteration）。值迭代通过反复更新状态值函数来找到最优策略，而策略迭代则交替进行策略评估和策略改进，直到收敛到最优策略。

直接法：优化策略参数

间接法：迭代求解贝尔曼方程

MPC起源于控制工程领域，广泛应用于工业过程控制、机器人运动规划和航空航天等领域。MPC在预测时域内利用系统动力学模型来预测未来的系统状态，并优化控制动作。在每个控制周期内，MPC通过求解优化问题来确定一个最优的控制序列，但只应用序列中的第一个控制量，然后，系统状态更新，新的预测和优化基于最新状态进行。通过这种滚动优化和反馈校正，MPC能够在满足约束条件的同时，实现系统的最优控制。

MPC中的滚动时域控制

尽管RL和MPC都可以用于实现最优控制，它们由于来自不同的领域，呈现出显著的差异，尤其在描述语言、所需对象信息以及优化过程方面。

描述语言差异

RL起源于统计学习领域，而MPC则根植于反馈控制理论。由于背景不同，它们在描述系统和任务时采用了不同的语言。下表总结了两者的描述语言，存在三个显著的差异：

1.RL通常处理随机环境，而MPC多应用于确定性系统；

2.RL通常使用概率模型表示环境转移，而MPC则构建状态空间方程来表示系统模型；

3.RL的目标是最大化累计奖励函数，而MPC则最小化累计代价函数。

RL和MPC描述语言差异

所需对象信息差异

MPC依赖于准确的系统动力学模型来预测未来状态并优化动作，这意味着需要事先对环境进行建模。然而，对于复杂系统，无论是基于物理定律的建模还是统计学习方法，精确获取系统动力学模型都是极具挑战性的。

RL则通过与环境交互，借助试错机制训练智能体，这需要一个可供交互的环境进行训练。尽管RL也有无模型（model-free RL）和有模型（model-based RL）之分，但在model-based RL中，模型通常是利用交互数据与策略联合训练的。

优化过程差异

RL和MPC在求解和应用最优动作的过程中存在明显不同。RL通常通过离线学习阶段与环境交互，进而求解出整个状态空间的最优策略，并在在线阶段将其应用于被控系统。而MPC则在每个时间步在线求解当前状态下的最优动作序列，并仅将第一步动作应用于系统。

下图对比了RL和MPC在求解最优动作方式上的不同。由于RL需要搜索整个状态空间，即便只有少数局部状态不可行，RL仍可能无法求解出可行策略。相比之下，MPC在处理不可行状态时具有更高的容忍度，因为它只需针对当前状态计算最优动作序列，而不必顾及所有可能的状态。

RL和MPC求解最优动作的比较

由于求解过程的不同，RL和MPC在实际应用中的计算负担也有所区别。RL的策略通常以神经网络为载体，在在线阶段通过策略网络的前向传播得到最优动作，因而在线计算负担较小。而MPC则利用系统动力学模型，构造优化问题，随着预测时域的增加，优化问题的计算复杂度会迅速上升。特别是对于状态变量和控制变量维度较大的复杂对象，优化问题的规模也会变得更为庞大。对于一般的非线性模型而言，所需求解的非线性优化问题属于NP难题，目前尚无通用的多项式时间解法，这使得在线优化的负担较重，难以实现实时求解。不过，显式MPC技术是一个值得注意的例外。它在离线阶段通过多参数优化方法生成最优策略查找表，从而在在线阶段大幅降低计算负担。实际上，显式MPC可以被看作是一种特殊的基于模型的RL算法。

参考资料

[1] Li, S. E. Reinforcement Learning for Sequential Decision and Optimal Control. Springer Verlag, 2023.

[2] Guan, Y., et al. Direct and Indirect Reinforcement Learning. International Journal of Intelligent Systems, vol. 36, no. 5, 2021, pp. 4439-4467.

[3] Bertsekas, D. Reinforcement Learning and Optimal Control. Athena Scientific, 2019.

[4] Garcia, C. E., Prett, D. M., and Morari, M. Model Predictive Control: Theory and Practice—A Survey. Automatica, vol. 25, no. 3, 1989, pp. 335-348.

[5] Allgöwer, Frank, and Alex Zheng, editors. Nonlinear Model Predictive Control. Vol. 26, Birkhäuser, 2012.

[6]陈虹. 模型预测控制. 科学出版社, 2013.

http://mp.weixin.qq.com/s?__biz=MzU2ODgzMTM5NA==&mid=2247498632&idx=1&sn=ce73984949f73a9bbe682cc23f4ca67f

CAAI认知系统与信息处理专委会

CAAI认知系统与信息处理专委会成立于2014年，胡德文教授担任专委会主任，孙富春教授担任荣誉主任，方斌教授担任秘书长。专委会不断吸纳业界人才，会员1000余名。创建了“认知系统与信息处理国际会议”、“机器人智能论坛”等品牌活动。

最新文章

电子皮肤作为人机接口在家庭护理机器人中的抓取识别

Science Robotics 把Arduino开发板做成柔性版，为软体机器人集成高性能计算能力

Science Robotics封面论文：假肢手的交互控制新思路，磁性植入让截肢者重获灵巧抓握功能

Science Robotics 通过新材料打造FiBa软机器人可实现四种形态进化

CoRL 2024 机器人抓取学习 GraspSplats：使用 3D 特征展开进行高效操作

触感灵巧手抓取操作视频集锦

第九届软体机器人大会｜第一轮会议通知和创新设计竞赛通知

Soft Robotics 多模式抓取能力的变刚度软体手

IEEE Trans. on Robotics：多模式软体手“抓取再吸取的连续操作学习”

IEEE JSTSP 嵌入软体手手掌的视触觉传感器PaLmTac

Science Robotics封面论文：假肢手的交互控制新思路，磁性植入让截肢者重获灵巧抓握功能

Science Advances 具有高灵敏度远程感知功能的多感受器皮肤

剑桥&ETH研究综述：NeRF在机器人技术中的应用

Nat. Commun.：飞秒激光书写受蚂蚁启发的可重构微型机器人集体

CoRL 2024 麻省理工学院提出T3触觉Transformer，打破触觉感知的壁垒，重塑未来机器人

斯坦福团队用模仿学习赋予机器人新技能：系鞋带

谷歌 DeepMind 联合斯坦福推出了主从式遥操作双臂机器人系统增强版ALOHA 2

IEEE TRO 人形机器人遥操作的综述

机器人遥操作视频集锦

Science Robotics 通过新材料打造FiBa软机器人可实现四种形态进化

Science Robotics 康奈尔大学用杏鲍菇控制机器人运动！

视触觉传感研究集锦

触感灵巧手抓取操作视频集锦

JBE 人体皮肤在机器人滑动按摩操作中的摩擦和变形行为

《中国科学：信息科学》综述文章：大模型驱动的具身智能：发展与挑战

RobotGPT：利用ChatGPT的机器人操作学习框架，三星电子研究院与张建伟院士、孙富春教授、方斌教授合作发表RAL论文

具身智能综述：鹏城实验室&中大调研近400篇文献，深度解析具身智能

具身智能的视觉-语言-动作模型综合综述论文

谷歌、CMU等研究综述：面向通用机器人的基础模型

AM：具有多模态触觉感知和人工智能的零偏差仿生指尖电子皮肤，可增强触觉感知

IROS 2024 “动态环境的重要性：具身导航至可移动目标物”论坛征稿

AFM 基于超材料的保形性和多感官整合的电子皮肤

第九届软体机器人大会｜第一轮会议通知和创新设计竞赛通知

Soft Robotics 多模式抓取能力的变刚度软体手

IEEE Trans. on Robotics：多模式软体手“抓取再吸取的连续操作学习”

IEEE JSTSP 嵌入软体手手掌的视触觉传感器PaLmTac

普渡大学和麻省理工学院合作开发集成视触觉指尖传感器的5自由度抓手

Science Robotics 麻省理工学院最新研究，从仿真中学习的精确选择、定位和抓放物体的视触觉方法

RAL论文：基于弹性体形变仿真的视触觉传感器仿真器Tacchi

OpenAI加持，1X消费级人形机器人亮相

IEEE TRO 人形机器人遥操作的综述

采访Figure Robotics CEO Brett Adcock：预测世界将有100亿个人形机器人，每个人都会拥有人形机器人

人形机器人Figure 02问世，进宝马工厂开整

OpenAI大模型赋能 Figure 01人形机器人的智能操作

Science 弹性模量提高3.5倍！新型3D打印技术

Science和Nature正刊2023年发表了9篇3D打印的相关文章

Nature封面论文：多无人机协同3D打印盖房子

强化学习和模型预测控制的区别与联系

强化学习经典教材的配套源代码上线了

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉