观点分享：相比于强化学习（RL），我确实更喜欢模型预测控制（MPC）

科技 2024-09-14 19:54 德国

Yann LeCun 观点分享

「相比于强化学习（RL），我确实更喜欢模型预测控制（MPC）。至少从 2016 年起，我就一直在强调这一点。强化学习在学习任何新任务时都需要进行极其大量的尝试。相比之下，模型预测控制是零样本的：如果你有一个良好的世界模型和一个良好的任务目标，模型预测控制就可以在不需要任何特定任务学习的情况下解决新任务。这就是规划的魔力。这并不意味着强化学习是无用的，但它的使用应该是最后的手段。」

在最近发布的一个帖子中，Meta 首席人工智能科学家 Yann LeCun 发表了这样一番看法。

一直以来，Yann LeCun 都是一个大嘴巴，被他喷过的人和喷过的研究方向也数不胜数。这次毫无例外 Yann LeCun 把火力对准了当下人工智能研究的一个显学强化学习。他认为强化学习这种方法需要大量的试验，非常低效。这和人类的学习方式大相径庭 —— 婴儿不是通过观察一百万个相同物体的样本来识别物体，或者尝试危险的东西并从中学习，而是通过观察、预测和与它们互动，即使没有监督。

对于 Yann LeCun 的观点，我们不加过多评论，仅供大家参考。这里我就简单科普一下 MPC 和强化学习之间的联系和区别。

模型预测控制与强化学习的联系

Optimal Control, Model Predictive Control 和 Reinforcement Learning 三大块内容相关性还是很高的。我们这里简单梳理一下它们三者之间的关系。首先我个人认为 Optimal Control 是可以看做 Reinforcement Learning 的子集的，当然只不过是一个特殊一点的子集。

我认为 Model Predictive Control 和 Reinforcement Learning 都是用来解决 Sequential Decision-Making (序列决策) 问题的，并且它们可能会用到一些相同的思想。接下来我们通过一张图来表示它们之间的关联：下图中是一个一般的解决序列决策问题的框架，目标函数主要由两部分构成：Lookahead Minimization + Heuristic Cost

Lookahead Minimization 其实就是把未来几步的 cost 加和在一起，用优化方法进行暴力搜索。Heuristic Cost 其实是通过一些 base policy (可以理解为一个非常简单非常粗糙的策略)。

把上面的公式和前面所讲的动态规划的表达式结合在一起来看：

不难发现实际上和标准的动态规划表达式(1.1)相比，Lookahead Minimization + Heuristic Cost 做的事情就是将 value function 做了如下近似替换：

为什么要做这样一个近似呢？关键之处在于很难被精确获得，并且其计算量非常大和状态空间的大小是一样大的。拆成如上所述两项的好处就在于前半部分可以用暴力搜索来近似得到，后半部分由于是步以后的 cost 所以只需要做一个粗糙的估计就好了，所以就是用一个 base policy 去近似一下就好了，以达到降低计算量的目的。

那么进一步上图中如果我们把 Heuristic Cost 这部分也去掉，即完全不考虑 L step 之后的 Heuristic Cost 的话，那这个模型就是 Model Predictive Control（模型预测控制）。Model Predictive Control 就是连这一项完全都不要了，当然也可以理解为令

Model Predictive Control 这么做的原因就是告诉我们我只需要 Lookahead 未来 L-step 就可以了，我认为L-step 之后的事情对当前没有影响，就直接简单粗暴给删掉了。Model Predictive Control 由于其实现相对简单，能满足实际问题对性能的要求，目前已经被广泛应用在实际中，可以说 Model Predictive Control 在实际的应用比 Optimal Control 比 Reinforcement Learning 可能还有更多更广，在AlphaGo兴起之前 Model Predictive Control 已经广泛的在过程工业中得到了实际应用。更多关于 Model Predictive Control 的介绍可以参考我之前写的这篇文章：

还是回到式(1.1)动态规划递推表达式中，如果知道 value function 的 closed form的话，那这个问题就可以用经典的 Optimal Control 来求解。在经典的 Optimal Control 中通过变分法可以导出一个协态变量（对偶变量）的（微分）方程，直接解这个方程得到协态变量后就可以完全计算出 value function 这一项。可以看到 Optimal Control 对问题的要求极为苛刻，能计算出value function 这部分closed form的情况是极少的。

Reinforcement Learning 是说既然很难被精确获得的，那我就用神经网络去近似得去学出一个 value function 就可以了。

微信公众号后台回复

加群：加入全球华人OR|AI|DS社区硕博微信学术群

资料：免费获得大量运筹学相关学习资料

人才库：加入运筹精英人才库，获得独家职位推荐

电子书：免费获取平台小编独家创作的优化理论、运筹实践和数据科学电子书，持续更新中ing...

加入我们：加入「运筹OR帷幄」，参与内容创作平台运营

知识星球：加入「运筹OR帷幄」数据算法社区，免费参与每周「领读计划」、「行业inTalk」、「OR会客厅」等直播活动，与数百位签约大V进行在线交流

文章须知

文章作者：王源

微信编辑：疑疑

文章转载自『科研式学习』公众号，原文链接：非凸优化问题的大杀器：Majorization-Minimization 算法

关注我们

http://mp.weixin.qq.com/s?__biz=Mzk0ODMwMjMwMA==&mid=2247678750&idx=2&sn=9027bed8e260efedde0399d38d3ebcce

运筹OR帷幄

致力于成为全球最大的运筹学中文线上社区

最新文章

供应链｜具有代金券销售的报童模型：分布鲁棒方法

【运筹学】硕博申请指导、科研背景提升（限时特惠）

交通 | INFORMS获奖MS论文：当日可达系统的策略性设计

『运筹OR帷幄』创新学术成果宣传栏目，为论文插上翅膀

【运筹OR帷幄】一周博士申请&会议信息汇总--2024.11(1)

架起工业界和学术界的桥梁！『运筹OR帷幄』商务合作指南

供应链｜POMS论文：摆脱自身限制——在网约车平台引入自动驾驶车辆

学界|葡萄牙里斯本大学招募计算复杂性博士

交通 | 期权合约和需求模糊条件下救灾物流的两阶段分布鲁棒优化

香港中文大学（深圳）运筹优化方向博士生招聘

供应链 | 顶刊MnSc论文：大语言模型如何激发广告创意——探究协作方式与用户经验的双重影响

全奖｜加州大学圣塔芭芭拉分校招收2名优化与机器人领域博士

交通 | COR'23：机器学习求解枢纽选址问题

多目标优化的意义到底是什么？

Pyomo：强大的优化建模工具库

服务运营 | Operations Research: 改善效率驱动的排队模型

学界|爱尔兰都柏林大学招募博士（粮食再分配优化）

供应链｜M&SOM论文解读：结合天气信息的鲁棒无人机配送

flopt，融合了多种启发式算法的Python求解器

【运筹OR帷幄】一周博士申请&会议信息汇总--2024.10(4)

供应链 | 经典论文解读：X-Y区间与改进的(s, S)库存策略

全奖｜葡萄牙里斯本大学招收算法全奖博士

交通 | 多周期下的网络设计问题

硕博无限制答疑 | 限20人，仅300元一个月！！！

交通 | 带飞行助手的旅行商问题：无人机协助的配送优化建模及求解（附代码）

学界|法国埃塞克工商大学招募运营管理与运营研究博士

交通 | TRC综述：充电站选址-建模与博弈

启发式算法库scikit-opt使用介绍

论文速递 | Operations Research 9月文章梳理

学界|汉堡工业大学招募优化和机器学习博士

供应链｜OR论文精读：在不确定考虑集合下的需求估计

Qaekwy，一个崭新的Python运筹优化库

交通 | Introduction to Linear Optimization——从分离超平面到对偶的反向论证

运筹优化库PyMathProg使用介绍

【运筹OR帷幄】一周博士申请&会议信息汇总--2024.10(3)

交通 | Introduction to Linear Optimization——Farkas引理及其应用

主编推荐 | 当我们求解数学规划问题时，如何区分数学建模和算法设计

供应链｜MnSc论文精读：采用 RSOME 轻松实现稳健的随机优化

【10.19全球美食圆桌交友会纽约站】探讨全球价值洼池：欧洲VS北美？

优化 | 整数规划预求解算法的核心技术：Domain Propagation

全奖｜澳洲阿德莱德大学招收能源系统方向博士

供应链｜POMS论文精读：新产品生产时机内生下的竞争厂商信息共享

COPT里的线性规划与整数规划

服务运营 | POMS: 分销渠道中奢侈品的社会定价

学界|澳大利亚阿德莱德大学招募博士(复杂能源基础设施的稳健解决方案)

服务运营 | 上门配送成本控制：如何通过激励机制优化成本？

FelooPy，一个Python的算法建模集成库介绍

论文速递|Management Science 月9文章合集

除了经典优化问题的求解，利用Pyomo还可以做什么

【运筹OR帷幄】一周博士申请&会议信息汇总--2024.10(2)

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉