观点分享:相比于强化学习(RL),我确实更喜欢模型预测控制(MPC)

科技   2024-09-14 19:54   德国  

Yann LeCun 观点分享

「相比于强化学习(RL),我确实更喜欢模型预测控制(MPC)。至少从 2016 年起,我就一直在强调这一点。强化学习在学习任何新任务时都需要进行极其大量的尝试。相比之下,模型预测控制是零样本的:如果你有一个良好的世界模型和一个良好的任务目标,模型预测控制就可以在不需要任何特定任务学习的情况下解决新任务。这就是规划的魔力。这并不意味着强化学习是无用的,但它的使用应该是最后的手段。」

在最近发布的一个帖子中,Meta 首席人工智能科学家 Yann LeCun 发表了这样一番看法。

一直以来,Yann LeCun 都是一个大嘴巴,被他喷过的人和喷过的研究方向也数不胜数。这次毫无例外 Yann LeCun 把火力对准了当下人工智能研究的一个显学 强化学习。他认为强化学习这种方法需要大量的试验,非常低效。这和人类的学习方式大相径庭 —— 婴儿不是通过观察一百万个相同物体的样本来识别物体,或者尝试危险的东西并从中学习,而是通过观察、预测和与它们互动,即使没有监督。

对于 Yann LeCun 的观点,我们不加过多评论,仅供大家参考。这里我就简单科普一下 MPC 和强化学习之间的联系和区别。

模型预测控制与强化学习的联系

Optimal Control, Model Predictive Control 和 Reinforcement Learning 三大块内容相关性还是很高的。我们这里简单梳理一下它们三者之间的关系。首先我个人认为 Optimal Control 是可以看做 Reinforcement Learning 的子集的,当然只不过是一个特殊一点的子集。

我认为 Model Predictive Control 和 Reinforcement Learning 都是用来解决 Sequential Decision-Making (序列决策) 问题的,并且它们可能会用到一些相同的思想。接下来我们通过一张图来表示它们之间的关联:下图中是一个一般的解决序列决策问题的框架,目标函数主要由两部分构成:Lookahead Minimization + Heuristic Cost

Lookahead Minimization 其实就是把未来几步的 cost 加和在一起,用优化方法进行暴力搜索。Heuristic Cost 其实是通过 一些 base policy (可以理解为一个非常简单非常粗糙的策略)。

把上面的公式和前面所讲的动态规划的表达式结合在一起来看:

不难发现实际上和标准的动态规划表达式(1.1)相比,Lookahead Minimization + Heuristic Cost 做的事情就是将 value function 做了如下近似替换:

为什么要做这样一个近似呢?关键之处在于 很难被精确获得,并且其计算量非常大和状态空间的大小是一样大的。拆成如上所述两项的好处就在于 前半部分 可以用暴力搜索来近似得到,后半部分由于是 步以后的 cost 所以只需要做一个粗糙的估计就好了,所以就是用一个 base policy 去近似一下就好了,以达到降低计算量的目的。

那么进一步上图中如果我们把 Heuristic Cost 这部分也去掉,即完全不考虑 L step 之后的 Heuristic Cost 的话,那这个模型就是 Model Predictive Control(模型预测控制)。Model Predictive Control 就是连 这一项完全都不要了,当然也可以理解为令

Model Predictive Control 这么做的原因就是告诉我们我只需要 Lookahead 未来 L-step 就可以了,我认为L-step 之后的事情对当前没有影响,就直接简单粗暴给删掉了。Model Predictive Control 由于其实现相对简单,能满足实际问题对性能的要求,目前已经被广泛应用在实际中,可以说 Model Predictive Control 在实际的应用比 Optimal Control 比 Reinforcement Learning 可能还有更多更广,在AlphaGo兴起之前 Model Predictive Control 已经广泛的在过程工业中得到了实际应用。更多关于 Model Predictive Control 的介绍可以参考我之前写的这篇文章:

还是回到式(1.1)动态规划递推表达式中,如果知道 value function 的 closed form的话,那这个问题就可以用经典的 Optimal Control 来求解。在经典的 Optimal Control 中通过变分法可以导出 一个协态变量(对偶变量)的(微分)方程,直接解这个方程得到协态变量后就可以完全计算出 value function 这一项。可以看到 Optimal Control 对问题的要求极为苛刻,能计算出value function 这部分closed form的情况是极少的。

Reinforcement Learning 是说既然 很难被精确获得的,那我就用神经网络去近似得去学出一个 value function 就可以了。

微信公众号后台回复

加群:加入全球华人OR|AI|DS社区硕博微信学术群

资料:免费获得大量运筹学相关学习资料

人才库:加入运筹精英人才库,获得独家职位推荐

电子书:免费获取平台小编独家创作的优化理论、运筹实践和数据科学电子书,持续更新中ing...

加入我们:加入「运筹OR帷幄」,参与内容创作平台运营

知识星球:加入「运筹OR帷幄」数据算法社区,免费参与每周「领读计划」、「行业inTalk」、「OR会客厅」等直播活动,与数百位签约大V进行在线交流



                    


        




文章须知

文章作者:王源

微信编辑:疑疑

文章转载自『科研式学习』公众号,原文链接:非凸优化问题的大杀器:Majorization-Minimization 算法





关注我们 

       FOLLOW US





































运筹OR帷幄
致力于成为全球最大的运筹学中文线上社区
 最新文章