强化学习之父--里奇·萨顿:苦涩的教训,算力才是王道,摩尔定律仍有效

财富   2024-10-06 22:01   广东  

强化学习(reinforcement learning)的核心是及时的反馈。就像训练运动员,哪个动作出错了立即给你纠正。在吴恩达斯坦福机器学习公开课中,有一段介绍基于强化学习教会直升机倒着飞的视频,形象地展示其学习过程和应用场景。



正如我们在上一篇文章被大众低估的 OpenAI o1,如何开启 AI 新纪元提到的搭载强化学习能力的 OpenAI o1 已经开启了另一个维度的缩放定律(scaling law)

早在 2019 年,大模型还没有大放异彩,缩放定律还不为大众所知的时候,萨顿就在他的个人网站上发表了一篇文章,总结过去 70 年的 AI 研究中最大的教训,并指明了一条最有效的方法:撬动算力

摩尔定律依然有效,如果这个世界真有神,算力就是神。

你要理解这个力量,拥抱这个力量,成为这个力量

本文翻译自强化学习之父里奇·萨顿在 2019 年 3 月份发布的《苦涩的教训》,全文 3100 字,读完预计 8 分钟。




01

最大化利用算力才是王道


从 70 年的 AI 研究中可以学到的最大教训是:利用计算能力的通用方法最终是最有效的方法。其背后的根源是摩尔定律,或者更确切地说,是单位计算成本呈指数下降的趋势。

大多数 AI 研究都是基于这样的假设:智能体(Agent)的计算能力是固定的(在这种情况下,借助人类知识是提升其性能的唯一途径),但在稍长于常规研究周期的时间内,计算能力必然会大幅增长。

为了在短期内见效,研究人员往往选择依赖领域专家的知识,然而从长远来看,如何最大化利用计算资源才是王道

这两种方法其实并不冲突,但在实践中确并非如此。花在一种方法上的时间会挤占另一种方法的研究,而研究者对某种方法的投入往往带有心理上的偏好。

基于人类知识的方法通常会使系统变得更复杂,从而削弱了其利用计算资源的能力。


02

那些苦涩的教训


在 AI 领域中,研究者往往是经历了多次失败后,才领悟到这一“苦涩的教训”,让我们回顾一些经典的案例会很有启发意义。

计算机国际象棋领域,1997 年打败世界冠军卡斯帕罗夫的方法主要依赖于大规模深度搜索。当时,大多数国际象棋研究者对这种方法不屑一顾,因为他们一直专注于利用人类对国际象棋特定策略的理解。

当一种简单的、基于搜索策略并结合专用硬件和软件的方法,证明其效果远胜于人类知识驱动的方法时,这些研究者却无法接受这样的事实。他们声称“蛮力”搜索可能赢了这一局,但这并不是一个通用策略,也不符合人类下棋的方式。他们希望基于人类知识的方法取胜,结果却让他们失望。

20 年后,同样的情况仍在计算机围棋领域上演。大量早期的研究尝试通过利用人类知识或围棋的特殊规则来避免搜索,但随着搜索的大规模应用,这些努力都变得徒劳无功,甚至产生了负面影响。

另一个重要的因素是通过自我对弈(self play)来学习价值函数(value function)的使用(这一点在其他许多游戏以及国际象棋中都有体现,虽然在 1997 年首次击败世界冠军的比赛中没起到决定性的作用)。

自我对弈学习和一般意义上的学习,像搜索一样,能够充分挖掘计算资源的潜力。搜索和学习是 AI 研究中利用大规模计算资源的两大关键技术

在计算机围棋领域,与国际象棋类似,研究者们最初将精力放在如何通过人类理解(减少大摸索的搜索)来达到目的,只是在后来,通过搜索和学习才取得了巨大的成功

语音识别领域,早在 20 世纪 70 年代,就有一个由 DARPA 赞助的竞赛。部分参赛者中使用了许多基于人类知识的特殊方法,如对单词、音素和人类声道的理解。

另一方面,还有部分参赛者使用了基于隐式马尔可夫模型(Hidden Markov Models,HMMs)的新方法,这类方法在本质上更具统计性,计算量也更大。

最终,统计方法战胜了基于人类知识的方法。这导致了自然语言处理领域的重大改变(Natural Language Processing,NLP),在最近几十年中,统计学和计算逐渐占据了该领域的主导地位。

深度学习(Deep Learning)最近在语音识别中的兴起,正是朝着这一方向迈出的最新一步。深度学习方法更少依赖人类知识,使用更多的计算资源,并且伴有大量训练集的学习,极大提升语音识别的效果。

与国际象棋和围棋领域类似,研究者们总是试图让系统模仿他们的思维方式,并将人类知识嵌入到系统中,但事实证明,当摩尔定律带来的计算能力大幅提升且有了更好的利用方式后,这种做法(模仿人类思维方式的做法)是无效的,甚至浪费了大量研究者的时间和精力

计算机视觉领域也有类似的经历。早期方法认为视觉是为了搜索边缘、广义圆柱体或者取决于 SIFT 特征。但是今天,所有这些方法都已经过时了。现代深度学习神经网络仅使用卷积和某些不变性的概念就可以取得更好的效果。



03

我们能从中学到什么


一个个惨痛的教训近在眼前,而我们却还没有完全吸取教训,因为我们仍在重复类似的错误。要看到这一点并且有效地避免重蹈覆辙,我们必须理解为什么会犯这些错误。

我们必须吸取这个苦涩的教训:即从长远看,试图模拟人类的思维方式是行不通的。苦涩的教训基于以下历史观察结果:

  1. AI 研究者往往试图将人类知识直接嵌入到智能体中

  2. 这种方法在短期有效且令人满意

  3. 但从长远来看,这种方法天花板很低甚至阻碍进一步进展

  4. 突破性进展最终通过相反的方法实现,即通过搜索和学习扩展(scaling)计算能力。这种成功往往伴随着苦涩,因为它取代了人们更偏好的以人为中心的路径


从这个“苦涩的教训”中汲取的经验是:通用方法潜力巨大,这些方法可以随着计算能力的增加而不断扩展。有两种方法在计算上似乎是可以任意扩展的,那就是搜索(search)和学习(learning)。


另一个从“苦涩的教训”中得出的普遍原则是,人类的心智是极其复杂且难以简化。我们应该停止试图用简单的方法去理解心智内容,如空间、物体、多智能体或对称性的简单模型。

这些都是外部世界中无穷的、且本质上复杂的一部分,不应被直接嵌入系统中,因为它们的复杂性是无法穷尽的;相反,我们应该只嵌入能够发现和捕捉这种任意复杂性的元方法。这些方法的核心在于它们能够找到良好的近似解,但这个寻找过程应该由我们的元方法完成,而非人为去设定。

我们需要的是像我们一样能发现新知识的 AI 智能体,而不是简单地包含我们已有知识的系统。嵌入已有的发现只会使我们更难理解发现过程的本质。



04

参考链接

  • The Bitter Lesson,Rich Sutton,2019-03-13,http://www.incompleteideas.net/IncIdeas/BitterLesson.html
  • OpenAI工程师必备经典《苦涩的教训》原来20多年前就有了原型,机器之心,2024-02-23,https://www.jiqizhixin.com/articles/2024-02-23-2
  • AI革命的教训(下):算力就是王道,万维钢·AI 前言,2024-01-10,https://www.dedao.cn/course/article?id=2m845Ln7q69yKOOzLAKrkebvGDYjgl
  • 斯坦福大学】CS229 机器学习 · 2018年(完结·中英字幕·机翻),吴恩达,2018,https://www.bilibili.com/video/BV1JE411w7Ub?p=1&vd_source=77292ed51b3d9d4c0e0253e3bbe5f435
  • Reinforcement Learning from Human Feedback,Nathan Lambert,2024-09-16,https://www.deeplearning.ai/short-courses/reinforcement-learning-from-human-feedback/


凡哥杂谈
三年后台研发路,一朝沦为产品汪。焊过板子,编过内核,写过前端,AGI 实干派。
 最新文章