强化学习(reinforcement learning)的核心是及时的反馈。就像训练运动员,哪个动作出错了立即给你纠正。在吴恩达斯坦福机器学习公开课中,有一段介绍基于强化学习教会直升机倒着飞的视频,形象地展示其学习过程和应用场景。
01
—
最大化利用算力才是王道
02
—
那些苦涩的教训
03
—
我们能从中学到什么
AI 研究者往往试图将人类知识直接嵌入到智能体中
这种方法在短期有效且令人满意
但从长远来看,这种方法天花板很低甚至阻碍进一步进展
突破性进展最终通过相反的方法实现,即通过搜索和学习扩展(scaling)计算能力。这种成功往往伴随着苦涩,因为它取代了人们更偏好的以人为中心的路径
从这个“苦涩的教训”中汲取的经验是:通用方法潜力巨大,这些方法可以随着计算能力的增加而不断扩展。有两种方法在计算上似乎是可以任意扩展的,那就是搜索(search)和学习(learning)。
04
—
参考链接
The Bitter Lesson,Rich Sutton,2019-03-13,http://www.incompleteideas.net/IncIdeas/BitterLesson.html OpenAI工程师必备经典《苦涩的教训》原来20多年前就有了原型,机器之心,2024-02-23,https://www.jiqizhixin.com/articles/2024-02-23-2 AI革命的教训(下):算力就是王道,万维钢·AI 前言,2024-01-10,https://www.dedao.cn/course/article?id=2m845Ln7q69yKOOzLAKrkebvGDYjgl 【斯坦福大学】CS229 机器学习 · 2018年(完结·中英字幕·机翻),吴恩达,2018,https://www.bilibili.com/video/BV1JE411w7Ub?p=1&vd_source=77292ed51b3d9d4c0e0253e3bbe5f435 Reinforcement Learning from Human Feedback,Nathan Lambert,2024-09-16,https://www.deeplearning.ai/short-courses/reinforcement-learning-from-human-feedback/