【LSTM之父Schmidhuber总结博客】利用循环世界模型和人工好奇心进行强化学习和规划

文摘 2024-02-23 10:24 日本

来源||翻译自Jürgen Schmidhuber的博客

【导读】2020 年，我们庆祝了有关人工神经网络 (NN) 的规划和强化学习[AC90] [PLAN2] 的论文发表 30 周年。技术报告 FKI-126-90 介绍了目前广泛使用的几个概念：（1）以循环神经网络（RNN）作为世界模型进行规划，（2）高维奖励信号（也作为神经控制器的输入），（ 3）RNN 的确定性策略梯度，（4）人工好奇心[AC90b]和通过生成性和对抗性神经网络的内在动机（ GAN 是一个特例 [AC20]）。在 2010 年代，随着计算变得更便宜，这些概念开始流行。我们自 2015 年以来的最新扩展[PLAN4-6] [OBJ2-4]解决了抽象概念空间中的规划和学习思考问题。具有自适应循环世界模型的智能体甚至提出了对意识和自我意识的简单解释（可以追溯到三十年前[CON16]）。我手绘了[AC90]的插图——这里展示了其中的一些。

1990年2月，我发表了技术报告FKI-126-90 [AC90]（11月修订），其中介绍了机器学习领域流行的几个概念。

该报告描述了一种基于两个循环神经网络 （RNN）（称为控制器和世界模型）组合的 强化学习（RL）和规划系统[AC90]。控制器试图在最初未知的环境中最大化累积预期奖励。世界模型学习预测控制器行为的后果。控制器可以使用世界模型通过现在所谓的rollout提前计划几个时间步骤，选择最大化预测累积奖励的动作序列[AC90] [PLAN2]。这种用于学习、计划和反应的集成架构显然是在 Rich Sutton 的 DYNA [DYNA90] [DYNA91] [LEC]中给出的参考文献 —比较[DL1]。该方法导致了许多后续出版物，不仅在 1990-91 年[PLAN2-3] [PHD]，而且在最近几年，例如[PLAN4-6]。另请参见第 2 节。[MIR]的第 11 部分以及我们 1990 年将世界模型应用于顺序注意力学习的应用[ATT] [ATT0-2]。

1990 年的另一个新奇事物是高维奖励信号的概念。 传统强化学习专注于一维奖励信号。然而，人类拥有数以百万计的信息传感器来处理不同类型的疼痛和愉悦等。据我所知，参考文献[AC90]是第一篇关于 RL 的论文，其中包含通过许多不同传感器传入的多维、向量值疼痛和奖励信号，其中预测所有这些传感器的累积值，而不仅仅是单个标量总体奖励。比较后来所谓的通用价值函数 [GVF]。与之前的适应性批评家不同，1990 年的批评家[AC90] 是多维且反复出现的。

与传统强化学习不同，这些奖励信号也被用作控制器神经网络的信息输入，学习执行最大化累积奖励的行动。这对于元学习也很重要，因为任何学习用于最大化奖励或最小化错误的新学习算法的机器都必须以某种方式在其输入中看到这种奖励/错误，否则，在该机器上运行的新生成的学习算法将不知道哪个目标函数来优化。比较第二节 [MIR] 和第 13节。

这些技术适用于现实世界吗？例如，神经网络能否成功地计划驾驶真实的机器人？是的他们可以。例如，我的前博士后 Alexander Gloye-Förster 领导了 FU Berlin 的 FU-Fighters 团队，该团队在 2004 年成为机器人杯世界最快联赛冠军（机器人速度高达 5m/s）[RES5]。他们的 robocup 机器人提前规划了神经网络，与[AC90]中概述的想法一致。

2005 年，Alexander 和他的团队还展示了如何使用这些概念来构建所谓的 自我修复机器人 [RES5] [RES7]。他们使用连续自我建模构建了第一台弹性机器。他们的机器人可以通过从驱动-感觉关系衍生的自适应自我模型，用于产生向前运动，从某些类型的意外损坏中自主恢复。

1990 年 FKI 技术报告[AC90]还描述了 RNN确定性策略梯度的基础知识。其“通过时间差异方法增强算法”部分将用于预测累积（可能是多维）奖励的基于动态规划的 时间差异方法[TD]与基于梯度的世界预测模型相结合，以计算权重变化独立的控制网络。另请参见第 2 节。1991年后续论文[PLAN3]的2.4 （并比较[NAN1-5]）。四分之一个世纪后，DeepMind [DPG] [DDPG]使用了它的变体。另请参见第 2 节。

最后，1990 年的论文还通过对抗生成网络 [AC20] [AC]介绍了人工好奇心。当人类与世界互动时，他们学会预测其行为的后果。他们也很好奇，设计实验来获得新的数据，从中他们可以学到更多。为了构建好奇的人工智能体，论文[AC90，AC90b]引入了一种具有内在动机的新型主动无监督或自监督学习。它基于极小极大游戏，其中一个神经网络 (NN) 最小化由另一个神经网络[R2]最大化的目标函数。今天，我将两个无监督对抗性神经网络之间的对决称为对抗性人工好奇心[AC20]，以区别于我们自 1991 年以来的后来类型的人工好奇心和内在动机[AC] [AC91b-AC20] [PP-PP2]。

对抗性人工好奇心如何发挥作用？控制器 NN（概率地）生成可能影响环境的输出。世界模型 NN 预测环境对控制器输出的反应。使用梯度下降，世界模型可以最小化其误差，从而成为更好的预测器。但在零和游戏中，控制器试图找到使世界模型误差最大化的输出，其损失就是控制器的增益。因此，控制器有动力发明新的输出或实验，产生世界模型仍然令人惊讶的数据，直到数据变得熟悉并最终变得无聊。比较这个现在流行的原则的最新总结和扩展，例如，[AC09]。

也就是说，在 1990 年，我们已经拥有了 生成式和对抗性的自监督神经网络（使用 2014 年以后的术语[GAN1] [R2]），生成实验输出，产生新颖的数据，不仅适用于固定模式，也适用于模式序列，甚至对于 RL 的一般情况也是如此。事实上，流行的 生成对抗网络 (GAN) [GAN1] (2010-2014) 是对抗好奇心[AC90] 的应用，其中环境根据控制器的当前输出是否在给定集合 [AC20]中简单地返回 1 或 0 ] [R2] [LEC] [MOST]。另请参见第 2 节。[MIR ] 第5节 [DEC] 4和Sec 。[T22]第十七页。顺便说一句，请注意，对抗性好奇心[AC90、AC90b]和 GAN [GAN0-1] 以及我们的对抗性可预测性最小化(1991) [PM1-2]与其他早期对抗性机器学习设置[S59] [H90] 非常不同，它们都不涉及无监督神经网络也不涉及建模数据，也不使用梯度下降 [AC20]。

正如我自 1990 年以来经常指出的那样[AC90]， 神经网络的权重应该被视为它的程序。 一些人认为深度神经网络的目标是学习观察数据的有用内部表示——甚至有一个名为 ICLR的学习表示国际会议。但实际上，神经网络正在学习一个程序（映射的权重或参数），该程序根据输入数据计算此类表示。典型神经网络的输出相对于它们的程序是可微的。也就是说，一个简单的程序生成器可以计算程序空间中的方向，人们可以在其中找到更好的程序[AC90]。自 1989 年以来我的大部分工作都利用了这一事实。另请参见第 2 节。[MIR ] 18。

1990 年最初的控制器/模型 (C/M) 规划器 [AC90]专注于幼稚的“逐毫秒规划”，试图预测和规划其可能的未来的每一个小细节。即使在今天，这仍然是许多强化学习应用中的标准方法，例如国际象棋和围棋等棋盘游戏的强化学习。然而，我 2015 年最近的工作重点是抽象（例如，分层）规划和推理 [PLAN4-5]。在算法信息论的指导下，我描述了基于 RNN 的人工智能 (RNNAI)，它可以在永无休止的任务序列上进行训练，其中一些是由用户提供的，另一些是 RNNAI 本身以一种好奇、有趣的方式发明的，以提高基于 RNN 的世界模型。与 1990 年的系统[AC90]不同，RNNAI [PLAN4]学习主动查询其模型以进行抽象推理、规划和决策，本质上是学习思考 [PLAN4]。

更具体地说，第二节中的强化学习提示工程师。2015 年论文[PLAN4]的 5.3描述了 C 如何学习将提示序列发送到经过演员视频等训练的 M（例如基础模型）中。C 还学会解释 M 的答案，从 M 中提取算法信息。严峻的考验是：使用 M 时 C 是否比不使用 M 时更快地学习其控制任务？从头开始学习 C 的任务，或者以某种可计算的方式处理 M 中的算法信息，从而实现诸如抽象层次规划和推理之类的事情，是否更便宜？

2018 年的论文[PLAN5]使用 1991 年[UN-UN2] [DLH]的神经网络蒸馏程序将 C 和 M 折叠成单个网络。请参阅下图和2023 年的这条推文。

还可以比较我们最近基于抽象对象学习（分层）结构化概念空间的相关工作[OBJ2-5]。[PLAN4-5]的思想可以应用于许多其他情况，其中一个类似 RNN 的系统利用另一个系统的算法信息内容。他们还解释了镜像神经元 [PLAN4]等概念。

与Google (2018) [PLAN6]的David Ha 合作，世界模型提取压缩的时空表示，将其输入经过进化训练的紧凑而简单的策略中，在各种环境中实现最先进的结果。

最后，所有这一切与看似难以捉摸的意识和自我意识 概念有什么关系？我 1991 年的第一台深度学习机[UN-UN3]模拟了意识的各个方面，如下所示。它使用无监督学习和预测编码 [UN0-UN3] [SNT]来压缩观察序列。所谓的“意识分块 RNN” 负责处理令较低级别的所谓“潜意识自动化 RNN”感到惊讶的意外事件。 分块 RNN通过预测令人惊讶的事件来学习“理解”它们。自动器 RNN 使用 1991 年 [UN-UN2]的神经知识蒸馏程序（参见[MIR]第 2 节）来压缩和吸收分块器 RNN以前“有意识”的见解和行为，从而使它们成为“潜意识”。

现在让我们看看如上所述的控制器与环境交互的预测世界模型。它还学习通过预测编码[UN0-UN3] [SNT]有效地对不断增长的行为和观察历史进行编码。它自动创建特征层次结构，较低级别的神经元对应于简单的特征检测器（可能类似于哺乳动物大脑中发现的那些），较高层的神经元通常对应于更抽象的特征，但在必要时进行细粒度。像任何好的压缩器一样，世界模型将学习识别现有内部数据结构共享的规律，并为频繁出现的观察子序列生成原型编码（跨神经元群体）或紧凑表示或“符号”（不一定是离散的），以缩小整体所需的存储空间。特别是，紧凑的自我表示或自我符号是数据压缩过程的自然副产品，因为智能体的所有动作和感官输入都涉及一件事，即智能体本身。为了通过预测编码有效地编码整个数据历史，它将受益于创建某种连接神经元的内部子网络，计算代表自身的神经激活模式 [CATCH] [AC10]。每当这种表示通过 1990 年控制器的规划机制[AC90] [PLAN2]或通过 2015 年 [PLAN4]更灵活的控制器查询被激活时， 智能体就会思考自己，意识到自己及其替代的可能未来，试图通过与环境的互动，创造一个痛苦最小、快乐最大的未来。这就是为什么我一直声称我们已经拥有简单的、有意识的、有自我意识的、情感化的人工智能体了 30 年

致谢

感谢几位专家审稿人提出的有用的意见。由于科学是关于自我纠正的，如果您发现任何剩余的错误，请通过juergen@idsia.ch告诉我。本文的内容可用于教育和非商业目的，包括维基百科和类似网站的文章。本作品根据Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License获得许可。

References

[AC] J. Schmidhuber (AI Blog, 2021). 3 decades of artificial curiosity & creativity. Our artificial scientists not only answer given questions but also invent new questions. They achieve curiosity through: (1990) the principle of generative adversarial networks, (1991) neural nets that maximise learning progress, (1995) neural nets that maximise information gain (optimally since 2011), (1997) adversarial design of surprising computational experiments, (2006) maximizing compression progress like scientists/artists/comedians do, (2011) PowerPlay... Since 2012: applications to real robots.

[AC90] J. Schmidhuber. Making the world differentiable: On using fully recurrent self-supervised neural networks for dynamic reinforcement learning and planning in non-stationary environments. Technical Report FKI-126-90, TUM, Feb 1990, revised Nov 1990. PDF

[AC90b] J. Schmidhuber. A possibility for implementing curiosity and boredom in model-building neural controllers. In J. A. Meyer and S. W. Wilson, editors, Proc. of the International Conference on Simulation of Adaptive Behavior: From Animals to Animats, pages 222-227. MIT Press/Bradford Books, 1991. PDF. HTML.

[AC91] J. Schmidhuber. Adaptive confidence and adaptive curiosity. Technical Report FKI-149-91, Inst. f. Informatik, Tech. Univ. Munich, April 1991. PDF.

[AC91b] J. Schmidhuber. Curious model-building control systems. In Proc. International Joint Conference on Neural Networks, Singapore, volume 2, pages 1458-1463. IEEE, 1991. PDF.

[AC95] J. Storck, S. Hochreiter, and J. Schmidhuber. Reinforcement-driven information acquisition in non-deterministic environments. In Proc. ICANN'95, vol. 2, pages 159-164. EC2 & CIE, Paris, 1995. PDF.

[AC97] J. Schmidhuber. What's interesting? Technical Report IDSIA-35-97, IDSIA, July 1997. Focus on automatic creation of predictable internal abstractions of complex spatio-temporal events: two competing, intrinsically motivated agents agree on essentially arbitrary algorithmic experiments and bet on their possibly surprising (not yet predictable) outcomes in zero-sum games, each agent potentially profiting from outwitting / surprising the other by inventing experimental protocols where both modules disagree on the predicted outcome. The focus is on exploring the space of general algorithms (as opposed to traditional simple mappings from inputs to outputs); the general system focuses on the interesting things by losing interest in both predictable and unpredictable aspects of the world. Unlike our previous systems with intrinsic motivation,^[AC90-AC95] the system also takes into account the computational cost of learning new skills, learning when to learn and what to learn. See later publications.^[AC99][AC02]

[AC99] J. Schmidhuber. Artificial Curiosity Based on Discovering Novel Algorithmic Predictability Through Coevolution. In P. Angeline, Z. Michalewicz, M. Schoenauer, X. Yao, Z. Zalzala, eds., Congress on Evolutionary Computation, p. 1612-1618, IEEE Press, Piscataway, NJ, 1999.

[AC02] J. Schmidhuber. Exploring the Predictable. In Ghosh, S. Tsutsui, eds., Advances in Evolutionary Computing, p. 579-612, Springer, 2002. PDF.

[AC06] J. Schmidhuber. Developmental Robotics, Optimal Artificial Curiosity, Creativity, Music, and the Fine Arts. Connection Science, 18(2): 173-187, 2006. PDF.

[AC09] J. Schmidhuber. Art & science as by-products of the search for novel patterns, or data compressible in unknown yet learnable ways. In M. Botta (ed.), Et al. Edizioni, 2009, pp. 98-112. PDF. (More on artificial scientists and artists.)

本文翻译自Jürgen Schmidhuber的博客：

https://people.idsia.ch/~juergen/world-models-planning-curiosity-fki-1990.html

链接版本可点击阅读原文

深度强化学习实验室

【开源开放、共享共进】强化学习社区\x26amp;实验室，分享推动DeepRL技术落地与社区发展，社区 deeprlhub.com

清华团队提出RL专用神经网络优化器，性能位居榜首

【第二弹】强化微调，用少量样本训练专家模型

【清华大学】当鲁棒控制遇到强化学习：零和博弈视角的非线性拓展

【重磅】阿尔伯塔大学提出“Stream-X”强化学习新范式，无需经验重放、目标网络或批量更新。

强化学习之父Sutton万字采访：炮轰深度学习只是瞬时学习，持续学习才是智能突破的关键

开放式物理RL环境空间，智能体零样本解决未见过人类设计环境！

控制系统可控性检验理论的变革：从模型驱动到数据驱动

【图灵奖得主Yoshua Bengio】提出强化学习新策略，解决策略KL正则化漏洞问题。

【NeurlPS2024分享】北航提出“结构信息原理指导的高效智能体探索”(末尾附开源代码)

【Nature重磅】AlphaChip，谷歌用强化学习设计多代TPU芯片速度超越人类，开源预训练代码

【清华北大腾讯等】联合综述OpenAI o1背后的自博弈(Self-Play)方法原理与技术细节

【重磅发布】OpenAI o1模型(草莓)问世，五级AGI再突破！使用「强化学习」再立大功。

【Nature重磅】RL教父Rich. S. Sutton提出持续反向传播算法，Mujoco中效果良好，深度学习还不如浅层网络？

【清华大学】李升波教授团队总结“强化学习和模型预测控制的区别与联系”

【顶会速递】RLC2024—128篇Accept论文汇总

【首届RL领域会议】Barto、Sutton、Sliver师徒3代，7篇杰出论文奖，独有论文评审机制公布。

【重磅头条】Agent Q智能体发布，利用自我对弈和强化学习, 实现自我纠正和自主改进！

【人物观点】RLHF 只是勉强 RL，前OpenAI大牛Andrej Karpathy全面解读与AlphaGo区别

【滴滴实习生招聘】强化学习项目落地(有转正机会)

【重磅快讯】强化学习大牛John Schulman离职OpenAI, 曾开发PPO|TRPO等, 领导OpenAI强化学习团队！

【重磅最新】OpenAI为RL设计出新的奖励机制

【字节招聘】强化学习智能体研究员

【顶会速递】清华大学提出“利用强化学习破解火箭回收过程的控制难题”

【粉丝福利】抽奖赠书《GPT图解：大模型是怎样构建的》

【腾讯招聘】游戏AI强化学习算法研究员

从文字模型到世界模型！Meta新研究让AI Agent理解物理世界

【重磅开源】LeCun新作Puppeteer=基于强化学习+数据驱动+视觉全身人形控制方法

【好书力荐】大规模语言模型与强化学习：从理论到实践(文末抽奖赠送5本)

【最新综述！】「大模型+强化学习」详解四条主流技术路线

【今日头条招聘】机器人强化学习研究员(2024届优先)

重磅 | 南栖仙策发布强化学习工业决策软件REVIVE 1.0

【开放源码】强化学习经典教材《RL for Sequential Decision and Optimal Control》

【腾讯招聘】强化学习岗位汇总

【吴恩达来信】AI智能体的黎明时刻

【LSTM之父Schmidhuber总结博客】利用循环世界模型和人工好奇心进行强化学习和规划

Richard Sutton ||智能决策器通用模型的探索

【Nature重磅】DeepMind数学模型AlphaGeometry，做对25道几何题，GPT-4惨败得0分

2023计算机科学7项重大突破！「P与NP」50年经典难题，大模型密集涌现上榜

论文分享| AAAI 2024 北航开源社交机器人行为对抗仿真计算平台SIASM，高效提升网络行为对抗能力

【真伪鉴别】OpenAI内幕文件惊人曝出，Q*疑能破解加密！是否具有元认知能力？

新书《面向工业控制的强化学习理论与方法》

【书籍推荐】清华大学李升波教授撰写《面向工业控制的强化学习理论与方法》

OpenAI神秘Q*项目解密！诞生30+年「Q学习」算法引全球网友终极猜想

【官方公布】2023中国科学院院士、中国工程院增选当选院士名单公布

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉