【导读】2020 年,我们庆祝了有关人工神经网络 (NN) 的规划和强化学习[AC90] [PLAN2] 的论文发表 30 周年。技术报告 FKI-126-90 介绍了目前广泛使用的几个概念:(1)以循环神经网络(RNN)作为世界模型进行规划,(2)高维奖励信号(也作为神经控制器的输入),( 3)RNN 的确定性策略梯度,(4)人工好奇心[AC90b]和通过生成性和对抗性神经网络的内在动机 ( GAN 是一个特例 [AC20])。在 2010 年代,随着计算变得更便宜,这些概念开始流行。我们自 2015 年以来的最新扩展[PLAN4-6] [OBJ2-4]解决了抽象概念空间中的规划和 学习思考问题。具有自适应循环世界模型的智能体甚至提出了对意识和自我意识的简单解释(可以追溯到三十年前[CON16])。我手绘了[AC90]的插图——这里展示了其中的一些。
1990年2月,我发表了技术报告FKI-126-90 [AC90](11月修订),其中介绍了机器学习领域流行的几个概念。
该报告描述了一种基于两个循环神经网络 (RNN)(称为控制器和世界模型)组合的 强化学习(RL)和规划系统[AC90]。控制器试图在最初未知的环境中最大化累积预期奖励。世界模型学习预测控制器行为的后果。控制器可以使用世界模型通过现在所谓的rollout提前计划几个时间步骤,选择最大化预测累积奖励的动作序列[AC90] [PLAN2]。这种用于学习、计划和反应的集成架构显然是 在 Rich Sutton 的 DYNA [DYNA90] [DYNA91] [LEC]中给出的参考文献 —比较[DL1]。该方法导致了许多后续出版物,不仅在 1990-91 年[PLAN2-3] [PHD],而且在最近几年,例如[PLAN4-6]。另请参见第 2 节。[MIR]的第 11 部分 以及我们 1990 年将世界模型应用于 顺序注意力学习的应用[ATT] [ATT0-2]。
1990 年的另一个新奇事物是高维奖励信号的概念。 传统强化学习专注于一维奖励信号。然而,人类拥有数以百万计的信息传感器来处理不同类型的疼痛和愉悦等。据我所知,参考文献[AC90]是第一篇关于 RL 的论文,其中包含 通过许多不同传感器传入的多维、向量值疼痛和奖励信号,其中预测所有这些传感器的累积值,而不仅仅是单个标量总体奖励。比较后来所谓的通用价值函数 [GVF]。与之前的适应性批评家不同,1990 年的批评家[AC90] 是多维且反复出现的。
与传统强化学习不同,这些奖励信号也被用作控制器神经网络的信息输入,学习执行最大化累积奖励的行动。这对于元学习也很重要,因为任何学习用于最大化奖励或最小化错误的新学习算法的机器都必须以某种方式在其输入中看到这种奖励/错误,否则,在该机器上运行的新生成的学习算法将不知道哪个目标函数来优化。比较第二节 [MIR] 和第 13节。
这些技术适用于现实世界吗?例如,神经网络能否成功地计划驾驶真实的机器人?是的他们可以。例如,我的前博士后 Alexander Gloye-Förster 领导了 FU Berlin 的 FU-Fighters 团队,该团队在 2004 年成为机器人杯世界最快联赛冠军(机器人速度高达 5m/s)[RES5]。他们的 robocup 机器人提前规划了神经网络,与[AC90]中概述的想法一致。
2005 年,Alexander 和他的团队还展示了如何使用这些概念来构建所谓的 自我修复机器人 [RES5] [RES7]。他们使用连续自我建模构建了第一台弹性机器。他们的机器人可以通过从驱动-感觉关系衍生的自适应自我模型,用于产生向前运动,从某些类型的意外损坏中自主恢复。
1990 年 FKI 技术报告[AC90]还描述了 RNN确定性策略梯度的基础知识。其“通过时间差异方法增强算法”部分将用于预测累积(可能是多维)奖励的基于动态规划的 时间差异方法[TD]与基于梯度的世界预测模型 相结合,以计算权重变化独立的控制网络。另请参见第 2 节。1991年后续论文[PLAN3]的2.4 (并比较[NAN1-5])。四分之一个世纪后,DeepMind [DPG] [DDPG]使用了它的变体 。另请参见第 2 节。
最后,1990 年的论文还 通过对抗生成网络 [AC20] [AC]介绍了人工好奇心。当人类与世界互动时,他们学会预测其行为的后果。他们也很好奇,设计实验来获得新的数据,从中他们可以学到更多。为了构建好奇的人工智能体,论文[AC90,AC90b]引入了一种具有内在动机的新型主动无监督或自监督学习。它基于极小极大游戏,其中一个神经网络 (NN) 最小化由另一个神经网络[R2]最大化的目标函数。今天,我将两个无监督对抗性神经网络之间的对决称为对抗性人工好奇心[AC20],以区别于我们自 1991 年以来的后来类型的 人工好奇心和内在动机[AC] [AC91b-AC20] [PP-PP2]。
对抗性人工好奇心如何发挥作用?控制器 NN(概率地)生成可能影响环境的输出。世界模型 NN 预测环境对控制器输出的反应。使用梯度下降,世界模型可以最小化其误差,从而成为更好的预测器。但在零和游戏中,控制器试图找到使世界模型误差最大化的输出,其损失就是控制器的增益。因此,控制器有动力发明新的输出或实验,产生世界模型仍然令人惊讶的数据,直到数据变得熟悉并最终变得无聊。比较这个现在流行的原则的最新总结和扩展,例如,[AC09]。
也就是说,在 1990 年,我们已经拥有了 生成式和对抗性的自监督神经网络 (使用 2014 年以后的术语[GAN1] [R2]),生成实验输出,产生新颖的数据,不仅适用于固定模式,也适用于模式序列,甚至对于 RL 的一般情况也是如此。事实上,流行的 生成对抗网络 (GAN) [GAN1] (2010-2014) 是对抗好奇心[AC90] 的应用,其中环境根据控制器的当前输出是否在给定集合 [AC20]中简单地返回 1 或 0 ] [R2] [LEC] [MOST]。另请参见第 2 节。[MIR ] 第5节 [DEC] 4和Sec 。[T22]第十七 页。顺便说一句,请注意,对抗性好奇心[AC90、AC90b]和 GAN [GAN0-1] 以及我们的对抗性可预测性最小化(1991) [PM1-2]与其他早期对抗性机器学习设置[S59] [H90] 非常不同, 它们都不涉及无监督神经网络也不涉及建模数据,也不使用梯度下降 [AC20]。
正如我自 1990 年以来经常指出的那样[AC90], 神经网络的权重应该被视为它的程序。 一些人认为深度神经网络的目标是学习观察数据的有用内部表示——甚至有一个名为 ICLR的学习表示国际会议。但实际上,神经网络正在学习一个程序 (映射的权重或参数),该程序根据输入数据计算此类表示。典型神经网络的输出相对于它们的程序是可微的。也就是说,一个简单的程序生成器可以计算程序空间中的方向,人们可以在其中找到更好的程序[AC90]。自 1989 年以来我的大部分工作都利用了这一事实。另请参见第 2 节。[MIR ] 18。
1990 年最初的控制器/模型 (C/M) 规划器 [AC90]专注于幼稚的“逐毫秒规划”,试图预测和规划其可能的未来的每一个小细节。即使在今天,这仍然是许多强化学习应用中的标准方法,例如国际象棋和围棋等棋盘游戏的强化学习。然而,我 2015 年最近的工作重点是抽象(例如,分层)规划和推理 [PLAN4-5]。在算法信息论的指导下 ,我描述了基于 RNN 的人工智能 (RNNAI),它可以在永无休止的任务序列上进行训练,其中一些是由用户提供的,另一些是 RNNAI 本身以一种好奇、有趣的方式发明的,以提高基于 RNN 的世界模型。与 1990 年的系统[AC90]不同,RNNAI [PLAN4]学习主动查询其模型以进行抽象推理、规划和决策,本质上是学习思考 [PLAN4]。
更具体地说,第二节中的强化学习提示工程师。2015 年论文[PLAN4]的 5.3描述了 C 如何学习将提示序列发送到经过演员视频等训练的 M(例如基础模型)中。C 还学会解释 M 的答案,从 M 中提取算法信息。严峻的考验是:使用 M 时 C 是否比不使用 M 时更快地学习其控制任务?从头开始学习 C 的任务,或者以某种可计算的方式处理 M 中的算法信息,从而实现诸如抽象层次规划和推理之类的事情,是否更便宜?
2018 年的论文[PLAN5]使用 1991 年[UN-UN2] [DLH]的神经网络蒸馏程序将 C 和 M 折叠成单个网络 。请参阅下图和2023 年的这条推文。
还可以比较我们最近基于抽象对象学习(分层)结构化概念空间的相关工作[OBJ2-5]。[PLAN4-5]的思想可以应用于许多其他情况,其中一个类似 RNN 的系统利用另一个系统的算法信息内容。他们还解释了镜像神经元 [PLAN4]等概念。
与Google (2018) [PLAN6]的David Ha 合作 , 世界模型提取压缩的时空表示,将其输入经过进化训练的紧凑而简单的策略中,在各种环境中实现最先进的结果。
最后,所有这一切与看似难以捉摸的意识和自我意识 概念有什么关系?我 1991 年的 第一台深度学习机[UN-UN3]模拟了意识的各个方面,如下所示。它使用 无监督学习和预测编码 [UN0-UN3] [SNT]来压缩观察序列。所谓的“意识分块 RNN” 负责处理令较低级别的所谓“潜意识自动化 RNN”感到惊讶的意外事件。 分块 RNN通过预测令人惊讶的事件来学习“理解”它们。自动器 RNN 使用 1991 年 [UN-UN2]的神经知识蒸馏程序 (参见[MIR]第 2 节)来压缩和吸收分块器 RNN以前“有意识”的见解和行为,从而使它们成为“潜意识”。
现在让我们看看如上所述的控制器与环境交互的预测世界模型。它还学习通过预测编码[UN0-UN3] [SNT]有效地对不断增长的行为和观察历史进行编码。它自动创建特征层次结构,较低级别的神经元对应于简单的特征检测器(可能类似于哺乳动物大脑中发现的那些),较高层的神经元通常对应于更抽象的特征,但在必要时进行细粒度。像任何好的压缩器一样,世界模型将学习识别现有内部数据结构共享的规律,并为频繁出现的观察子序列生成原型编码(跨神经元群体)或紧凑表示或“符号”(不一定是离散的),以缩小整体所需的存储空间。特别是,紧凑的自我表示或自我符号是数据压缩过程的自然副产品,因为智能体的所有动作和感官输入都涉及一件事,即智能体本身。为了通过预测编码有效地编码整个数据历史,它将受益于创建某种连接神经元的内部子网络,计算代表自身的神经激活模式 [CATCH] [AC10]。每当这种表示通过 1990 年控制器的规划机制[AC90] [PLAN2]或通过 2015 年 [PLAN4]更灵活的控制器查询被激活时, 智能体就会思考自己,意识到自己及其替代的可能未来,试图通过与环境的互动,创造一个痛苦最小、快乐最大的未来。这就是为什么我一直声称我们已经拥有简单的、有意识的、有自我意识的、情感化的人工智能体了 30 年
致谢
感谢几位专家审稿人提出的有用的意见。由于科学是关于自我纠正的,如果您发现任何剩余的错误,请通过juergen@idsia.ch告诉我。本文的内容可用于教育和非商业目的,包括维基百科和类似网站的文章。本作品根据Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License获得许可。
References
https://people.idsia.ch/~juergen/world-models-planning-curiosity-fki-1990.html
链接版本可点击阅读原文