Toward Universal and Interpretable World Models forOpen-ended Learning Agents
开放式学习代理的通用和可解释世界模型
https://arxiv.org/pdf/2409.18676
摘要
我们介绍了一类通用、组合式且可解释的生成式世界模型,该类模型支持无界学习代理。这是一类稀疏的贝叶斯网络,能够近似表示各种随机过程,从而使代理能够以既可解释又计算可扩展的方式学习世界模型。这种方法结合了贝叶斯结构学习和内在动机(基于模型的)规划,使代理能够主动开发和优化其世界模型,这可能导致发展性学习以及更稳健、自适应的行为。
1 引言
无界学习代理的一个特征是能够逐渐理解广泛而复杂的世界。人类和动物认知发展的计算模型将此过程描述为在贝叶斯网络空间上进行近似贝叶斯推理,其中,由于来自与环境的主动(内在动机驱动)交互的感官数据的到来,推理得以不断细化[1]。尽管当前的发展建模方法令人印象深刻,但由于在所有可能的贝叶斯网络上进行推理的爆炸性特征,它们面临着可扩展性挑战[2, 3]。有关更多背景信息,请参见附录A。因此,要使发展代理成为可能,一个关键挑战是找到能够表达广泛世界的贝叶斯网络空间,同时这些空间要足够粗略,以便高效地搜索。
2 一类通用、可解释且代理式的生成模型
对于这类贝叶斯网络,所需特性包括:(i)足够有表现力,能够近似表达代理与环境之间相关且自然的动态交互。(ii)足够粗略,以便在该空间上进行推理时计算上可处理。此类中的每个贝叶斯网络都应:(iii)可解释,以便从代理所接受的贝叶斯网络中轻松理解其理解和后续行为。(iv)支持快速行动、感知和学习。我们在附录B中概述了满足要求(i)-(iv)的贝叶斯网络候选类,扩展了早期提议[4]。
3 讨论
这类模型的表现力在于其能够表示复杂的随机过程,包括具有离散和连续状态的随机过程。通过利用层次结构,这些模型可以捕捉环境的高级抽象和细微细节,使代理能够形成稳健且可泛化的表示。这些模型的可解释性源于其稀疏性和因果关系的编码——这提供了对代理决策过程的见解,促进了更透明和值得信赖的人工智能系统。这类贝叶斯网络已被用于从原始像素和声音文件对视频进行建模,以及从像素进行规划的代理[5]。未来的工作应探索这种方法的局限性,包括其可扩展性和表达相关代理-环境交互的能力。
A 当前发育型代理面临的挑战
尽管计算认知科学对人类和动物的认知发展进行了深入研究[1],但构建能够可扩展地学习世界模型的代理仍然是一个相对悬而未决的挑战[6]。计算认知科学中的多项工作都汇聚到了这样一种观点:发育过程是一个对世界解释(即贝叶斯网络)以及代理如何与世界互动进行近似贝叶斯推理的过程,其中,推理通过主动采样新的、信息丰富的数据(例如,通过内在动机)逐渐细化[1, 5, 7–9]。实现这一简单图景是困难的,因为可能的世界解释搜索空间在建模变量的数量上呈组合爆炸式增长[10]。
为了进一步说明这个问题,我们总结了当前基于理论的强化学习工作[2, 3],该工作通过结合贝叶斯结构学习和内在动机(基于模型的)规划来模拟发育型代理。
在奠基性论文[2, 3]中,一个代理维持着关于可能解释世界的概率程序(编码贝叶斯网络)的贝叶斯信念。代理通过探索和利用的混合(即内在动机[11, 12])主动寻求新数据,逐渐细化其推理。作者将这一代理部署在一系列简化的Atari游戏中,并发现,与人类参与者的数据相比,他们的代理不仅在游戏中平均达到了人类的学习效率,而且代理的学习轨迹也相对类似于人类。这项工作作为概念验证,证明了将关于世界结构的推理与内在动机的基于模型的规划相结合,可以实现相对类似人类的学习和行为。
现有基于理论的强化学习工作的根本局限性在于,它们的代理[2, 3]考虑了一个关于世界的解释性假设搜索空间,这个空间是数据生成过程代码语法所能生成的所有程序(达到一定长度)的集合。即使是对于它们的代理所面临的简化Atari环境,这也是一个非常大的搜索空间,并突显了这项工作的当前局限性:1) 在复杂环境中,从生成数据生成过程的代码语法中可以生成的程序空间可能太大而无法搜索;2) 在真实环境中,建模者不知道生成过程,并且无法轻易形成一个包含数据生成过程的候选解释空间。
因此,一个根本问题是,可能存在什么样的“通用”基本元素和组合规则,以产生满足第2节中要求(i)-(iv)的世界候选解释空间(即贝叶斯网络)。事实上,要求(i)-(ii)之间已经存在紧张关系,并且找到适当的平衡是一个重大困难。在询问通用贝叶斯网络空间可能是什么样子时,我们首先考虑了现有文献:概率程序的空间很容易变得极具表现力,但如何做到这一点的同时又保持足够的粗略性以使推理保持可处理性,这一点尚不清楚。概率程序并不总是容易解释,并且,除非进行特定假设,否则不支持有效的感知和学习,因为状态和参数的贝叶斯推理可能需要采样。可能满足这些要求(初步近似)的概率程序的一个例子是层次化离散和连续状态部分可观察马尔可夫决策过程(POMDPs)[13, 14]。
这个贝叶斯网络空间在能够再现各种行为模拟和实证数据方面极具表现力。例如,在主动推理文献中,几乎所有的建模工作都使用了通过层次化堆叠这两种类型的层来构建的贝叶斯网络,这一领域的研究跨越了近二十年[15–18]。由此产生的贝叶斯网络支持快速行动、感知和学习,其中,关于状态和参数的推理是通过快速变分推理程序完成的[15, 16, 19–21],这些程序在能够再现真实神经动力学的广泛特征方面具有一定程度的生物合理性,例如[22–25]。除了使用神经网络来表达这些层中的非线性[26]外,它们中的每一个都提供了一个可解释的动力学模型。
B 贝叶斯网络类中通用、可解释和代理性质的细节
我们在此考虑的贝叶斯网络类(作为对世界潜在解释的模型)是由一组简单的原始元素和组合规则构建的。我们声称它满足第2节中提出的(i)-(iv)要求。(i)其表达能力体现在能够表示复杂的随机过程,包括具有离散和连续状态的过程。(ii)其稀疏性源于对所考虑贝叶斯网络结构的显著归纳偏置。(iii)此类中每个贝叶斯网络的可解释性源于其稀疏性以及因果关系的编码。最后,并且我们会看到,这些贝叶斯网络支持快速的动作、感知和决策制定(iv)。
所提出的贝叶斯网络类是通过层次化地组装一组满足(iii)-(iv)要求的基本结构模块构建的,这些模块共同表达了广泛的动态代理-环境交互。接下来,我们将详细介绍这些专门为表达离散或连续状态上的一大类随机过程而开发的基本构建块。
B.1 离散动力学
马尔可夫过程是离散状态随机过程中相当普遍的一类[27]。所有离散状态的马尔可夫过程都具有由线性代数给出的简单转移动力学。当这些转移也依赖于动作时,我们得到马尔可夫决策过程[28]。当状态是部分可观察的,且观察仅依赖于当前潜在状态时,我们得到部分可观察马尔可夫决策过程(POMDPs)。我们可以向这些POMDPs中添加辅助潜在状态(即动量、加速度等的等效物),以考虑系统中记忆的影响,从而产生半马尔可夫POMDPs。最后,我们可以将这些层次层次化地堆叠起来,以在潜在空间中表达多尺度半马尔可夫过程。总之,以这种方式扩展的层次离散POMDPs为离散状态上的代理-环境交互提供了一个非常通用的模型类。图1展示了离散扩展POMDPs及其各种自由度的图形表示。
B.2 连续动力学
对于表达连续动力学而言,情况要复杂一些。重复构建离散状态空间模型似乎不太可能,因为连续空间马尔可夫过程由无限(而非有限)维空间中的线性算子给出[30]。一个可行的替代方案是限制自己使用一个更易于管理但仍然非常具有表达力的过程类。我们可以考虑具有由随机微分方程(SDEs)给出的潜在动力学的连续POMDPs,这是另一类非常具有表达力的随机过程。然而,为了表达广泛的代理-环境交互,这些SDEs必须打破细致平衡,并可能由非马尔可夫噪声(如风或海洋中的波动)驱动[31]。
存在一类非常具有表达力的SDEs,它们支持非线性、非马尔可夫噪声和打破细致平衡——即多次可微分的随机微分方程——对于这些潜在动力学的POMDPs支持快速且生物学上合理的动作、感知和学习更新规则[16, 20, 22]。通过改变时间、层次、因子和广义深度,这些连续POMDPs形成了连续状态贝叶斯网络的一个非常具有表达力的空间,如图1所示。
一个重要的挑战仍然存在:如何在不牺牲可解释性的情况下对这些POMDPs中的非线性(例如SDEs的流)进行参数化,并从数据中学习这些参数化。一个有前途的方法是使用循环切换线性动力学系统(rsLDS;见图2)来表达非线性SDEs[32];即切换线性SDEs的混合,因为可以使用非常精细的分段线性近似来恢复任意非线性,如有必要。使用切换线性SDEs的优势在于它们是可解释的,并且支持相对可扩展的精确贝叶斯推理[32]。1然而,当前的rsLDS架构仅限于近似用欧拉方案离散化的所谓“扩散”SDEs的动力学,这些SDEs按定义不具有非马尔可夫噪声。展望未来,似乎有必要扩展rsLDS架构以表达具有更任意噪声信号的SDEs,也许是通过添加广义坐标(速度、加速度和运动的高阶等)[20, 22]。这将需要在当前的rsLDS层中引入广义深度。这样做应该能够提供一个非常具有表达力且稀疏的连续状态动力学贝叶斯网络类,满足基本要求(i)-(iv)。
B.3 层次混合动力学
将离散层次堆叠在连续层次之上会产生混合生成模型,这些模型可以在多个抽象层次上表达丰富的非线性和动力学。尽管这些层次中没有传统的神经网络,但我们可以将它们视为一种神经网络,其中层是离散和连续的POMDPs,而计算是高效近似贝叶斯推理。这些层次的层次结构可能是可解释的,因为它们表示在不同时间尺度上运行的嵌套过程。这些层次结构与将大脑视为维持离散状态低维抽象动力学以调节更接近感官输入的高维连续表示的观点相兼容[34, 35]。