预测编码的脑启发计算智能

科技   2024-11-22 09:01   上海  

Brain-inspired computational intelligence via predictive coding

通过预测编码的脑启发计算智能 https://arxiv.org/pdf/2308.07870



摘要

人工智能(AI)正在迅速成为本世纪的关键技术之一。到目前为止,AI领域的大多数成果都是通过使用误差反向传播学习算法训练的深度神经网络取得的。然而,这种方法的普遍采用凸显了一些重要的局限性,如巨大的计算成本、难以量化的不确定性、缺乏稳健性、不可靠性和生物不合理性。有可能解决这些限制需要受到神经科学理论启发和指导的方案。其中一种理论称为预测编码(PC),在机器智能任务中表现出了有希望的性能,展示了令人振奋的特性,使其有望成为机器学习社区的宝贵资源:PC可以模拟不同脑区的信息处理,可用于认知控制和机器人技术,并且在变分推断方面有扎实的数学基础,为一类特定的连续状态生成模型提供了强大的反演方案。希望通过对为此观点做出贡献的文献进行概述,突出PC在未来机器学习和计算智能领域发挥作用的多种方式。


介绍

机器学习社区每周都在开发和生产推动该领域边界的模型。仅在过去一年中,我们目睹了生成人工智能(AI)[1, 2, 3, 4]、游戏对弈[5, 6]和文本生成[7, 8, 9]领域取得的显著突破。这些结果反映了该领域十多年来的进步,得益于成千上万的研究人员和工程师的共同努力,他们在Krizhevsky等人关于ImageNet [10]的开创性工作基础上改进了使用误差反向传播算法训练的深度人工神经网络的性能 [11]。受影响最显著的研究和应用领域包括图像识别[10, 12, 13, 14]、语音识别[15]、游戏对弈[16, 17, 18]和自然语言理解[19, 20, 9]。因此,令人惊讶的是,关于机器学习的替代训练方法的研究比以往任何时候都更加活跃,许多作品通常由同样是误差反向传播方案的开拓者的科学家共同撰写[21, 22, 23, 24]。然而,这些研究方向并非相互矛盾,而是相辅相成的:标准深度神经网络越来越令人印象深刻的结果也凸显了一些重要的局限性。替代方法和途径可能在应用中起到推动作用,因为前述的限制阻碍了进一步的发展和进步。现代深度学习模型因其计算成本高昂[25, 26]、不可靠[27, 28]和生物不合理[29, 30, 21, 22, 31, 32, 33, 34]而著称。虽然识别解决这些问题的步骤很困难,但一个有前景的方向是关注理解以及逆向工程人类大脑如何学习世界的生成模型[35, 24, 36]。

在这篇评论中,我们认为实现高效智能机器的目标的一个富有成效的方法在于大脑中学习和感知的理论,即预测编码(PC)[37, 38, 39],它源于贝叶斯推断和信号压缩。值得注意的是,PC模型展现出几个引人注目和有价值的特性。首先,基于PC的模型反演方案的局部性允许训练具有任何给定拓扑结构的人工神经网络 [32, 40]。这与反向传播不同,后者只能应用于前馈和非循环模型,除非随时间存储导数,导致了一种效率低下且生物不合理的算法(即反向传播通过时间)。局部性很重要,因为它可以促进具有任意纠缠结构的模型的训练,类似于构成我们大脑并支持我们智力水平的生物网络 [41]。此外,PC网络在与使用反向传播训练的标准模型相比更加稳健,这是由于松弛过程将误差信号传播到整个网络。在监督学习中,这个过程模拟了隐式梯度下降 [42],自然更加稳定,并且不太依赖超参数搜索。这使得基于预测编码的模型在更有可能由自然代理面对的任务中表现更好,同时正则化底层能量景观 [43],并避免麻烦现象,如梯度消失和梯度爆炸 [44, 45]。总之,PC具有扎实的数学公式,根植于信号压缩和贝叶斯推断 [46]。

调查结构。本文组织如下。首先,在第2节中,我们提出PC的一般理论特征,即(生成模型的反演),该模型最小化变分自由能。在第3节中,我们研究和剖析了过去三十年出现的三个关键计算框架:由Rao和Ballard提出的经典设置,神经生成编码以及具有分裂调制的偏向竞争。接下来,在第4节中,我们回顾了PC已经被开发用于解决的众多机器学习问题。在第5节中,我们检查了PC的关键神经科学研究,而在第6和第7节中,我们考虑了支持PC的可用软件工具和库,并讨论了硬件研究如何实现PC的全部潜力。最后,在第8节中,我们讨论了PC研究的重要未来方向以及面临的重大挑战。

符号。在本文中,符号 ⊙ 用于表示Hadamard积,即逐元素相乘。⊘ 用于表示逐元素除法。另一方面,符号 · 表示矩阵或向量的(点乘)乘法。向量 v 的转置表示为 (v)T。重要的是要注意,通过使用粗体字体来区分矩阵和向量,如矩阵 M 和向量 v,而标量则用斜体字体表示,如标量 s。在神经网络的上下文中,输入观测或感觉输入模式表示为 o ∈ RJ0,其中 Jℓ 表示网络的第 ℓ 层的维度,ℓ = 0 表示输入层,ℓ = L 表示输出层;标签由 y ∈ RJL 表示,潜在向量(或代码)由 xℓ ∈ RJℓ 表示。

2 生成模型

我无法创造的东西,我就不明白。

——理查德·费曼

统计模型(其中深度神经网络是其中的一个子集)可以根据它们旨在解决的问题类型分为判别模型和生成模型[47, 48]。判别模型,如分类器、决策树和支持向量机,学习数据(输入空间)的分类划分,由条件概率 p(x | o) 表示,其中 o 是目标 x 的数据点。另一方面,生成模型提供了数据集生成方式的模型,由边缘概率 p(o, x) = p(o | x)p(x) 表示。顺应理查德·费曼(Richard Feynman)著名且频繁引用的一句话:“我无法创建的东西,我就无法理解”,这类模型旨在通过学习数据集的生成方式来理解数据集中发现的模式。例如,在计算机视觉中,对这一过程的现代标注被称为学习一个(自顶向下的)“图形模型”[49],以及相应的“逆向图形”模型[50, 51]。使这些类型的模型适用于特定任务需要两个步骤:(1)构建正确的生成模型结构,以及(2)反转随后的生成模型。关键在于,首先,我们需要假设数据或内容是如何引起的,这样就可以推断出最适合的概率(即信念)分布,以及用于使用的那些原因(即潜在状态);其次,我们需要理解最佳或最优的推理(即信念)更新方案,以使我们能够反转这样一个概率生成模型。

图1:生成模型有效地压缩了关于特定数据点 o 的信息(包括缺失信息),将其转换为低维代码向量(或潜在嵌入),并使用它来生成一个(例如语义上)类似的完整数据点。左侧:标准的编码器-解码器架构;右侧:等效的PC模型,通过自由能最小化过程迭代地计算和优化代码。在收敛时,代码然后通过与执行压缩相同的模型来生成数据点。通常情况下,PC将编码器与上升的(预测误差)消息相关联,将解码器与下降的(预测)消息相关联。请注意,编码和解码的隐含混淆意味着PC中只有一组参数。这些是关键的生成模型参数,可以在给定必要的预测和预测误差的情况下进行局部优化。

反转生成模型只是指从结果(即内容或数据)到原因(即类别标签或潜在状态)的映射,也就是识别后验概率 p(x | o)。几乎所有现代成功的生成人工智能模型背后的反转都是摊销的,这意味着通过对一个专门训练过的深度神经网络(称为编码器)进行前向传播来计算所需的(近似)后验,如图1(左)所示。尽管是机器学习最成功的领域之一,生成模型已经存在了很多年,只是在深度学习运作的大规模环境中没有出现。因此,有许多技术可以以一种合理的方式促进生成模型的反转,并且不依赖于反向传播算法。在本文中,我们质疑摊销是否是最佳的反转方案,并认为在人工智能的未来中,先前在深度学习之前开发的经典反转方案可能会发挥重要作用;特别是在我们渴望更加健壮和高效(即神经模仿/生物模仿)的反转方案的情况下。

推理。反转生成模型意味着将其视为分类器。也就是说,用数据和目标(值)的联合分布来近似特定的目标 p(x | o)。在连续状态空间中,这可以被解读为一种压缩机制,其中压缩可以被定义为将较低维的代码分配给特定的数据点的过程。这种编码机制最初赋予了PC框架其名称。事实上,PC的第一个算法表述可以追溯到20世纪50年代,它是用于时间序列数据的压缩算法[52, 53, 54]。在这里,一组先前编码的图像元素(pels),如像素或其他个别显示值,被用来预测当前的pel。误差信号通过计算实际pel与其预测之间的差异来形成。更准确的预测将导致从发射器发送的较小的误差信号,从而实现更高效的编码系统。神经科学中首次出现的预测性压缩也将其视为一种推理算法,因为它被用来模拟视网膜如何对空间信息进行编码[55],实验证据表明视网膜参与了一种有效编码/冗余减少形式,动态调整与来自当前环境的视觉模式相关的预测强度系数(通过从输入中去除可预测信息)。图1(右)中表示了生成模型推理过程的草图。

学习。然而,几年后发生了一次重大的范式转变,这是由 Rao 和 Ballard 的工作引发的,他们将 PC 作为一种学习算法,而不仅仅是推理算法[37]。这项工作开发了一个学习方案,重新演绎了视觉皮层中的分层处理。该算法及其后续发展是本次调查的主要话题,它们具有涵盖多个领域的解释:在机器学习中,它们可以被视为一种赋分过程,可用于训练深度神经网络[57];在统计学中,它们复制了分层生成模型的信念更新,不同之处在于消息并不编码精确信号,而是编码其足够统计量[58, 59];在状态估计和控制理论中,这类模型等同于扩展卡尔曼滤波器[60, 37, 61]及其相关的控制作为推理[62, 63, 64]。由于这些独立但深度相关的工作线路,最近的一个普遍理论通过展示这些迭代更新方案可以描述为最小化变分自由能的过程[65],将这些观点统一起来,这在机器学习中被称为证据边界[66]。除了机器学习外,PC 和处理已经是十多年来的主导范式,在生命科学的标准文本中(例如,[67, 68, 69]),以及在认知和发展机器人技术领域中有着相似的发展方向[70, 71]。

图2:PC的认知在多年来如何发生变化的时间线。最初,它被开发为一种信号压缩机制[54, 73];然后,它被用来模拟视网膜中的抑制[55]。随后,它成为视觉皮层中学习和感知的更一般的模型[37]。如今,它可以抽象地定义为层级高斯生成模型的证据最大化方案[74, 38]。对于不同PC算法的详细讨论,我们还参考另一份调查[75]。

变分自由能。记忆训练集,学习其模式并泛化到未见的测试集是任何机器学习算法的主要目标。变分自由能本身是一个函数,编码了两个因素来模拟这种行为,一个因素鼓励拟合训练数据集(训练准确度),另一个因素惩罚生成模型的复杂性,促进在未见数据上的更好性能.当结合在一起时,这意味着变分自由能有助于收敛到提供特定数据集准确拟合的最小复杂模型,与奥卡姆剃刀原理[72]一致(也与机器学习文献中经常发现的正则化叙事一致)。举个例子,假设我们有一个生成模型,表示为概率,其中 x 表示潜在原因的向量,o 是一个观察到的数据点。当提供一个新的观察值 o 时,目标是最大化贝叶斯模型证据 p(o),在大多数应用中这是不可计算的。尽管如此,我们可以通过最大化(负的)变分自由能来近似这个数量,这是观察数据点 o 的对数边际似然的证据下界(ELBO),对于离散情况定义如下:

其中 q(x) 是给定观察值的潜变量的近似后验分布。这个分布通常取决于一组参数,这些参数通常被优化以最小化变分自由能。PC历史上主要突破的时间线草图如图2所示。

 是一个生成模型,其中潜变量向量 x 和一组参数 W 被用来生成观察值 o。在我们的情况下,我们考虑具有 L 级的生成模型" 1",注释:更一般地说,PC 可以在异阶结构上定义,其中条件依赖关系由连接结构通过子/父关系给出。其边缘概率具有以下依赖关系:

我们进一步考虑概率分布 p(xℓ | xℓ+1) 是一个多变量高斯分布,其均值由上一级的潜变量的转换 gℓ 给出。在大多数文献中,映射 gℓ 是激活函数(如 ReLU)和一个转换矩阵 Wℓ(偏置 bℓ 可能被合并到这个矩阵中)的组合,这导致了一个线性映射。因此,我们更正式地得到以下结果:

反转。鉴于上述,我们现在有了中心特征化 PC 文献的主要研究对象的结构,即连续状态空间中的分层生成模型,其概率分布具有高斯特性。然而,定义 PC 的同时也是用于反转生成模型的过程,这意味着通过近似后验来估计。为此,我们需要利用两种不同的近似结果:首先,我们利用均场近似,它使我们可以假设变分后验分解为条件独立的后验 q(xℓ);然后,通过拉普拉斯近似,我们将后验分布近似为高斯形式[76]。在这一点上,现在可以最小化产生的变分自由能。从本质上讲,结果是一个反转机制,其动态与 Rao 和 Ballard 的原始计算模型相同[37],这个模型在 PC 被视为变分学习和推理之前就已经发展了。变分自由能的最小化可以使用梯度下降或固定点迭代[77]。后者来自于高斯先验与高斯后验共轭的事实。在任一情况下,变分自由能的梯度就是预测误差。这意味着,为了评估所需的自由能梯度,必须评估预测误差。可以说,PC 是对生成模型进行反转的显式(或隐式)使用预测误差(在对随机效应进行高斯假设的情况下)。

我们现在介绍了提供 PC 的核心概念所需的所有内容,这些概念可以用来给出 PC 的(非正式)定义。这个定义可以作为文献中所有 PC 变体的总称。

定义(非正式)。假设我们有一个异阶生成模型 g(x, o),使用算法 A 进行反转。那么,如果且仅如果:

1. 它通过最小化变分自由能来最大化模型证据 p(o),

2. 异阶结构的节点的后验分布通过均场近似进行因式分解,并且

3. 每个后验分布在拉普拉斯假设下被近似(即,随机效应是高斯分布),

那么 A 就是一个预测编码算法。

请注意,上述定义并没有明确提到预测误差或诸如局部性之类的属性,正如前面提到的那样,这些属性通常用来描述 PC。这是因为它们并不是 PC 的基础,而是对上述生成模型的承诺的结果:均场近似强制独立性,因此导致更新规则的局部性;拉普拉斯假设使得随之而来的变分自由能具有二次形式,意味着其梯度是线性预测误差。需要注意的是,上述 PC 的定义并不意味着这里调查的算法是最优的,也不能改进:上述定义相当一般,不对后验的精确计算以及用于最小化变分自由能的优化技术施加任何约束。这项工作的目标是调查现有的 PC 方法,并预测未来在该领域的研究方向。

在接下来的部分中,我们将介绍 PC 的三个关键计算模型:Rao 和 Ballard 提出的原始模型,神经生成编码(NGC)以及具有分裂调制的偏向竞争(BC-DIM)。它们都属于上述生成模型的总称,但在具体实施方面存在差异:NGC 强调模拟促进粗略(速率编码)和细粒度(脉冲时序)模拟的神经动态,以及生成模型的生成和反馈突触的分开、非对称和任意(非分层)突触连线模式,而 BC-DIM 则强调一个迭代处理方案,该方案最小化一个确保神经活动和突触权重值保持非负的 KL 散度,通过收敛到单位的分裂误差神经元。


3 预测编码的实现

在神经科学中,PC 的应用声称存在两类神经元,定义了世界的内部(即生成)模型:第一类生成预测,传递到较低的分层级别,第二类编码传递到较高级别的预测误差。最近的研究将这种基本分离应用于单个神经元的不同区域内的预测和预测误差,其中误差通过树突连接向后传播。为了讨论这种基本的PC体系结构,在本节中,我们定义了三个量,分别称为值节点、误差节点和每个神经元的预测。值节点(其中指数 i 表示第 层的第 ii 个神经元,时刻为 tt编码了某种潜在状态的最可能值。第二个计算单元是预测 它是层次结构中较高层的值节点的函数,计算方式如下:

i

图3:(a) 从局部性的角度来看,PC与标准模型的差异:反向传播更新其突触权重 来最小化输出误差,即使它与输出没有直接连接。另一方面,PC模型执行更新以纠正其 postsynaptic 神经元的错误。(b) PC可以用来训练带有循环的模型。左侧是一个完全连接的模型的例子,其中每对神经元通过两个不同的突触连接,一个连接到每个方向。能够训练这样的模型有助于通过简单地通过邻接矩阵掩盖完全连接模型的特定连接,从而倒置具有任意表达架构(如真实的脑结构)的模型。对于在真实脑结构上操作的有趣模型的示例,请参见右侧面板,摘自[41]。
其中ϕ  是一个非线性函数(类似于深度神经网络中的激活函数),是包含第层的预测突触参数的矩阵。第三个计算单元是预测误差,由其值节点和预测节点之间的差异给出,即。这种局部定义的误差存在于每个网络神经元中(而不仅仅存在于输出层神经元中),突出了PC和使用反向传播训练的模型(例如,多层感知机)之间的一个关键区别,因为它只通过局部计算实现学习。图3中提供了PC和反向传播之间局部性差异的图形示例。

综上所述,上述三个量以及一组突触权重矩阵定义了一个生成模型,其中推断和学习都被视为最小化一个单一(全局)能量函数的手段,形式上定义为每个神经元的预测误差的平方和:

这个能量函数正是前一节中定义的变分自由能。假设我们的生成模型接收到一个观察值。然后,以下过程描述了对模型的突触参数进行学分分配和相应更新的过程:首先,将最底层的神经元设置为与感知观察值相等,即。接下来,更新无约束的神经活动直到收敛(或者,对于固定次数 的迭代),通过梯度下降来最小化公式4的能量。特别是,对于值节点更新动力学的方程如下:

其中γ是神经活动的学习率(通常解释为精度或逆方差)。这个优化过程驱动着PC的底层学分分配过程,并计算出执行突触权重更新所需的值节点的最佳配置。当这个过程收敛时,值节点被冻结,然后执行一次单一的权重更新(通过梯度下降),以进一步最小化相同的能量函数:

其中α 是突触更新的学习率。这两个阶段的交替,即值节点更新和权重更新步骤,定义了用于训练PC网络的学习算法。重要的是,虽然每个计算都是局部的,但两个更新规则都最小化相同的能量函数,该函数在整个网络上全局定义。反向传播的权重更新和PC的权重更新之间的局部性差异如图3(a)所示。

监督学习。在上文中,我们已经描述了如何使用PC来执行无监督学习任务。然而,已经证明这种算法或其变体在监督学习任务上获得了与使用反向传播学习的深度网络相当的性能。要将上述公式扩展到带标签数据的领域,我们必须重新构想PC网络,将其视为生成标签 y,并且数据点 o 作为网络第一层神经元的先验。假设我们有一个带标签的数据点  (o, y) ,其中 ( y ) 是标签。那么,监督学习是通过将第一层和最后一层的值节点固定为数据点和其标签的条目来实现的,即对于每个时间步。图4中给出了使用PC进行监督和无监督学习之间差异的图形描述。

任意拓扑结构的泛化。人们经常说大脑中的网络不是严格的分层结构,而是极其错综复杂且充满循环连接。最近的研究表明,PC可以被利用来建模具有任何结构的网络,使其非常适合数字化执行需要类似大脑结构的学习任务,如并行的皮质柱或稀疏连接的脑区域。为此,需要更一般的PC图的概念。设 G = (V, E) 是一个全连接的有向图,其中 V 是一个包含 n 个顶点 {1, 2, . . . , n} 的集合,E ⊆ V × V 是它们之间的有向边的集合,其中每条边 (i, j) ∈ E 都有一个权重参数编码在一个 n × n 的权重矩阵 W 中。因此,预测来自网络中所有神经元,模型的自由能再次是所有(平方)预测误差的总和:

在定义这种在全连接图上的泛化时,符号更简单,但在非全连接图中也可以找到有趣的用例。为此,我们只需注意到每个图都是全连接图的子集,因此,我们可以考虑稀疏权重矩阵 W,其中只有我们需要定义结构的边的条目是非零的。这可以通过将 W 乘以一个邻接矩阵来实现。在这方面的原始工作中,作者训练了一个由多个稀疏连接的脑区域组成的网络,并在图像去噪和图像补全任务上测试了所得模型。这个网络的确切结构是组装演算法,这是一个专门设计用于建模脑区域的赫布学习框架/方法。图3(b)给出了如何推导出这样一个模型的图形草图。

联想记忆。一系列文献已经调查了PC网络在与记忆相关的任务中的有效性。具体来说,这些文献研究了它们存储数据集并在提供相关提示时检索单个数据点的能力。在实践中,这个提示通常是存储的记忆的不完整或损坏的版本,只有在正确检索到数据点时,任务才能成功完成。PC方案已经证明了它们有效存储和检索复杂记忆的能力,比如来自COIL和ImageNet数据集的图像。然而,虽然它们的检索能力很强大,但其容量仍然有限,因此不能与连续或通用的Hopfield网络相比。通过实施快速和强大的记忆写入操作,可以提高这种容量,使这些模型能够存储单个记忆而不覆盖现有的记忆。包含记忆写入的模型还有助于实现遗忘操作,即删除对整体模型性能影响很小或没有影响的单个记忆。还可以通过学习一个高斯混合先验来将记忆存储在潜变量xL中,其中的中心对应于每个单独的记忆。这也已在时间域中实现,其中目标是在给定初始帧的情况下检索视频的缺失未来帧(作为一种启动刺激)。

3.1 PC的理论结果

在这里,我们介绍关于PC收敛特性的理论结果,以及将其学习能力与使用反向传播训练的标准人工神经网络进行比较的结果。文献中常见的一种趋势是将生物学上合理的算法的性能与反向传播的性能进行比较,特别是在监督学习场景中。最近的工作表明,在特定条件下,PC可以近似反向传播的权重更新,无论是在多层感知器(MLP)中还是在更一般的计算图框架中[57, 89]。这些条件在实践中是限制性的,因为这些结果只有在网络的总预测误差无限小或在整个推理过程中预测保持恒定的情况下才成立,即对于每个时间步t,。然而,在实践中,经验研究表明,为了近似成立,输出误差足够小即可[89]。

类似的工作线也表明,简单地为权重和神经活动的更新添加时间调度会导致与反向传播等效的权重更新。然而,这种时间调度只能通过添加外部控制来实现,该控制在不同时间步触发更新,从而降低了PC的生物学合理性以及在神经形态硬件上的可能实现。这些结果最初是在前馈网络设置中获得的,后来扩展到更一般的计算图框架中[90, 91]。类似的工作还研究了PC与其他受神经科学启发的算法(如对比赫布学习[92]、目标传播[93, 94, 95]和平衡传播[22, 96])之间的相似性。

鲁棒性。PC已被证明在生物体面临的问题(如持续学习、在线学习和少量数据学习)上表现优于标准模型(如使用反向传播训练的深度神经网络)[97, 98, 44]。这是由于推理阶段,它允许误差以避免称为权重干扰的现象的方式分布在网络中,其中单个参数的更新规则不考虑其他参数的更新,从而导致更稳定的训练进展。形式上,用于监督学习的PC网络自然地建模隐式梯度下降[42],这是一种更稳定的公式,通过使用隐式梯度而不是显式梯度来减少数值不稳定性。具体来说,隐式梯度下降的参数更新定义如下:

这种公式称为隐式的,因为Wt+1出现在方程的两边,理想地减少了学习率的敏感性[99]。因此,PC模型往往比标准模型更鲁棒且校准更好,这在卷积网络和图网络的多个分类任务中得到了展示[81, 100, 79]。

3.2 神经生成编码

尽管上述公式是为了模拟不同脑区的信息处理而开发的,但它仍然在生物学上不可行,主要不可行性在于对称权重连接。接下来,我们调查PC的一种推广,称为神经生成编码(NGC),适用于任意布线模式。这种变体根植于电缆理论[101, 102]和神经元隔室[103]。与PC一样,NGC实例化了预测-然后-纠正学习和推理的形式,但扩展了迭代神经动力学以纳入其他已知的神经生物学机制,如横向竞争和激活泄漏。简洁地说,给定固定的感觉向量,NGC电路经历一个稳定周期,在该周期内它在T时间步长的刺激窗口上处理输入信号。与PC一样,NGC电路中的每个活动区域对附近区域(即在典型的层次结构中,层ℓ + 1预测层ℓ)进行局部预测,如下所示:

3.3 有偏竞争和分割引入力调制(BC-DIM)

在有偏竞争(BC)模型的预测编码(PC)中[105, 106],神经动态通常涉及一个跳过连接,其中当前层之上的层进一步调节状态更新:


有偏竞争的预测编码模型利用了与PC/NGC类似的突触更新规则,而分割调制形式则需要遵守所使用的新型错误单元的规则。具体来说,上述神经模型的突触更新将是:

在BC-DIM(有偏竞争和分割输入调制)模型中,突触更新规则进一步分解以使其与标准PC(预测编码)的突触更新公式兼容[108]。BC-DIM模型中的完整计算实例包括上述突触更新以及方程(19)至(21)中的错误单元计算和状态活动动态,这种形式的PC被称为有偏竞争分割输入调制(BC-DIM)形式的PC。



4 机器学习中的预测编码

到目前为止,我们已经考虑了预测编码(PC)可能在机器智能中扮演关键角色的原因。在本节中,我们讨论了这方面的实证成功先例。具体来说,我们回顾了那些在机器学习中处理不同任务的工作线。这些工作中的一些使用了与第3节的形式主义不同的算法,但在精神上仍然符合PC的定义。

监督学习。将PC应用于监督学习的首个案例涉及训练一个小型PC网络在MNIST数据集上执行图像分类,取得了与相同复杂度(深度和宽度)的多层感知器(MLP)相当的测试和训练误差[57]。从那时起,在RGB图像数据集(如CIFAR10和SVHN)上训练的卷积网络上也取得了类似的结果[79]。在这项工作中,作者展示了同时更新权重参数和神经活动(即,平行运行方程5和6),而不是等待推理阶段收敛,可以提高测试精度,并确保更好的收敛。这些结果也扩展到了结构化数据集和图神经网络,其中PC再次能够在不同的基准测试中匹配反向传播的性能,并且学习到的模型校准更好,对对抗性示例更加鲁棒[81]。

自然语言处理(Natural Language Processing, NLP)是以语言为对象,利用计算机技术来分析、理解和处理自然语言的一门学科。高斯假设(Gaussian assumptions)是指在某些模型中,数据分布被假设为高斯(即正态)分布,这种假设在主成分分析(PCA)等场景中被广泛使用,但在需要建模不同分布,如分类分布或混合模型时可能受到限制。在变换器模型(transformer models)中,注意力机制(attention mechanism)编码了一个分类分布,通过softmax激活函数计算得到。KL散度(KL divergence)是衡量两个概率分布差异的一种方法。变分自由能(variational free energy)是变分贝叶斯方法中用于近似后验分布的一个概念。

在变分自由能的公式中, 是为每一层定义的概率分布,具有充分的统计量x。如果每个分布都是高斯分布,这相当于方程4中定义的能量。这种推广使得基于预测编码的变换器能够与具有相同模型复杂度的标准变换器表现得几乎一样好[111]。在计算神经科学中,使用混合生成模型(具有离散和连续状态空间)已经相当成熟:例如,参见[112]中关于所需的变分消息传递的首次原理解释,这可以被视为在具有混合离散和连续状态的明确定义的层次化生成模型设置中的预测编码(PC)的推广。

计算机视觉。在处理图像时,预测编码(PC)显示出了希望,特别是当考虑使用卷积算子的推广时[115, 116]。值得注意的是,当预测编码方案采用卷积而不是矩阵乘法时,BC-DIM已被证明在从自然图像和图像块中提取高级特征方面表现良好[117]。其他有前景的PC变体已经解决了视觉中的某些子问题,包括对象识别和区分(使用过完备稀疏表示)[118, 119]。

关于自然场景的生成和编码(NGC),早期工作依赖于简化假设,特别是图像是灰度的(或者简单地说是单通道的)并且表现出相对较低的场景复杂性,例如,没有背景,对象容易识别。请注意,NGC/PC电路可以通过补丁来学习,其中自然图像被分解成P×P像素网格;这允许预测突触获得低级模式(例如,用于手写数字的笔画或边缘)。尽管如此,NGC已经通过直接集成反卷积/卷积[113]推广到自然图像,这是构建卷积/反卷积神经网络的标准操作,在一个称为卷积神经生成编码(Conv-NGC)的框架中。在Conv-NGC中,前向和反馈突触被实现以操作特征图,或小的神经元簇,这些簇与等形状的误差单元簇耦合,计算进行迭代推断所需的相关不匹配信号。令人惊讶的是,Conv-NGC模型被证明可以学习隐含地体现图像金字塔的特征表示[120]。

时间序列数据。预测编码(PC)在更为困难的时间序列建模领域取得了一定的成功。特别是,[121, 116, 122, 123]开发了一种基于PC的层次化神经生成建模框架,专注于处理自然视频数据,其中自上而下的信息(推断出的潜在因果因素)被用来调节较低层的活动,旨在提取局部不变的表示。在此发展之前,PC被表述为卡尔曼滤波器[60, 124],已证明在自然图像的小序列片段上表现良好。

NGC最早的表述之一是针对时间变化数据的,即由句子中的单词/子单词或视频帧组成的序列[125]。这种类型的神经系统被称为时间神经编码网络(TNCN),最初设计为作为自上而下的循环生成模型运行,后来被推广为作为混合循环和自回归系统的功能[98],即并行时间神经编码网络(P-TNCN)。TNCN和P-TNCN都被证明可以在不展开(随时间)的情况下处理模式序列,这是通过时间反向传播(backprop through time)适当训练深度循环网络的核心要求;因此它在空间和时间上都是局部的。值得注意的是,两种模型(在不同的视频模拟/基准测试上)都被证明可以推广到未见过/分布外的模式序列,展现出零样本能力,特别是针对视频数据,例如,TNCN被证明能够适应不同物体数量的弹跳球视频,而P-TNCN被证明能够合成不同数量和质量的弹跳数字或字符的帧(在新样本上不改变突触权重)。最近,一种称为动态PC的PC表述[126]通过结合深度学习(即,使用基于反向传播的神经电路,如超网络)和混合模型的建模工具被开发出来。这个动态PC系统被证明在小的受控序列视觉感知问题和任务的背景下获得了有用的生物物理上合理的感受野。

有趣的是,机器学习实现的PC在处理时间数据方面进展缓慢。这令人惊讶,因为PC可以被视为一个扩展的卡尔曼滤波器,原则上应该能够以高效和贝叶斯最优的方式处理时间数据。将PC推广为包含学习的贝叶斯滤波器,导致广义滤波,其中模型参数可以被视为缓慢变化的潜在变量或状态。这种形式的PC有很多实例;参见[127]以获得一致的变分处理。机器学习可能还没有充分利用PC的一个原因是其专注于排除动态的分类问题。要将PC用于时间序列同化和学习,有必要从静态生成模型转向具有明确动态的状态空间模型,如[126]所触及的和循环神经网络中隐含的。

持续学习。上述P-TNCN另一个有希望的方面是其进行持续序列学习的能力/潜力,其中[98]证明了其在以前见过的序列建模任务上的生成能力不会像循环网络(如基于门控循环单元和长短期记忆单元的网络)那样严重退化/恶化。这意味着P-TNCN在不同类型的模式序列学习时表现出对灾难性遗忘的一定鲁棒性。这包括使用反向传播训练的循环网络,以及具有完整雅可比矩阵访问权限的在线前向模式训练方案,如实时循环学习(RTRL)及其无噪声的一阶近似无偏在线循环学习。额外的努力[97]通过检查在线累积学习的挑战性问题,加强了NGC的记忆保持能力,其中数据集(或任务)以流的形式呈现给系统,并且没有指示任务何时切换(创建了一个非静态的、无任务边界的终身机器学习问题设置变体)。令人惊讶的是,基于NGC的模型,在[97]中没有访问任何任务边界(即,序列神经编码网络(S-NCN))被证明优于或与依赖于记忆缓冲区(重放)、正则化和/或辅助生成建模以保留先前知识的广泛反向传播方法竞争。当另一个神经电路基于竞争学习驱动S-NCN的侧向循环突触时(模拟基底神经节的信息路由行为),看到了更强的性能。这个简单的任务调解电路后来在后续努力[128]中得到了改进)。另一项后续努力开发了一种具有可读/可写记忆的PC随机实现(BayesPCN)[87],被证明对样本级遗忘具有鲁棒性。

主动推理和机器人技术。在计算神经科学中,主动推理的早期表述是基于为预测编码(PC)配备反射功能,以模拟各种行为;从手写和其观察[129],通过眼动控制[130, 131]到通信[132, 133]。PC的这种应用基于一个简单的观察:感知和行动是为了最小化变分自由能,行动可以被视为通过改变(感觉)数据来最小化(本体感觉)预测误差。PC的机器学习实现现在开始超越分类和静态图像的生成建模,以解决动态控制和强化学习问题[134, 135, 136]。主动自然场景生成和编码(ANGC)[136]和主动预测编码(ActPC)[137]以预测处理的形式表述主动推理,与通过反向传播训练的深度神经网络的机器学习实现形成鲜明对比。ANGC专注于一个简单的模块化代理设计,实现了一个策略电路和一个生成转换动态,通过使用转换动态产生动态归一化的认识的信号,促进智能探索,从稀疏奖励反馈中学习。ActPC在ANGC的基础上,实现了一个策略电路、一个行动者电路、一个生成转换动态电路和一个先验偏好电路,进一步探索了通过将简单的工作记忆形式整合到神经动态中,每个NGC组件的时序处理能力如何得到提高。ActPC和ANGC在标准的强化学习控制问题上已经得到实证证明,并且在(模拟的)机器人控制[137]的背景下,更重要的是,对于一般PC也存在结果[138, 139, 140]。

并行(独立开发)和同音框架包括主动预测编码(APC)[141]和主动预测编码网络(APCNs)[142],这些框架被开发出来以从自然图像中学习部分-整体层次结构(解决困难的部分-整体和参考框架学习问题),导致了一个有趣的主动、内部导向感知模型,即神经电路主动采样自然图像空间以提取信息,用于制作内部表示。值得注意的是,更一般的APC模型[141]进一步提供了解决集成状态-动作层次学习问题的潜在手段,进行一种层次强化学习。APC模型被应用于一个多房间网格世界,并被证明工作良好。然而,APC/APCNs在其底层架构的部分使用反向传播,必须训练/适应局部深度MLP和循环网络(和深度超网络)以获得理想的性能。相比之下,ActPC在推理和学习方面严格坚持局部性原则。

在控制代理设计之外,一个名为认知神经生成系统(CogNGen)[34, 114]的认知架构,基于ActPC固有的思想,被提出来解决强化学习问题。CogNGen实现了认知的共同模型[143]的元素,并将NGC与超维/向量符号模型的人类记忆结合起来,实现了一个运动皮层模块、程序记忆、工作记忆神经缓冲区和情景陈述性记忆。CogNGen在迷宫式探索任务[114, 144]上表现良好,包括那些需要在和跨情节中保持记忆的任务。


5 神经科学中预测编码的合理性

机器学习中的一个常见问题是:一个特定的算法在什么情况下可以被认为是生物学上合理的?这源于一个事实,即没有任何计算机模拟能够在每个方面完全复制大脑复杂的工作机制,因此,总会有某些细微差别使得模拟在某种程度上变得不合理。此外,不同的研究议程考虑不同的属性来区分生物学上合理和不合理的模型。在本节中,我们将讨论预测编码(PC)的关键属性,哪些满足这种区分,哪些不满足。

规模化的预测编码。广义上讲,可以说预测编码已经在单个大脑的水平上发生。这个概念与贝叶斯脑假说[146, 147, 148, 149, 150, 151]有关,该假说认为我们的大脑编码了世界的生成模型,感知不过是假设检验的一种形式[152, 153, 154, 155]。这种生成模型的反转符合自由能原理,可以解释为大脑试图最小化预测误差或变分自由能,这是基于对感知世界的观察[65]。但是,当我们考虑更小的“事物”时,这个概念如何扩展?单个大脑区域是否自行执行预测编码,单个神经元是否也以最大化对自己内部模型的证据的方式行动[156]?回答上述问题可以启发我们设计神经系统和架构,这些系统和架构可以在不同尺度上委托错误修正。接下来,我们将讨论预测编码在神经元水平上的生物学合理性。然而,我们指出,发展不同尺度预测编码的理论以及经验计算模型将是非常宝贵的。

错误神经元。我们对预测编码可能在神经元水平上实现的理解在过去十年中肯定发生了变化。最初的假设是大脑会编码两组神经元/结构:一组负责传播预测,一组负责传播错误[37, 57]。到目前为止,我们没有确凿的经验证据表明单一错误神经元的存在,尽管有大量证据表明可能分别传递预测和错误的层特异性神经元群体的分离[157, 158]。此外,中脑多巴胺神经元的活动可以被解读为报告某种类型的预测错误[159, 160]。最近的研究表明,错误信号可能由树突的局部电压动态计算得出[161, 78, 162]。有关可能的生物神经实现的更详细描述,请参阅[31, 162]。尽管现有技术使得在单个神经元水平上实证展示预测编码变得困难,但我们在神经群体或大脑区域水平上有更强的预测编码证据[163]。预测编码可以解释多种大脑现象,例如V1中的终止效应和超经典感受野效应[37]、双稳态感知[164]、幻觉运动[165]、重复抑制[166]以及注意力对皮层处理的调制[167, 168]。还表明,在听语音时,人脑以层次化的方式存储获得的信息,其中额顶皮质预测更高层次表征的活动[169]。

在机器学习中,预测编码(PC)的生物学合理性是一个重要议题,涉及到算法是否能够在生物学上得到合理解释。以下是针对预测编码在精度工程和突触约束方面的挑战及其解决方案的讨论:

 精度工程(Precision Engineering)

预测编码在实施过程中面临的一个挑战是管理和更新精度加权(precision weighting)。通常情况下,需要调整或计算协方差矩阵Σℓ或其逆矩阵——精度矩阵(Σℓ^-1)。在计算神经科学中,已有研究通过采用生物合理的方法解决了这一问题,例如通过精度或协方差分量分析的标准解决方案进行调整[59](方程 57)和[170, 171]。这一方面对于预测编码至关重要,因为精度加权被认为在神经科学设置中实现了注意力机制。在这一背景下,有大量文献可能对机器学习实现有所启发[167, 172, 173, 168, 174, 175]。

 突触约束(Synaptic Constraints)

在标准预测编码网络中,突触值在更新后通常不受严格限制,这可能导致值变得非常高或非常低,从而影响模型的整体稳定性。自然场景生成和编码(NGC)通过引入约束来解决这一问题,确保突触矩阵中任何行或列的欧几里得范数不超过一,这种做法源于早期的经典稀疏编码线性生成模型[104]。此外,还有最近尝试建立启发式限制突触值的大小,以防止分类性能下降[176]。预测编码模型的另一个不合理之处是突触符号(或“符号翻转”)的频繁变化,这在训练过程中可能从负变正(反之亦然),这对于模拟真实的皮质功能至关重要。一个可能的解决方案是强制突触值非负,并明确模拟兴奋性和抑制性神经元群体,因为这种配置将适用于预测编码推理和学习所需的正负力量[177, 178, 179]。

通过上述讨论,我们可以看到预测编码在神经科学中的合理性得到了一定程度的支持,尤其是在贝叶斯脑假说和自由能原理的框架下。尽管在单个神经元水平上的实证证据尚不充分,但在神经群体或大脑区域水平上,预测编码已经得到了较为充分的证实。预测编码可以解释多种大脑现象,如V1中的终止效应和超经典感受野效应、双稳态感知、幻觉运动、重复抑制以及注意力对皮层处理的调制。此外,还表明在听语音时,人脑以层次化的方式存储获得的信息,其中额顶皮质预测更高层次表征的活动[169]。


6 关于软件框架

软件在促进计算智能模型和算法的创新、设计和发展中扮演着至关重要的角色。在机器学习领域,软件库为GPU驱动的多CPU计算提供了必要的后端支持和优化,这些计算为深度神经网络的模拟提供了动力。像Theano[180]、Caffe[181]、Torch/PyTorch[182]和TensorFlow[183]这样的框架已经成为机器学习和神经生物建模中的关键软件平台,无论是历史上还是现代努力中都发挥了重要作用。此外,专注于特定子类神经网络和机器学习模型的软件库促进了可重复性,这是科学实践的一个重要元素。

关于预测编码(PC),促进PC研究的软件框架相对较少。大多数PC设计和开发的研究结果都是分散的、零散的模型和特定论文的代码和脚本,这通常使得将这些模型和算法推广到它们开发背景之外变得困难。这阻碍了PC及其伴随的变分程序背后原则的更广泛采用;进一步阻止了能够对PC做出重要贡献的新一代研究者的教育。

尽管如此,确实存在几个可以民主化PC研究的软件库。特别是,ngc-learn[184]是一个通用的模拟和开发库,用于构建任意PC模型和神经生物系统。其理论基础在于神经元电缆理论和 compartmetal 神经元,允许计算建模者原型设计和模拟神经电路,包括那些基于NGC和BC-DIM的电路。相比之下,pypc[185]是一个用于训练监督和非监督层次PC模型的库,而predify[186]是一个类似PC的软件库,允许将各种深度学习架构转换为包含PC元素的系统,如其自上而下的预测电路。图7描述了一般的PC、软件和硬件交互循环。


7 关于新型硬件

硬件限制历来在塑造研究方向上发挥了关键作用,要么促进要么阻碍理论思想的实际实施[187]。目前,图形处理单元(GPU)和张量处理单元(TPU)主要用于训练深度神经网络。然而,像忆阻器、自旋电子学和光学这样的新兴技术有潜力彻底改变现状[188, 189, 190]。适应这些新硬件技术对于推动领域发展至关重要。预测编码(PC)特别适合于替代硬件,因为它具有进行逐层并行计算的迭代推理、基于Hebbian规则的突触适应以及基于局部(变分自由)能量函数的优化等特点。这些属性(与大多数类脑方案相同)可以使其底层操作并行化,从而在训练大规模神经网络时实现显著的效率提升。PC的并行性质减少了通信和等待时间,这些是传统反向传播算法的瓶颈。此外,PC与神经形态硬件的一致性为实现能效学习方法提供了机会[191]。一个有前景的方向是使用动态忆阻器,非常适合开发受大脑启发的神经形态系统,这些系统既具有高能效也具有高计算能力[192]。

生物物理实现。超越传统硬件,PC准备在“盘中智能”技术[193, 194, 195]中发挥关键作用。这涉及到通过非硅基生物物理介质的自适应神经形态计算。由于PC与皮层计算和结构[196, 157, 197]的紧密关联,它可能与类器官智能在执行基本计算方面具有固有的兼容性。将PC应用于尖峰通信水平[199, 177]的早期尝试特别有希望,以模拟动态环境中的预测处理。此外,PC与生物物理导向计算的约束非常吻合。

这些计算框架不仅是生物物理基质仿真的自然首选,而且它们的泛化能力可能会因为类器官结构自身的自然演化而大大提升。也就是说,类器官的“生长”和“衰减”可能提供了一种强大的模型选择手段[200],提高了神经系统的长期泛化能力。稳健的合成通用智能和神经形态认知的道路可能在于神经科学(计算)模型,如PC,与神经微生理系统的生物工程的交汇处。

7.1 尖峰预测编码

PC(以及机器学习中其他神经生物学信用分配过程)面临的一个潜在挑战是泛化到尖峰级别的时间处理。生物神经元通过称为动作电位的离散信号进行通信,创建稀疏但包含丰富时间信息的尖峰序列[201]。这些尖峰序列为尖峰神经网络(SNNs)提供了灵感,所谓的第三代神经网络,通过尖峰的精确时机编码信息[202]。SNNs固有的稀疏通信是它们的核心优势之一,允许它们通过使用高信息含量的尖峰序列消耗更少的能量,促进构建支持其处理的能效硬件,即神经形态硬件[203, 204, 205],而深度人工神经网络(ANNs)则需要使用能耗大、顶级的图形处理单元(GPU)进行有效训练。不幸的是,除了一些例外,大多数现代PC版本未能考虑到在这种稀疏、离散的通信方案下学习和推理是如何发生的。这可能反映了一个事实,即PC在本质上是一种变分方案,它再现了基于单个粒子或神经元的抽样方案(例如,粒子过滤)的理想行为:参见[147]。也就是说,PC通过构造描述了集合或群体动态,而不是单个粒子或神经元的行为。

尖峰神经编码框架(The Spiking Neural Coding Framework)是一种尝试,旨在制定预测编码(PC)如何在尖峰网络中实现[206]。它基于尖峰事件可以诱导突触调整的前提[177]。该框架采用事件驱动的局部调整规则,利用前突触和后突触尖峰的变量痕迹。在尖峰神经网络(SNNs)中,突效能通过尖峰时序依赖性可塑性(STDP)[207]进行更新,其中基于尖峰时序的神经活动相关性被用于突触调制。使用STDP适应深度SNNs是具有挑战性的,通常需要精心设计的层。相比之下,尖峰神经编码采用了更为灵活的方法,涉及突触导电模型、膜电位模型、尖峰发射函数和痕迹机制。在此框架中,每一层都试图估计另一层的痕迹活动,差异通过迭代演化的错误反馈突触局部向后传递(见图8)。重要的是,尖峰神经编码适用于各种尖峰函数,从泄漏积分器到霍奇金-赫胥黎模型[208]。最近,其他尖峰级别的PC实现也开始出现[209, 210, 162]。值得注意的是,与原始尖峰神经编码框架的纯粹无监督性质不同,如[209]模型在判别性环境中运行。然而,这些较新的模型没有解决权重传输问题,因为反馈突触与前向/生成突触共享。


8 展望未来:预测编码研究的重要方向

虽然人们常声称预测编码(PC)是层次高斯生成模型的最优反演方案,但其性能往往低于现代基于深度神经网络构建的生成性AI系统。PC在机器智能中的未来在很大程度上取决于我们能否解决并填补这一差距。具体来说,与PC相关的未来工作的主要方向应该是理解这一性能不匹配背后的根本原因,并利用这些获得的洞察力来开发和设计新的PC模式、数学框架和计算模型,以在当前深度学习模型表现出色的大规模环境中工作。

效率。PC的第一个缺点是其效率。这是其底层迭代推理过程的结果,通常需要运行直到收敛。在实践中,通常让PC模型运行固定次数T,但为了达到高性能,这个数字必须很大,而且更深的网络需要更多的迭代才能表现良好。为此,推导出不同的优化技术和方法来执行变分自由能的最小化将是有用的。这些技术可以以(更快的)期望最大化(EM)算法变体的形式出现(在标准情况下等同于梯度下降)。这样一个方案的例子是新提出的增量PC[79],基于增量EM。这种方法的收敛性也已经使用动态系统的方法在参数足够小的假设下得到证明[211]。未来的工作可以调查是否有更好的替代方案,或者是否可以针对特定任务和数据集学习最优更新规则(从深度元学习的最新发展中汲取灵感[212, 213, 214])。更先进的摊销推理算法和机制可能是减少PC推理过程本身计算负担的另一个关键因素,因为历史上,当引入第二个识别神经模型[215]时,经典稀疏编码线性生成模型[104]的迭代推理大大加速。答案可能在于EM算法的一些变体,这些变体在机器学习社区中不太为人所知,如动态期望最大化(DEM)[216, 76, 76],或者在[126]中提到的精度加权预测误差的更有效的替代实现。其他可能性可能在于基于不同消息传递框架的方法,如信念传播和因子图上的变分消息传递。

优化技巧和启发式方法。未来的研究还需要关注对变分推理证明有用和宝贵的优化技术的研究,如那些促进将精度加权参数纳入考虑的技术[217]。尽管在过去几年中取得了有趣的进展,尽管精度在神经科学中使用的模拟中至关重要,但这些技术只在小规模和中等规模的环境中进行了测试[218, 219, 220]。更一般地说,深度学习领域从过去十年中开发的简单优化技巧中获得了巨大的好处,如dropout[221]、批量归一化[222]、自适应学习率如Adam[223]和RMSprop[224],以及ReLU激活及其变体的引入[225]。没有这些技巧,来自成千上万研究人员的共同努力,极过度参数化的神经模型的训练就不会取得我们今天观察到的结果。有趣的是,反向传播在最初表现出许多缺陷和限制,阻碍了它扩展到高维数据空间:在90年代末,核学习方法占主导地位,通常被认为比人工神经网络更有效,后者由于梯度消失问题[226]以及对大量计算能力的强大需求而被普遍忽视。这些问题中的大多数现在已经在三十多年的研究中得到了解决,再次通过成千上万人的共同努力。鉴于深度学习的历史,人们可能会问:PC的dropout、批量归一化和Adam优化器等价物是什么?如果目标是扩展PC的适用性,那么解决这样一个问题将至关重要,并有望成为未来更多研究工作的重点。

随机生成模型和抽样。一个不同但重要的方向是与生成模型相关的。我们一直在讨论将联合分布的统计模型重新纳入生成性AI的研究议程的重要性;然而,大多数超越小规模任务的研究工作集中在监督学习上[79, 111](有一些值得注意的例外,如[113]中的无监督神经回路)。为了做到这一点,我们需要开发能够从计算良好的后验分布中抽取数据点的模型,使用基于Langevin动力学[227]等模拟方法。这将惠及贝叶斯推断的不同子领域,如分布外(OOD)检测、不确定性最小化和数据重建。事实上,由于模型始终可以提供惊讶度量,即其变分自由能,PC特别适合于OOD检测。

PC的另一个概率生成建模研究方向是将关于模型(即突触)参数的不确定性纳入边际似然的变分界限。也就是说,可以给突触参数配备概率分布(而不是使用点估计)。这一举措将使PC更接近其贝叶斯根源:当前机器学习实现的PC不将模型参数视为随机变量,因此可以被视为一个期望最大化(EM)过程,其中M步骤忽略了对参数的不确定性[228]。将参数视为随机变量的好处是,可以评估结构学习所需的模型证据[229, 230, 231, 232],即可以在突触权重上放置预测误差,并评估由此产生的变分自由能(或边际似然)以进行结构学习,或者在生物学环境中,形态发生[233, 156]。这个研究方向将PC带入了广义滤波和动态因果建模的世界,在这些领域中,参数可以被视为变化非常缓慢的潜在状态[127, 234]。在动态因果建模的情况下(即在高斯假设下的状态下空间模型的变分反演),结构学习可以通过特定实例的贝叶斯模型选择[235, 236, 237]特别高效地进行;即,贝叶斯模型简化,从完整或父模型中移除或修剪冗余参数[238]。相关的PC推广也可能利用非参数贝叶斯的进步来学习神经网络的结构。更多详情,请参见[236, 239, 240]。

构建认知控制系统。预测编码(PC)带来了学习一个强大的生成过程的希望,这个过程随着时间的推移和更多感官样本的收集而不断迭代完善。这导致一些早期工作考虑将这一过程作为世界模型的基础,驱动模块化、受大脑启发的认知模型,这些模型能够在玩视频游戏[118, 135]和机器人控制任务[138, 136, 137]以及大规模认知架构[143, 114, 144]的背景下结合感知和行动。这对于机器学习之外的领域具有重要意义,特别是对于认知科学和认知神经科学领域,其中一条关键路径是构建心智的计算理论,并检验它们与受控心理任务上的人类主体数据[241]的契合度以及它们对认知功能的泛化能力。因此,一个有前景的未来方向是设计由PC电路组成的模块化、日益复杂的系统,这些系统依赖于单一的基本PC电路和低级动态。

从构建PC电路系统的经验中,我们可以得到一些重要的教训,这些教训可以为PC本身的基础提供信息。例如,在以PC为中心的认知架构[114]中,发现PC与另一个重要的神经模型——向量符号记忆[242, 243, 244]的协同作用,促进了有效的复杂自联想和异联想记忆操作,这导致了在复杂迷宫导航任务上的快速收敛,此外,还促进了设计一种新的PC电路,该电路利用其神经动态学习一个策略,用于内部操纵灵活的循环记忆系统[144]。

将PC作为认知控制系统的基本神经构建块仍处于最初阶段,尽管需要更多的努力才能使其成为构建稳健心智计算理论的可行选择,但它为构建模拟自然智能提供了一个值得追求的长期方向。当考虑到基于深度反向传播的网络开始在认知科学领域找到应用[245]时,这一承诺变得更加有力。沿着这个方向的发展也将对主动推理[246, 112, 36, 35]的研究至关重要,因为从事认识性觅食的代理系统通常围绕动态生成模型的使用,甚至可以被视为简单的认知控制模型。


9 结论与展望

生成模型很可能在未来的人工智能中扮演重要角色。尽管如此,当前的研究似乎主要集中在一类有限的模型上,忽视了可能的替代方案。一方面,这可以通过深度反向传播训练的人工神经网络所取得的卓越结果来证明;另一方面,更多基于统计和信息理论的方法可能值得关注。在这项工作中,我们专注于反转一类特定的连续状态生成模型,即预测编码。更准确地说,我们:(1)回顾了机器学习中的预测编码方案,突出了使我们达到今天这个地步的先前工作;(2)总结了需要回答的重要开放性问题,以解锁和利用预测编码的全部潜力;以及(3)识别了可能的应用和未来研究方向。截至目前,我们正在看到预测编码的一些潜力,但我们离需要大规模应用还有很长的路要走,这可能需要对预测编码研究进行重大投资。在过去的几年里,我们已经看到了机器学习领域预测编码的惊人增长:直到2017年,Whittington和Bogacz才展示了如何在MNIST上训练一个小型预测编码分类器[57]。此外,我们已经看到,从预测编码中整合一些想法可以导致有趣且更强大的基于反向传播的深度模型[247, 248, 80, 249, 250, 145]。

本调查的一个主要目标是鼓励研究人员在数十年的先前努力成果基础上,关注预测编码所提供的挑战:没有活跃的社区支持,就没有成功的故事,正如以反向传播为中心的深度学习所证明的那样。我们指出,一个有前景的方法只有通过实际和理论上的努力来推进,才能发挥其价值。社区的努力将需要从软件和硬件的角度推进预测编码;特别是,开发计算方案,利用其提供的优势,如其并行性、稀疏性、局部性和潜在的能效计算。尽管过去几十年预测编码的研究进展一直稳定,但我们可能才刚刚开始意识到通过逆向工程皮层和其他生物结构为人工智能带来的益处。






https://arxiv.org/pdf/2308.07870

CreateAMind
ALLinCreateAMind.AGI.top , 前沿AGI技术探索,论文跟进,复现验证,落地实验。 鼓励新思想的探讨及验证等。 探索比大模型更优的智能模型。
 最新文章