Maelstrom Networks
目录
0. 摘要
3. 连接记忆的早期研究
3.1 连接主义网络中的记忆
3.2 Hopfield 网络
3.3 基于梯度的递归神经网络(RNN)
3.4 储层(储备池)计算(reservoir computing)
4. Maelstrom网络
5. Maelstrom 网络的优势
6. 结论
0. 摘要
人工神经网络一直难以找到一种方法将工作记忆(working memory)融入到神经网络中。尽管 “长期” 记忆可以被视为学习到的权重,但工作记忆更可能是动态活动的表现,这在前馈模型(FFN)中是缺失的。这导致当前神经网络模型的一个弱点:它们无法在时间上实际处理时间数据,因为缺少某种形式的工作记忆。
当前最先进的模型(如 transformers)倾向于通过完全忽略工作记忆来 “解决” 这一问题,它将整个序列作为一个完整的数据片段来处理;然而,这意味着网络无法以在线的方式处理序列,并导致内存需求的极大增长。在此前的几十年中,另一种研究路径专注于递归神经网络,这类网络通过动态状态维护工作记忆,尽管训练这些权重被证明是困难的。
在这里,我们受到控制理论、储层(储备池)计算(reservoir computing)、深度学习和 RNN 的启发,提出了一种新的范式,称之为 “漩涡网络(Maelstrom Networks)范式”,结合了 RNN 的优点和前馈神经网络(FNN)的模式匹配能力。该范式将递归组件 - “Maelstrom” - 保持为未学习状态,并将学习任务转移至强大的前馈网络。这使得网络能够在不展开网络的情况下,利用前馈训练的优势,并使得记忆能够在新型神经形态硬件中实现。它赋予神经网络一种序列记忆,利用数据在时间域内按因果关系组织的归纳偏置(inductive bias),并赋予网络一种在环境中移动的表示代理的 “自我” 的状态。这也可能为持续学习铺平道路,使网络模块化并 “保护” 其免受新数据带来的覆盖。此外,这种方法不仅有助于解决困扰当前非时序深度网络的性能问题,还可能最终赋予人工网络一种 “自我” 意识。
图 1:与当前机器学习的主流观点相反,现实世界中的数据不仅在空间领域中遵循结构化的归纳偏置——这一点我们已经充分考虑——而且在时间领域中也有类似的结构化归纳偏置。
左图:当前机器学习的观点,认为数据在时间上是独立同分布(I.I.D.)的;网络的任务是学习时间中与每个数据点对应的特征。这假设了数据的空间层次结构的归纳偏置,但并未考虑沿同一时间线的数据点之间的时序因果关系。
右图:新的网络观点,认为网络也应考虑数据在时间维度上的归纳偏置。数据点通过行动(action)的参考框架在同一时间线程上相互关联:正是这些行动将数据点从一个位置移到另一个位置,作为行动因果效应的结果。网络识别沿同一线程的数据点的能力,我们称之为序列记忆。
3. 连接记忆的早期研究
3.1 连接主义网络中的记忆
如前所述,研究人员在硅基神经网络(计算机中的神经网络)与活体神经网络(大脑中的神经网络)之间的思维方式,不仅在算法角度上有所不同,也在记忆存储的方式上存在根本性差异。在计算机中,我们通常将神经网络代码存储在 RAM 或磁盘存储中,这些存储是一些桶(buckets),可以存储任何任意的数值(与具体任务无关)。所有需要记忆的功能(如加载代码、权重、数据集)都存储在这些磁盘存储中。相比之下,在大脑中没有与神经网络分离的任意存储空间——存储本身就是神经网络的一部分。这就导致了在大脑中,存储值的方式更为复杂且动态,与 “长期记忆” 存储(对应于磁盘存储)不同。计算机中的工作记忆(working memory)更类似于 RAM,因为它需要保持一致的电压,但这种记忆是稳定且不变的,而大脑中的动态吸引子(dynamical attractors)则是不断变化的。
无论如何,在连接主义网络中,这种记忆必须作为网络的状态进行存储,或者作为一个在时间上随着网络输入进程而更新的抽象向量。由于大脑实际上并没有存储这种向量的磁盘存储空间,大脑的状态实际上是每个神经元的电压和神经递质积累的当前快照。为了读取大脑的状态,大脑只能通过动作电位或 “尖峰(spikes)” 来传递信息给其他神经元(除非有胶质细胞等未预见的机制)。因此,为了以神经形态的方式真正实现这种状态,状态的值只是返回到自身的输出活动(activity),形成一个 “自循环”。虽然在代码中可以将神经元的 “传递器” 状态保存在磁盘中,但这种递归连接的概念仍然至关重要,因为循环提供了递归计算,允许记忆在网络中反复回响。因此,网络通过反射或回响输入信号的方式维持其状态(或记忆),从而保持持续的活动。
图 2:比较各种先前处理时间序列记忆(或缺乏时间序列记忆)的方法。蓝色矩形表示一个前馈网络层(无记忆),而绿色表示一个递归连接的网络或通过时间步长可以访问的记忆。黑色箭头表示可学习的权重,而红色表示不可学习的部分,梯度不能反向传播。
Transformers 或 CNNs(LeCun等,1998;Devlin等,2018;Vaswani等,2017)在其原始状态下完全是前馈网络,因此不在此处表示,因为它们不包含任何形式的序列记忆。只有新型的 Transformers 变种,例如Transformer-XL,它包含一个 “缓存”,可以被后续时间步长访问,才具备我们所说的序列记忆。然而,这些并不是真正的序列记忆,因为它们没有解决持续学习问题,原因在于它们仍然是非模块化的(Hadsell等,2020),即记忆组件仍然与执行网络相连,因此任何新的梯度都会覆盖先前的时间步长。
Reservoir networks(回声状态网络或液态状态机器)具有递归组件,包含不可学习的递归权重和输入,但具有一个可以是前馈网络的学习读出(Evanusa等,2023)。
RNNs 和 LSTMs 具有递归组件,其中每个连接都是可学习的。LSTM 和 Reservoirs 可以拥有多个递归 “层”,并以层次结构连接(Gallicchio等,2017)。
Hopfield(Hopfield,2007)和 Self Organizing Maps(Kohonen,1990)是没有学习读出的递归组件,其中递归权重是通过无监督自组织规则进行训练的。
3.2 Hopfield 网络
Hopfield 网络源于 Donald Hebb 关于神经群和组织的开创性工作(Hebb, 2005)。Hopfield 提出了一种将网络视为能量最小化问题的框架,其中活动在吸引子状态之间跳跃并最终稳定下来,学习的模式对应于能量最小化点。研究表明,使用 Hebbian 学习规则在数学上等同于为给定数据样本找到与该网络结构相关的能量最小吸引子状态。Hopfield 网络的优点在于不需要标记样本,完全自组织,并且在生物学上是相关的。然而,其面临的问题是缺乏从大量样本中提取潜在编码(特征)的能力,并且由此导致记忆容量的某些严格限制。然而,新的研究表明,通过门控机制(Hochreiter & Schmidhuber, 1997;Davis 等, 2022),记忆容量可以增加。基于梯度的 LSTM 也面临与前面章节提到的相同问题,即权重对特定时间步长不敏感。尽管基本形式的 Hopfield 网络未能与深度学习相匹配,但将连续值和注意力机制结合起来的新架构展示了 Hopfield 学习与 Transformers 中的注意力层之间的对应关系,并且是未来 RNN 研究的一个有前景的方向(Ramsauer等,2020)。
3.3 基于梯度的递归神经网络(RNN)
一种训练递归连接网络的简单方法是将其视为前馈网络,并将时间维度视为网络是多个层级的深度网络。对于单层 RNN,网络在设定的 t 时间步上运行,然后将网络 “展开”,使其有 t 层,分别对应 t 个时间步。梯度学习后,所有更新都会应用到相同的权重向量上。这种训练机制被称为 “时间反向传播”(Backpropagation Through Time,BPTT),因为网络在时间上被展开并视为深度神经网络。通常认为 BPTT 在生物学上是不现实的,因为大脑不能像计算机一样展开自己,但近年来已有多种近似方法提出,试图推测大脑中可能存在的机制,能够产生类似的效果(Cheng & Brown, 2023;Manneschi & Vasilaki, 2020)。
然而,问题仍然存在:记忆和特征向量并未真正从拓扑上分离开来:“记忆” 向量(通常由细胞状态表示)仍然由与特征向量相同的信号驱动和训练。唯一的区别是细胞状态 “倾向于” 保持不变较长时间,从而允许长期依赖的学习;这并不是记忆和特征向量的真正“哲学分离”。因此,不足为奇的是,门控递归单元(Gated Recurrent Unit,GRU)(Cho等,2014)将细胞状态和隐藏状态融合——如果记忆真的是分离的,并且系统依赖于此,这一过程将破坏系统的功能——实际上它的表现与 LSTM 相同,有时甚至更好,且开销较小,因此在现代 RNN 使用中,GRU 成为了首选。当然,近年来 RNN 的使用已被前馈网络——特别是 Transformer 模型(Vaswani等,2017)——完全取代。
3.4 储层(储备池)计算(reservoir computing)
为了应对 Hopfield 网络要求稳定吸引子状态的问题,储层计算(Jaeger, 2001;Maass, 2011)应运而生,旨在将问题从基于吸引子的模式转换为基于映射的模式。关键在于,它将问题从让网络 “收敛” 转换为让网络“ 观察” 递归状态的动态状态(现在称为储层状态——但实际上与 RNN 的隐藏状态相同)。这一理念的突破在于,我们不需要通过递归组件传播误差。该组件会由于其初始化产生某些活动,如果初始化是随机的,或者是足够的基础集以覆盖可能的特征,那么一个足够强大的读出(readout)机制可以将该活动映射到任何预测值。在此,也需要注意的是,我们无需在递归组件中学习记忆活动所对应的内容;这是读出机制的任务。递归组件仅负责反射(bouncing)和持续活动,直到读出能够做出判断为止。这一新的范式从根本上改变了记忆机制的要求,并为本工作提供了一个重要的基础:记忆和预测处理组件可以被分为两个独立的过程。虽然记忆必须被调优以服务于预测任务(如Glenberg, 1997 所述),但真正的记忆效应是由读出机制和记忆的结合构成的。我们采取这种将记忆和计算组件分离的思路,并且,我们无需通过递归组件传播梯度,作为 “观察者” 的任务仅仅是执行映射。
储层计算的一个关键见解是,记忆单元在拓扑上与读出层的梯度学习过程是独立的,不挂钩的;读出层是分配给从状态到动作(标签或数值)进行功能映射的网络。我们从储层计算中汲取这一核心思想,并在 “Maelstrom” 范式中将其扩展到一个更大的理论结构,而不受储层计算的限制。
【Reservoir Computing 简介:http://jujuba.me/posts/reservoir_computing.html
An overview of reservoir computing: theory, applications and implementations】
4. Maelstrom 网络
为了解决序列记忆问题,并赋予神经网络相应的能力,我们在此提出了 Maelstrom 网络。我们从控制理论中借鉴了状态空间模型的概念,该模型包含一个记忆状态、输入函数和输出函数。从储层计算中,我们吸取了一个重要思想,即时间记忆必须在学习过程中从读出机制上拓扑独立(通过梯度进行学习)。同时,我们使用前馈网络来实现其优势功能:映射输入到输出,而不是学习如何在记忆中存储信息。
在图 4 中展示了该方法的概述。从实现的角度来看,输入和输出函数可以通过深度神经网络轻松参数化,这里为了视觉简洁采用了方块表示。赋予网络名称的关键元素是 Maelstrom,即一个循环连接的组件,可以实现为一个储层(但不局限于此)。它从输入函数(一个输入神经网络)接收输入,将此活动 “反弹(bouncing)” 处理后传递给输出函数。我们称之为 “传递给”,但实际上更类似于输出函数在 “读取” Maelstrom 的活动;可以将输出函数想象成观察 Maelstrom 中混沌活动的一双 “眼睛”。
由于网络未经训练且循环连接,它可能是一个混沌系统——一种旋涡(Maelstrom),这也正是 Maelstrom 名称的由来。输入的任务就是 “控制” 这场旋涡的活动,使其保持在可接受的范围内。
图 4:Maelstrom 网络范式。
箭头表示输入通过输入网络传递,即一个前馈神经网络,用于将输入模式映射到对 Maelstrom 的控制操作。然后将该控制信号传递到接口(interface),接口作为与 Maelstrom 之间通信的枢纽。接口将信号传递给 Maelstrom,这是一个循环连接的状态空间,负责收集并聚合来自控制器的操作。Maelstrom 保持并反弹先前输入的状态。由于 Maelstrom 是循环且未学习的(或从输出的梯度中独立分离),它呈现出混沌行为——控制这一活动的任务由输入网络承担。接口随后读取 Maelstrom 的状态,并将其传递给输出函数,输出函数随后生成输出。
对于神经网络方法,输入函数、输出函数和接口均为多层神经网络。关键在于,学习过程中,梯度无法在 Maelstrom 中流动;这意味着需要对网络进行详尽的展开以计算准确的梯度,这在生物学上极不可能实现。相比之下,Maelstrom 不需要展开,这也使其成为更具吸引力的生物模型,既能够解释连接的随机性,同时也能保留计算能力。
黑色线条表示允许误差反向传播并触发学习的连接,红色线条表示不允许误差反向传播的连接。此外,接口组件之间允许 “跳跃” 连接(虚线)以辅助梯度传播。
同样重要的是,Maelstrom 对输入函数具有 “自上而下” 的反馈,这使前馈输入函数能够对其自身活动进行控制闭环。这种在 Maelstrom 上 “闭环” 的操作,在 Maelstrom 与整个网络结构之间建立了一个元循环(meta-loop)。这种反馈连接在灵长类皮层中无处不在(Zagha, 2020),正是这个反馈回输入的循环(加上 Maelstrom 内部的循环),创造了我们感知到的连续自我(self)状态。加入该循环旨在首次将这种 “自我 ”感知赋予深度学习。
外界的刺激首先通过输入函数传递,该输入函数由深度前馈网络参数化。这正是神经网络擅长的功能映射;输入网络的任务是映射。然后活动从输入控制器传递到接口(另一个神经网络),它可以选择性地绕过 Maelstrom作为 跳跃连接(见图 4 虚线)。关键要素在于梯度不会流经 Maelstrom ——它仅从周围的神经网络中累积活动。并且,输出函数将 Maelstrom 视作输入,因为 Maelstrom 无法访问输出的梯度。这类似于 (Buzsáki, 2010) 中总结的 “神经集合读出机制” 的概念。Maelstrom 累积了激活记忆,该记忆也可以由输入神经网络引导,因为这些权重也是学习得来的。Maelstrom 这一术语表示这种记忆是一个从外部可见但无法访问其内部的混沌活动旋涡。需要强调的是,这并不强制要求具体的架构设置,而是规定了一类通用架构,只需遵循这种梯度流动的基本设置即可。对于 Maelstrom 网络而言,关键特征在于一个独立的记忆组件,其中梯度无法流通,但为输出函数提供了输入访问。这与 Rosenblatt 在神经系统拓扑结构方面的早期工作有着高度相似性,如图 3 所示。
图 3:1961 年 Frank Rosenblatt 提出的神经系统拓扑组织结构,摘自 Rosenblatt(1961)。
这与 Maelstrom 范式高度相似:感觉通路和记忆对应输入功能,运动通路对应输出功能,而整合网络即为 Maelstrom。
唯一的不同点,也是我们认为 Rosenblatt 的理论中所缺少的,便是序列记忆的概念。Maelstrom 可以看作是 Rosenblatt 思想的实现,与深度学习以及状态和序列记忆的概念相结合。
Maelstrom 网络的唯一要求是输入和输出的结构,以及反馈到输入网络的输入的循环连接的Maelstrom。如何实现这些功能由用户决定,但显然,深度前馈神经网络非常适合作为输入和输出函数,而循环网络在一定程度上适合作为 Maelstrom。其复杂程度以及梯度如何在 Maelstrom 周围传递,仍然是一个开放的研究领域。从哲学上讲,我们可以将细胞集合作为解决序列记忆问题的方式,视为在主体的内部模型中 “镜像” 外部世界的活动。
我们认为,Maelstrom 的最佳实现应当基于那些已证明大脑确实表现出近乎混沌特性的研究成果;输出函数能够将混沌网络状态映射到行动的能力,是深度学习为我们带来的关键能力,通过这些参数化实现该功能。
与控制理论的关系。
该网络结构与控制理论中的两个经典结果有很大相似性。连接设置非常类似于状态空间模型(SSM),其中输入函数对应于 B 矩阵,Maelstrom 表示状态变量 x,而输出函数 r 对应输出矩阵 C。Maelstrom 网络可以被视为非线性状态空间模型的一种情况。
在此结构中,输入和输出网络通过 MIT 学习规则(Mareels等,1987)进行训练,系统通过 Maelstrom 中的样本(其自身无法控制的部分)来实现控制,并使用梯度下降逐渐降低其误差。Maelstrom 设置的一种理解方式是将 MIT 学习规则、循环更新的状态向量和深度神经网络相结合。
与储层计算的关系。
由于 Maelstrom 的理念源于储层计算(Evanusa等,2022),自然地,两者有紧密关联。在(Evanusa等,2022;2023)中,引入了 “部分 Maelstrom 网络” 概念,其中包括了 Maelstrom(循环成分)和用于任务的读出(或输出网络)。然而,这一结构中缺少了感知皮层这一成分。有了输入网络的连接,网络在其开发阶段才算 “完整”。然而,这并不意味着一个简单的随机连接的储层是唯一可能的 Maelstrom——这种设置是为了简化和概念验证。但在我们提出的方案中,我们设想任何复杂的循环连接状态机均可作为 Maelstrom,前提是它在拓扑上与读出机制分离。
5. Maelstrom 网络的优势
由于 Maelstrom 网络范式受到储层计算的启发,并可视作其演化版,因此继承了许多相同的优势。同时,它结合了深度学习,以储层计算未涉及的方式引入了新的优点。
为理论和系统神经科学提供模型
Maelstrom 范式的灵感来自对大脑的逆向工程,因此可以在该模型和大脑功能之间建立一种“双向”通道,即大脑研究可启发人工智能研究,人工智能研究也能反过来为神经科学提供见解。图 5 展示了我们对大脑交互的总体看法,以及如何将其映射到 Maelstrom 范式。Maelstrom 网络的每个模块均对应于大脑的单个区域或一组区域。这种大脑的模块化结构在 (Hadsell等,2020) 中也有体现,对于执行复杂任务而言至关重要,且不会像在时间数据上应用 I.I.D 假设训练网络时那样覆盖权重。我们的目标是创造一个既推动人工智能领域,又推动神经科学领域发展的系统。此外,我们提出,通过在不同尺度上的多层次循环(即 Maelstrom 内部的循环,以及从 Maelstrom 到控制器的反馈循环),可以形成智能体现象上感知的连续自我感。这可能将系统神经科学的结构与意识概念联系起来。
图 5:Maelstrom 范式与人脑功能模块的关系
Maelstrom 范式的主要目标之一是在推动人工智能发展的同时,增进对人脑的理解;这是人工智能研究的理想目标。外界刺激通过感觉皮层进入大脑,如视觉皮层和听觉皮层。这些皮层包含自上而下的反馈控制(Maelstrom 中表现为 Maelstrom 对输入控制器的反馈),但在功能上被视为前馈结构(即,梯度不会循环传递)。这些感觉皮层对应 Maelstrom 的输入网络。这些特征随后被传递到执行模块,这一模块在神经科学中位置尚未确定,但我们认为它可能位于控制、接收并调节多个区域的枢纽区域。在 Maelstrom 范式中,执行功能融入了输入控制网络中,但我们设想未来的工作将开发出独立于感觉网络的执行模块。然后,该网络将数据传送至 Maelstrom,在那里它以 “旋涡” 般的混沌活动循环往复;我们认为这对应于前额叶皮层和海马体的混合结构。
未来的工作还包括 Maelstrom 中记忆的巩固或记忆特征的学习,目前在较简化的迭代版本中,这一部分完全未经训练。最后,输出通过执行模块(无论是基底神经节的学习动作、明确控制还是反射),传递至小脑,小脑在此处学习将这些动作映射到运动行为的正确权重。Maelstrom 到控制器的正反馈控制在 Maelstrom 网络中通过 Maelstrom 到输入网络的反馈连接表示,这在系统内部的循环之上创造了一个更大的元循环,并有助于系统 “自我” 现象的形成。
体现具身(Embodied)记忆的概念
显然,虽然计算机的记忆依赖于抽象的存储功能,但大脑中的记忆很可能是为特定目标而进化的,即保障智能体的生存。这意味着记忆服务于具身性,而不仅仅是一个可以存储任意信息的抽象容器,如 Glenberg(1997)所论述的那样。在 Maelstrom 范式中,这种具身记忆的概念体现在记忆与接口的结合上。Maelstrom 的记忆本身是一串无意义的信息,只有在特定的读出层下才具有意义——读出层将信息映射到特定的预测或任务中。这是对活动意义问题的一种可能解决方案——虽然活动本身可能是无意义的,但由于与特定读出层的联系,它被赋予了具身意义。这一观点也体现在Buzsáki(2010)的神经集成理论中。
支持强大的前馈网络训练并结合记忆
显而易见,前馈神经网络在使用反向传播时效果最佳,正如 Transformers(Vaswani等,2017)完全超越了循环神经网络在顺序处理中的作用,尽管原始的 Transformers 本身并不具备记忆(参见Dai等,2019,提供了带缓存记忆的版本)。虽然 Maelstrom 确实去除了对远程序列元素的关注能力,但这是处理实时序列时必须发生的事情,正如下面所述——唯一能够关注每个过去元素的权重的方式是让网络访问过去的元素,这反过来会将模型简化为 Transformer。事实上,将递归记忆与注意力结合的做法早于 Transformers 本身,正如(Chorowski等,2015)所示,而 Transformer 的主要创新实际上只是去除了 LSTM(Hochreiter & Schmidhuber,1997)组件(因此才有了标题中的 “All you need”),并添加了多头特性。在这种情况下,就像在 Chorowski 等(2015)中一样,读取的注意力机制仍然需要访问整个序列的长度,即使它具有记忆,因为读取注意力机制的限制,以及它必须通过 LSTM 传递梯度以学习权重。Maelstrom 范式同样允许在学习或关注 Maelstrom 时进行扩展——它的要求仅仅是梯度不能回传通过它。自然地,添加记忆意味着以某种方式将过去的信息聚合成紧凑的潜在表示,这一过程中不可避免地会丢失信息。Maelstrom 网络作为一种通用原则,也意味着系统中有空间可以加入新的元素。例如,为了启用更多的联想记忆,Maelstrom 可以使用自组织映射(Kohonen,1990)程序进行训练,从而聚合相似的表示。
轻松融入现有的前馈网络结构
近期的研究(如Hutchins等,2022;Wu等,2020)已经开始探讨使用缓存的记忆表示来减轻 Transformers 在处理长序列时的计算负担。然而,这些架构需要高度特定的结构来融入记忆,而一些架构高度针对语言模型,而不是通用的时序数据。与此相反,Maelstrom 范式不要求对记忆的外观有严格的指导。关键的洞察是,通过 maelstrom 传递的记忆表示被输入到读取输出中,这样对读取输出而言,它看起来就像是输入的刺激。这反映了 Friston 等(2016)提到的一个嵌套的层级视角;即对网络的子区域而言,进入的输入看起来与输入层的刺激是相同的。我们认为,这种通用范式适用于所有的时序数据。
允许实时学习和推断时序数据
Transformers 的一个主要优点是通过前馈网络的学习能力,但这也是它们最大的弱点之一,因为它们必须处理整个序列的长度才能进行序列处理。虽然可以训练一个 Transformer 来以前馈方式映射所有可能的子序列,但随着子序列数量随着序列数的平方增长,这很快变得在计算上不可行。
然而,加入 Maelstrom 后,它完全不依赖梯度学习,使得学习序列的问题转变为一个控制问题,在每个时间步长,输入仅仅是当前记忆状态向量的前馈学习,以及它的映射到预测。这意味着不再需要整个序列的长度,从而意味着序列可以以在线方式进行学习,并且推断也可以以在线方式进行。这对于任何需要在现实世界中实时运行的神经网络应用场景至关重要——按照大多数标准,这将包括大多数现实世界的应用。
允许神经形态硬件实现
最后,由于 maelstrom 不要求梯度通过递归组件反向传播,它非常适合于较新的神经形态和生物启发的硬件实现,如 Intel Loihi(Evanusa等,2019)、Memristor 技术(Thomas,2013),甚至 FPGA 实现。这些技术摒弃了传统的 CPU 芯片处理器,而是仅通过建模神经元激活来工作。这种减少芯片功能的做法严重限制了它能够做的处理(对于常规计算机程序),但在运行神经网络时却能大幅提升使用场景的效率。特别是 memristor 和 Loihi 芯片具有专用硬件,执行反向传播通过时间(BPTT)或其他复杂的时序操作非常困难;然而,运行一个 maelstrom,既不需要内部更新,又能作为一个自主的动态系统运行,就变得更加可行。Maelstrom 与前馈组件的分离意味着前馈组件可以在 GPU 硬件中单独实现,并在需要时从神经形态的 Maelstrom 中读取数据。这将充分利用神经形态硬件的节能能力(因为递归组件在 BPTT 中计算开销大),而在当前深度学习的能源消耗已经变得不可持续的时代,这种做法尤为重要。
允许在线或持续学习
由于序列记忆被封装在 maelstrom 中,并且与梯度学习过程脱钩,这使得未来的实现能够处理持续学习问题。持续学习问题被定义为神经网络在继续进行测试推断的同时,能够无限期地训练。这对于当前的深度学习网络来说是不可能的,因为来自新样本的梯度会完全覆盖旧的权重,而不考虑它们的重要性。例如,一个网络在五个图像类别上训练,但随后继续在 5 个新类别上训练,而没有访问旧的类别,那么它会完全遗忘最初的数据。Hadsell 等(2020)提出,模块化架构(例如 Maelstrom 范式)可以通过将梯度与记忆解耦,并且去除当前设置下的 I.I.D 假设,从而帮助解决持续学习问题。解耦的 Maelstrom 将允许网络在序列中不对某个任务过拟合,同时也不会覆盖后续的序列元素。
6. 结论
在本文中,我们提出了 Maelstrom 网络,一种新型的模块化神经网络架构,它将表示前额皮层和海马体的序列记忆与两个前馈网络控制记忆的梯度传递解耦。输入网络作为系统的感觉皮层,输入正确的特征,同时保持 maelstrom 的平衡,而读取输出从 maelstrom 中提取,并将其应用于动作或任务,类似于运动皮层。我们认为,这项工作是 1960 年代早期工作的自然进化,这些早期工作提出了神经系统的大型模块化结构,但忽略了序列记忆这一关键问题。我们将这项工作与控制理论联系起来,并指出 maelstrom 是一个非线性状态空间模型,通过 MIT 控制规则进行训练;这也将大脑与控制概念相联系,因为我们将大脑的每个区域映射到 maelstrom 的组成部分。我们希望这项工作能够帮助迎来一个新的神经网络时代,专注于序列记忆,不仅仅作为提高性能的工程技巧,而是作为网络的基本属性。
论文地址:https://arxiv.org/abs/2408.16632
进 Q 交流群:922230617 或加 VX:CV_EDPJ 进 V 交流群
加 VX 群请备注学校 / 单位 + 研究方向
CV 进计算机视觉群
KAN 进 KAN 群