A Radically New Theory of how the Brain Represents and Computes with Probabilities
一种彻底新的理论,关于大脑如何表示和计算概率
https://arxiv.org/abs/1701.07879
摘要
大脑被认为能够执行概率推理,并通过群体或分布式编码来表示信息。大多数先前的概率群体编码(PPC)理论都具有以下基本特性:1)连续值单元;2)完全/密集分布式编码;3)分级突触;4)速率编码;5)单元具有固有的单峰调谐函数(TF);6)单元本身具有较高的固有噪声;7)通常认为噪声/相关性是有害的。我们提出了一种截然不同的理论,该理论假设:1)二进制单元;2)只有一小部分单元(即稀疏分布式表示,SDR,又称细胞集群、集合)构成任何单个编码;3)功能二进制突触;4)正式的信号传递仅需要单个(即第一个)尖峰;5)单元最初具有完全平坦的调谐函数(所有权重为零);6)单元的固有噪声远低于传统认知;相反,7)噪声是一种资源,其产生/使用是为了使相似的输入映射到相似的编码上,从而在存储能力和将输入空间统计信息嵌入到存储编码的交叉模式之间做出权衡,从而附带地决定神经元之间的相关性模式。Sparsey理论是在20多年前提出的,作为实现高效时空模式学习/识别的典型皮层电路/算法模型,但当时并未详细阐述其作为PPC类型理论的替代方案。在这里,我们展示了:a)活动的SDR同时表示最相似/可能的输入以及所有存储输入(假设)上的整个(粗略排序的)相似度/可能性分布;b)给定一个输入,Sparsey的代码选择算法(这是学习和推理的基础)会更新最可能的假设和整个可能性分布(与信念更新相比),且随着存储项目数量的增加,其步骤数量保持不变。
关键词 稀疏分布式表示,概率群体编码,细胞集群,序列学习与识别,神经噪声,典型皮层电路/算法
1 引言
人们普遍认为,大脑必须实现某种形式的概率推理,以应对现实世界中的不确定性(Pouget, Beck等人, 2013)。然而,大脑究竟如何表示概率/可能性,目前仍不得而知(Ma和Jazayeri, 2014;Pitkow和Angelaki, 2016)。同样被广泛接受的是,大脑以某种形式的分布式编码(又称群体编码、细胞集群编码或集合编码)来表示信息[参见(Barth和Poulet, 2012)的相关综述]。近几十年来,已经提出了几种基于群体的概率编码理论(PPC),其中包括将群体(即群体编码)中所有神经元的状态视为表示以下内容的理论:a)最可能/可能的单个输入值/特征(Georgopoulos, Kalaska等人, 1982);或b)特征上的整个概率/可能性分布(Zemel, Dayan等人, 1998;Pouget, Dayan等人, 2000, 2003;Jazayeri和Movshon, 2006;Ma, Beck等人, 2006;Boerlin和Denève, 2011)。尽管这些理论存在差异,但它们具有一些基本属性,其中(Boerlin和Denève, 2011)提出的基于尖峰的模型是一个显著的例外。
神经激活是连续的(分级的)。
编码域中的所有神经元在形式上都会参与活动编码,无论其表示的是单个假设还是所有假设上的分布。这种表示被称为完全分布式表示。
突触强度是连续的(分级的)。
这些理论通常是根据速率编码(Sanger, 2003)制定的,需要显著的时间(例如,数十毫秒的量级)来进行可靠的解码。
它们事先假设神经元的调谐函数(TF)是单峰的,在任何一维上都是钟形的,因此没有解释这样的TF如何通过学习而发展。
假设单个神经元本身是嘈杂的,例如,以泊松变异性发放。
主要将噪声和相关性视为必须处理的问题,例如,通过平均来减少噪声相关性。
从更深层次上看,显然,尽管这些理论被表述为群体模型,但它们实际上是基于一种潜在的局部主义解释,特别是,单个神经元的发放率可以被视为其感受野中存在单个优选特征(或特征的优选值)的概率的可能嘈杂估计(Barlow, 1972)。虽然这些模型涉及某种结合单个神经元输出的方法,例如平均,但每个神经元都被视为提供其自己的、即局部的输入特征估计,即每个神经元都具有自己的独立(通常是钟形的)TF。例如,在(Jazayeri和Movshon, 2006)的图1中可以非常清楚地看到这一点,其中第一层细胞(感觉神经元)是单峰的,因此可以被视为检测其模式(优选刺激)处的值,而池化细胞也与方向存在一一对应关系。这种潜在的局部主义解释也存在于上述其他PPC模型中。
然而,有几个强有力的论点反对这种基于局部主义的概念。从实验角度来看,越来越多的研究表明,单个细胞的调谐函数(TF)远比传统观念认为的更为异质(Yen, Baker等人, 2007;Cox和DiCarlo, 2008;Smith和Häusser, 2010;Bonin, Histed等人, 2011;Mante, Sussillo等人, 2013;Nandy, Sharpee等人, 2013;Nandy, Mitchell等人, 2016),这也被描述为具有“混合选择性”(Fusi, Miller等人, 2016)。而且,对TF异质性的建模越精确,就越少需要将神经元响应的变化归因于噪声,这导致一些人质疑传统上将单个神经元的输入输出函数视为不变的TF加上噪声的概念是否恰当(Deneve和Chalk, 2016)。从形式角度来看,早就指出,在由N个单元组成的局部主义编码域中,能够存储的特征/概念(例如,定向边缘、运动方向)的最大数量是N。更重要的是,正如我们自己的工作所示,与局部主义记忆相比,使用稀疏分布式表示(SDR)表示的项目在存储和检索特征/概念的计算时间效率上要高得多(Rinkus, 1996, 2010, 2014)。
本文所述的Sparsey理论是一种全新的表示和计算概率的方法,在许多基本方面与大多数现有的PPC理论不同,包括:
组成编码域的神经元只需是二元的。
单个表示的项目/假设由固定大小、稀疏选择的神经元子集表示,即稀疏分布式表示(SDR)(Rinkus, 1996, 2014)。
下游计算解码(读出)最可能的假设和整个分布,仅需要二元突触。
信号可以通过同时到达的第一波尖峰(例如,在几毫秒的时间窗口内,可能由局部γ波组织)从传入SDR代码传递到下游计算(包括递归到源编码域)进行通信,因此在原则上,比速率编码快1-2个数量级。这意味着Sparsey在形式上不是尖峰模型。
组成该域的所有神经元传入突触的初始权重均为零,即TF完全平坦。在提供选择SDR的过程保持相似性(Sparsey的学习算法确实如此)的情况下,大致单峰的TF[如通过低复杂度探针(例如,跨越细胞感受野的定向条)揭示]作为模型在叠加中放置SDR的单次/少数试验学习过程的副作用而出现。
神经元的固有噪声远比传统上认为的要小。大多数观察到的噪声可能是由于实验限制,即无法真正严格控制输入条件。在算法或信息承载层面,在任何给定的计算周期中,单个神经元只是开或关。我们不使用精确的尖峰时间,但假设某些元电路在下游解码域接收到达的小时间窗口内,从SDR编码域组织(时间上收集)大量突触信号的传输。我们的工作假设是,这是局部γ循环的目的(Fries, 2009;Buzsáki, 2010;Igarashi, Lu等人, 2014;Watrous, Fell等人, 2015)。
虽然神经元的固有噪声比假设的要小,但典型的中间尺度(即细胞集群尺度)电路确实明确地将噪声作为资源使用。也就是说,噪声(可能由神经调节剂介导,例如去甲肾上腺素NE、乙酰胆碱ACh)被明确生成并注入到代码选择过程中,以实现特定的编码目标。该目标是使响应输入而被激活的SDR代码随着新颖性的增加而变得越来越随机,即最小化激活代码与所有先前存储代码的交集。更一般地说,目标是使存储在编码域中的代码总体集具有这样的属性:相似输入映射到相似代码(“SISC”),其中SDR代码的相似性度量是交集的大小。这将对下面描述的相关性产生直接影响。
SDR允许使用与局部主义或完全分布式表示完全不同的概念来表示和计算概率。与局部主义中单个神经元的状态表示输入/特征X不同,也与完全分布式编码中(例如,在多层感知器模型的隐藏层中)由组成编码域的所有神经元上的实数值向量表示X不同,在SDR中,X由神经元子集表示,特别是整个编码域的一个小子集,我们称之为X的代码。参与代码的所有神经元都完全活跃(在二元意义上),而编码域中其余神经元则完全关闭,这与(Osborne, Palmer等人, 2008)中描述和分析的组合编码框架高度一致。因此:
A. SDR(稀疏分布式表示)编码字段的感受野(RF)中存在X的确定性或可能性的不同程度,可以通过X的代码中被激活的不同比例来表示(见图2)。
B. 元素X的概率向目标(下游或后续)计算(即解码)的传递,可以通过参与这些目标计算的神经元简单地将它们从X活跃所在的(源)字段接收到的二进制突触输入相加来实现。
因此,表示和使用梯度值(如概率)仅需要二进制神经元和二进制突触。在系统/计算的任何位置都不需要梯度值的显式局部主义表示。更具体地说,不需要以发放率(也不需要在某个时间窗口内的精确发放时间)的形式局部主义地表示概率/似然度,也不需要通过连续/梯度权重来表示条件概率或关联强度。
此外,尽管神经元主要通过发放脉冲进行交流,但将从一个活跃的SDR编码发送的信号视为一个目标字段同时收到的首批脉冲的向量,基本上消除了需要以假设具有(通常是泊松)固有噪声的“脉冲发放模型”来处理信号的需求。相反,我们的方法更像是一个根据离散时钟(我们假设其基本周期是伽马周期)运行的算法。因此,我们的方法并不假设存在需要处理的固有噪声,而是如我们将描述的那样,通过操纵神经元的传递函数(特别是其非线性)来注入与状态相关的噪声量,以实现下文讨论的某些编码目标。这突显了Sparsey的一个显著特征。
主要细胞的非线性不是静态的,这与大多数模型不同,而是高度动态的:具体而言,构成编码字段的所有主要细胞的非线性都以相关的方式并在快速的时间尺度(例如,约10毫秒)上被集体调制,作为编码字段总输入熟悉度(新奇度的倒数)的全局度量的函数。
SDR的独特属性在于,所表示的项目/特征的相似性可以通过其代码的交集大小(即SISC)来表示,这一点在过去已被指出(Palm、Schwenker等,1995;Rinkus,1996;Rachkovskij和Kussul,2001;Kanerva,2009)。然而,(Rinkus,2012)中提出了以下可能性:
a) 将特征SDR代码中活跃的部分解释为该特征的概率/似然度(假设);
b) 将在SDR编码字段中活跃的代码(无论是先前存储的代码的重新激活还是新的代码,尽管它通常可能与许多先前存储的代码重叠)解释为字段中存储的所有代码(因此也是所有表示的输入/特征)上的分布。
涉及连续度量(例如欧几里得距离)的相似性保留也已为完全分布式编码模型所建立,例如(Bogacz,2007)。然而,据我们所知,此类代码尚未被解释为同时表示最可能的假设和整个分布。无论如何,如上所述,在这些模型中,下游计算的解码需要梯度突触或发放率编码。
上面我们提到的是“SDR编码字段的感受野”,而不是单个神经元的感受野。
这是因为我们要求SDR编码字段中的所有神经元在第一次近似时具有相同的感受野,以便断言该字段中的代码表示存在于感受野中的特征。这个约束可以在一定程度上放宽,但它有助于初步的阐述和分析。无论如何,这个约束实际上进一步强调了Sparsey与之前的PPC理论之间的巨大鸿沟,因为后者由于其潜在的局部主义观念,甚至不需要这样的近似约束。Sparsey体现了神经科学的一个新范式,其中集合(SDR,细胞集合)而不是单个神经元被视为基本功能单位,即远离了例如(Yuste,2015;Fusi、Miller等,2016;Schneidman,2016)所倡导的“神经元学说”。我们期望随着允许观察大量(例如,超柱/桶状大小)体积内所有神经元活动的方法([最近的综述:Hamel、Grewe等,2015;Jercog、Rogerson等,2016])的快速发展以及时间精度的不断提高,我们关于连接性的假设以及核心算法所暗示的动力学问题将得到解决。
在结果部分,我们给出了两个基于模拟的示例,展示了Sparsey核心算法——代码选择算法(CSA)(Rinkus,1996,2004,2005,2008,2010,2013,2014)——的机制细节,该算法不仅激活了与最佳匹配或最可能的输入相对应的代码,还以粗略排序的保真度激活了所有存储输入上的整个相似性/似然度分布。此外,CSA在存储输入数量增加时,其步骤数量保持不变,我们称之为固定时间复杂度。第一个示例展示了纯空间输入的情况。第二个示例表明,当编码字段是递归连接时,整个分布会从时间T更新到T+1[这可以视为信念更新(Pearl,1988)],这与域的统计信息一致,并且同样是在固定时间内完成的。此外,如之前所述(Rinkus,2010,2014),CSA还可以在固定时间内存储或学习新的空间或时空输入。事实上,Sparsey/CSA可以被视为一种自适应哈希方法,它从数据中学习局部敏感(即相似性保留)的哈希函数(可以是空间或时空数据)。虽然其他受神经启发的哈希模型具有固定时间的最佳匹配检索(Salakhutdinov和Hinton,2007,2009;Grauman和Fergus,2013),但它们并不具备固定时间学习能力。事实上,在最近的一篇综述(Wang、Liu等,2016)中描述的所有当前最先进的哈希模型中,没有一个同时具备固定时间学习和固定时间最佳匹配检索的能力。虽然这类时间复杂度考虑在概率群体编码文献中通常没有讨论过,但对于评估生物认知模型的整体合理性至关重要,因为虽然大脑进行概率计算这一点无可争议,但我们还需要解释这些在可能非常大的假设空间上进行的计算是如何以极快的速度完成的。
Sparsey之所以在学习和最佳匹配检索方面都能实现固定时间性能,一个至关重要的原因是它采用了独特且简单的方法来计算输入的全局熟悉度G,并利用该熟悉度来控制为该输入选择代码。这里的“全局”意味着G是构成编码字段的所有细胞的函数,与局部熟悉度Vi形成对比,Vi是细胞i对输入的匹配程度的局部测量(仅取决于其突触输入)。至关重要的是,计算G不需要将新输入与每个存储的输入进行显式比较(也不像基于树的方法那样需要对数数量的存储输入进行比较)。相反,G的计算的时间复杂度主要由对字段的固定数量的传入权重进行一次遍历所决定,它以算法并行的方式隐式地同时执行这些比较。“算法并行性”意味着单个原子操作会影响多个表示(存储)的项目。因此,从操作角度来看,“算法并行性”与“分布式表示”非常接近,甚至可以说二者是等同的:没有一方,另一方就不存在。我们强调,算法并行性和机器并行性是两种正交资源,并且完全兼容。
表1给出了CSA(细胞集合算法)的简化版本,这对于本文的示例来说已经足够,但我们在此简要概述一下。CSA步骤1计算构成编码字段的所有Q×K细胞的输入和。具体来说,对于每个细胞,都会为其主要传入突触投射(例如,自下而上(U)、水平(H)和自上而下(D)投射)分别计算一个和,后两者为编码字段提供递归。这是需要对字段的传入权重进行一次遍历的步骤。在步骤2中,对这些和进行归一化,在步骤3中,(可选地进行非线性变换后)将这些归一化和相乘,得到V值。在步骤4和5中,G被计算为Q个细胞模块(CM)中V的最大值的平均值。在剩余的CSA步骤中,在每个CM中,使用G将K个细胞上的V分布非线性地转换为最终的ρ分布,并从中选择一个获胜者。G对分布的影响可以概括如下:
a) 当检测到高全局熟悉度(G≈1)时,这些分布会被夸大,以偏向选择具有高输入和(因此具有高局部熟悉度Vi)的细胞,这会增加相关性。
b) 当检测到低全局熟悉度(G≈0)时,这些分布会被拉平,以减少由于局部熟悉度而产生的偏差,这会增加所选代码与先前存储代码之间的预期汉明距离,即降低相关性。
由于V值代表信号,因此在CM中夸大V分布会增加信号,而拉平V分布则会增加噪声。上述行为(及其在G=1到G=0范围内的平滑插值)是Sparsey实现稀疏独立同分布编码(SISC)的手段。而且,正是在学习过程中(统计上)强制执行SISC,才最终使得能够立即(固定时间复杂度)检索到最佳匹配(或最可能、最相关)的假设,并同时(通过算法并行性而非机器并行性)用每个新输入对所有存储的假设进行固定时间更新。
1.1 噪声和相关性的新解释
近年来,关于皮质活动中相关性和噪声的性质、原因和用途的讨论很多;有关综述可参见(Cohen and Kohn 2011, Kohn, Coen-Cagli et al. 2016, Schneidman 2016)。大多数关于神经相关性和噪声的研究,尤其是在后顶叶皮层(PPC)理论背景下,都先验地假设:a)神经元从根本上具有噪声,例如泊松发放;b)具有某种一般形式的调谐函数(TF),例如单峰、钟形,然后描述噪声/相关性如何影响具有此类TF的群体编码准确性(Abbott and Dayan 1999, Moreno-Bote, Beck et al. 2014, Franke, Fiscella et al. 2016, Rosenbaum, Smith et al. 2017)。具体来说,这些处理方法通过平均发放率(“信号相关性”)或发放本身(“噪声相关性”)来衡量相关性。然而,如上所述,我们的理论没有做出上述任何假设。相反,在我们的理论中,噪声(随机性)是在学习过程中通过G依赖的神经元传递函数调制主动注入的,以实现上述目标。因此,单元(神经元)之间的相关性模式只是细胞被选择参与编码的副作用。学习过程的总体目标是简单地强制执行SISC。然而,在SDR编码字段的背景下强制执行SISC实现了以下平衡:
a) 最大化编码字段的存储容量,以及
b) 将输入空间的相似性结构嵌入到存储的代码集中,这反过来又使得能够实现固定时间最佳匹配检索。
有趣的是,在探索从信息论转向编码论对理论神经科学的影响时,(Curto, Itskov et al. 2013)也指出了这种权衡,尽管他们的处理使用的是错误率(编码准确性)而不是存储容量。我们指出,了解神经相关性如何最终影响存储容量等事物在很大程度上仍然是未知的,并且是一个活跃的研究领域(Latham 2017)。我们的方法意味着一个直接的答案。最小化相关性,即最大化存储在SDR编码字段中的代码集上的平均汉明距离,可以最大化存储容量。编码字段的细胞对的任何相关性、三元组或任何阶数的子集的相关性增加都会降低容量。
2 结果
2.1单个稀疏分布表示(SDR)代码代表一个完整的相似度/概率/似然分布:
概念介绍
图1a展示了Sparsey特有的SDR格式。编码域由Q个胜者为王(WTA)竞争模块(CM)组成,每个模块包含K个二进制神经元。在此例中,Q=7且K=7。因此,所有代码恰好有Q个活跃神经元,共有KQ种可能的代码。我们假设二进制神经元(六边形)的输入域(例如,表示8x8像素的视觉区域)与编码域(蓝色线条代表权重)完全连接,即上述“SDR编码域的接受域”。所有权重最初均为零。图1b展示了一个特定的输入A,该输入已与特定代码φ(A)相关联;此处,蓝色线条表示权重束(参见“突触集合”,Buzsáki 2010),这些权重将从0增加到1以存储这种关联(记忆痕迹)。
图2展示了在我们的基于稀疏分布表示(SDR)的理论中,编码域接受域(RF)中特征的存在强度,即(后验)概率是如何表示的。该图展示了五个已学习的假设输入A-E,即它们已与代码φ(A) - φ(E)相关联。我们手动选择了这些特定代码,以符合相似输入应映射到相似代码(SISC)的原则。也就是说,输入B到E与A的重叠程度逐渐减小,因此代码φ(B)到φ(E)与φ(A)的交集也逐渐减小。已证明,对于空间和时空(顺序)输入域,共激活相似性(CSA)在统计上能够强制实施SISC(Rinkus 1996, Rinkus 2008, Rinkus 2010, Rinkus 2013, Rinkus 2014)。
对于输入空间,如果假设输入相似性与概率/似然相关是合理的,那么单个活跃代码也可以被视为所有存储代码上的概率/似然分布。这如图的下半部分所示。图2底部最左侧的面板显示,当φ(A)完全活跃时,其他代码以反映其对应输入与A的相似性的比例部分活跃,从而反映了它们所代表的输入的概率/似然。其余四个面板显示了输入相似性(概率/似然)与代码重叠程度的大致相关性。
图2中的示例是为了说明一个期望的属性,即每当任何一个假设完全活跃时,所有存储假设的相似度(以及因此的似然度)都会同时物理上活跃。下一节将证明,对于纯空间输入,共激活相似性(CSA)具有这一属性,而接下来的部分将针对时空情况进行证明。表1展示了代码选择算法(CSA)的简化版本,其中包含了进行这些演示所需的最少步骤。具体来说,与(Rinkus 2014)相比,简化之处包括:a)我们使用的模型只有一个内部层级,因此没有D信号;b)所有空间输入都恰好有12个活跃像素,因此U规范化器可以是常数,πU=12;c)内部层级由一个单一的编码域(mac)组成,因此H规范化器也可以是常数,(注意这里的πH表达式可能是一个示例,具体数值取决于Q的定义和算法的具体实现)。
2.2 单个SDR代码表示整个概率/似然分布:空间案例
图3a显示了六个输入,(为了解释简便,它们是互不重叠的),这些输入之前已存储在图3b所示的模型实例中。该模型有一个12x12的二进制像素输入层,它完全连接到组成mac的所有单元。mac由Q=24个WTA CM单元组成,每个单元有K=8个二进制单元。图3a的第二行显示了一个新颖的测试刺激,,以及它与I1到I6的不同重叠(黄色像素)。鉴于所有输入都被限制恰好有12个活跃像素,我们可以简单地将空间相似度,,测量为交集的大小除以12(显示在输入下方的小数):
图3b展示了响应于输入7I而激活的代码φ(I7),根据构造,7I与I1最为相似。黑色的编码单元也是为I1获胜的单元,红色表示在I1中未获胜但在φ(I7)中活跃的单元,绿色表示在I1中获胜但在φ(I7)中不活跃的单元。在给定竞争模块(CM)中,红色和绿色单元可以被视为替代错误。编码单元中红色的意图是,如果这是一个检索试验,模型被要求返回最接近的存储输入I1,那么红色单元可以被视为错误。但请注意,这些是子符号级别的错误,而不是整个输入(假设、符号)级别的错误,因为整个输入是由整个SDR代码共同表示的。在这个例子中,下游/解码单元中适当的阈值设置将允许模型整体在给定的I1的代码φ(I1)中有24个单元中的18个被激活的情况下返回正确答案,这与其他联想记忆模型中的阈值方案类似(Marr 1969, Willshaw, Buneman等1969)。但请注意,如果这是一个学习试验,那么红色单元则不会被视为错误:这只是将一个新的代码φ(I7)分配给表示一个新的输入7I,并且以尊重输入空间相似性的方式。
图3d展示了该图的第一条关键信息。代表六个存储输入I1到I6的代码φ(I1)到φ(I6)的活跃部分与这些输入与7I的像素级相似性高度等级相关。因此,图3d中的蓝色条表示,对于最佳匹配的存储输入I1的代码φ(I1),在φ(I7)中有最高比例的活跃代码,即φ(I1)的75%(24个中的18个,图3b中的黑色单元)是活跃的。对于下一个最接近的匹配存储输入I2的青色条表示,φ(I2)的24个单元中有12个(代码未显示)在φ(I7)中是活跃的。一般来说,这12个单元中的许多可能与φ(I1)和φ(I7)交集中的18个单元有共同之处。其他存储假设的情况也以此类推。(实际的代码φ(I1)到φ(I6)没有显示;只有与φ(I7)的交集大小很重要,这些在图3d的图表右侧边缘有指示。)我们注意到,即使对于与7I没有交集的I6的代码,也有两个单元与φ(I1)有共同之处。一般来说,在输入交集为零的情况下,预期的代码交集不是零,而是随机的,因为在那种情况下,每个竞争模块中的获胜者都是从均匀分布中选择的:因此,在那种情况下的预期交集只是Q/K。
如前所述,我们假设存储输入IX与当前输入的相似性可以作为IX的概率/似然的度量。并且,由于所有代码的大小都是Q,我们可以将代码交集大小除以Q,得到一个归一化到[0,1]的度量:
我们还假设在训练过程中各自恰好出现了一次,因此,关于假设的先验是平坦的。在这种情况下,后验和似然是相互成比例的,因此,图3d中的似然也可以被视为与六个存储代码相对应的假设的非归一化后验概率。
我们承认图3d中的可能性可能看起来较高。毕竟,与共同拥有的像素不到一半,等等。鉴于这些特定的输入模式,真的合理认为具有如此高的可能性吗?请记住,我们的例子假设这个模型对世界的唯一经验是所展示的六个输入的单个实例。我们假设没有任何关于生成输入的潜在统计结构的先验知识。因此,真正重要的是相对值,我们可以选择其他参数,特别是在CSA步骤6-8中,这将导致一个不那么扩展的sigmoid非线性,这将导致与学习到的代码的预期交集更少,因此可能性更低。主要观点是预期的代码交集与输入相似性相关,因此,与可能性相关。
图3c展示了第二个关键信息:图3d中显示的与可能性相关的激活水平模式(假设)是通过每个Q CM中的独立软最大选择实现的。图3c展示了所有196个mac单元中用于确定φ(I7)的相关变量的轨迹。由活动像素的原始输入求和表示为u。在本文中,所有权重实际上是二进制的,尽管“1”用127表示,“0”用0表示。因此,当呈现7 I时,任何单元中可能的最大u值为12x127=1524。这个例子中的模型还假设所有输入将恰好有12个活动像素(这可以放宽,但为了简单起见假设如此)。U是归一化的u值,如方程2所示,其中π U =12。我们这里假设λU =1,因此根据方程3,Vi=Ui。一个单元的V值代表了它应该被激活的总局部证据。然而,并不是简单地选择每个CM中的最大V单元作为胜者(即硬最大),这将相当于只执行CSA的步骤1-4,而是执行剩余的CSA步骤5-10,在这些步骤中,V分布如前所述被转换,并通过每个CM中的软最大选择胜者[最终胜者选择,从ρ分布中选择,显示在CM索引下方的三角形行中]。因此,一个非常便宜的计算(CSA步骤5)全局函数G,用于影响每个CM中的局部决策过程。我们再次强调,CSA的任何部分都不显式地操作,即不迭代存储的假设;实际上,没有显式(局部主义)的存储假设表示可以操作。
图4显示不同的输入产生不同的可能性分布,大致与相似性相关。输入I8(图4a)与I2的交集最高,与其他学习输入的交集模式也不同(参见图3a)。图4c显示,存储输入的代码根据它们与I8的相似性成比例地激活,即它们的可能性同时由它们的代码中活跃的部分的比例物理表示。在这种情况下,G值为0.65,通过CSA步骤6-8,产生了图4b中显示的V到μ的转换,该转换应用于所有CM。它的范围是[1,300],鉴于图4d中显示的特定V分布,每个CM中具有最大V的单元最终比其他低V单元更受青睐。红色框显示了CM 9的V分布。图4b的第二行横坐标给出了具有相应(红色)值的单元在CM内的索引(仅显示了三个单元)。因此,单元3的V=0.74,映射到大约μ ≈ 250,而其最接近的竞争对手,单元4和6(红色框中的灰色条)的V=0.19,映射到μ = 1。大多数其他CM中也存在类似的统计条件。然而,在其中的三个CM中,CMs 0、10和14,有两个单元并列最大V。在两个CM中,CMs 10和14,不在I2的代码φ(I2)中的单元获胜(红色三角形和条),在CM 0中,位于φ(I2)中的单元确实获胜(黑色三角形和条)。总的来说,I8的呈现激活了一个代码φ(I8),它与φ(I2)有21个单元中的24个单元相同,显示出对I2的高可能性估计。
为了完成空间输入案例的演示,图4e展示了另一个输入I9的呈现情况,其中I9的一半像素与I3相同,另一半与I6相同。图4g显示,I3和I6的编码都变得大约同样活跃(存在一定的统计差异),并且比其他任何编码都更活跃。因此,该模型表示这两个假设最有可能且可能性大致相等。尽管具体条形的高度在不同试验中会有所波动(例如,有时I3的可能性高于I6),但分布的总体形状保持不变。其余假设的可能性也与它们与I9的像素交集大致相关。通过比较图4d和图4h的V行,可以很容易地看出呈现I8和I9之间的定性差异。在图4h中,几乎所有竞争模块(CMs)都出现了V值并列最大的情况,这反映了I9与I3和I6的相似程度相当。在这些竞争模块中,大约一半获胜的单元与φ(I3)相交,另一半与φ(I6)相交。在图4h中,有三个竞争模块(CMs 1、7和12)中只有一个黑色条,这表明在这些竞争模块中,编码φ(I3)和φ(I6)是相交的。
2.3 单一稀疏分布式表示(SDR)代码表示整个概率分布:时空(序列)案例
本节的目标是展示在存储输入(在本例中为特定的时空瞬间)上的相似度/可能性分布随时间(逐帧)的更新情况,这种更新大致上与所经历输入的时空相似结构相符。图5(上排)显示了由两个4项序列S1=[ABCD]和S2=[EFGH]组成的训练集,其中项目是显示的12x12像素模式。图5(下排)显示了两个新的测试序列S3和S4,它们由构成训练序列的帧的相同版本或稍有扰动的版本构成。我们将详细介绍对S3和S4的测试,但首先以基线形式展示在图6和图7中对训练序列S1进行测试的详细情况。
训练序列是手工制作的,用于在视野的12x12孔径上展示自然主义的边缘运动模式(假设进行了简单的预处理,包括边缘过滤、二值化和骨架化),并且这些帧之间的像素重叠程度较低。测试序列的构造方式使得它们的前半部分和后半部分在原始度量(像素重叠)方面与训练序列的前半部分和后半部分在时空上最相似且没有歧义。因此,S3子序列[A'B]与S1子序列[AB]最相似,S3子序列[GH]与S2子序列[GH]最相似(实际上完全相同),等等。展示S3和S4的总体目标是,当我们在序列中间切换到两个学习序列的稍有噪声/扰动的版本时,可能性分布会发生变化,以大致反映存储假设的时空相似性。
图6展示了在测试序列S1呈现的四个时刻,模型的状态,即输入以及相应激活的编码。图中展示了每个时刻(帧)上活跃的传入U(蓝色)和H(绿色)权重的样本。H权重的源头细胞在上一时刻是活跃的。在图c和图d中,我们针对所选细胞展示了所有U权重在学习过程中的增加情况:因此,可以看出所选细胞不仅在所描绘的时刻(源自活跃(黑色)像素的蓝色线条)是活跃的,在其他时刻也是活跃的(源自不活跃(白色)像素的蓝色线条)。此图还引入了我们的时刻表示法。我们所说的“时刻”,是指在完整项目序列(前缀)的上下文中特定的空间输入(序列项目),我们用括号括起包括当前项目在内的序列,并将当前项目加粗来表示。
图7展示了当训练序列S1作为测试序列呈现时的处理细节。请注意,该模型有Q=19个内容模块(CM),每个模块有K=8个细胞。[请注意,U和V的轨迹是分别显示的:虽然这对于序列的第一个项目来说是多余的,因为U=V,但对于所有非初始项目来说则不是,因为V=HU]。在学习过程中,总共在宏细胞(mac)中存储了八个时空时刻。S1的第一个时刻是呈现其第一个项目A,表示为[A],接着是[AB]、[ABC]和[ABCD],如图6所示。同样,S2的时刻[E]、[EF]、[EFG]、[EFGH]未在图中显示。
图7的主要信息是,随着每个连续项目的呈现,八个存储假设的可能性,即当前输入时刻是[A]、是[AB]等的假设,会根据所经历输入的粗略排序的时空相似结构进行更新。这里的“粗略排序”是指以下含义。由于这是一个训练实例的完全重复,因此在每个时间步上最可能的时刻是在训练实例中发生的那个时刻。快速浏览右侧的四个可能性图表可以验证这一点:正确时刻的代码(蓝色条)比其他所有代码(青色条)的激活程度都要高。一般来说,在每个时间步上,其他七个时刻的可能性要低得多,即属于第二粗略等级。然而,第三个时间步(图7c)上的分布很可能被描述为具有三个等级,中间等级包括[E]时刻的条。这是合适的,并且是由于E与C有显著重叠(4个像素,见图5)的事实造成的。当[E]作为S2学习试验的第一个项目呈现时,在S1学习试验的第三个时刻[ABC]上发生的U权重的先前学习,导致φ([ABC])中的细胞具有高的u值总和。由于[E]是S2的第一个项目,因此没有H信号存在,并且细胞的选择仅取决于U输入,因此产生了相对较高的交集{φ([ABC]) ∩ φ([E])}。
图7的图表显示,通过Q个内容模块(CM)中每一个的独立softmax选择,实现了对可能性的正确追踪。在图b-d中,所有内容模块中的正确细胞都具有U=1和H=1,从而得出V=1。这反映了这样一个事实,即这里的测试序列是学习过的序列S1的完全复制。许多其他细胞要么具有显著的U值,要么具有显著的H值,这反映了由于一些细胞参与多个时刻的编码而产生的串扰,但并非同时参与。事实上,所有错误细胞的V值都为零或接近零。因此,在所有内容模块中,ρ分布都极大地偏向于正确细胞。发生了两个错误,一个是在时刻[A]的内容模块17中,另一个是在时刻[ABCD]的内容模块11中:由于使用softmax选择获胜者,因此偶尔会出现选择远非最可能的神经元的情况。然而,我们看到,全局熟悉度G(在所有四个时刻都等于1)的影响以这样一种方式调节V到µ的转换,从而导致几乎整个存储的代码都能正确激活,即增加那些细胞的相关性。并且,如图8和图9所示,较低的G值会降低相关性。因此,我们的理论为大脑中的相关性提供了一个新颖、因果且规范性的解释。在学习和检索(推理)过程中,从一个时刻到下一个时刻的相关程度都受到一个确定性机制(尽管是间接的)的有效调节,即V到µ转换的调节。事实上,除了最后一步之外,CSA的所有步骤都是确定性的。
我们现在考虑两个新的序列,作为进一步证据,表明以空间分布表示(SDR)代码的活跃比例为度量的假设可能性,能够追踪所呈现序列从一个时刻到另一个时刻的粗略排名的时空相似性。图8显示了模型在两个序列S3=[A’BGH]和S4=[E’F’C’D]的四个时刻的状态。如前所述,这些序列的构建方式使得即使没有精确的时空相似性度量,存储(学习)时刻与当前测试时刻之间的相对时空相似性也显而易见。也就是说,S3的前两个时刻显然应被认为与S1的前两个时刻最接近。第三个时刻[A’BG]在空间上与S2的第三个时刻[EFG]最接近,但从时空角度来看,即考虑前两个时刻作为上下文,模型应合理地认为学习过的时刻[ABC]也具有较高的可能性。图9c中的可能性面板确实显示,[ABC]和[EFG]这两个时刻的可能性最高。它们的确切可能性在不同的测试实例中有所不同,但它们几乎总是最高的两个。这种行为是由于分布变得平坦,这是由较低的G值(=0.478)以及许多内容模块(CM)中,[ABC]和[EFG]所对应的细胞在V值上打成平手或几乎平手所导致的。
同样的推理使我们能够认为S3的第三个时刻[A’BG]是模糊的,即考虑到时间背景,这表明第四个时刻[A’BGH]应该被认为是不太模糊的,并且实际上更可能是学习过的时刻[EFGH]的一个实例。这确实反映在图9d的可能性面板中。较高的全局熟悉度G=0.566导致V到µ的转换更加扩展,这与φ([EFGH])中细胞的较高V值相结合,使得这些细胞在每个内容模块(CM)中都受到极大的青睐。因此,可以看出,模型已经成功地经历了一个序列的模糊状态,并通过在线结合新的证据来恢复,从而产生了一个适当减少模糊性的内部状态。
这个例子强调了模型的另一个关键能力:即,通过允许存储的假设在物理上处于活跃状态(与其代码与当前活跃代码的重叠程度成正比),它允许暂时较弱的假设根据未来的证据进行恢复,并撤销暂时较强的假设。例如,在图9c中,尽管在第三个时间步呈现的不一致证据(输入状态G)与总体假设当前展开的序列是[EFGH]更为一致,但最强的假设[ABC]与总体假设当前展开的序列是[ABCD]相一致。然而,当在第四个时间步出现与[ABCD]不一致的额外证据(图9d)时,当前展开的序列是[EFGH]的总体假设变得最强。
图10显示了最后一个示例S4=[E’F’C’D]的结果,S4的前两个时刻被构建为与S2的前两个时刻最接近,而后两个时刻与S1的最后两个时刻非常接近。模型的行为大体上与S3的行为相似,在S4的第三个时刻[E’F’C’],模型认为最可能的两个学习过的时刻是[ABC]和[EFG],与对S3应用的相同推理一致,这两个时刻在时空上与[E’F’C’]最为相似。
全局熟悉度G=0.314在这里比S3的第三个时刻要低,因为我们对S4的前两个时刻引入了比S3更多的噪声。事实上,空间输入E’与E和C的交集是相同的(通过仔细观察图5可以看出),而F’与F有12个像素中的9个是共同的。因此,在图10a中,学习过的时刻[ABC]和[E]具有大约相同的可能性。虽然组成φ([ABC])的细胞最初是在时空背景下选择的,因此它们的传入H权重(来自组成φ([AB])的细胞)有所增加,但在任何序列的第一个项目上都没有H信号存在。因此,S4第一个时刻获胜者的选择仅取决于U信号,因此也取决于在学习期间对U权重的增加。这就是为什么学习过的时刻[ABC]在这个时刻获得高可能性的原因。
图10b显示,通过呈现与F非常相似的空间输入F’,第一个时刻存在的模糊性大大减弱,这使得时空输入时刻[E’F’]在时空上与存储的时刻[EF]比与存储的时刻[ABCD]或任何其他学习过的时刻更为相似。在S4的第三个时刻(图10c),我们呈现的空间输入C’比其他任何空间输入都与C更为相似。就像S3的第三个时刻一样,这导致两个学习过的第三个时刻[ABC]和[EFG]具有大约相等的可能性。然而,由于S4的前三个时刻与S3相比存在更多的噪声,因此这里的G值较低,并且这两个学习过的时刻的可能性(即它们代码的活跃部分)也相应地比S3的第三个时刻更低。最后,我们在第四个时刻[E’F’C’D]上呈现空间输入D。由于来自D的U信号和来自φ([F’G’C’])的H信号的相乘(它们与φ([ABC])有显著的重叠),所有内容模块(CM)中组成φ([ABCD])的细胞都受到高度青睐,并最终在大多数模块中获胜,从而在图10d中显示出[ABCD]比其他所有时刻的可能性都显著更高。
再次观察到,模型能够处理模糊时刻,并随时间更新其活跃代码,从而同时表示出(根据其对世界的有限经验)最可能的假设(或假设)以及假设上的完整粗略排名分布。已经指出,这种能力,即同时表示多个相互竞争的假设,例如表示运动透明度所需的假设,对于使用完全分布式代码的理论来说是有问题的,正如PPC理论(Pouget, Dayan等,2000)所做的那样。确实,我们没有详细阐述图7、9和10的可能性分布以及图3和4的空间示例中存在的大多数相对相似性/可能性的数值(成对和更高阶),以此证明它们的合理性。然而,我们的示例确实证明了空间/时空相似性与可能性(以代码的活跃部分为度量)之间的粗略相关性。类似的能力,如能够存储和成功识别/检索大量复杂序列,其中相同的项目可能多次出现并在不同的上下文中出现(例如,自然词汇表),以前已经得到过证明(Rinkus 1996, Rinkus 2014)。
3 讨论
我们描述了一种与当前主流的概率群体编码(PPC)理论截然不同的理论,用以解释大脑如何表示和计算概率。该理论仅适用于稀疏分布式表示(SDR)的上下文,与PPC模型所发展的完全分布式编码上下文相反。Sparsey理论(最初被称为TEMECOR,即使用组合表示的时序情景记忆)是在20多年前提出的,作为典型皮层回路的一种模型,并为序列的情景记忆和语义记忆提供了一种计算高效的解释,但其作为表示和计算概率的方式的解释并未得到强调。
PPC模型(如Georgopoulos, Kalaska等人1982年的研究,Zemel, Dayan等人1998年的研究,Pouget, Dayan等人2003年的研究,Sanger 2003年的研究,Jazayeri和Movshon 2006年的研究,Ma, Beck等人2006年的研究,以及Rajkumar和Pitkow 2016年的研究)共享几个基本特性:1)连续的(分级的)神经元;2)所有神经元在形式上都参与每个编码;3)由于1和2,突触必须是分级的,或者必须使用率编码来允许解码;4)通常假设信号是率编码的;5)单个神经元通常假设具有单峰(例如,钟形)调谐函数(TF);6)单个神经元假设是嘈杂的,例如,以泊松变异性发放;7)这种噪声和相关性(例如,噪声相关性)通常被视为降低了计算能力,需要被缓解,例如,通过平均来消除。
与这些PPC特性/假设相比,Sparsey假设:1)二进制神经元;2)单个编码是相对于整个编码场而言较小的细胞集合(SDR),并且任何这样的编码同时表示最佳匹配的存储假设以及所有存储假设上的相似性(因此也是可能性/概率)分布;3)仅有效二进制突触;4)通过来自传入SDR编码的同时到达的第一波尖峰进行信号传递;5)编码神经元的所有传入权重最初都为零,即调谐函数最初完全平坦,并通过单次/少数几次试验的学习反映细胞在编码中的特定历史,从而出现;6)不假设神经元本质上是嘈杂的,并且在任何给定的计算周期内只是开启或关闭(我们不需要一个尖峰模型);7)噪声是一种明确生成并注入到编码选择过程中的资源,以实现特定的编码目标,即存储在编码场中的整体编码集具有SISC(稀疏性、独立性、稳定性和容量)属性,这间接地表现为单个单元之间的特定相关性模式。因此,Sparsey对噪声/相关性的看法与主流观点完全不同。它不再被视为由外部因素(例如,共同输入、神经元固有嘈杂发放)施加的问题,而是本质上具有积极作用,即作为一种资源。
具体来说,我们证明了:i) 如果一个模型使用稀疏分布式表示(SDR)编码;ii) 如果该模型分配SDR编码的过程能够保持从输入空间到编码空间的相似性(即SISC属性);以及iii) 如果可以假设输入相似性与可能性相关,那么:
a) 活动的SDR编码同时表示最可能的假设以及所有存储假设上的可能性/概率分布。具体来说,任何假设的可能性/概率由其编码中当前完全活动的编码部分中活跃的细胞比例来表示。
b) 在时空(序列)情况下,随着每个连续序列项目的出现,Sparsey的核心算法——编码选择算法(CSA)(表1)——根据时空相似性的直观概念,以近似的方式更新整个分布[参见信念更新(Pearl 1988)],并且随着存储假设(SDR编码)数量的增加,计算步骤的数量保持不变。
也就是说,执行CSA主要由对权重的一次迭代(步骤1)主导,该迭代的次数在系统的整个生命周期内是固定的。我们强调,对于任何其他计算方法(包括神经相关的哈希方法(Salakhutdinov和Hinton 2007, Salakhutdinov和Hinton 2009, Grauman和Fergus 2013)或更一般的方法[综述见(Wang, Liu等人2016)]),都没有证明其在学习和检索方面具有这种算法效率。尽管PPC文献中通常没有讨论这些时间复杂度考虑因素,但对于评估生物认知模型的总体可信度至关重要,因为虽然大脑以概率方式进行计算这一点无可争议,但我们还需要解释这些可能涉及非常大假设空间的计算是如何以极快的速度进行的。
Sparsey计算速度的关键在于其计算输入(对于一个宏单元)的全局熟悉度G的极高效方法,并使用G来调整单个细胞的转移函数,从其自身的局部相似度度量V到其最终被选为获胜者的概率ρ[在其自身的胜者全取竞争模块(CM)中]。G可以被视为直接调制代码选择过程中的噪声。也就是说,当检测到高熟悉度时,通过不成比例地增加选择与输入更相关细胞(V越高表示相关性越高)的偏向,从而最小化噪声,即模式完成;当检测到低熟悉度时,通过使每个CM中所有细胞的获胜概率更加相等(当G=0时,所有细胞具有等概率),从而最大化噪声,即模式分离。有关可能涉及一个或多个大脑神经调节剂的噪声调制机制的概述,请参见(Rinkus 2010)。我们强调,这一机制构成了大脑中噪声和相关性的一个全新概念。此外,它还提供了一种在推理(和学习)期间结合全局和局部信息的新方法。特别是,它表明可能需要一个结构性的中尺度(在我们的案例中,是胜者全取竞争模块)来促进将全局信息融入局部决策过程(混合)。从相反的角度来看,G的作用也可以被视为控制神经元之间的相关性程度,或者与之相关的是,控制哪些细胞被结合在一起以表示输入,无论是纯空间输入还是时空(序列)事件,从而为(Kanerva 1994, Plate 1997, Rachkovskij和Kussul 2001, Kanerva 2009)中描述的绑定操作提供了类似的功能。
在大多数其他SDR模型中,编码场是一个由一定数量的二进制单元组成的同质场,从这些单元中选择一些特定的单元来形成任何特定的编码(Kanerva 1988, Moll和Miikkulainen 1997, Rachkovskij和Kussul 2001, Hecht-Nielsen 2007, Snaider和Franklin 2011, Snaider和Franklin 2012, Snaider和Franklin 2012, Snaider和Franklin 2014)。组合神经编码(Willshaw, Buneman等人1969, Osborne, Palmer等人2008, Curto, Itskov等人2013)以及(Wang, Liu等人2016)中综述的所有二进制哈希模型也是如此。相比之下,在Sparsey中,编码场由Q个胜者全取(WTA)竞争模块(CM)组成,每个模块包含K个二进制单元。选择编码是通过在Q个CM中每个进行一次独立抽取来完成的。因此,与这些其他同质场模型不同,Sparsey具有一个明确的结构性中尺度,即胜者全取竞争模块,它位于单个神经元和整个编码场之间。事实上,自Sparsey提出之初,它就被视为皮层巨柱的通用模型,其WTA CM被提议为类似于小柱(Rinkus 1996, Rinkus 2010, Rinkus 2014)。因此,我们同义使用“编码场”和“巨柱”,或简称为“宏”。这种明确的结构性中尺度的存在的一个重要后果是,它在结构上施加了特定且固定的稀疏性。因此,在模型的整个生命周期内(无论是学习还是检索/推理),都不需要花费额外的计算(或其消耗的能量)来控制稀疏性。这与在“稀疏编码”模型中添加惩罚项到成本函数以实现稀疏性的更为普遍的技术形成对比(Olshausen和Field 1996, Perrinet 2015),后者确实需要在模型生命周期内进行持续计算。
我们指出,另一种基于稀疏分布式表示(Sparse Distributed Representation,SDR)的模型——Numenta的层次时间记忆(Hierarchical Temporal Memory,HTM)模型(Ahmad和Hawkins,2015;Cui、Ahmad等,2016),确实具有中尺度结构,该结构也与皮层小柱相对应,但HTM对小柱的概念与我们的截然不同。特别是,在HTM中,小柱内的所有细胞先验上具有相同的时频(Temporal Frequency,TF),并且当适当特征出现在小柱的感受野(Receptive Field,RF)中时,小柱内的所有细胞会共同激活。虽然Hubel和Wiesel的原始结果确实发现,视觉皮层中垂直穿透路径上的所有细胞具有相似的TF,但使用更精细的探针和更细致的观察方法进行的最新研究表明,TF的异质性比最初认为的要高。这表明,我们的方法(即从头开始学习TF,并且最终TF可以是任意异质的)可能具有更广泛的应用。此外,HTM假设小柱内甚至小柱L2/3体积内的所有细胞同时激活,这显然与如钙成像(Ohki、Chung等,2005)等实验数据不符。而且,尽管HTM使用固定密度的SDR,但它们并未在结构上强加,因此与Sparsey不同,HTM确实需要明确的计算(和能量消耗)来确定在任何给定情况下哪些小柱子集将被激活,这可能发生在学习和检索期间。另一个重要的区别点是,虽然HTM和Sparsey都具有中尺度结构,但据我们所知,迄今为止所有已发表的HTM结果仅涉及单个SDR编码字段(他们称之为“区域”),而(Rinkus,2014)描述了由多个内部层级组成的分层Sparsey模型的结果,每个内部层级由多个编码字段(macs)组成。虽然中尺度(小柱)架构在功能上至关重要,但有大量证据表明,在各种皮层区域/物种中存在包含它的更大尺度的大柱,并且该尺度也具有关键的功能优势。
除了Sparsey在纯算法角度的效率外,我们还强调,由于Sparsey仅需要二进制神经元和突触,因此它不需要速率编码。相反,它自然适合通过从一个SDR代码到下一个SDR代码的同时到达的第一波尖峰信号进行传递,无论是递归传递还是向下游编码字段的传递。因此,与可靠解码尖峰频率所需的约100毫秒相比,我们的模型仅需要一个几毫秒的时间窗口,在此期间,来自传入SDR代码的同时信号可能到达下游编码字段并被整合。我们设想,某种宏观电路级别的控制装置(例如,在伽马尺度包络的某个阶段进行整合[参见Buzsáki,2010])可能会施加这样的时间窗口,这是我们未来想要探索的一个假设。
我们还强调,与基于速率编码的信号传递(必须发送和整合许多尖峰)相比,基于第一尖峰的信号传递的代谢/能量成本可能显著降低。这除了稀疏编码与密集编码相比已经降低了能量成本之外。
Sparsey证明了仅使用二进制神经元和二进制突触就可以表示和使用分级值(例如概率)。在系统/计算的任何位置都不需要分级值的显式局部主义表示。更具体地说,无需将概率/似然度表示为空间局部化的发放率(即在特定突触处),也无需通过连续/分级权重来表示条件概率或关联强度。此外,我们认为,在局部主义模型中,通常用一个实值参数表示两个符号级变量之间的关系(例如条件概率),而将其替换为一组独立的二进制参数(即“突触集合”),可以更灵活、更快地学习输入域的统计信息。发展这一论点是我们近期的研究目标之一。
由于Sparsey是一种分布式存储器,因此痕迹以叠加方式存储,因此随着存储假设的数量增加,干扰(串扰)也会增加。对于给定的参数设置,会存在一个区间,其中存储的假设数量足够低,以至于预期干扰(即预期检索错误)保持在可接受的范围内。如果Sparsey系统的整体只有一个内部层级且只有一个mac(宏细胞),那么分析表征容量、预期错误与参数之间的关系将是主要的研究重点。但事实并非如此。单个Sparsey模块(即mac)被提议作为皮层大柱的类似物。而且,已知皮层组织为深层次结构,在某些路径上可能有超过10个皮层层级,每个层级由数百到数千个mac组成。因此,在解释典型人类在其大部分生命周期内表现出的巨大存储容量时,整体存储容量的问题将取决于信息如何在整个层次结构中分布以及如何在整个层次结构中动态交互,而不仅仅是在单个mac中。
组织知识的层次结构,无论是按类别还是按组成部分(部分-整体),其优势早已为人所知。最近,多层级与扁平化表征的优势在表示高度非线性关系时的效率(本质上是指所需参数的数量)方面得到了阐述(Bengio 2007, Bengio、Courville等2012),而不断涌现的令人瞩目的“深度学习”成果也充分证明了这一点(Krizhevsky和Hinton 2011, LeCun、Bengio等2015, Silver、Huang等2016)。然而,包括长短期记忆网络(LSTM)(Hochreiter和Schmidhuber 1997)在内的深度学习模型迄今为止尚未与稀疏分布式表征(SDR)相结合。实际上,这两种范式的基本原理大相径庭,可能本质上互不兼容。在此方面,我们必须特别指出,最近描述的稀疏门控专家混合(MoE)模型(Shazeer、Mirhoseini等2017)虽然利用了稀疏性原则(更一般地称为条件计算,其明确目标是最大限度地减少参与任何给定计算的机器参数的比例),但并不是Sparsey或其他SDR模型中的SDR实例。Sparsey与之的一个重要区别在于,稀疏门控MoE并未利用输入的内容(统计/语义)来选择哪些专家进行响应并因此被用来对输入进行编码。更广泛地讲,许多“丢弃”原则(dropout principle)的实例化(Bengio 2013, Srivastava、Hinton等2014)也是如此。相比之下,如我们始终所述,Sparsey的内容选择算法(CSA)实现了一种空间/时空(原则上还包括多模态)匹配机制,该机制直接使用输入来控制哪些细胞对输入进行编码,从而产生至关重要的稀疏独立超完备表征(SISC)属性。
我们还一直在探索SDR编码字段的多级层次结构,例如我们在解释单细胞转录因子(TF)时所使用的模型,并将继续沿着这一道路前进。我们认为,要真正捕捉大脑计算的本质,需要将层级/异层级组织和稀疏分布式编码结合起来,这使我们的工作与深度学习模型(将密集/完全分布式编码字段,即玻尔兹曼机或多层感知器(MLP)字段与层级相结合,尽管(Shazeer、Mirhoseini等2017)似乎是个例外)和HMAX模型(Riesenhuber和Poggio 1999, Riesenhuber和Poggio 2002, Serre、Kouh等2005, Poggio和Serre 2013)区别开来,后者将局部主义编码字段与层级相结合。
我们指出,大脑中还有另一种新的概率计算理论,其中分布式表征至关重要,并且该理论与Sparsey在精神上更为接近(Rajkumar和Pitkow 2016)。尽管他们的理论与我们在开头提到的概率预测编码(PPC)的大多数属性相同,但从高层次来看,Sparsey可以用与(Pitkow和Angelaki 2016)所使用的相似术语来描述,后者将其理论描述为具有三个主要部分:a)重叠的群体活动模式被提出用于编码观察域的潜在变量;b)大脑通过稀疏概率图形模型指定这些变量与世界的关系;c)递归回路实现非线性消息传递算法,该算法有效地在驻留在编码字段层次结构中的群体代码中表示的潜在变量之间执行概率推理。在Sparsey宏细胞(mac)中,与点(a)相对应的是,“重叠的群体活动模式”对应于多个代码(即多个上下文)之间发生的细胞子集,即交集。这些子集的大小小于整个代码的大小Q,并且至关重要的是,它们是在学习过程中出现的。此外,通常还会在这些子集上产生交集,从而能够对一系列更高阶的统计数据进行编码。与点(b)相对应的是,对Sparsey的突触投射所做的修改,包括宏细胞对其自身的递归投射以及其对/来自其他宏细胞(位于同一层级或其他层级)的U、H和D投射,嵌入了潜在变量之间的概率关系。Sparsey中与点(c)相对应的是内容选择算法(CSA)的操作。这些特性意味着这些模型可以被视为图形概率模型(GPM)的分布式实例化,而这些模型在很大程度上一直是局部主义的,例如隐马尔可夫模型、贝叶斯网络、动态贝叶斯网络。我们认为,从局部主义GPM概念到分布式GPM概念的转变具有重要意义,尤其是:i)域的潜在变量(其身份和取值)被映射到分布式代码上,这些代码是在在线学习过程中出现的,参见“匿名潜在变量”(Bengio 2013);ii)变量之间的条件概率关系部分表示在代码交集中,部分表示在突触映射的交集中(即突触集合交集),这些也是在学习过程中出现的。
经过数十年后,实验方法终于达到了可以观测大型(例如宏观柱尺度)体积内所有神经元快速时间尺度活动的程度。这将使我们最终得以理解大脑以我们认为其固有的语言——即细胞集合和细胞集合序列(Hebb,1949)——运作的方式。在我们看来,每个这样的集合既是最可能的假设(存储的记忆),也是所有存储记忆上的分布(在我们提出的皮层宏观柱这一细胞集合的容器中)。我们提出了Sparsey作为这一概念的理论阐述,它简单,即采用二进制细胞和突触、单次试验的Hebbian学习(在完全通用模型中增加了一些内容,如衰减),并且通用,因为细胞集合序列假设(CSA)在计算效率方面极具通用性和强大功能。有许多问题有待研究,特别是关于宏观柱之间随时间变化的层次相互作用的性质和容量,我们期待继续探索这些问题。
4 方法
4.1相似度指标
对于空间输入的情况,相似度指标简单地采用像素级重叠。如果所有输入都有相同数量的活跃像素,我们可以将空间相似度简单地测量为交集大小除以该数量,对于图3-4中的示例,该比例为12:
对于图5-10中的时空示例,我们分别使用每帧的像素重叠作为空间度量,但对于序列的时间方面,则仅使用如正文所述的半定量估计。
空间和时间更新示例(图3-10)的输入模式是手动创建的,以最大程度地减少像素级重叠,但除此之外,它们与经过边缘滤波、二值化和细化等预处理后的自然输入相似。用于感受野示例的输入是从KTH数据集中使用上述预处理创建的。
模型
模型的架构及其算法、代码选择算法(CSA)包括参数值(表1)均在正文中详细描述,因此在此不再重复。
学习规律是Hebbian规律:同时的突触前和突触后激活会使突触权重设置为其最大权重127(二进制“1”)。在H和D权重的情况下,如果突触前和突触后细胞在连续的时间步上激活,则权重会增加。在完整的Sparsey模型中,还模拟了其他学习原则,包括衰减、持久性和关键期,详见(Rinkus 2014)。本文描述的模拟在输入总数方面足够小,在顺序情况下,这意味着所有训练序列中的总帧数(项目数),因此这些额外的学习原则对结果/结论没有实质性影响。
然而,我们简要描述了这些额外原则。在由于突触前突触后巧合而导致突触权重增加(总是增加到最大权重)之后,会有一段初始时期,权重保持在其最大值附近,然后按照大约反对数曲线衰减。如果在前一次突触前突触后巧合之后的一个相对较短的时间窗口内发生了第二次突触前突触后巧合,则权重将重置为最大值(127),并且其持久性增加,即其衰减的时间尺度大大延长。在我们的模拟中,这些原则已量化为明确的表格形式,并基于规则使用这些表格,如(Rinkus 2014)所述。这样做的动机是,由于输入域的结构规律性而导致的突触前突触后巧合的预期复现时间必须明显短于由于噪声或虚假对齐而导致的突触前突触后巧合的时间。因此,所描述的机制将优先嵌入由于域的结构(统计)规律性而导致的事件的稀疏分布式表示(SDR)代码,同时允许虚假事件从记忆中消失。这种持久性机制/协议是一种形式的元可塑性,与Cascade模型(Fusi, Drew等,2005)以及最近处理灾难性遗忘的尝试(Aljundi, Babiloni等,2017;Kirkpatrick, Pascanu等,2017)在精神上相似,但比其他模型简单得多,因为它不需要对突触对全局目标(例如学习任务的准确性)的重要性/相关性进行任何显式评估。
这与关键期机制协同工作。如前所述,稀疏分布式表示(SDR)编码字段具有有限的存储容量。代码空间是指数级的,例如在Sparsey的情况下为KQ,但随着越来越多的代码以叠加方式嵌入,干扰(串扰)会累积。随着权重增加的比例上升,预期检索准确率会下降,如果不冻结学习(即不强制执行关键期),准确率将降至零。在我们的完整模型中,这三个原则/机制协同工作,但再次强调,本文的模拟规模足够小,以至于它们都不会发挥作用。
4.3 代码相似性(可能性)度量
鉴于SDR代码由编码字段中每个Q竞争模块(CM)中选择的一个二进制单元组成,代码相似性通过代码大小Q归一化的汉明距离来度量。给定以下条件:a) 我们假设输入相似性与可能性相关;b) 模型将输入相似性保留为代码相似性,我们根据当前输入来度量存储(学习)输入的空间或时空(即“时刻”情况)的可能性为:
(完)
https://arxiv.org/abs/1701.07879