从大脑第一性原理的视角看类脑计算

文摘   科技   2024-08-24 12:27   上海  

导读: 我们探讨了四个关键原则,这些原则被认为是大脑的“第一原理”,可以为人工智能的未来发展提供重要的启示。这些原则包括吸引子动力学、临界性、随机网络、稀疏编码。每一个原则都反映了大脑在处理信息和执行认知任务时的独特方式,揭示了大脑复杂性背后的深层机制。这可以启发我们研发新的人工智能范式。

本文总结:

  • 吸引子动力学:我们认为它们构成了大脑用于信息表示、操作和检索的基本构建模块。直观地看,吸引子是神经网络中唯一能使神经系统在环境和大脑中普遍存在的噪声下可靠地存储信息的状态。


  • 临界性:临界性强调了大脑在接近临界状态时所具有的信息处理优势。在临界状态下,大脑能够以最佳的方式进行信息传输、存储和处理。人工智能系统可以通过模拟这种临界状态,来优化其计算能力,特别是在处理复杂任务和大规模数据时。


  • 随机网络:随机网络展示了大脑如何通过随机连接来实现多样性和高维度性。这样的网络结构使得大脑能够在复杂的环境中进行有效的模式识别和信息处理。人工智能可以通过引入随机性来增强模型的泛化能力和适应性,从而应对更加复杂的挑战。

  •  稀疏编码:大脑在处理信息时倾向于通过最少的资源来表征信息。这种高效的编码方式不仅节省了计算资源,还增强了信息的可解读性。人工智能系统可以借鉴稀疏编码的原则,设计更加高效和可解释的模型,特别是在资源受限的环境中


以下科普内容来自AI of Brain and Cognitive Sciences: From the Perspective of First principles文章如下:

如今,我们已经见证了人工智能(AI)在各种应用中的巨大成功,包括图像分类、游戏对战、蛋白质结构分析、语言翻译和内容生成。尽管这些应用非常强大,但在我们的日常生活中,仍然有许多对人类来说相当简单的任务却对AI构成了极大的挑战。这些任务包括图像和语言理解、小样本学习、抽象概念以及低能耗计算。因此,从大脑中学习仍然是开发下一代AI的有前途的途径。

大脑可以说是宇宙中唯一已知的智能机器,是动物在自然环境中进化的产物。在行为层面,心理学和认知科学表明,人类和动物的大脑能够执行非常智能的高级认知功能,如灵活学习、长期记忆以及在开放环境中的决策。在结构层面,认知和计算神经科学揭示了大脑具有极其复杂但优雅的网络形式以支持其功能。多年来,人们一直在收集关于大脑结构和功能的知识,随着全球范围内大规模大脑项目的启动,这一过程最近得到了加速。那么,AI最应该从大脑中学习什么最重要的知识呢?

在此,我们认为在现阶段,脑功能的一般原则是激发AI发展的最有价值的内容。这些一般原则是大脑提取、表示、操作和检索信息的标准规则,也是大脑执行其他高级认知功能的基础。从某种意义上说,它们是指导大脑运行的原则,我们在这里称之为大脑的第一原理。

  • 吸引子网络


要定义吸引子,我们首先定义一个动态系统及其状态。动态系统是一组变量以及决定它们的值随时间变化的所有规则。这些变量在任何给定时刻的值称为系统在那一刻的状态。状态是 动态系统状态空间中的一个点(矢量) 。吸引子是状态空间中的最小状态集,所有附近的状态最终都会随着时间流向该集。吸引子的一个简单例子是稳定的不动点:所有相邻的状态都会流向它。将这些清晰的数学定义转移到大脑环境中涉及挑战和简化,这些挑战和简化围绕着识别一个足够独立的系统和确定其动态所需的变量。

大脑由大量神经元组成,这些神经元通过突触形成各种网络。一般认为,单个神经元的计算能力相对简单,而是神经网络的动态性完成了大脑的功能。简单来说,神经网络接收来自外部世界和其他大脑区域的输入,并通过状态的演化来进行信息处理。因此,动力系统理论是量化大脑如何通过网络进行计算的有价值的数学工具。动力系统描述了一组变量如何随时间演化,这为研究复杂行为提供了一个强大的数学框架。

在动力系统中,不同的状态演化规则和多变的外部输入可以在动力系统中创造出多样的动态现象。在一个循环连接的神经网络中,神经群体的发火率向量演化并在网络的状态空间中形成轨迹。如果一个状态向量的所有邻近状态都流入它,这个状态向量就称为一个稳定吸引子。具有稳定吸引子的网络被称为吸引子网络。同样,网络状态也可能流入一个闭环轨迹并产生周期性响应。这样的闭环轨迹称为极限环吸引子,而具有这种吸引子状态的网络称为振荡吸引子网络。此外,还有其他的吸引子动力学,如鞍点吸引子和混沌吸引子。这些多样的吸引子动力学使得神经系统能够执行各种大脑功能。

在这里,我们的重点是具有稳定吸引子状态的吸引子网络,我们认为它们构成了大脑用于信息表示、操作和检索的基本构建模块。直观地看,吸引子是神经网络中唯一能使神经系统在环境和大脑中普遍存在的噪声下可靠地存储信息的状态

我们认为它们构成了大脑用于信息表示、操作和检索的基本构建模块。直观地看,吸引子是神经网络中唯一能使神经系统在环境和大脑中普遍存在的噪声下可靠地存储信息的状态。

吸引子网络还可以相互作用以完成不同模态之间的信息整合。最近,Zhang等人研究了如何通过相互连接的CANNs实现多感觉信息处理。在他们的模型中,他们认为每个模块包含两组神经元,每组神经元形成一个CANN,并且它们相对于模态输入的调谐函数要么是一致的,要么是相反的。他们展示了耦合的CANNs通过一致神经元实现信息整合,而通过相反神经元实现信息分离,它们之间的相互作用高效地实现了多感觉信息的同时整合和分离。这项研究表明,相互连接的吸引子网络可以支持皮层区域之间的信息交流。

由于篇幅所限,我们仅介绍了吸引子网络的一些基本特性。在应用中,当在网络结构中引入额外的元素时,吸引子网络可以表现出更丰富的动力学行为,并带有相关的诱人计算特性。例如,具有尖峰频率适应性的CANN可以执行预测性跟踪,具有反馈连接的CANN可以表现出振荡跟踪行为,而具有噪声SFA的CANN可以实现基于采样的贝叶斯推理。吸引子网络是不是构建属于类脑计算的反向传播算法,我们不得而知,但是,吸引子网络本身这种具有很强的时空信息编码能力,和抗干扰能力值得我们去借鉴。

同样,怎么样构建吸引子网络是一个很有意思的研究,在神经科学领域,科学家们已经发现了很多吸引子网络的生物神经系统. 下图可以看出,网络的神经元的连接属性很大程度上决定着吸引子网络的特性。



图一:吸引子形成的机制,图例来自Attractor and integrator networks in the brain.

  • 临界性:为大脑和人工智能带来新视角


临界性框架是理解和分析复杂系统的强大工具,因为许多物理和自然系统处于临界状态。在过去的20年里,研究人员发现大脑中的生物神经网络运行在接近临界状态,这为研究大脑动力学提供了新的视角。众所周知,临界状态对大脑活动/功能非常重要,因为它优化了信息传输、存储和处理的多个方面。此外,一些大脑疾病被认为与偏离临界状态有关,这也为这些疾病的诊断和治疗开辟了一扇新的窗口。在人工智能领域,临界状态框架被用于分析和指导深度神经网络的结构设计和权重初始化,这表明接近临界状态运行可能是神经网络计算的基本原则之一。

  • 临界状态及其主要特征

在统计物理学中,物质系统中具有相同物理和化学性质的均匀状态被称为相。例如,水可以处于固态、液态或气态。当温度变化时,水可以从一个相转变为另一个相,这被称为相变。临界状态是一种所谓的二阶相变表示系统正在从有序相向无序相转变。在有序与无序之间的边缘,或称为“混沌边缘”,临界状态表现出许多特殊的性质

自组织临界状态 有些系统可以自发地达到临界状态,这被称为自组织临界性(SOC)。一个著名的SOC模型是沙堆模型。在这个模型中,沙子缓慢地滴落到表面上,沙堆的坡度逐渐增加。当它达到临界坡度时,继续添加沙子会导致沙堆崩塌,形成各种规模的沙崩,使沙子离开沙堆,从而恢复到临界坡度。沙崩的大小遵循幂律分布。自从SOC提出以来,它已被用于解释许多复杂现象,包括经济系统中的波动、选举中的投票、脉冲星、黑洞等。更重要的是,越来越多的研究发现,大脑也可能处于自组织临界状态。在下一章中,我们将详细介绍相关研究。

大脑中的临界性 在过去的二十年里,通过记录体外培养的脑组织或体内完整大脑中的神经元活动,许多实验表明,皮层网络也可以自组织进入临界状态,并且神经元活动的空间和时间分布大致遵循幂律。这一现象被称为“神经元雪崩”这些事件的规模形成一种统计结构,其中发现规模为s的事件的概率P( s ) 与其规模s成反比。这种皮质活动没有特征时间尺度——事件可以在所有时间尺度上形成。本质上它具有多重分形的性质,并且具有深刻的含义,即无论测量的空间或时间尺度如何,都可以识别这种结构。


图二:神经元雪崩实例。

神经元雪崩 在皮层网络中,每个神经元通过突触连接从大量周围神经元接收输入。当输入达到其阈值时,会产生动作电位,并传递给其他神经元,引发其他神经元放电。Beggs和Plenz发现了生物神经网络与沙堆模型之间的共同点,并首次通过多电极阵列记录脑组织中的神经活动,证实了临界大脑的猜想。他们发现神经元雪崩的大小和持续时间遵循幂律,这是临界状态的重要特征。后来,其他研究人员在不同物种的不同大脑皮层中记录了神经元活动,无论是在清醒状态还是麻醉状态下,都重新确认了神经元雪崩在网络自发活动中的幂律分布特征。这表明皮层网络接近临界状态是一个普遍特征,并且兴奋性和抑制性的平衡在帮助维持临界状态中起着关键作用。为了检验神经元雪崩是否是自发神经元活动的独特现象,Yu等人在猴子的运动和认知任务期间记录了其运动前区和前额叶皮层的细胞外单位活动和局部场电位,结果显示参与主动信息处理的网络活动也接近临界状态,这表明神经元雪崩是休息和行为状态下神经元活动的统一现象。

临界性的计算优势 为什么大脑处于临界状态?进一步的研究表明,处于临界状态的网络在信息传输、存储和处理方面具有明显的优势。这些优势在临界模型和生物实验中都得到了证实。2006年,Kinouchi等人构建了一个简单的神经网络,约束每个神经元的局部分支比为1,此时网络被认为达到了临界状态。通过建模发现,在这个分支比下,网络对输入的表示具有最佳的动态范围。当分支比小于1时,网络被认为处于亚临界状态,此时网络无法清晰地区分弱输入。当分支比大于1时,网络被认为处于超临界状态,此时网络很快就会达到饱和。后来,Shew等人在多电极阵列表面上培养了切片,并调节培养环境使其达到临界性,从而证明了处于临界状态的系统可以最敏感地感知幅度跨越多个数量级的信号。此外,其他研究人员还证实了处于临界状态的系统在计算能力优化、最大记忆容量和最大信息传输保真度方面的优势。Hu等人证明,在生物上合理的工作记忆(WM)模型中,当网络通过多巴胺调节到临界状态时,WM具有最佳性能和最大敏感性/灵活性。

  • 随机网络:信息编码的潜在基础

维度性自从Hubel和Wiesel发现神经元对条形方位的调谐功能这一开创性发现以来,神经生理学家们一直致力于寻找对单一特定刺激特征具有清晰调谐曲线的神经元。然而,在这一过程中,神经生理学家们往往发现自己处于一种困惑的境地,许多被观察到的神经元同时以非线性方式反映了不同的特征。这些神经元被认为具有非线性混合选择性。理解这一现象的努力引发了对神经元进行基于群体的分析的转变。群体编码将神经元的反应表示在一个高维状态空间中,其中每个神经元的活动代表空间中的一个维度。在这个神经空间中,可以区分地解码更多的信息。

非线性混合选择性神经元的存在增加了表征的维度性。结果是,本来线性不可分的表示变得线性可分,可以进一步被大脑的下游结构处理。为了确保高维度性,混合选择性也需要具有多样性。为了研究支持多样化混合的同时保持简单的脑内电路,一些研究人员提出,随机网络可能在起作用。在随机网络中,神经元连接的突触权重是从某些分布中随机抽取的。这些连接将信号作为输入混合到下游神经元中。信号通过神经元内的非线性映射,赋予神经元非线性混合选择性。连接的随机性赋予了混合的多样性。越来越多的生物学证据与这一观点一致。

图三:Fly大脑随机网络连接和网络权重学习修改实例。

分散的网络架构 如果随机网络确实旨在增加表征的维度性,那么网络的架构应该反映这一目的。神经元群体允许的神经空间的最大维度是总神经元数。为了增加维度性,在完全随机连接的极端情况下,后连接神经元的群体应大于前连接神经元。因此,网络应该是分散架构的。

这种分散架构确实存在于生物大脑中。果蝇的触角叶到蘑菇体路径提供了一个清晰的例子。触角叶包含大约50个小球体。一部分约150个投射神经元支配小球体,并投射到蘑菇体中的约2500个Kenyon细胞。啮齿动物的嗅球有大约1800个小球体,而下游的PCx有数百万个神经元。在人类视觉通路中,来自外侧膝状体的100万个神经节细胞投射到V1中的大约1000万个皮层神经元。老鼠小脑中,估计约7000个苔藓纤维扩展到约209,000个颗粒细胞,连接到一个Purkinje细胞(即读出神经元)上。这些现象表明,通过随机权重的分散网络创建丰富的高维表征可能是一种潜在的计算原则。实际上,这一提示自20世纪90年代初以来就在人工智能(AI)中得到了应用。

  • 人工智能中的随机网络

AI中的随机网络指的是部分权重随机初始化并在训练期间不进行调整的人工神经网络(ANN)。研究人员最初被这些网络吸引,要么是因为它们易于设置分析,要么是因为它们的训练速度要快得多。然而,研究人员很快发现,随机网络表现出惊人的效果;它们的测试精度接近于完全训练的模型,在包括短期预测、图像识别和生物医学分类等应用中表现出色。在这些观察的驱使下,研究人员研究了各种随机网络的特性。

两类网络被广泛研究:前馈网络和类似库计算的递归网络。在前馈网络中,输入神经元以随机权重连接到一个隐藏层,隐藏层的大小要大得多。在库计算中,输入神经元连接到一个由随机连接的内部神经元组成的库中。前馈网络的例子包括随机向量功能链接网络(RVFL)、径向基函数链接网络、具有随机权重的前馈网络、不传播算法、权重不可知网络和随机卷积神经网络(CNN)。库计算的例子包括回声状态网络(ESN)、液态状态机(LSM)和深度ESN。

所有这些模型共享三个特征:(1)隐藏层或库创建输入的高维表征,(2)连接到输出神经元的权重需要进行线性优化,(3)网络性能对随机权重的不同实现具有鲁棒性。从这些观察中可以得出结论,经过训练的ANN的架构,而不是微调的连接权重,对任务性能更为重要。进一步有趣的研究表明,甚至架构本身也可以是随机的。通过随机图生成器创建的架构在ImageNet上的分类精度表现良好(随机连线网络为79%,而ResNet-50为77%)。这些观察表明,随机性不仅仅是一个简单的技巧,它可能是机器智能的基础。这一点与神经科学中的类似猜想相呼应。随机网络的有效性和效率及其体现未被发现的计算原则的潜力,促使许多工作从理论上研究它。

  • 超越维度性和稀疏性

随机网络是产生神经生理学中常见的混合选择性的最简单神经回路。尽管与功能性只能从有组织的网络中产生的常识相矛盾,但在过去几十年中,随机网络已在生物大脑的各种系统中被发现。同时,随机性在AI中被用作构建人工神经网络的计算效率方法。由于其独特性和有效性,随机网络吸引了许多理论研究,这有助于揭示其背后的基本原则。

这些原则可以在三个概念层面上解释。在计算层面,随机网络与经过训练的神经网络一样是通用函数近似器。通过分散架构,随机网络创建了高维状态空间,在这个空间中,判别性解码更加灵活且可行。在算法层面,随机网络的工作方式类似于计算机科学中的局部敏感散列算法。这些算法可以极大地节省深度网络训练的计算需求。在实现层面,随机网络是大脑中密集神经元纤维中的分布式网络最合理的物理实现。

随机网络的原则不应被单独视为孤立的。它只有在与其他特性合作时才能发挥全部功能,包括汇聚读出、可塑性、兴奋性-抑制性平衡和稀疏性。因此,随机网络不应被视为或应用为孤立的电路。

过去几十年的研究帮助我们认识到随机网络的重要性并澄清了一些关键概念。然而,仍有更多问题需要回答。在计算层面,除了维度性和稀疏性之外,我们几乎不了解随机网络中的表征。状态空间中的内在状态流形是什么样的?在算法层面,随机采样权重的分布仍然是经验性和任意的。如何指定这些分布?应该使用先验知识吗?生成的权重应该固定还是通过缓慢的Hebbian学习进行调整?在实现层面,大脑也具有模块性,例如功能柱。模块性如何与随机分布的网络结构相协调?在回答这些问题的过程中,我们对随机网络的了解将会得到提升。届时,我们或许真的可以确认,随机网络代表了一种智力的基本原则。

  • 稀疏编码:大脑中的独特特性及潜在优势


信息处理中的稀疏性:大脑是一台存储和处理信息的机器。为了实现这些功能,需要对外部信息进行准确的量化和合理的表示。稀疏编码策略是实现这些目标的重要方式。大脑在多个层面上利用了稀疏性机制,包括视觉、嗅觉、触觉以及其他感知层面,这些机制参与了皮层信息处理等过程。讨论这些机制对于理解神经系统的组织原则和智能的形成至关重要。

稀疏编码的优势:稀疏编码意味着在任意时刻发放信号的神经元数量仅占总神经元数的一小部分。因此,稀疏性是一个相对概念,没有明确的阈值。稀疏编码的优势可以通过与另外两种极端编码方案进行比较来最好地理解:局部编码和密集编码。局部编码有时被称为独热编码:每个神经元只参与编码一个项目,如“祖母细胞”那样,不同项目的表示之间没有重叠。在另一个极端,密集编码是完全分布式编码:每个项目由一个神经元群体中所有神经元的联合活动表示。稀疏编码介于两者之间,通常能享有两者的优点。

稀疏编码在编码能力(以及能量效率)和解码难度之间提供了良好的权衡。由于局部编码中不允许重叠,一个由N个二元神经元组成的群体最多可以表示N个不同的项目。为了编码更多的项目,需要招募更多的神经元,从而消耗更多的能量。因此,脑中可用的能量为局部编码设置了上限。另一方面,密集编码通过允许N个二元神经元编码2^N个项目,极大地提高了表示能力。即使对于稀疏编码的情况,仅允许一些(最多K个)神经元同时被激活表示一个项目,总的编码组合数量仍然是k=1K(Nk)\sum_{k=1}^{K} \binom{N}{k}∑k=1K(kN)。与局部编码相比,这种配置节省了神经元,并消耗了更少的能量来编码相同的信息。然而,分布式编码的解码并不简单,在生物上很难学习。相比之下,局部编码与其输出之间的关联可以通过简单的Hebbian机制建立,因此,如果神经活动模式是稀疏编码的,那么学习变得更加高效。

稀疏编码还平衡了泛化与干扰。在局部编码中,每个模式与其他模式都是正交的。由于不同模式之间没有相似性,不可能在模式之间泛化关联。密集和稀疏编码允许代码之间部分重叠和不同程度的相似性,从而可以在具有相似编码的项目之间进行泛化。然而,密集编码规定了许多项目(最多50%的项目,如果编码空间完全被占用)可能激活一个神经元。如此广泛的调谐可能导致不同模式之间的干扰。形成新模式与输出单元之间的新关联可能会干扰与共享连接权重的重叠代码相关的旧记忆。稀疏编码可能有助于解决此类灾难性遗忘问题,并最大限度地减少模式之间的干扰。在极端情况下,局部编码不会出现干扰,并且可以同时表示多个项目。

最后,稀疏编码明确表示了自然刺激的结构,锐化了神经元的响应。感受野类似于环境中经常遇到的结构,因此仅通过少量神经元的激活就能表示一个自然刺激。结合过完备基,稀疏编码可以在自然刺激聚集的流形上生成分段平坦的表示,简化后续阶段的表示和分析。这些优势支持生物体更有效地编码、传输和存储信息。

  • 稀疏性在英伟达架构里的应用

NVIDIA Ampere 架构 GPU 上可用的稀疏张量核心的支持如下:

图四:NVIDIA Ampere 架构 GPU 上可用的稀疏张量核心。

在部署神经网络时,考虑如何让网络运行得更快或占用更少的空间很有用。更高效的网络可以在有限的时间内做出更好的预测,对意外输入做出更快的反应,或适应受限的部署环境。

稀疏性是一种有望实现这些目标的优化技术。如果网络中有零,则无需存储或操作它们。稀疏性的好处似乎显而易见。长期以来,实现承诺的收益面临三大挑战。

  • 加速— 细粒度、非结构化、权重稀疏性缺乏结构,无法使用高效硬件中可用的矢量和矩阵指令来加速常见的网络操作。标准稀疏格式对于除高稀疏性之外的所有稀疏性都是低效的。


  • 准确度— 为了通过细粒度、非结构化稀疏性实现有用的加速,必须使网络变得稀疏,这通常会导致准确度损失。试图使加速更容易的替代修剪方法(例如删除权重块、通道或整个层的粗粒度修剪)甚至会更快地遇到准确度问题。这限制了潜在的性能优势。


  • 工作流程— 目前网络修剪方面的许多研究都是有用的存在性证明。研究表明,网络 A 可以实现稀疏性 X。当你尝试将稀疏性 X 应用于网络 B 时,就会出现问题。由于网络、任务、优化器或任何超参数的差异,它可能不起作用。

脑界漫游指南
一个探讨类脑计算与脑机接口技术的科普知识圈,让您深入了解前沿科技,带您踏上一段奇妙的智能之旅,探索脑科技的未来!