没了选择,人和鳗鱼有何区别?

科技   2024-12-06 07:47   广东  


我们如何做出选择?动物从简单的逃避捕食者到人类复杂的长远规划,这背后隐藏着怎样的机制?凯文·J.米切尔(Kevin J. Mitchell)在《超凡智能体》(Free Agents: How Evolution Gave Us Free Will)中写到,选择并非一瞬间的反应,而是感知、记忆、预测和学习的深度协作。从七鳃鳗的中脑顶盖到人类的大脑皮层,这个过程涉及从简单的信号处理到复杂的情景模拟,背后是一系列动态、分布式的神经回路。通过理解这些机制,我们不仅在重新认识选择的本质,也在探索更深的自我与智能的奥秘。


 

凯文·J.米切尔

Kevin J.Mitchell

都柏林圣三一大学副教授

都柏林圣三一大学斯墨菲特遗传学研究院和神经科学研究院副教授。他的研究旨在理解指定大脑连接的遗传程序及其与人类能力差异的相关性,特别是与精神疾病和神经系统疾病以及联觉等感知条件的相关性;也研究智能体和自由意志的生物学。曾出版《天生我材:大脑构筑如何塑造人的个性》一书。博客:http://www.wiringthebrain.com/



目录

01 协调感知与行动

02 前脑结构的演变

03 充满可能性的世界

04 我的动力是什么?

05 模拟可能的未来

06 学习机会

07 既不是幽灵也不是机器


新皮层的进化使感知变得更加精细和敏锐,使感知便于从环境中提取有意义的信息。这不仅包括识别外界的各种目标,还能构建物体位置与运动的内部地图,所有这些信息都与生物体自身密切相关。随着更多皮层区域的进化,感知也变得更加内化,用来获取更加抽象复杂和深层次的信息。同时,感知也变得更加主观,即生物体根据先前的经验和自上而下的预期来调整对环境的感知,从而在内部形成对外界事物的信念。这些神经机制的构建与运作成本高昂,但这种投入是值得的,因为这些信息有助于生物体做出恰当的行为选择。


因此,行动选择系统的复杂性与感知系统的复杂性相辅相成,任何一方的改进都有助于另一方的进一步发展。视觉和听觉都可以用来绘制远处物体之间的相互关系图,从而创建这些物体的空间关系及其随时间变化的内部模型。这使得生物体能够衡量其面临的多重威胁和机遇,并对整体环境进行综合评价。因此,理解不同物体之间或物体与生物体本身之间的因果关系变得尤为关键。在这个与各种其他生物共存的世界里,了解哪些生物可以食用、知道哪些生物是适合交配的伴侣或是需要避开的威胁,这对生物体来说具有生死攸关的意义。


这就解释了为什么记忆系统对生物体来说是一项非常宝贵的投资,它使生物体能够保留过去的经验和知识,以便在当前情境中做出明智的行动决策。与此同时,视觉和听觉的远距离特性,例如,能看到约1.6 千米以外的物体,也使规划成为一种有价值的新型认知活动。对远处的威胁和机会的预知帮助生物体设定更长远的目标,并制定实现这些目标的多步策略。行动选择不再局限于对局部刺激做出即时反应,而是转变为制定更长远的规划。与感知的进化相似,这种能力的发展需要更多的内部处理层级,而这些层级不只是对当前环境的即时反应。因此,与过去的记忆一样,未来的预想也为决策提供了关键信息。进化出这些能力的生物体不再只是活在当下。


这些新的行动选择神经系统并没有取代旧的系统,而是与它们结合在一起,形成了额外的控制层。为了了解这些新的神经系统的进化,我们应该回顾简单生物体中的控制系统,从中脑顶盖开始讨论。


中脑与中脑顶盖。图源: INC国际。


协调感知与行动


中脑顶盖位于中脑顶部,当生物体接收到来自外部环境的感觉信息时,中脑顶盖会负责将这些信息映射到生物体可能采取的不同行动或动作上。我们已经了解了它是如何将特定类型的视觉信号与特定行为联系起来的。例如,它将逼近的大型刺激(可能是捕食者)与逃避行为联系起来,而将小型刺激(可能是猎物)与定位反应和靠近行为联系起来(可以通过图6.1中七鳃鳗的例子来理解这种联系)。但要适应更复杂的环境,中脑顶盖需要具备更多的功能。


首先,它整合了来自多种感官的信息,最常见的是视觉和听觉信息,但像电鱼或响尾蛇这样的特殊生物还能通过电感和热感来探测物体。所有这些感官信息都传递到了中脑顶盖,形成了一张功能一致的综合地图,从而使生物体对外部的认知更准确、更全面。中脑顶盖的神经回路可以执行各种神经操作,利用来自不同感官刺激生成的综合地图来确定最佳行动方案。由于威胁和机遇很少孤立存在,这意味着正确的决策必须考虑到整体情况。


所有这些感官信息汇聚于中脑顶盖,形成一张功能统一的综合地图,使生物体对外界的认知更加准确与全面。中脑顶盖的神经回路能够执行多种神经操作,利用来自不同感官刺激生成的综合地图来确定最佳的行动方案。由于威胁与机遇往往并非孤立存在,正确的决策必须在全面考量的基础上做出。

图 6.1 七鳃鳗的行动控制。(上图)七鳃鳗的视觉系统相对简单,它与中脑顶盖中介导靠近或回避的回路相连。从侧面逼近的巨大阴影(可能是捕食者)会促使动物做出回避行为,而动物正前方快速移动的小型物体(可能是猎物)则会促使动物定向和靠近。(左下)如果面对多个大型视觉刺激物,一种适应性反应是平均这些信号,并在它们之间规划出一条路线(1+2)。(右下)如果视野中有两个机会,平均信号就不会产生适应性反应,因为这样两个机会都会错过。相反,中脑顶盖中的竞争动态会被用来在选项之间做出选择(1或2)。


例如,当生物体面对多个逃避性刺激信号时,最佳反应可能是采取这些信号单独出现时的平均反应。如果左右两侧同时出现威胁,不转弯直接向前走(或快速移动)可能是最恰当的反应。然而,面对多个吸引性刺激时,情况则不同,它可能想要接近所有这些刺激源。在这些可能带来益处的对象之间来回摇摆、毫无益处,它应该选择一个方向。为了实现这一目标,中脑顶盖中处理这类吸引性信号的神经回路采用了一种赢者通吃的竞争机制:两个吸引性刺激的输入信号可能会激活两组神经元,从而驱动不同方向的运动。在这些信号传递到后脑和脊髓之前,这两组神经元之间发生相互抑制,确保最终只有一个方向的模式被强化,而另一个受到抑制。


大脑皮层和前脑进化出的新结构也执行类似的操作,但其处理的数据更多,信息背景更丰富,时间跨度也更长。这些操作的最终结果仍然是选择执行一种行动,同时抑制其他竞争性行动。这些大脑的更高级区域在处理许多不同类型的行为时,仍会通过中脑顶盖和后脑的运动指挥中枢传递这一决定。


前脑结构的演变


我们已经了解到,在哺乳动物进化过程中,大脑皮层逐步扩展并在感知中扮演理解感官刺激的关键角色。前脑的其他结构和神经回路也在同步进化,将这些感知信息与更复杂的行动规划和选择联系起来。这些结构包括海马体(因其海马形状而得名),它位于大脑颞叶内侧。海马体对学习和记忆至关重要,是生物体理解世界的基础。


图源:https://limboy.me/posts/brain


前脑还包括我们在上一章讨论过的丘脑:它充当信息流的管道或交换机,控制着皮层区域以及跨皮层区域的信息流。此外,皮层下方还有一组被统称为“基底节”的结构。(又名基底核,“神经节”一词意味着神经细胞群,它们之所以被称为“基底”,是因为它们位于前脑的底部)这些结构介于皮层和丘脑之间,构成了一个扩展的回路(实际上是一组嵌套的回路),用以评估不同的行为选项,选择最优的行为,并从这些行为结果中学习。它们在调节和优化行为决策过程中发挥着至关重要的作用。这些决策受到多巴胺和血清素等化学物质传递的信号的影响。这些信号源自中脑区域,向前脑的结构传递有关某种行为带来的奖励惩罚、意外等信息。


总体而言,这些结构和回路在决策过程中发挥着调节作用:评估形势,包括外部事物和生物体的内部状态;确定当前需求并调整目标;探索实现这些目标的可能行动;模拟并评估这些行动可能带来的结果;根据这些评估结果来指导并处理多个行动之间的竞争;执行选择的行动并抑制其他行动;监控执行表现并根据反馈进行调整;评估结果并更新外界及生物体自身状态的内部模型;评估行动的实际结果价值;最后,调整系统内的神经连接权重,以便在未来遇到类似情况时强化或弱化该行动模式。接下来,我们将详细探讨这些复杂过程的实现细节。


充满可能性的世界


在上一章中,我们了解到感知既不是被动的,也不是中立的。实际上恰恰相反:感知具有实际用途和明确目标,其核心意义在于指导行动。这就需要对场景进行解读:场景中有哪些物体,它们的功能是什么,它们会对生物体造成哪些影响,威胁和机遇分别是什么以及生物体所处环境如何?要回答这些问题,仅靠对感官数据的分析是不够的。这需要知识:生物体必须知道它观察的是什么(见图 6.2)。


图 6.2  行动选择。行为控制涉及感知、思考、行动和学习的持续循环。


大脑皮层和海马体的神经回路是专门负责通过学习和记忆积累知识。在最基本的层面,包括学习物体的特征属性或注意经常与之共同出现的刺激物,但这些学习和记忆机制也同样适用于学习识别更复杂的场景和记忆过去的事件。这些过程依赖于突触可塑性,即在细胞层面上改变神经元之间连接强度的过程。


当相互连接的神经元同时或接连被迅速激活时,这些连接强度往往会增加。也就是说,“同时被刺激的神经元会连接在一起”。这就是我们学习外界事物之间联系的方式。比如用著名的伊万·P.巴甫洛夫(Ivan.p.Pavlov)例子来说,铃声可以与其他事物(如食物)相关联。在这个特定例子中,学习是由食物奖励主动触发的,但更普遍的情况是,大脑皮层的神经回路连接在一起,被动地接收和学习环境中事物的规律。


伊万·彼特诺维奇·巴甫洛夫(Ivan Petrovich Pavlov,1849-1936):俄国生理学家、心理学家、医师,高级神经活动学说的创始人和高级神经活动生理学的奠基人。条件反射理论的建构者,也是传统心理学领域之外而对心理学发展影响最大的人物之一。——译者注


我们就是这样学习物体属性的。我们会把草莓的颜色和形状与其独特的味道联系起来,或者将石头的大小和视觉纹理与预期的手感或重量联系起来,或者将母亲的面孔与对她这个人的印象联系起来,比如她的个性、她可能说的话或对某事做出的反应等。大脑皮层神经回路的分层结构也使它们有效地学习物体类型,而这些类型本身也可以归到更广泛的类别中,形成复杂的概念和认知层次。例如,我们可以把邻居家的狗力士(Rex)看作个体,但我们也可以将它看作某个特定类别的一员,如大类、哺乳动物或动物的一员。如果我们遇到一种具有相似特征的新动物,我们也可以通过将当前的感官知觉与我们已有的高层次的“狗”的概念联系起来,将其看作狗。


感知回路不仅将传入的感官信息分割成离散的物体,而且通过我们的记忆来识别这些物体,并激活关于它们属性的记忆图式或构象。在前几章中,我们了解了大脑根据环境实际情况通过配置控制策略处理传入的信号,这些策略不仅包括理解传入的信息,还包括“如何处理这些信息”。随着大脑处理层级的发展,传入数据可以根据存储的知识进行语义解释。这就将感知与概念联系起来,从而识别和理解外界的事物。


反过来,对物体的记忆属性或推断属性也会影响感知行为本身。比如,我们不仅能感知物体当前的视觉特征,还能感知它的三维形状,即使我们无法看到它的全貌,仍然能感知到它的背面或内部,这是因为我们考虑到了我们自身观察的角度和位置。我们下意识地预测,如果我们采取某些行动会发生什么以及我们的感知会发生怎样的变化;例如,绕物体走动、触摸或拿起物体时的感觉变化。这些期望依赖于我们对特定物体和物体类型的了解,以及对基本物理规律的认识。即使在最简单的感知行为中,我们也在感知过程中主动地构建了一种结构,其中包含我们对可能行动的设想以及这些行动可能产生的感知后果。


同时,我们也在评估其他可能的行动及其后果,这不是为了获得我们对物体的感知,而是相对于我们的目标而言的。我能用这个物体做什么?它对我有什么作用?心理学家詹姆斯·吉布森(James Gibson)将这种属性称为“可供性”,即这个物体或那个物体为我提供了哪些可能性?其中一些可供性被植入简单生物的神经回路中。比如,我们通常应该躲避一个迅速逼近的巨大阴影,而眼前的这个小物体是可食用的。但在大脑皮层扩展的动物中,这些可供性依赖其过去与不同物体或物种互动的经验。松鼠可能知道细枝无法支撑它的体重。猴子可能学会了用棍子把蚂蚁从蚁丘中抓出来。老鼠可能会将一片比萨从纽约地铁的台阶上拖下来。


詹姆斯·吉布森(James Gibson):美国实验心理学家,创立了生态光学理论他反对知觉的认知加工理论,认为知觉是一种直接经验,它的一切信息都由外界物体的光学特性所提供。1961年获美国心理学会颁发的杰出科学贡献奖1967 年当选为国家科学院院士。——译者注


对生物体来说,将特定场景中所有个体的可供性整合成一幅图景至关重要,这样它才能将自身置于核心位置,并以实际效果和实用性为导向来评估整个情境:这个场景给我带来了哪些机会或威胁?这需要构建一幅更加全面的图景,将感知对象与周围环境的关系考虑在内,并将这幅图景与个体从经验中积累的知识联系起来,而海马体在这一过程中发挥着至关重要的作用。


这种前脑结构主要由几个亚区组成,每个亚区具有独特的层状结构,能够接收来自大部分皮层以及其他区域的信息输入。在功能上,它专门负责从不同信息流中提取结构关系和条件关系(见图 6.3)。海马体中的神经元连接稀疏,通常以小型、短暂的群体(称为集合或集合体)形式活动。即使动物处于静息状态,海马体也会像大脑的其他区域一样,保持电活动状态,同时激活的神经元集合体一直处于动态变化中,不断形成新的组合,然后又解体,从一个活动模式切换到下一个模式,单个神经元会短暂地参与不同的神经元集合体。重要的是,这些集合并不需要外部输入的驱动。相反,在实际经历中,神经元集合的活动模式会与外界输入的刺激同时发生,并与之产生联系从而产生特定含义。当海马体整合来自大脑皮层不同部分的信息时,恰好在某一时刻活跃的特定集合体就能编码对共时刺激的记忆。


图 6.3 海马体和大脑皮层。海马位于大脑深处,紧靠大脑皮层的内侧边缘(每侧各有一个)。它通过内嗅皮层和其他区域与所有皮层区域建立了广泛的联系。


这种编码方式依赖于集合内部以及同时活跃的多个集合之间连接的增强。这意味着,当一部分神经元在未来某个时刻再次出现电活动时,其余神经元也会再次被激活,重新建立先前与某个记忆相关的神经元活动模式,从而激活记忆。这一过程起始于相关神经元内的短期生化变化,这些变化导致细胞表面的神经递质受体蛋白的数量发生改变,从而使神经元对其他神经元的信号更敏感。在强刺激或反复刺激下,会产生更稳定的变化,尤其会导致特定神经元对之前的突触连接增强。这些变化促进了长期记忆的稳定和巩固,这也需要海马体与大脑皮层之间的相互作用。


这样一来,海马体和大脑皮层中的神经回路的物理结构实际上成了知识的承载者。这个过程类似人工神经网络中深度学习所依赖的连接权重变化机制,实际上也正是为后者提供了灵感。这种机制搭建了从感知表征到知识表征的桥梁。我们在上一章中讨论过的感知表征是指反映大脑对当下外界事物做出响应的神经活动模式。在这个机制下,感知表征转化为关于这些物体属性的知识表征,这些知识表征存在于神经回路网络的突触权重模式中。因此,神经活动模式的意义在任何时候都是通过对这些存储的突触权重模式的解释来确定的:数据的输入通过参照存储的知识而获得意义。因此,感知不仅仅是外部信息输入大脑的过程,也是生物体与外部世界交互的方式。


海马体专门负责在刺激之间建立联系,并按时间顺序组织这些信息,从而形成对事件的记忆。这些记忆不仅是单个时间的记录,而是根据更长时间段内发生的事件顺序编码,形成了一种层次化的背景结构。这些记忆与动物自身的情况密切相关比如它在哪里,它在做什么,接下来会发生什么。在任何时刻海马体都会对环境进行空间映射,构建环境空间图,记录动物在其中的位置、移动方向和面朝方向。随着动物的移动,这幅图及环境中物体的所有信息都会相应更新。海马体神经回路结构的设计目的是将某一时刻活跃的神经元集合与下一时刻活跃的集合连接起来,依此类推,便形成了对事件发生时间顺序的结构化记录,即所谓的情景记忆。


这种记忆的结构非常适合推断因果关系。例如,如果在某事件中,A发生了,然后B也随之发生,那么可能会推断A导致了B。如果这种关系在多个事件中反复出现,那么这种因果推断就显得更加合理。此外,记忆元素的层次化关系结构使生物体能够通过将项目和事件整合到一个情境框架中来构建复杂的因果关系。例如,A可能导致了B,但只有在C的背景下才成立,这也是海马体和大脑皮层能够识别的一种常规关系当然,我们不希望记住发生在我们身上的所有事情。因为构建和维护这些新突触需要大量资源,记忆的形成需要耗费大量的能量。此外,许多事件的发生都是偶然的,并不代表世界中的稳定规律,或者它们可能与我们关系不大,因此最好忽略不计。考虑到这一点,突触可塑性的细胞过程并非自动发生,而是受到注意力、觉醒状态、显著性、奖励或惊喜等因素的影响,并由多巴胺、血清素和乙酰胆碱等神经调节剂信号进行调节。


整个系统经过精心设计,使生物体能够学习它所需要的知识,并创建一个知识库,供其评估新情况时使用(见图6.4)。这包括对过去事件的理解,尤其是生物体自身采取的行动及其结果。随着视觉感知的进化,我们认识到生物体需要考虑到自身的运动。这一点也适用于对世界因果关系的理解:要理解所有这些关系就需要将自身看作一个因果主体。生物体必须了解到,无论是有意识的,还是无意识的,自己的行动可引发特定事件,带来可预测的行动结果。生物体也在干预世界并观察其结果的过程中逐渐获得因果知识。


因此,任何动物的感知都涉及想象多种可能出现的场景或采取的行为,以及这些场景和行为所带来的感觉和后果。这实际上是一个充满可能性的世界。即使在最简单的感知行为中,我们也在思考并构建可能的行动选择,以回答“我在这里能做什么?”的问题。但为了真正采取行动,从所有可能的选项中做出选择,生物体还需要回答另一个问题:“我应该在这里做什么?


图 6.4 获取知识。海马体和大脑皮层神经回路适用于学习联想,包括物体的属性和事件的序列,以及抽象出分类关系、图式、偶然事件和因果关系。这些关系体现在神经回路的配置中,从而构成了支持适应行为的知识网络。感知本身是一个主动的、以自我为中心的过程,旨在推断生物体在任何特定情况下可以做什么。


我的动力是什么?


动物的行为不仅取决于外部环境,还取决于其当前的需求,而当前的需求又取决于动物的内部状态。例如,为了确保生存,动物的能量平衡和营养状况、体液平衡、睡眠需求和体温等身体参数都必须保持在一定的范围内。在大多数脊椎动物中,这些参数由下丘脑和中脑的相关区域共同监控。一旦生物体的生理参数偏离了最适宜的设定值时,就会触发一系列对抗性的生理或行为反应。


下丘脑是身体和大脑之间的关键枢纽,监测血液中的信号和来自身体各部位的神经信号。它还具有相反方向的双重作用模式,它既控制多种荷尔蒙释放回血液,也引导自主神经系统发出信号。这些过程协同作用,调节身体机能,如血压、心率、酶水平、消化、肠蠕动、出汗、发抖、睡眠、唤醒等,将关键参数恢复到正常范围内。


出于同样的目的,有关当前需求的信息也会影响某些行为的优先次序。下丘脑与其他脑区广泛连接,这些脑区共同发出信号,以不同的紧迫程度激发不同类型的行为。由此产生的需求信号可能表现为饥饿、口渴、疲倦、寒冷、疼痛、恐惧等基本状态。这些状态自然会促使动物进食、喝水、睡觉、寻找栖息地、躲避会带来疼痛或恐惧的事物或做出防御或攻击性行为。这些行为显然对动物的生存至关重要。


这些都是动物最直接和最迫切的需求,它们对动物的行为有很大的影响。但在更长时间范围内,其他需求同样重要。例如,繁殖需求以及相关的交配和抚育行为动机,也受到下丘脑神经回路的控制。就人类这样的社会动物而言,保持群体或家庭联系、维持社交关系、占据更高的统治地位等社交行为,对生存和繁殖同样重要。因此,就许多物种而言,孤独感、妒和愤怒等更复杂的情感也可能成为驱动行为的强大力量。在许多情况下,等待或主动寻求更多信息也是一种行为目标。


下丘脑及其连接区域将当前需求的总体情况传递给负责行动选择的大脑部分。在七鳃鳗这样的低等脊椎动物中,负责选择行为的部分主要包括中脑顶盖和中脑区域,其行为选择有限:认知相对浅薄。而在哺乳动物中,由于它们拥有更多的行为选择和更高的认知深度,这些信息也传递到皮层和前脑的其他部位,帮助动物决定应该采取哪些行动,但因为具体的动作需要根据特定的环境或情境来确定,这些信息并不直接提供执行特定动作的具体指导。


例如,营养不良的动物会向决策区域发送饥饿信号,但如何行动取决于具体情况。如果有食物,动物就应该吃;如果没有食物,动物就应该寻找食物。为了达成这个目标,它可能会采取哭泣、乞求、交易、偷窃、放牧、觅食、捡拾或狩猎等多种行为方式。而每种行为方式都可能涉及多种行动选择,其他行为也是同样的原理。这些行为可以分为消耗性和食欲性:如果已经获得了所需资源,那么就完成了该行为(进食、饮水,交配、睡觉);如果还没有得到所需资源(食物、水、配偶安全的睡觉场所),那么就去寻找。从根本上说,动物会根据当前可直接获得的资源,做出利用当前资源或继续探索的决定。总体而言,下丘脑发出的信号主要向大脑决策区域传达了这些需求的相对紧迫性,指导动物应该采取什么行为,而并不涉及具体的执行方式。


这些信号会影响动物的整体决策过程,提供必要的驱动力,使其为完成各种行动投入合理的精力和时间以面对必要的风险。极度饥饿的动物会优先寻找食物,相较于已经饱食的动物,它愿意为此付出更多努力和承担更多风险。当然,动物为寻找食物所付出的努力必须与其他当前甚至预期的需求和机会成本相平衡。因此,各种需求信号的相对水平决定了动物的追求目标。在大多数哺乳动物中,这些目标通常相当简单直接,与其基本需求密切相关。我们将在后面的章节中了解到,人类能够将目标按照不同的层次组织起来,形成一个层层嵌套的结构。


这些目标的时间跨度更长,并且需要更复杂的行为才能实现。目标在大脑皮层中可能是分层表达的,直接的、短期的目标(或行动计划)在运动皮层表达,长期目标则更多依赖于前端区域,即前运动皮层和前额叶皮层。我们将在后续章节中详细讨论前额叶皮层。


模拟可能的未来


讨论到现在为止,我们了解到动物已经对场景进行了观察,可将其与存储的记忆进行比较,辨识出环境中的物体,然后将它们映射到存储的记忆中,对整个情境进行了表征和评估,并根据自身的内部状态对目标进行了排序。接下来的任务是整合所有这些信息,以便可以决定采取哪些具体行动。虽然在某些情况下,可能只有一个明确的目标,只需采取一个行动,但在大多数情况下,可能同时存在多个目标,而且可能彼此冲突,至少在追求其中一个目标时,有可能会失去追求其他目标的机会。此外,可采取的行动太多了,导致无法有效地在这些行动之间进行权衡。由于存在过多的可能性,就难以一一考虑在内。


想象一下,一只猴子过着群体生活,处于相对安全的环境中,既不饿,也不渴,也没有面临任何迫在眉睫的威胁。它可以做很多事情,如爬树、抓虫子、挠痒、梳理同伴的毛发、寻找配偶、睡觉、敲打石头、上蹿下跳、戳自己的眼睛、撒尿,打架、挥舞手臂、往鼻子里塞小石子、吃土、尖叫等。但它实际上不需要在所有这些行动之间犹豫不决,因为大多数行动并不会“浮现在脑海中”:那一刻它们可能根本就没有进入猴子的选择范围内。


是什么在控制着猴子意识中可能浮现哪些行为选项,这还是个谜。这可能基于过去的经验,但这种经验很笼统,与具体环境没有太大关系。猴子可能知道抓虫子、为同伴理毛发和睡觉通常都是消磨时间的有效方式,因此,它可能更容易想到这些选项,而不会考虑采取其他各种行动。你可能已经注意到,上述罗列的一些行动选项,如尖叫、吃土或把小石子塞进鼻子实际上都是幼崽(猴子和人类都一样)会做的事情。它们似乎在探索各种选择时并没有进行太多的区分,但随着时间的推移它们通过经验知道了哪些选择通常是有益的,哪些是无益的。换句话说,动物通过经验养成了思维习惯。当我们在后续章节中讨论人类的自由意志时,会更详细地探讨这种习惯,尤其是这种观点:如果这些想法只是突然浮现在脑海中,那么我们并不能真正控制它们。但目前重要的是这种思维捷径大大缩小了动物可能采取行动的考虑范围。


下一步就是从这些可能采取的行动中做出选择。理论上,动物可以尝试不同的行动,观察它们的结果。但在现实世界中,这种“试错”的方式可能会带来严重的问题,因为“错误”往往意味着死亡。至少,在一个竞争激烈的世界中,在低回报的行动上花费时间和精力,可能导致在收益和机会上输给对手,更好的策略是在内部模拟各种可能采取的行动,并预测和评估其可能带来的结果。然后,根据这些预测权衡不同的行动选择选出最能满足当前目标的行动。这种内部评估的好处在于无须与世界互动即可对行动进行评估,但需要高效地执行,以免陷入犹豫不决的境地。


这个过程与下国际象棋的过程相似。在棋局的任何一个阶段,我们可能都会有十个或更多的棋子可以移动。在选择挪动这些棋子时,我们会在脑海中思考一下,如果我们把皇后移动到这个位置或那个位置会发生什么,或者如果移动主教、骑士、这个兵或其他棋子,会是什么情况。我们在脑海中模拟走每一步可能带来的结果,并评估它们的好坏。在某些情况下,无须深入思考,就能走对棋步;而在另一些情况下,则需要把目光放得更长远,深人考虑后面可能采取的多步走法,考虑各种可能出现的局面和对手的应对走法。有些棋步短期来看可能会带来损失,但长期来看会带来更多的机会。有些棋步可能会让我们付出昂贵的代价,即使不是立即输掉,也会在短时间内输掉比赛。


在脑海中模拟所有这些选项的意义在于,我们不必在真实生活中亲自尝试并承担风险。在高风险的生活情景中,这种方法的好处是不言而喻的。正如哲学家卡尔·波普尔(KarlPopper)所说,这种心理模拟的能力让“预见’代替我们去死”。当然,我们在生活中(就像在国际象棋中)获得的经验越多,我们就越善于做出这些决定、识别局势、缩小选择范围、预测结果,并在未来更长的时间内对其进行准确评估。


在脊椎动物中,这些模拟、评估和最终选择的过程由大脑皮层、基底神经节和丘脑之间的一个复杂的、多层次的神经回路系统介导,接收来自中脑中枢的效用信号输入,并输出到中脑顶盖的运动指挥中枢和中脑其他部分。尽管目前所有这些元素的确切功能和细节仍存在争论,尚处于研究之中,但我们目前已经对它们有了大致的了解,如下所述。


首先,大脑皮层中形成了某些行动计划。这需要激活不同的神经元集合,每个特定神经元活动模式对应一个特定的行动计划。此时,这些神经活动模式代表某项行动的想法,而非最终决定。这些大脑皮层的活动模式通过大量平行神经纤维传递到基底节的输入区域,即纹状体(因输入纤维的扇形结构使纹状体呈现条纹状而得名)。这一区域的神经元很难被激活。相比之下,基底神经节的输出区(称为GPi和SNr)包含的抑制性神经元始终处于活跃状态。它们将抑制信号发送到中脑的运动指挥中枢,从而抑制这些区域的所有运动指令神经元。因此,基底神经节的基本功能就是抑制所有行动。


纹状体可以发出信号解除这种抑制作用,允许某些活动发生,但这一过程非常复杂。纹状体有两种类型的神经元,它们都具有抑制作用,并通过两种不同的途径投射到GPi。其中:一组神经元直接投射到GPi,以特定的模式抑制GPi神经元,从而解除对运动命令中枢的抑制,促使它执行预期动作。另一组纹状体神经元的作用正好相反。它们通过基底神经胶质细胞的另一个分支GPe间接投射到GPi。GPe神经元也是抑制性的,因此最终形成一个三重负反馈环路(抑制抑制器的抑制器),它能有效激活GPi神经元,加强对运动中枢的抑制。


这个复杂的神经回路有什么意义呢?我们可以把这两条路径看作每项行动计划的预期成本和收益(当然这也是有争议的)。如果成本高,间接路径(“不行动”路径)就会非常活跃;如果收益高,直接途径(“行动”路径)就会更活跃。然后,通过比较每个计划的相对优势,选出最佳计划。从某种意义上说,各种行动计划在任何特定时刻都在相互争夺控制权。基底神经节在这一回路中的功能是对大脑皮层中代表各种行动计划的活动模式之间的竞争施加影响,增加其中一些计划的相对优势。


这一功能依赖于从基底神经节到丘脑和大脑皮层的循环回路(见图6.5)。因此,此处似乎存在一个内部回路,用以思考该做什么,以及一个输出回路,用于在完成所有思考后实际释放所选择的行动信号,同时继续抑制其他行动(使问题更加复杂的是,还有一种路径叫作超直接通路[hyperdirect pathway],可以完全绕过纹状体,使大脑皮层非常迅速地否决或终止行动)。


图 6.5 基底神经节一皮层环路。在任何特定情况下,多个可能的目标或行动都可能在不同的皮层区域以神经模式的形式出现。在行为控制(目标、计划、行动或动作)嵌套层级的任何一级,这些模式实际上都在相互竞争,以控制实际的运动机制。这些模式通过基底神经节的传递,可以根据先前的学习和当前的状态,并根据中脑多巴胺核发出的信号,对这些模式的优劣进行内部评估。通过丘脑传回大脑皮层的信号,通过苍白球的平行抑制和激活(实际上是解除抑制)回路,可以有效地评估每个动作的成本与收益。这一模拟循环中的活动一直持续到某一行动计划明显胜出为止,此时传递到中脑顶盖和中脑指挥中心的信号会释放并激活该行动计划,同时抑制其他行动计划。对随后结果的监测通过改变纹状体和大脑皮层中代表行动和结果关联的突触权重来指导学习,从而使生物体从经验中学习。


在这一过程中,基底神经节的功能之一是将当前的动机和情境信息与感觉运动行动计划结合起来。神经调节回路将前文讨论过的动机信号传递到纹状体,并调节不同通道的增益,从而有效地激励某些行动的选择。这些回路使用多巴胺等神经调节剂,使受体神经元对传入的皮层轴突激活更敏感,而不会导致其自行激活。如果动物感到饥饿,神经调节回路就会增强代表寻找食物计划的神经活动模式,反映出在饥饿状态下寻找食物的收益更大(或者说付出的成本更值得承受)。这些信号还可以调节所选行动的执行力。


多巴胺和其他神经调节信号(包括血清素、乙酰胆碱、去甲肾上腺素和组胺)也参与了基于预测结果选择行动的过程,预测是在大脑皮层和海马体中进行的,其依据是所学到的世界规律以及从经验中获得的知识,这包括对事件顺序和因果关系的认知。从某种意义上说,这些知识就是对未来的记忆。在这些过程中生成了关于不同行动结果的预测,包括对奖励或惩罚的估计,以及对各种行动总体主观效用的预期,动物会利用这些预测结果来确定行动的优先次序,并在行动执行过程中不断监测这些预测结果。当动物的行为与它们的预期结果偏离时,中脑会产生多巴胺信号,引起动物行为上的显著变化;实际上,多巴胺告诉动物事情并不像预测的那样顺利,可能需要改变行动。


值得注意的是,这些神经调节化学物质本身并没有什么特别之处。例如,多巴胺本身并非天生具有什么奖励或惊喜的性质。它释放的效果完全取决于环境,即多巴胺的作用取决于释放多巴胺的神经元所代表的刺激性质,以及接收信息的神经回路解读信息的方式。在这些情况下,这些神经调节剂并不会在大脑中广泛分布,也不像全身性激素那样起作用:大脑并不是“浸泡”在特定水平的多巴胺或血清素中。这些物质是在这些回路中的特定突触处进行局部释放,并受到严格的控制。在选择行动时,多巴胺信号传达了行为结果与内部预测的差异,无论结果是好是坏(你可以将这些反应称为惊喜、失望或高兴)。多巴胺是由那些比较行为结果和内部预测的神经元中释放的,多巴胺信号是在纹状体和其他部位被解释为调节各种通道的增益,从而帮助动物指导正在进行的行动。


然而,或许这些神经回路最重要的功能是使系统能够从经验中学习,以便将来做出更好的决策。


学习机会


行为控制的过程不是一系列静态的、不相关的事件。生物体不必每次都从头开始进行决策。相反,它会利用从过去经验中学到的知识,使其在每一个新的决策时刻发挥作用。它通过记录过去选择的结果并强化那些结果良好的选择来实现这一点。


重申一下,多巴胺在这一过程中发挥着核心作用,尤其是在评估行为结果方面。其主要运作模式是这样的:当某个行为结果良好时,多巴胺信号通过基底节的反馈,导致从大脑皮层到纹状体的突触连接处的突触可塑性增强。这些过程往往会加强结果良好的行为连接,削弱那些结果不佳的行为连接。这种工具性学习或强化学习的效果是,当动物下一次遇到这种情况或类似情况时,强化的行为就会自动在竞争中占据优势。传入的大脑皮层信号将向纹状体神经元传达更强的信号,自动增强具有收益的活动,使其在与其他行为的竞争中处于优势地位。


这种强化学习是一些人工神经网络深度学习的关键过程它通过反馈上一次的表现来调整网络中的连接权重,这些权重代表了处理输入数据的不同方式,从而训练它们完成特定任务人工网络和大脑的关键在于,过去的表现记录并非存储在一个单独的区域中,每次做决策时都必须查阅这些记录;相反,学习直接融入了决策机制本身(这并不是说我们对许多事件没有进行明确的情景记忆,但这一过程并不是这种强化学习发生的必要条件)。


生物体每选择一次行为,就获得一次强化学习的机会;每次行为选择都是一个学习机会。


行为结果越显著,神经连接的变化就越强,对后续行为的影响也就越大。随着时间的推移,如果某种行为被证明是一种可靠的积极行为,那么它就会得到增强,甚至发展成为一种思考习惯或者行为习惯。事实上,它可能会变成自发行为,仅仅是对情境的认知就足以触发相应的行为,而无须有意识地根据目标斟酌行为或考虑该情境下的其他行为选择。


我们往往认为习惯是坏事,但实际上习惯是极其有用的捷径,它使包括人类在内的动物能够以最少的思考力和时间适应和应对环境,在熟悉的环境和场景中得心应手。我们已经完成了所有的艰苦思考,所以为什么还要再做一次呢?总的来说如果我们在大多数日常情况下都以屡试不爽的方式行事,我们的大脑就知道事情的发展趋向。人们有时会被问道:“如果你能回到过去,你会给年轻时的自己提一些什么样的建议呢?”实际上,情况恰恰相反:我们过去的自己一直在给现在的自己提建议,以确保拥有最美好的未来。


总而言之,这些复杂的大脑系统包括大脑皮层、海马体下丘脑、丘脑、基底节、中脑核、运动指挥中枢和其他区域内的神经回路,它们在行为控制过程中共同发挥作用。这些过程使动物能够识别和评估情境,监测当前需求并确定不同目标的优先顺序,构想可能采取的行动,从中进行选择,并从结果中学习,为今后的行动提供参考。这些能力使动物能够进一步将感知与强制性行动分离开,在实际采取行动之前,在大脑中模拟和评估各种可能的行动方案,并利用个体历史和经验,做出最佳决策。


在人类自身的进化过程中,前脑的逐渐扩展尤其是大脑皮层的扩展,促使像人类这样的动物能够越来越多地内化这些过程,在更长的时间范围内产生更多的学习和规划层级。正如我们将在后面的章节中看到的,这最终发展成为内省和元认知的能力。通过这些能力,我们的目标、动力和想法不仅成为认知的要素,还成为认知的对象。通过这种方式,哺乳动物、灵长类动物以及人类,最终发展出了多层次能力,使它们能够更独立地处理内部和外部环境的需求,成为具有更大自主性的因果主体。


既不是幽灵也不是机器


本章介绍的内容有几个要点需要强调。首先,生物体不是被动地等待有外部刺激后才做出反应。它们的大脑在清醒的状态下,会不断重复思考可能采取的行动,并随着新信息的涌入和不断变化的环境调整可能采取的行动方案。其次,环境和生物体之间不是单向关系,而是一个相互影响的递归循环。生物体的活动改变了环境,也改变了生物体与环境的关系。看似线性的因果链实际上是一个循环或一系列循环,你可以将其视为在时间中延伸的螺旋。如果我们忽略这些相互作用,我们就只研究了整个系统的一半。最后,决策和行动选择的过程也是一个持续的动态过程,而不是神经系统从一种物理状态瞬间转变到另一种状态。在我们应对“人们是否真正有能力做出选择”的哲学质疑时,这一点至关重要。


此外,对行动选择过程的描述有可能给人一种印象,即它是一种不停运行的机制或计算机运行线性算法。当然,确实有机制在起作用:当大脑的某些部分受损或受药物影响,决策出现失误时,我们就可以清楚地看到这一点。这些机制的某些操作的确可以被视为计算。然而,算法的概念,即一系列有条不素、按部就班的步骤,并不能准确地描述正在发生的事情。行动选择过程所涉及的各个子系统之间不断进行对话,来自所有相互关联区域的信息处于动态变化中,在此背景下,每个子系统都在努力满足自己的特定限制或要求,进行调整和适应。最终,通过这些动态的、分布式和递归的相互作用,整个系统会进人一种新状态,在这个状态下,系统会选择执行其中一种行为,并同时抑制所有其他行为。


从整体上看,生物体的神经回路并没有做决定,而是生物体在做决定。它不是一个通过计算输入输出的机器。它是一个整体性的实体,基于自己的理由做出行为决策。这些理由来自生物体所掌握的各种信息的意义,这些信息植根于过去的经验并用于想象未来的情景。这个过程依赖物理机制,但并不能将其简化为这些机制。系统在做什么不应该等同于系统如何做。这些机制共同构成了一个自我,正是这个自我决定了一切。如果我们把它们割裂开,即使是在概念上分割开,我们也会无法对其进行恰当的理解。


然而,尽管我们可以否定还原论、纯机械论的方法,但我们也不应该转向另一个极端,将心智看作某种模糊、神秘、非物理的“主宰”或“幽灵”。我们的思维不是居于物理大脑之上的额外存在,以某种神秘方式指导电活动的进行。相反,分布在各个神经回路中的活动产生或引发了我们的心理体验(其他动物的心理体验也是如此)。神经系统的物理配置决定了特定神经活动模式在心理层面上的意义和影响。因此,我们可以构建一个关于能动性的完整物理概念,既无须将其简化,也无须将其神秘化。




混沌巡洋舰
人工智能已经在迅速的改变我们的世界,当它与脑科学结合,这种改变将最终达到人本身。混沌巡洋舰站立在这两个未来的塑造者之间, 讨论这场正在发生的变革对每个行业和个体的影响。我已委托“维权骑士”为我的文章进行维权行动。
 最新文章