导读:神经反馈是一种通过呈现大脑活动的实时反馈来帮助人们学习如何自我调节神经活动的技术。想象一下,如果我们可以看到自己大脑的活动,就像观看一场由自己的思想导演的电影一样,我们可能能够掌握控制某些脑电波的技巧,进而影响我们的心理状态和行为模式。思考一下,这背后的神经机理是什么?
本文总结:
神经反馈是一种心理生理学程序,其中向参与者提供神经激活的在线反馈,目的是自我调节。
精神和神经系统疾病的根本原因是大脑区域之间动态相互作用病理变化的生物标志物,这些生物标志物可能是神经反馈训练的潜在目标。
神经反馈介导的顶枕叶脑电图振幅降低可增强视觉注意力或抑制走神。
经反馈训练结束后,大脑功能重组的持续存在是神经可塑性的指标。神经反馈训练会导致与受训大脑回路和相关行为变化相关的特定神经变化。这些变化已被证明在训练后可持续数小时至数月,并与灰质和白质结构的变化相关。
与大脑自我调节过程相关的潜在神经回路正变得越来越清晰。越来越多的证据表明,丘脑和背外侧前额叶、后顶叶和枕叶皮质参与神经反馈控制,背侧和腹侧纹状体、前扣带皮层和前岛叶参与神经反馈奖励处理。
学习源自同时发生的强烈突触前和突触后激活以及多巴胺释放。根据这一称为“三因素学习”的假设,突触传递只有在那些同时接收编码环境事件某些方面的输入和与奖励预测误差成比例的多巴胺输入的神经元中才会得到加强
以下科普内容来自Nature reviews neuroscience文章:
摘要
神经反馈是一种心理生理学程序,其中向参与者提供神经激活的在线反馈,目的是自我调节。对特定神经基质的学习控制已被证明可以改变特定行为。作为脑机接口的先驱,神经反馈提供了一种研究大脑功能和神经可塑性的新方法。在本综述中,我们研究了神经反馈背后的机制,这些机制已经开始被揭示。我们还从多学科的角度讨论了神经反馈如何应用于新的实验和临床范式,涵盖了神经科学、神经工程和学习科学的观点。
临床和行为神经科学的目标是观察和了解神经系统机制,以操纵与行为相关的神经过程并恢复或增强功能。神经反馈是一种生物反馈,其中测量神经活动,并实时向参与者呈现这种活动的视觉、听觉或其他表现,以促进对特定行为或病理背后的假定神经基础的自我调节(图 1)。神经反馈始于实验,表明人类可以实时自我控制脑电信号这些实验导致了脑机接口(BMI)领域的发展,也称为脑机接口(BCI),其中个人的目标是直接调节外部设备而不是神经基础。
在神经反馈中,大脑激活通过学习受到意志调节;由于激活作为一个独立变量,它允许在大脑活动和行为之间进行因果推断。已经观察到由自我操纵神经激活而导致的不同行为变化,这表明神经反馈的生理后果可以被认为是一种内源性神经刺激。因此,神经反馈已被用于调节行为相关的功能网络并提供自我管理治疗。有人担心,在临床康复和治疗中快速使用神经反馈的尝试已经超过了对神经反馈背后的神经机制和神经可塑性变化的正确理解的发展速度。一些临床试验在有希望的初步研究之后未能证明神经反馈可以产生治疗效果,这进一步强调了描述神经反馈机制的必要性。在这篇评论中,我们通过综合神经成像模式的发展以及认知和临床神经科学的应用,描述了在理解这些机制方面所取得的进展。
神经特异性和可塑性
传统功能性神经成像建立了大脑活动与行为之间的关联关系。相比之下,涉及功能性神经成像的神经反馈能够操纵特定区域中的神经活动、功能连接和时空活动模式作为独立变量,因此代表了一种研究大脑活动与行为之间关系的方法,与大脑刺激相当(图 1)。在本节中,我们将讨论神经活动自我调节的例子,重点关注学习自我调节如何导致特定的神经和行为变化。
图一:神经反馈过程综述。
自我调节的神经基础。监测神经激活的动物实验提供了最细致的证据,表明神经活动可以在脑机接口和神经反馈的背景下自我调节。例如,一项研究表明,可以训练猴子使用听觉反馈和果汁奖励自愿增加或减少额叶眼区神经元的发放率。在反馈训练期间,猴子收到纯音的听觉反馈,其音高与额叶眼区记录点的多单元活动的瞬时发放率成正比。增加该眼球运动区域的神经元活动可以改善视觉注意力,但不能改善眼球运动准备,揭示了自愿控制神经活动的特定关联。最近的研究表明,小鼠可以控制与尖峰相关的钙信号,这些信号是用运动和感觉皮质中的双光子成像记录的,并且学习与精细空间位置的神经发放变化有关。最近,人类脑机接口显示,多个神经元的学习控制可以操作不同类型的外部设备,以促进瘫痪患者的交流和运动控制。例如,根据皮层内多电极阵列记录的初级运动皮层 (M1) 活动,部分瘫痪患者能够学习协调七自由度机械臂的运动,控制电脑光标或功能性刺激肌肉。
神经反馈已用于自我调节脑电图 (EEG) 振幅,这与皮质内神经元同步程度相关。事实上,神经反馈介导的顶枕叶脑电图振幅降低可增强视觉注意力或抑制走神,而神经反馈介导的皮质内神经元同步增加可改善需要内部处理的任务,例如心理旋转或音乐表演。
基于功能性磁共振成像 (fMRI) 的神经反馈,包括学习增加或减少不同皮质和皮质下感兴趣区域 (ROI) 的活动,已用于调节行为。例如,M1、背外侧前额叶皮质 (dlPFC) 和前岛叶 的活动上调分别与运动表现、工作记忆和情绪图片唤醒的改善有关。此外,一项研究表明,神经反馈介导的前扣带皮层 (ACC) 活动下调与香烟线索渴望的减少有关。
最近的神经反馈研究以创新的方式将电生理和血液动力学脑信号结合起来,以充分利用各自的优势。例如,一项研究最初用杏仁核的空间精确 fMRI 校准信号的位置,然后使用较便宜的便携式 EEG 训练参与者(这种方法是创新的,因为 EEG 本身无法确定杏仁核等较深的大脑区域激活发生的位置)。在有视觉刺激的情况下,参与者下调了杏仁核血氧水平依赖性 (BOLD) 激活的 EEG 相关性。作者发现,基于 EEG 的神经反馈的下调改善与杏仁核 BOLD 信号的下调直接相关,并且自我调节活动导致对负面情绪的控制得到改善。与这种多模态神经反馈的串行方法相比,fMRI 和 EEG 信息可以同时呈现为两个独立信号,以利用电生理信号的动态特性和血液动力学成像模式的空间特异性。类似地,功能性近红外光谱 (fNIRS) 已与 EEG 结合用于神经反馈,通过利用两种信号中可用的互补信息对大脑状态进行分类,从而改善感觉运动节律控制28。与单独的 EEG 信号相比,组合信号的分类准确率提高了 5%。
非侵入性成像在神经反馈中的一大优势是,它可以根据大脑激活的时空模式测量涉及特定功能的整个分布式大脑区域网络的神经激活反馈。精神和神经系统疾病的根本原因是大脑区域之间动态相互作用病理变化的生物标志物,这些生物标志物可能是神经反馈训练的潜在目标。因此,与涉及单个区域或解剖学上非特异性药物干预的神经反馈相比,利用神经反馈在网络层面调节神经动态的能力可能是一种更有效的神经调节方法。
两种神经基质的相关激活在血液动力学模态中称为“功能连接”,在电生理学术语中称为“一致性”。最近的一项研究测试了重度吸烟者中基于功能连接的神经反馈和基于ROI的神经反馈。研究比较了前部大脑区域(包括ACC、内侧PFC和眶额皮质)和后部大脑区域(包括后扣带回和楔前叶)——所有与渴求相关的大脑区域——中基于ROI的反馈的表现,以及涉及相同前部和后部的基于功能连接的反馈。研究发现,与基于活动的反馈相比,连接反馈能产生更大的意志控制力,但更重要的是,渴求分数的降低与功能连接结果分数的相关性比与R”OI活动的相关性更好。功能连接的变化从神经反馈训练前的负相关变为训练后的正相关,这种变化在侧顶叶皮层和初级运动区之间持续了 2 个多月,这两个区域属于不同的内在网络(即默认模式网络 (DMN) 和视觉空间运动网络。这项研究表明,神经反馈不仅能够改变两个功能不同的大脑网络之间的连接,而且还能发挥长期影响。
早期研究观察到了单个区域神经反馈训练导致的网络重组,而最近的研究则尝试对大脑区域之间的功能连接进行神经反馈训练。例如,在一项研究中,参与者接受了训练,能够通过使用基于偶发性脑磁图的神经反馈来改变半球间运动皮层相干性的水平,从而导致异步手指敲击的比例变化。此外,基于连接的神经反馈训练最近被用于通过加强从背内侧 PFC 中的认知控制区域到参与情绪处理的杏仁核的自上而下的连接来提高主观情绪效价评级。
多元模式分析(MVPA) 可以更灵敏地检测与特定的感觉、行为或心理过程相对应的大脑活动分布模式。研究发现,特定区域中的体素活动模式可以区分视觉方向40和运动序列 ,而这些区域的平均体素活动并不能提供有用的信息。在神经反馈中,MVPA 最初用于基于 fMRI 的研究 ,但现在也应用于电生理神经反馈方法。在一项开创性的神经反馈研究中,在初级视觉皮层中诱发了光栅方向的知觉学习,3个单独的方向列低于 fMRI 的分辨率,但可以使用 MVPA 从亚阈值群体活动中检测到。在没有视觉刺激(除了神经反馈信号)的情况下,参与者学会了自我诱发与 Gabor 光栅特定方向相对应的初级视觉皮层活动模式。参与者收到了大脑活动模式与所需大脑状态(但不是实际刺激)之间对应关系的视觉反馈。对应关系的增加与特定方向的感知学习相平行,提供了神经反馈训练行为特异性的一个例子。在这种自适应神经反馈的另一个创新应用中,MVPA 用于在参与者执行认知任务时解码与持续注意力相关的整个大脑状态。此任务的难度级别会根据解码的大脑状态自动调整,以提高警觉性。在神经反馈训练后,大脑注意力网络中与任务相关的表征显示出更独特、更集中的活动。总之,MVPA 神经反馈研究已经为特定的因果大脑行为关系提供了令人信服的证据,但大脑状态被调节的潜在神经生理机制需要进一步探索。
神经可塑性和特异性。神经反馈训练结束后,大脑功能重组的持续存在是神经可塑性的指标。训练后的神经基质的特异性首次在一项涉及非人类灵长类动物的研究中被注意到,该研究表明运动皮层中单细胞放电的调节是可以学习的。后来,一系列令人印象深刻的实验证实了微观层面上学习到的生理调节的局部特异性,在这些实验中,老鼠因增加运动皮层细胞的放电率并同时降低相邻细胞的放电率而获得奖励。另一项针对老鼠的研究表明,神经反馈可用于诱导 M1 和背侧纹状体中的神经元之间的选择性时间相干性。在一项针对猴子的研究中,一种名为 NeuroChip 电子植入物使用在运动皮层一个位置记录的动作电位来触发在运动皮层另一个位置传递的电刺激。经过 2 天的连续刺激后,记录部位的活动与刺激部位的活动相似,表明体内发生了功能重组;这种功能重组在刺激终止后仍持续一周以上。重要的是,只有当记录和刺激之间的持续时间小于 50 毫秒时,才会发生长期(神经可塑性)变化。
图二:NeuroChip引起的神经可塑性示意图。来自”Long-term motor cortex plasticity induced by an electronic neural implant“。
在大型细胞集合层面,有大量证据表明神经反馈可以产生特定的神经效应。与侵入性记录相比,健康成人脑电图调节的局部神经解剖学特异性已被描述。在基于 fMRI 的神经反馈中,对前岛叶训练期间获得的 fMRI 信号进行的 MVPA 和有效连接分析表明,学习自我调节会导致大脑中激活簇的空间范围逐渐减少(“修剪”),这些簇的分离增加(“聚焦”)。在大量练习和学习复杂的认知任务中也观察到了类似的皮质变化,例如语言学习、镜像阅读、运动学习和人工语法学习。然而,当认知策略激活网络时(见下文),可以使用控制条件(例如相反的调节方向、差异反馈、倒置反馈、假反馈、没有任何反馈的心理意象或来自不同神经基质的反馈通过实验解决神经特异性。
神经反馈引起的神经可塑性,以皮质兴奋性变化的形式出现,已在人类身上得到证实,这是通过对受训大脑区域进行经颅磁刺激 (TMS) 实现的。TMS 脉冲被施加到运动皮质,以测量学习自我调节后、无调节或在其他控制条件下的运动诱发电位,以探测皮质脊髓通路强度(即兴奋性)的神经可塑性变化。研究发现,神经反馈与单次或重复训练课程后皮质内抑制的持续(即持续超过 20 分钟)下降有关。
灰质体积和白质连接的结构变化,以前用于揭示不同形式的技能训练所导致的神经可塑性变化,现在也已在神经反馈中得到检验。在对大脑额叶和顶叶区域的β波(15-18Hz)进行神经反馈训练 1 周后,发现白质通路和灰质体积的分数各向异性增加。实验组在训练后,结构变化与视觉和听觉注意力的大幅改善有关。
神经反馈产生的神经可塑性变化是否可预测且稳定?EEG 神经反馈文献中的一个概念对简单的赫布可塑性模型提出了挑战。一些神经影像学研究已经注意到神经活动 (如发放率和同步化) 稳态的证据,但这些测量值仍在生理学限制的范围内。在这些研究中,赫布可塑性与 (非赫布)稳态可塑性相平衡,这似乎可以防止兴奋或抑制的极端情况。值得注意的是,有新证据表明,神经反馈训练后神经功能会出现稳态逆转或“反弹” 。例如,在接受 alpha 去同步神经反馈后,患有创伤后应激障碍的个体的 EEG 同步出现反弹,这可以通过这些人在基线时表现出异常降低的 alpha 功率来解释。然而,目前尚不清楚稳态可塑性在多大程度上影响大脑活动和行为的长期变化,因为有证据表明,这种变化在训练后的几天、几个月、甚至几年后都会出现。进一步的研究可能会揭示神经反馈背景下稳态可塑性和赫布可塑性之间的相互作用。
神经反馈训练可能并不总是会导致行为改变。对猴子的研究表明,运动皮层神经元对操作性学习奖励的反应最初与主动肢体运动有关,但是,随着猴子继续激活与奖励相关的神经元,运动会完全消失。进一步的研究应该解决这种运动停止的两种替代解释:一种解释认为运动由于修剪而消失,而另一种解释认为运动停止是因为神经活动和运动之间的关联脱钩;后者表明运动回路对驱动细胞活动和产生肢体运动发挥着独立的影响。未来的研究应该根据证据表明神经反馈引起的神经可塑性变化可能会持续并导致人类的长期行为改善来调查这些假设。
要了解神经反馈学习背后的具体机制,首先需要了解学习的一般理论和实验基础。操作性条件反射(即工具性学习或强化学习)和经典条件反射(即巴甫洛夫条件反射)是联想学习的两种主要类型。Hebb 假设,如果突触前神经元中的活动反复导致突触后神经元的激发,则突触结构会发生持久的改变,使得突触前神经元的后续活动很有可能激发突触后神经元(“一起激发的神经元连接在一起”)。现有文献认为,长期增强 (LTP) 是联想学习的核心机制。最近的研究集中于一种称为尖峰时间依赖性可塑性 (STDP) 的 LTP 形式。根据 STDP,突触传递的改变是由于数十毫秒内弱和强突触输入的时间变化而发生的。对于某些输入,传输会增加——即突触前反应会产生更强的(“增强”)突触后反应——而对于其他输入,传输会降低(“抑制”)突触后反应。本质上,STDP 取决于突触前和突触后神经元的放电时间序列。
图三:STDP学习法则概念。
多巴胺是一种中介物质,它通过控制皮质纹状体和皮质突触的可塑性,将 STDP 与行为变化联系起来。然而,相反的证据和概念论据表明 LTP 不足以甚至不参与联想形成。在行为哺乳动物中进行的将实验诱发的 LTP 与活动依赖性突触强度变化联系起来的研究显示,在获得经典条件作用而非工具性条件作用的过程中,海马突触的强度会发生选择性改变,而纹状体区域在工具性条件作用期间会被激活,但在经典条件作用期间不会激活。在这两种类型的学习中,NMDA 受体、其他神经递质和转录因子都参与其中。
预测误差是联想学习中的一个基本概念,定义为预期奖励和实际奖励之间的差异。由结果(例如动物神经反馈实验中的果汁奖励)产生的预测误差是衡量结果相对于预期信号的意外程度或惊讶程度的标准。该误差信号被传递到纹状体和皮质区域。多巴胺能神经元以短延迟塑性爆发对意外奖励和奖励预测刺激做出反应,与奖励预测误差信号成比例。
学习源自同时发生的强烈突触前和突触后激活以及多巴胺释放。根据这一称为“三因素学习”的假设,突触传递只有在那些同时接收编码环境事件某些方面的输入和与奖励预测误差成比例的多巴胺输入的神经元中才会得到加强。因此,在偶然反馈的基础上,向纹状体投射的多巴胺能够改变对突出刺激和偶然反馈的反应行为。这是不是可以启发我们设计新的学习算法?看来STDP可能不仅仅是局部学习?