海马空间预测认知地图自适应引导奖赏泛化
Hippocampal spatio-predictive cognitive maps adaptively guide reward generalization
本次介绍的文献是2023年发表于Nature Neuroscience的文章,Hippocampal spatio-predictive cognitive maps adaptively guide reward generalization, 海马空间预测认知地图自适应引导奖赏泛化。
“
作者 Author
本篇论文的作者是来自德国莱比锡马克斯·普朗克人类认知和脑科学研究所(MPI CBS)的Mona Garvert和Christian Doeller,以及来自柏林马克斯·普朗克人类发展中心Nicolas W. Schuck等人。他们的研究兴趣主要涉及到大脑对外界知识的内部表征并构建、更新和使用外界环境的模型来指导行为决策,以及使用人类神经成像技术和计算模型的多学科方法来探究学习和决策背后的神经表征和计算,并应用到不同个体中进而探究临床精神疾病治疗的新型方案。
Introduction
我们经常去新的商店或餐馆,在没去过的机场降落,或者开始新的工作。在这种情况下,人类行为的灵活性很重要。即使在新的情况下,我们也经常能够预测我们行动的后果,从而做出适当的决定。人们接触的新环境和的过往经历往往存在相关的联系,这也客观上使我们能够通过将获得的关于环境的一种状态的信息推广到相关的状态,进而预测从未直接经历过的结果。人类和其他动物能够在空间或感知上相似的刺激以及内部形成的联想结构的刺激之间进行泛化。
为了使泛化成为可能,大脑需要对刺激关系构建适当的神经表征。许多研究表明,对空间关系的学习,如地标之间的距离,表现在大脑海马体认知地图中,这使得灵活的目标导向行为超越简单的刺激-反应学习。有学者提出,同样的组织原则也可能是非空间状态之间关系的表征的基础,如知觉或刺激之间的时间关系,或物体之间的联想关系。在空间导航中,刺激可以同时嵌入到地图中,例如,存在一个依赖于策略的预测地图,它反映了在空间导航过程中遇到刺激的具体顺序。此外,还可以存在一个与策略无关的空间地图(或欧几里得地图),如果一个人对空间的拓扑结构有先验知识,可以通过主观体验推断出来。
当刺激存在于多个关系结构中时,如何选择最有利于奖励最大化和泛化的表征就成为一个问题。参与这一过程的一个脑区是眶额皮层 (OFC),研究表明它在无法直接观察到任务状态的情况下对任务状态进行表征。然而,关于 OFC 中有关不同地图的任务相关性的信息如何与海马中认知地图表征的相应变化相关的了解还很少。
研究将虚拟现实与计算模型和功能性磁共振成像 (fMRI) 技术相结合,表明参与者在海马中同时表征空间和预测刺激关系。每种维度在神经上的表征程度决定了它在后续选择任务中用于泛化的程度,即使只有空间位置决定了奖励。
值得注意的是,每个地图的神经表征及其对选择的影响在选择任务中会发生变化,这可以通过 OFC 的神经信号来反映,该信号反映了基于空间预测的结果相对准确性。这一研究结果为选择过程中海马体认知地图的表征和适应性,提供了一种计算和神经机制。
Method
1)被试
52名身体和心理健康的人类被试参与研究,其中平均年龄26.8岁,年龄区间为20-34岁。在实验预处理后筛选出48名被试作为分析的样本。
2)实验范式 Paradigm
实验分为三部分,在连续三天进行。第一天,被试需要在虚拟竞技场中学习定位12个怪物的刺激分布。第二天,被试在核磁扫描中进行评估刺激表征的任务。第三天,被试需要在核磁扫描中进行选择任务以学习与每个刺激相关的奖励。之后,再次在核磁扫描中评估刺激表征。整体实验过程如下图所示。
第一天 包括对刺激和虚拟环境的熟悉以及对空间位置的学习。被试首先通过屏幕上逐一呈现的怪物来熟悉刺激,他们可以通过点击怪物来浏览并继续。随后他们学习每个怪物在空间中的位置,并且被告知这个空间位置的知识对于后续环节获得积分很重要。如下图所示,怪物分布在一个圆形竞技场中,虚拟半径为 15 米。每个位置出现的怪物因人而异。
竞技场周围的墙后放置了五棵不同的树作为地标,树木的位置以随机方式放置,将被试所在的虚拟竞技场360°均分为5块,每72°都会出现一颗随机位置的树。树木的位置在所有实验环节中都是固定的。
被试在多个实验组块中学习刺激在空间中的位置。每个组块由探索阶段和物体位置记忆任务组成。在探索阶段,被试可以以他们喜欢的方式在竞技场周围导航,停留时间不限。当被试接近一个怪物时(进入怪物位置周围 3 米半径内),怪物就会变得可见并缓慢地绕着自己的轴旋转,因此被试不会同时看到所有怪物。
在每个探索阶段之后,被试都会进行物体位置记忆任务。在这项任务中,被试会看到一个怪物,并必须导航到相应的怪物位置。到达预期位置后,反馈会指示其离正确位置有多近(<3 米、<5 米、<7 米、<9 米、>9 米)。在每个组块中每个怪物必须被定位一次,顺序随机。如果所有怪物的实际位置和预期的误差达到预设的性能标准 (< 3 米,相当于 < 10% 错误),并且被试已经完成了至少 5 个组块,则任务结束。在位置记忆任务中被试至少要完成 5 个区块,最多10个区块以确保他们对刺激分布有很好的了解。
第二天 被试再自由探索怪物位置,并进行一轮有反馈的物体位置记忆任务。随后,在核磁扫描仪中,完成图片查看任务评估对怪物的表征,以确保被试在刺激呈现期间始终想起怪物嵌入的位置,图片查看任务如图所示。
在fMRI中,他们将以随机顺序看到怪物,每个怪物持续2秒,背景为红色或蓝色,然后是 2 到 5 秒平均为3秒的间歇期。被试事先被告知背景颜色与执行任务无关,他们只需要仔细观看图片,在实验中偶尔(每次背景颜色出现一个怪物后),会同时呈现两个怪物,被试需要指出两个怪物中哪一个离之前看到的怪物的空间位置更近,指示任务过程不会获得反馈。每个怪物在每个背景颜色(红色、蓝色)下每个组块呈现6次,每个组块共呈现 144 个刺激,共计三个这样的任务组块。在扫描结束后,再次进行一轮物体位置记忆任务,不提供反馈,以评估参与者对怪物位置的记忆。
第三天 被试再次进行一轮类似第一天的物体位置记忆任务,此时不提供反馈,以评估对怪物位置的记忆。随后他们进入核磁扫描仪进行100次选择任务。在选择任务中,被试呈现一对怪物,并引导被试选择能够得到最高奖励的怪物。他们需要通过在每次试验中选择与更高奖励相关的怪物来最大化累积积分。被试被告知,如果怪物在空间中的位置相近,他们将获得相似的分数,而奖励分布与怪物在空间中的位置以及背景颜色指示的上下文有关。他们以分块的方式学习了两种价值分布,在情境1中的10次选择试次与情境2中的10次选择试次交替进行。背景颜色和背景在参与者之间平衡。
为了测试被试是否能够利用他们对刺激关系的了解进行归纳,在选择任务中,每个情境不会呈现出现过两个怪物刺激,这是为了让被试在后续实验中依靠对空间关系的记忆和背景情境对他们的价值进行推理,从而推断从未直接看到怪物(文中称为“推理刺激”)的潜在价值。实验设置中每个情境下,一个推理刺激的价值很高,另一个推理刺激的价值很低。
关于导航任务中怪物的空间位置以及选择任务中情境1和2中怪物的价值分布如下图所示,其中较深的颜色表示较高的值,每个情境的一个推理刺激的价值很高,另一个推理刺激的价值很低。
在选择任务后,被试在核磁扫描仪中继续进行执行了三轮图片查看任务(见下图)。这一次,背景颜色指示了相关的背景,被试需要思考每个怪物在空间中的位置及其相关的价值。实验中偶尔(每个背景色上的每个怪物之后一次)情况下,两个怪物同时出现,此时被试需要指出两个怪物中哪一个更靠近之前看到的怪物,或者哪一个怪物的价值和先前的怪物更相似。两个选项上方的符号指示了要执行的任务。答对了会得到€0.10分的奖励。刺激顺序与第2天相同。
核磁扫描结束后,被试再次进行一轮不提供反馈的物体位置记忆任务,以评估对怪物位置的记忆。最后,他们在电脑上进行了四个简短的任务:首先他们要指出每个怪物在两种情况下可以获得多少奖励值,以及他们对每个怪物的喜爱程度。然后,他们被要求根据价值相似性将怪物排列成一个圆圈,这样被认为相似的怪物就会被放置在彼此附近。最后,参与者被要求想象他们所导航过的竞技场的自上而下的视图,并将怪物放置在相应的位置来考察空间位置记忆。
3)模型
研究使用高斯过程回归 (GP) 来模拟选择任务中的奖励学习和泛化。GP 定义了函数上的概率分布。其中m(x)是平均函数,给出输入点x处的期望函数值 y,k(x, x’) 是协方差函数或内核,定义了任何一对输入点x和x’的相似度。GP 可以通过条件化一组观察到的函数输出 y 来更新为函数的后验分布。
这里,后验均值函数由下式给出
其中K为包含训练点与评价点之间协方差的核矩阵,K为包含所有训练点之间协方差的核矩阵,为对角方差矩阵。该研究假设泛化是由空间认知地图指导的,这对应于为 GP 模型配备一个高斯核 (或径向基函数核),将相似性表示为平方欧几里得距离的指数衰减函数。高斯核将相似性定义如下:
其中是控制预测与平均值差异程度的参数,λ是长度尺度参数,控制输入点相似性随距离衰减的程度。研究人员通过对参与者的导航路径进行路径积分,获得了每个参与者的刺激位置估计。路径积分程序包括跟踪参与者位置从一个时间步到下一个时间步的变化,并在每个时间点将少量高斯噪声添加到位置估计中。怪物的位置被计算为参与者在距离怪物 3 米半径范围内所记录位置的平均值。
为了构建一个与假设预测关系指导泛化相对应的内核,研究人员首先计算了每个参与者的后继矩阵(successor matrix) M。后继矩阵 M(s, s’)中的每个条目都包含从访问刺激 s 开始,未来访问刺激s’的期望折扣次数:
研究假设被试在选择任务中的行为受到他们对未来状态的期望的影响。为了捕捉这种期望,研究人员计算了每个参与者的后继矩阵 (M)。后继矩阵中的每个条目都包含从访问一个刺激到未来访问另一个刺激的期望折扣次数。他们使用时序差分方法(Temporal-Difference updating rule)来近似计算后继矩阵。这个规则基于参与者的探索路径,更新每个刺激的未来访问次数。
在这里,exp()函数执行矩阵求幂,L是归一化图拉普拉斯算子为了捕捉参与者基于预测关系进行泛化的倾向,研究人员计算了扩散核 (K)。扩散核由转移矩阵导出,并通过矩阵指数计算得到。为了结合空间和预测关系的信息,研究人员计算了组合核——高斯核和扩散核的平均值。
随后,实验者对空间核的长度尺度和学习率进行优化,以获得最佳拟合,并使用留一试验交叉验证 (LOO-CV) 过程来评估模型的性能,计算每个模型的交叉验证对数似然。他们使用 GP 模型预测所有刺激的价值,和基于参与者观察到的所有奖励,使用混合效应模型,使用各种价值估计作为预测变量,预测参与者的价值判断,计算空间和预测成分对选择行为的影响,最后使用 Logistic 回归拟合空间权重的时序图。
4)数据分析
研究者在行为上测量了空间距离、预测距离、替换错误、空间效应(被试在任务第 3 天选择任务中沿空间维度进行泛化的程度)、预测效应(在任务第 3 天选择任务中沿预测维度进行泛化的程度)、空间权重、奖励预测误差、相对地图准确性、推断错误(第 3 天扫描后测试阶段被试提供的错误评级与推断刺激的真实值之间的均方根误差)等信息。
在脑成像上,研究者测量了空间 fMRI 效应值和变化值、预测 fMRI 效应值和变化值、以及空间权重更新与奖励预测误差下的fMRI变化。此外他们采用四个事件相关的 GLM 来分析 fMRI 数据。
GLM 1:对图片观看任务中的事件进行建模,12 个刺激分别作为回归变量,并通过空间核和预测核分别对选择刺激和未选择刺激的距离进行建模,该距离作为参数调制每个回归变量。
GLM 2:对选择任务中的事件进行建模,包含选择期、反馈时间和按钮按下的起始回归器。
GLM 3:使用 GLM 2 相同的回归变量对选择任务中的事件进行建模,回归变量由基于合成地图计算的预测误差信号进行参数调制。
GLM 4:使用 GLM 2 相同的回归变量对选择任务中的事件进行建模。回归变量由基于空间和预测地图的奖励预测误差差异信号进行参数调制。
Results
1) 被试利用关系知识泛化学习价值
如上图所示,在第一天的探索任务中,研究者发现个体的探索策略存在很大的差异。被试在怪物之间经历了不同的预测关系,这也可能会偏离刺激之间的空间距离。例如,部分被试倾向于以刻板的顺序访问刺激物,而另一些被试则主要在竞技场的边界上导航,或从上到下系统地扫描环境。
位置任务结果表明,在学习阶段结束时,被试就可以将刺激物定位在正确的位置。而在第2天和第3天被试进入核磁扫描仪过程之前和之后,被试在没有反馈的情况下执行了物体位置记忆任务。研究中定义了位置错误(真实位置与预测的抵达位置之间的欧氏距离)。结果显示位置错误在不同阶段的位置记忆实验之间没有显著差异。
如上图的结果所示,在第三天的选择任务中,被试能快速学会选择任务,反应时迅速且保持较高的准确率。在两种不同的奖励分布下,他们的选择都能够基于屏幕上左右呈现的刺激之间的价值差异(图d)。
在选择任务中,实验设计了每组背景环境(红色或者蓝色)中从未出现过的两个推理刺激。图示表明,高值和低值对象之间有显著差异,而在不同背景环境差异不显著,表明在研究结束时,被试正确地推断出两种推理刺激在每个情境下具有更高的值,即利用刺激关系的知识来推断看不见的价值。此外,被试的推断误差(对从未见过的刺激的价值判断的准确度)与空间再现误差(在任务中重现怪物位置的准确度)呈正相关(见图f)。被试与高分值相关的怪物刺激定位得更接近他们的真实位置,由此他们的记忆表征在有高分值的怪物刺激下更为准确。
2)空间关系和预测关系引导泛化
考虑到自由探索过程中学习的行路策略在不同被试中因人而异,而在空间导航过程中,智能体往往追踪刺激之间的空间距离或者预测关系,这两个特征都可以在泛化中发挥作用。由此研究者提出,大脑在导航过程中可能会提取两种关系地图:一种反映刺激之间的空间距离,另一种反映刺激之间的预测关系。为了明确空间或预测地图(或两者的组合)的模型在多大程度上指导了泛化过程,研究者使用高斯过程模型(Gaussian process, GP)来分析被试的决策过程,其中GP根据与所有其他刺激相关的奖励来预测新刺激的奖励,并加权出它们与新刺激的相似性。他们将GP 模型与空间距离和预测关系的相似度函数相结合,构建空间和预测相似度,来分析被试在选择任务中的行为(相关方法请参考模型部分)。
为了测试哪一个策略最好地解释了被试如何奖励的泛化,研究者比较了空间、预测和空间-预测结合的 GP 模型,以及一个仅基于直接经验的模型。他们让每个GP模型预测两个怪物的奖励,随后调节在相关环境中观察到的所有怪物奖励对。他们计算奖励差值,并将预测的奖励差值作为因变量,被试的选择作为自变量,构建了一个混合效应逻辑回归模型, 用网格搜索的方法,确定了使模型似然函数最大的超参数,使用留一法进行交叉验证,基于交叉验证对数似然值计算每个模型的频率,以衡量模型的性能。
比较结果表明,空间-预测结合的 GP 模型最好地解释了参与者的行为。该模型也很好地再现了高推理刺激和低推理刺激的价值评级的差异。
随后,研究者估计了空间和预测关系对参与者选择的影响程度。他们设计空间和预测回归变量竞争解释被试选择的方差。他们发现,空间和预测关系对选择行为有非零影响,且两种关系效应大小负相关。被试更多地依赖于空间关系时,他们对预测关系的依赖就更少。这表明,他们在选择时倾向于选择一种关系作为主要依据,而另一种关系则起辅助作用(图f)。与预测关系相比,选择更受空间关系驱动的参与者在推理测试中表现更好(图g)。
3)海马空间图和预测图指导选择
为了研究空间和预测关系的神经表征,研究者对第2天选择任务前和第3天选择任务进行fMRI扫描。他们使用广义线性模型 (GLM) 拟合了空间和预测距离对适应效应的影响(适应效应:当两个刺激以相似的方式呈现时,对第二个刺激的反应会受到第一个刺激的影响)。
研究人员发现,在右侧海马中存在显著的跨刺激增强效应,该效应随空间距离增大而增大,左侧海马中也存在一个类似的趋势,但没有达到显著水平。对于预测关系,没有发现显著的跨刺激增强效应。这可能有两个原因:一是不同被试对空间和预测关系的表征程度不同,二是整个群体中空间地图的表征更强。
研究人员考察了神经表征的强度是否能预测个体在选择任务中受空间或预测关系影响的程度。他们从右侧海马的感兴趣区(ROI)中提取了空间和预测图的参数估计,计算了空间和预测效应对选择行为的影响与该脑区相应地图的神经表征之间的相关性分析,同时推理测试和物体位置记忆任务的结果。
图示结果表明,空间和预测地图的神经表征与选择行为中的空间和预测效应之间存在显著的相关。在选择行为中,海马参与了空间和预测关系的表征。此外,空间地图的表征与推理测试和物体位置记忆任务的结果之间存在显著的相关,而预测地图的表征则没有,说明海马可能参与了空间信息的存储和检索过程。
随后研究人员将空间和预测效应对选择行为的影响作为协变量,分析了海马中空间和预测关系的脑活动,同时探究了空间和预测关系表征与推理能力的关系。结果显示,空间和预测关系的脑活动都位于海马体中,并且空间关系表征的脑活动更强(如图f)。在推理错误较小的个体中,海马区空间的表征更强,而预测关系的表征较弱,表明空间关系在推理过程中可能起着重要的作用(如图g)。
在h图中,探究了海马空间地图是否介导了神经表征对推理能力的影响。他们从右侧海马ROI中提取空间地图的参数估计值,与空间效应对选择任务中泛化的影响以及推理表现联系。结果表明,空间地图的神经表征与空间效应以及推理表现之间存在显著的正相关,海马体空间地图介导了空间关系对推理能力的影响。
4)认知地图的表征适应了任务的要求
研究也发现,被试在选择任务中对空间和预测关系的依赖程度会随着试验的进行而发生变化。他们最初更倾向于使用预测关系来指导选择(图a)。随着试验的进行,他们开始更多地使用空间关系来指导选择。选择任务和推理过程中表现更好的被试对空间关系的依赖程度增加得更快(图b)。
研究人员认为对空间策略依赖增加可能是神经表征的改变造成的。基于这一构想,他们提取了与空间关系相关的脑活动参数估计值,并计算了从任务开始到结束的变化量,将变化量与参与者对空间关系依赖程度的变化量进行相关性分析。研究表明,他们对空间关系的依赖程度增加越大,其空间关系的神经表征的变化量也越大(图c)。而如图d所示,空间关系和预测关系的神经表征的变化呈负相关关系,表明两者之间存在竞争机制。
随后,研究人员构建了一个GLM模型,将空间关系对选择的影响变化量作为预测变量,分析其与脑活动的关系。图e表明,海马存在一个区域,其激活与被试对空间关系的重视程度相关。他们进一步研究了海马中更新信号与空间关系神经表征的变化之间的关系,发现更新信号与空间关系神经表征的变化量正相关(图f)。此外,奖励预测误差与选择任务中海马体空间权重更新的大小相关(图g)。
大脑还可以追踪观察到的结果与基于两种认知地图中的预测的一致性,进而根据任务的相关性自适应地调整认知地图。为考察大脑是否会根据观察到的结果与空间和预测地图的预测之间的差异来调整认知地图,研究人员计算了每个结果的试次预测误差,分别用于空间和预测地图,随后构建了一个GLM模型,并在反馈时模拟这种差异,同时将从海马ROI提取的参数估计值作为协变量。
结果如h图所示,基于空间认知地图和预测地图的相对准确性与选择任务中海马体空间权重更新的大小相关,表明海马更新信号越强,眶额皮质 (OFC) 的相对地图准确度信号就越强。OFC 信号反映了观察到的结果与空间和预测地图的预测之间的差异,并可能用于调整任务表征以适应观察到的结果。
Discussion
研究通过虚拟现实、计算建模和功能磁共振成像 (fMRI) 来研究人类如何使用关系知识进行泛化和推理。研究发现,海马体形成提取了空间和预测的关系,并将其表征在距离目标、目标方向信号和刺激之间的关联距离的脑区中。表征的强度与它在独立选择任务中影响行为的程度有关。OFC 跟踪了选择任务中观察到的结果与空间和预测认知地图的预测一致的证据。
空间维度支配着行为,并在人脑中有更强的表征,而预测维度似乎具有更弱的、调节性的影响。两个维度都位于海马中,解剖学上无法清晰区分。空间权重的变化和预测权重的变化呈负相关,证实了这两个维度之间的相互依赖性。此外,被试在选择任务中表现出越来越多的受空间关系知识的影响,表明使用的地图可以根据当前的任务需求进行调整。这一效应与 OFC 的证据整合信号有关,该信号在反馈时索引了空间与预测地图的相对地图准确性差异。OFC 反应更强烈的被试在海马体中也显示出更大的空间权重更新信号,这反过来又与选择任务前后空间地图表征的更大增加有关。
综上,海马并行地表征了不同维度经验关系。每个表征被用于指导决策的程度,取决于 OFC 的相对准确度信号。OFC 与海马体中的空间更新信号有关,后者又与空间地图表征的变化有关。这些结论为在多维环境中选择合适的刺激维度进行决策提供了一种机制上的新见解。
A.N.D
Lab
2023/12/25
圣诞节🎄快乐
文案: Junyuan
校对: Xinyi, Haiyan
排版: Zhexu
Email: haiyanwu3@gmail.com