Journal Club
前瞻决策中抽象价值空间的内嗅网格表征
Grid-like entorhinal representation of an abstract value space during prospective decision making
本次介绍的文献是2024年发表于nature communications的文章,Grid-like entorhinal representation of an abstract value space during prospective decision making, 前瞻决策中抽象价值空间的内嗅网格表征。
作者 Author
本篇论文的作者是来自德国莱比锡马克斯·普朗克人类认知和脑科学研究所(MPI CBS)的团队,包括Alexander Nitsch和Mona M. Garvert(现任维尔茨堡大学助理教授,我们在12月的文章中探讨过她刊登于Nature Neuroscience的Hippocampal spatio-predictive cognitive maps adaptively guide reward generalization),以及Jacob L S Bellmund等人。他们的研究兴趣主要涉及到大脑对外界知识的内部表征并构建认知地图、更新并利用外界环境建模来指导行为决策,以及使用人类神经成像技术和计算模型的多学科方法来探究学习和决策背后的神经表征和计算,并应用到不同个体中进而探究临床精神疾病治疗的新型方案。
简介 Introduction
人类在做决策时,会对不同选项的未来价值进行预测,比如投资股票时会选择未来可能升值的股票。本篇文章认为,要做到这一点,大脑需要一种能够表征选项价值变化关系的神经机制。
研究表明,腹内侧前额皮层(vmPFC)、眶额叶皮层 (OFC) 和腹侧纹状体等脑区在决策过程中能够追踪已选和未选选项的价值差异。这些往期研究大多关注基于经验更新价值的决策。然而,在很多现实情境下的决策,比如股市投资,更需要识别趋势并预测未来价值。在这种情况下,背侧前扣带皮层 (dACC) 就发挥作用,它能比较过去和现在的回报率,帮助人们做出基于预期回报的决策。
预测未来价值需要大脑内部模型的支持,这种模型能够表征环境或任务中状态和奖励之间的转换。依赖内部模型的决策被称为基于模型的决策,与之相关的价值计算发生在背内侧前额叶皮层 (dmPFC)。此外,海马体也参与了基于模型和价值的决策过程。研究发现,海马体在大脑空间导航中的位置记忆和基于模型决策中都起着重要作用。一种可能的解释是,海马体通过形成认知地图来支持这两方面的功能。
认知地图以类似地图的形式编码世界中事物的相互关系。海马-内嗅皮层系统的神经活动被认为与认知地图的形成有关。例如,海马中的位置细胞会在动物到达环境中的特定位置时活动增加。内嗅皮层中的网格细胞会在环境中的多个位置激活,这些位置呈六角形网格状排列。这些细胞共同支持自我定位和空间导航所需的几何计算,例如计算距离和方向。
最近的研究表明,海马-内嗅皮层系统不仅在空间导航中发挥作用,还能表征更抽象的信息,例如社交等级关系和特征概念空间。因此,海马-内嗅皮层认知地图被认为可以提供一种更普遍的组织信息的方式,从而实现适应性决策。
传统观点认为, 在决策过程中,状态和价值通常被认为是不同的实体,即做出行动后才获得奖励(价值)。而也有近期的研究表明,价值本身也可以是一种状态,并能像地图一样被大脑认知。一些研究发现了网格状的抽象价值空间表征。
由此,研究者提出了相关疑问:以往研究选项的价值在空间中是固定的, 那么对于不断变化的价值,大脑是否存在同样的表征?内嗅皮层在预测未来价值时是否会利用网格状的编码方式来表示不断变化的价值?研究人员结合功能磁共振成像 (fMRI) 和一项前瞻性决策任务进行研究,发现了内嗅皮层确实存在网格状的活动模式,这表明决策过程中形成了认知地图。
方法
Methods
1)被试招募
51名视力或矫正视力正常、身体和心理健康的被试参与研究。剔除任务表现不佳和采集数据缺失的样本后留下了46名被试的数据,其中平均年龄28.15岁,年龄范围19-39岁,女性占比25%。
2)实验范式Paradigm
实验分为三部分,总时长约 3 小时。
第一部分,被试需要在行为实验室中完成对前瞻性决策任务的熟悉和训练,时长约45分钟。
第二部分,被试在fMRI核磁扫描仪中参加图片观看任务(PVT)和前瞻性决策任务,总时长约90分钟。
第三部分,被试需要在行为实验室中继续完成实验的后测部分,包括二阶段任务测试和圣巴巴拉方向感量表(SBSOD)填写。该部分时长约为45分钟。
No.1
图片观看任务(PVT)
在被试进行前瞻性决策任务前,被试需要在核磁扫描仪内完成一个图片观看任务。这项任务的目的是提供一个独立的数据集,并为后续分析训练解码器,同时让被试能够熟悉刺激物并为正式实验做准备。在该任务中,被试首先观看了一系列图片,包括人物面孔、工具、场景和身体部位4类,这些图片是稍后出现在前瞻性决策任务中的刺激物,也是被试在研究中首次接触它们。
为了确保被试注意图片的呈现,他们设计了一项 "后掩蔽任务"。任务中,每张图片会在屏幕中央呈现 2 秒。然后注视点会在屏幕中心呈现。如果注视点是白色,被试无需判断;如果注视点是红色,被试需要判断下一张图片是否与红色注视点呈现前的图片相同。实验过程中,被试在核磁扫描仪内按下按钮盒上的两个按钮之一进行回答。
No.2
前瞻性决策任务
在完成图片观看任务后,被试继续在核磁扫描仪内完成前瞻性决策任务,通过追踪和预测两个选项相关的价值获得奖励最大化。
如图所示,实验中会呈现刺激物和其对应的价值,被试需要两个选项之间进行选择,每个选项都由与图片观看任务相同的刺激物的4类图片来表征 (包括脸、工具、场景、身体部位),其中两类不同的图片有着相同的价值,并分布在选项的同侧。例如,图中将人物面孔和工具作为一类,呈现在屏幕左侧;而身体部位和场景作为另一类,呈现在屏幕右侧。
实验过程包含观察阶段和决策阶段两个部分。在观察阶段,被试会看到两个选项及其随时间不断变化的价值。随着时间的推移,呈现的刺激物会在以2.5s为间隔的时间点交替出现(如图中左边选项为人脸-工具-人脸交替变化);此外,左右两个选项的价值会随着时间点变化而变化。
在观察阶段结束后,被试需要预测,在下一个时间点选择潜在价值更高的选项。即,被试需要考虑左右侧两类刺激物价值如何变化,预测其未来价值并进行比较。最后,他们会收到已选择时间点的实际价值的反馈。
实验一共144个试次,均分为4个组块。有一半的试验需要被试在第 4、5或 6个时间点进行选择,另一半的试验则不需要他们选择。
为了让被试能够做出决策并获得奖励,实验采用了抽象的二维价值空间的概念。如图b所示,这个空间的两个维度分别代表了被试在两个选项之间做选择时所考量的奖励值。空间中的一个点代表了某一时间点两个选项的当前价值。实验中两类刺激物的价值随时间点变化可以拟合成在空间中沿着一条轨迹移动(如图b中TP1到TP5),这条轨迹由一系列时间点组成,反映了价值随时间的变化情况。
空间中的45°对角线(红线所示)表示两个选项具有相同价值的位置。实验中一半的轨迹会穿过这条对角线,意味着更优选项发生了切换。此外,实验还设置了两种不同长度的轨迹,分别为短距离(6个时间点)和长距离(10个时间点)。
针对这个抽象的空间地图,研究者定义了三个特殊的时间点:pre点,switch点和post点,其中switch点是相交于对角线后的第一个时间点(如图中的TP4),而switch时间点前一个和后一个时间点分别为pre时间点和post时间点,这些点在后续的数据分析中有重要的作用。
No.3
实验后测
在实验后测部分,被试需要完成二阶段任务测试和圣巴巴拉方向感量表(SBSOD)填写。
研究设计了二阶段任务测试,分析被试在决策过程中是倾向于根据学习到的模型做出选择 (基于模型),还是更依赖于直接经验 (基于经验)。实验刺激物为字符符号,且每轮实验包含两个阶段进行决策。在第一个阶段,被试需要从两个刺激物中选择一个,并通过按键做出选择。选中的刺激物会移动到屏幕顶部,且屏幕下方会同时展示两个可能的第二阶段状态之一的符号。完成第一阶段的决策后,被试进入到第二阶段。这一阶段包含另外两个符号刺激,被试需要再次按键选择其中一个。选择后,他们会得到奖励或没有奖励的反馈。而第一阶段选择的符号决定了第二阶段状态出现的奖励概率更高 (70%)或者更低 (30%),进而引导被试通过前面的选择来判断后面关卡的得分倾向,做出更好的决策来赢取更多奖励。
在完成二阶段任务后,被试填写了圣巴巴拉方向感量表(SBSOD)问卷,以测量他们的空间导航能力和偏好。
3)前瞻性决策任务的强化学习模型
(1 Rescorla-Wagner模型)
为了评估被试决策行为,研究者基于标准的Rescorla-Wagner模型建立并比较了多种强化学习模型。其中,传统的Rescorla-Wagner模型公式如下:
其中和分别表示当前和下一个时间点的价值,表示当前时间点(t时刻) 的实际获得的奖励。α是模型的学习率,它控制着模型在多大程度上根据当前的预测误差来更新价值。事实上,该模型仅根据当前的预测误差 (实际奖励与预期奖励的差异)来更新选项的价值,未考虑未来价值的变化。
(2 前瞻性Rescorla-Wagner模型)
基于此,研究者对上述模型改进,使得在每个试次中,每个选项的价值会综合考虑当前预测误差和未来价值变化进行更新并定义为前瞻性Rescorla-Wagner模型。新模型的公式如下所示:
除了在传统Rescorla-Wagner模型中相同的变量,前瞻性Rescorla-Wagner模型添加了变量,它反映值从前一个时间点到当前时间点的变化情况。
除了上述前瞻性 Rescorla-Wagner 模型,为了捕捉任务的前瞻性特征,研究者还设计并实现了四个替代控制模型作为对照:
(3 前瞻性控制模型1)
模型和上述的预期的前瞻性Rescorla-Wagner模型类似,但作为选项的价值变化是随着时间点的更新而更新,并且拥有独立的学习率。
(4 前瞻性控制模型2)
该模型带有标准预测误差的数值更新,以及数值变化的附加参数。
(5 前瞻性控制模型3)
该模型认为价值伴随着标准预测误差和预期预测误差变化而更新
其中PE表示标准预测误差,等于实际获得的奖励 (OTP) 与之前预期的价值 (VTP) 之间的差,. 且
(6 前瞻性控制模型4)
该模型和控制模型3类似,但是添加了独立的学习率用于更新期望预测误差。
其中
在模型拟合和对比过程阶段,研究者将上述模型应用于被试的决策数据,并通过最小化模型的负对数似然函数来寻找最佳学习率α,使用 Akaike 信息标准 (AIC) 的差异来比较这两种模型的拟合优度,并采用相关样本t检验进行统计分析。
结果 Results
1)被试整合并推断未来选择价值的变化
如图a所示,被试在前瞻性决策任务中总体表现良好,能够预测正确并选择出价值更高的选项(平均正确率为 87.7%)。此外,被试能够检测到价值转换点(即switch点),也就是价值较高的选项在下一个时间点变化成较低价值的时刻。他们的检测准确率远高于随机猜测的水平。
不过,在转换点前,被试表现有所下降,这表明他们在价值发生转换时需要花费更多的时间和精力做出决策,反应时数据也支持了这一点。被试在转换后点 (post) 的表现最佳,正确率最高,反应时也最快。与post阶段相比,pre和switch阶段的成绩明显降低。但pre和switch的成绩没有显著差异(如图b)。
随后,研究者利用被试特定的逻辑回归模型,测试了选项位置到价值空间对角线 (45°) 的距离与被试的表现的关系。结果表明,随着选项位置离对角线越远,被试做出正确选择的可能性就越大;而选项位置越靠近对角线 (价值越接近),做决定的难度就越大(如图c, d)。
研究者随即将上述谈到的Rescorla-Wagner强化学习模型、前瞻性Rescorla-Wagner模型和其他前瞻性控制模型变体引入、拟合并比对,进一步分析了被试在任务中的决策行为。如图e所示,前瞻性模型的AIC更低,能够更好拟合被试的行为数据,也表明被试在做决策时不仅考虑当前的选项价值,还会预测未来可能发生的价值变化。
另外,研究者也探究前瞻性Rescorla-Wagner模型中的最佳学习率。最初,研究将前瞻性模型的学习率限制在 0 和 1 之间,其中1表示根据预测误差和数值变化进行全面更新。结果发现前瞻性模型的学习率通常接近于1,表明学习率存在天花板效应。删除学习率的上限后的结果如图f所示,学习率均值略高于1。图h和图i表明,较高的学习率与切换点处(switch点)更好的表现正相关 (对价值变化更敏感),但较高的学习率也与切换点之前(pre点)表现负相关,表明被试可能会过分依赖价值变化的趋势,导致在价值转换点之前的选项 (pre点) 做出错误的决策 (过早切换选项)。
研究还测试了一些其他的前瞻性备选模型,但这些模型的拟合效果都不如最开始设计的前瞻性Rescorla-Wagner模型。
研究还发现前瞻性 Rescorla-Wagner 模型的学习率与自我报告的导航能力存在明显的正相关。结合学习率和整体任务表现的结果,空间导航与前瞻性决策之间存在潜在联系,导航能力更强的人可能会形成更强大的决策空间“地图”。
最后,研究讨论了在任务中整合和外推随时间变化的值是否与两阶段任务中的基于模型的决策有关。两阶段任务评估了对状态转移概率模型的依赖,涉及两个决策阶段。令人意外的是,并未观察到整体样本中模型决策的显著相关性,这可能是因为被试在整体上对模型的依赖程度较低。
2)内嗅皮层对价值空间呈现网格状表征
基于实验结果,研究人员推测被试在大脑中形成了一个关于价值关系的认知地图。认知地图中的网格细胞会利用网格状的表征来表示物理空间中的地标之间的关系以及非空间的关联结构。研究假设内嗅皮层也可能利用网格状的表征来编码不断变化的价值。这种神经表示方式可以方便计算价值随时间变化的方向和距离,从而有效预测未来价值。
先前的研究表明,内嗅皮层网格细胞规则的六边形放电模式会在大脑功能磁共振成像空间导航过程中转化为六个方向的活动调制。
在前瞻性决策任务中,一系列时间点形成了穿过抽象价值空间的轨迹图。在这一抽象的空间轨迹中,被试沿着 0° 到 350° (步长 10°) 的不同方向移动。结合过往对空间导航的探讨,本研究预测,如果被试形成了类似于空间认知地图的价值认知地图,那么海马旁回的活动在穿过价值空间时会表现出六向调制,与网格方向一致的轨迹(60°或者60°的倍数)会显示更高强度的激活。相较于与假定的网格方向未对准的轨迹,与假定的网格方向一致的轨迹具有更高的激活(如下图a)。研究人员采用了交叉验证方法,利用任务中四组运行数据中的三组数据作为训练集估计可能的内嗅皮层网格方向,并用剩余的一个运行数据测试与该方向一致的六向调制。分析过程在被试自身空间的内嗅皮层感兴趣区域 (ROI) 上进行,估计了每个被试特有的网格方向。
比较结果与假设一致,内嗅皮层活动存在与网格细胞放电模式一致的六向调制效应。如上图b所示,高亮显示的区域位于内嗅皮层。图c展示了内嗅皮层簇内,被试个体差异的六向调制效应强度的可视化,表明六向调制效应的凸显性。
研究人员随后根据推测的网格方向对被试的行为轨迹进行分类。他们将整个过程划分为 12 个间隔 30°的区间,其中 6 个区间与推测的网格方向一致(60°的倍数),另外 6 个区间不一致。并由此计算了每个区间内被试大脑活动强度的平均值。可以看到与网格方向一致的区间激活强度明显高于不一致的区间(图d)。
为了确认六向调制效应的特异性,研究人员分析了除 6 倍对称性以外的其他对称性 (4-fold, 5-fold, 7-fold, 8-fold) 对大脑活动的影响,使用ROI分析方法,仅关注已发现有显著六向调制效应的内嗅皮层区域,结果表明,仅 6 倍对称性 (即与网格细胞放电模式一致) 显示出显著的效应。
最后,研究探讨了内嗅皮层网格系统与抽象价值空间之间的关系。研究假设,45° 方向是一个特别有参考价值的参考方向,因为它表明两个选项的价值变化率相同。分析结果也支持了这一推测,被试在切换策略的过程中沿着接近 45°角方向移动时表现更好,同时内嗅皮层簇网格的平均方向也的确聚集在 45°(如图f)。
此外,研究假设价值本身 (如奖励大小) 会影响网格表征的强度。然而实验结果并没有发现高价值和低价值区域的网格调制强度之间存在显著差异。且在低价值区域发现了网格调制效应,而高价值区域却没有。这与来自啮齿动物研究结果中网格细胞会向奖励位置移动并提高放电率的情况不同。
3)大脑区域网络追踪选择过程中的预期价值差异
为了做出决策,仅把价值表示在二维的价值地图中是不够的。相反,对选项的价值预测还需要映射到一个统一的尺度上进行比较。研究者根据以往的文献,测试了神经信号是否会追踪已选和未选选项之间的价值差异。
研究者根据先前提出的前瞻性Rescorla-Wagner模型,对被选择的选项和未被选择选项的预期价值展开建模,并将模型预测的决策时间点与实际的大脑活动数据进行比较,进一步探究了大脑活动是否随着价值差异的改变而改变,并重点关注了与价值判断相关的脑区(如vmPFC)。通过对比价值差异对大脑活动的影响,绘制了全脑效应图。
结果如上图a和图b所示,分析发现,大脑活动的确随着价值差异而变化,但是不同脑区有着不同程度的调节。价值差异越大,vmPFC 等脑区 (伏隔核、岛叶、海马体、杏仁核、运动皮层和体感皮层) 的活动就越强 (正向调节)。而价值差异越小,其他脑区 (外侧眶额皮层、背内侧前额叶皮层、丘脑、顶叶皮层) 的活动就越强 (负向调节)。
此外,研究还发现,vmPFC 簇区的活动强度与任务表现呈正相关(图c)。当 vmPFC 对价值差异的反应更强烈时,被试做正确选择的可能性也更高。
研究人员进一步分析了大脑活动是否更关注价值差异的前瞻性部分,即做决策时刻的预期价值差异。在这里,研究者将原始 Rescorla-Wagner 模型(非前瞻)的价值估计值与前瞻性 Rescorla-Wagner 模型的价值估计值相减,从而提取出每种方案的前瞻性价值部分。然后,研究者将选择时间点建模为已选选项和未选选项的前瞻性成分的函数,并对比这些效应,以检验前瞻性价值差异对神经活动的调节作用,从而探究大脑活动是否更关注选项未来可能带来的价值差异。
得到的结果如上图d所示,表明大脑活动也确实会随着预期价值差异的改变而改变,许多脑区与之前分析价值差异时发现的重叠,但是位于伏隔核/眶额皮层的脑区簇则表现出一定的特异性。这个簇区的位置更靠近大脑顶部,并且靠近扣带前回 (ACC),可能在处理预期价值差异方面扮演着更重要的角色。
人类在日常生活中面临的许多决策都与预测未来价值息息相关,因此理解大脑如何进行前瞻性决策过程至关重要。根据研究结果,大脑使用类似地图的表示方式来编码抽象的价值空间,用于支持未来的决策,不同脑区可能扮演着互补的角色。
综上,研究结果表明,人类内嗅皮层能够采用网格状的表征来整合前瞻性决策过程中抽象价值空间中不断变化的价值的关联信息,进一步构建认知地图。认知地图可能用于生成更低维度的信号,可以帮助大脑计算选项之间的价值差异,进而为决策提供依据。这些发现为认知地图指导人类前瞻性决策的机制提供了新的见解。
A.N.D
Lab
2024/5/13
文案: Junyuan
校对: Haiyan
排版: Zhexu
Email: haiyanwu3@gmail.com