大脑对奖励或惩罚的重放能够预测趋近-规避冲突决策
文化
教育
2023-10-10 16:17
广东
生活中,人们无时无刻不在做决定。早餐吃吐司还是贝果,上班打车还是地铁,周末待在家还是去参加朋友组织的聚会……不同的选择,对应着不同的结果。有的选择的结果是确定的,有的选择的结果是不确定的,可能是好的,也可能是坏的。比如,周末选择待在家,能够好好休息是确定的结果,而周末参加聚会就会存在不确定的结果:一是认识新朋友,和朋友玩得很开心,见识到新的事物;二是无法融入朋友的活动和话题,又累又无聊。那么,在这种包含奖励和惩罚的不确定性决策情境中,人们是如何做决策的呢?以往研究发现,老鼠和其他啮齿动物在包含奖励和惩罚的决策中,在决定下一步行动时倾向于在大脑中回忆/重放过去类似情况的结果,例如在老鼠要决定是否触碰一块木板时,如果老鼠大脑激活是和获得奖励时的大脑激活相似时,那么它会更倾向于做出触碰决定;如果老鼠大脑激活是和遭到电击时的大脑激活相似时,那么它会更倾向于做出不触碰决定。人在这种决策情境中大脑也会进行类似的神经重放吗?McFadyen等研究者结合脑磁图(MEG)和机器学习方法,探究了人在可能赚取或失去金钱的不确定情境中,大脑对过去积极和消极结果的快速“重放”是否可以预测人所作出的选择。MEG技术兼顾了时间分辨率和空间分辨率,可以精确地测量大脑不同区域的活动以及它们的发生时间。研究者使用MEG记录了25名参与者在完成记忆图片任务中的大脑活动。在实验任务中,参与者需要在不同的情景下选择是否接近或回避特定的路径,以获得金钱奖励。参与者需要先记忆和学习图片的顺序以及代表的价值,从而学习哪些序列是奖励结果,哪些是惩罚结果。并且,为了模拟结果的不确定性,每条路径总有一定的概率(例如30%的可能性)会出现相反的结果。当参与者考虑是否要冒险或不冒险时,MEG就会记录到参与者在接近-回避冲突中决策的神经活动。然后,研究者使用机器学习技术分析这些数据并确定参与者在进行决策时大脑中重放了哪些先前呈现的图像,从而进一步去判定大脑重放了过去奖励的结果还是惩罚的结果。分析发现,当接近的期望价值大于或等于1时选择接近是准确的。参与者选择的准确性显著高于随机水平(M = 76.07%),且选择接近的准确性(M = 74.59%)显著低于选择避开的准确性(M = 79.27%;图2a)。如图2b所示,参与者在期望价值平均为2.386时选择接近,在期望价值平均为-1.552时选择避开。此外,参与者做出接近决策的用时显著比做出避开决策的用时少(图2c)。路径价值和路径转换概率会影响参与者的决策制定。具体而言,转换到奖励路径的概率越高、预期路径价值越高,参与者越倾向于接近,且二者交互作用显著(图2d)。也就是说,当转换到奖励路径的概率更高时,路径价值越大,参与者接近概率越大;而在转换到奖励路径的概率低的时候,不同路径价值下参与者的选择无显著差异。同样,转换到损失路径的概率越高,预期路径损失越高,参与者越倾向于避开,不过二者的交互作用并不显著(图2e)。也就是说,不论转换到损失路径的概率高低,不同预期损失下参与者的选择没有显著差异。这些发现证实,参与者的决策是由奖励路径和损失路径的总价值以及转换到奖励路径的概率指导的。此外,研究者还发现,参与者经历奖励性路径比损失路径更频繁,平均每位参与者经历107次奖励路径和23次损失路径,不过他们经历路径一和路径二的频率是没有显著差异的。参与者在做主要实验任务之前,先完成了功能定位任务,即对12张图片(状态)中的随机6个进行词语配对按键反应,图3a显示了12张图片视觉诱发的事件相关场。研究者给每个参与者的每个图片状态创建了分类器,图3b显示了一个参与者的例子:对于每个状态,有一个β矩阵。使用k-fold交叉验证,研究者评估了每个参与者的状态分类器的平均准确性,发现在120毫秒的时间点上训练的分类器的平均准确性最高(图3c)。研究者就将这些状态分类器运用于参与者在做决策计划时的MEG数据,如图3d所示。研究者证明了参与者在计划阶段确实对路径的状态转换进行了回忆。他们使用双层GLM模型估计了每个时间点前向状态转换和反向状态转换的系数,即sequenceness,图3e显示了sequenceness随时间变化的趋势。为了去除共同方差,研究者用前向的系数减去后向的系数,发现在20-90ms时段,这个系数显著并在60ms处达到峰值,也就是说参与者在20-90ms时段对前向状态转换进行了回忆。证明参与者确实会在计划阶段在脑海里重放前向状态转换后,研究者进一步区分了参与者对奖励路径的重放和对损失路径的重放。结果发现,在参与者计划接近和参与者计划避免两种情况下,参与者对不同路径的重放是有差异的(图4a)。当参与者最终选择避开时,他们对奖励路径的回放显著多于对损失路径的回放(图4b)。参与者的路径回放内容会影响他们后续的决策。他们用参与者对奖励路径的回放减去对损失路径的回放,得到差异回放的指数,发现当参与者对损失路径的回放程度相对较高时,参与者更可能在预期价值较低时选择接近(图4c)。更具体地,当参与者对奖励路径的回放减弱或者对损失路径的回放增强时,他们都更可能在路径预期价值较低时选择接近(图4c)。研究者们还探究了参与者的特质如焦虑和风险规避会不会影响他们的路径回放和最终选择。结果发现,特质焦虑和风险规避本身对最终选择的影响不显著,但它们都显著调节了差异回放和决策制定之间的关系。具体而言,高特质焦虑的参与者在差异回放指数为负时更可能选择接近,这在路径的预期价值较低时比较明显(图4d);而高风险规避的参与者不论路径的预期价值多少,在差异回放指数为负时都更可能选择接近(图4e)。更具体地,对于高特质焦虑的参与者,他们是因为对损失路径的回放增多从而更可能接近;而对于高风险规避的参与者而言,他们是因为对奖励路径的回放减少从而更可能接近。最后,研究者还探究了路径回放的神经基础。结果发现,在路径回放时,左颞中回、丘脑和ACC的θ波强度显著增加,这与记忆巩固和奖励再评估相关。总的来说,这篇文章通过行为和MEG证据,证明了在计划期间的前向路径回放预测了后续的决策。具体而言,当参与者对奖励路径的回忆更强时,他们更倾向于避开;而当参与者对损失路径的回忆更强时,他们更倾向于接近。McFadyen, J., Liu, Y. & Dolan, R.J. Differential replay of reward and punishment paths predicts approach and avoidance. Nat Neurosci 26, 627–637 (2023). https://doi.org/10.1038/s41593-023-01287-7
作者 | 段 琴 黄桂玲
图文编辑 | 不晓心读写
审核 | 神经的罗贝尔博士