人类决策背后的策略:
经验性与观察性学习的决策异质
在日常生活中,我们有两种不同的策略来帮助我们做出决定:根据自己习得的经验或者根据别人的经验做出决定。试想,你走进一家看起来不错的餐馆,落座后想给自己点一道美食。但是遗憾的是你对这家餐馆完全不熟悉,并不知道这家餐馆什么菜是最好的。此刻你有两种策略可以帮助你决策:一种是利用自我知识选择一种自己熟悉的菜肴,而另一种则是观察落座在同一餐厅的其他客人,根据他们的决定为自己点单。这种两种决策过程隐藏的是两种基本的学习策略,这两种策略基于两种不同的学习过程,即经验学习(Experiential Learning, EL)和观察学习(Observational Learning, OL)。
经验学习是指人们会重复过去受到奖励的行为,避免过去受到惩罚的行为。而观察学习则是从观察到他人的行为反馈中习得经验(例如观察到有人在街角处滑倒,那么自己在路过街角时候便会更加小心谨慎),而无需直接体验这些行动的潜在负面结果。
已经有许多研究表明,经验学习和观察学习两张不同的策略在我们的日常生活中都得到了广泛的应用。然而,关于经验学习和观察学习仍然存在一些问题:(1)人们如何根据环境决定使用一种策略而不是另一种策略?即在不同环境条件下,个体如何在这两种策略间做出选择?
(2)这两种策略使用上是否存在个体差异?
该研究提出了两个对应的假设:
(1)根据条件环境的不同,人们的决策行为会存在一种经验学习和观察学习交替使用的动态策略。当行为结果直观可见时,经验学习受到更多的青睐和选择;而当从他人行为中推断出的结果更可靠时,观察学习则更多的被采用。
(2)个体在学习过程中使用的策略也存在个体差异。也就是说,不同的个体可能会使用动态策略(经验+观察)、某个策略(经验或观察)或纯偏好的策略。此外,这种异质可能来自于个体的心理差异,即个体的焦虑、与自闭症和社交焦虑相关的社交功能障碍很可能对两种策略的使用产生影响。
PART 1
方法
该研究通过线上实验在两个样本中采集了数据。第一个样本包括128名参与者 (56名女性,平均年龄32.84 ± 10.90),第二个样本则扩大到493名(290名女性,平均年龄29.48 ± 9.90)。
在任务中,参与者将看到两个不同的盒子,并被告知两个盒子中有不同比例的蓝色和橙色的代币(即一个盒子有更多的蓝色代币,另一个盒子有更多的橙色代币),但参与者最初并不知道盒子的类型,需要在随后的试次中逐渐习得。同时,蓝色和橙色的代币分别有着各自的奖励概率,例如,在某些试次中,蓝色代币有60%的概率会获得奖励分数,橙色代币则有40%概率获得奖励分数。此外,每次代币对应奖励分数的大小也在不断变化。实验通过改变代币的价值和参与者的预期,观察他们在不同条件下的策略选择。参与者在本任务中的目的是获得尽可能多的奖励。
在已知规则后,实验正式开始时,参与者被告知,前一个参与者完成了本游戏,因此参与者可以看到前一个参与者的对于盒子的选择,并看见前一个参与者所选盒子中的代币是什么颜色。随后参与者需要做的事情是在蓝色和橙色代币中直接选择一个,并获得该代币对应的奖励分数。
图1 实验程序(图片上小点用于按环境对每次试验进行分类)
实验如上图所示。橙色线代表试次中盒子与代币关系的不确定性,例如,60%代表着有60%的概率在A盒子中获得橙色代币;蓝线代表橙色代币的奖励概率,蓝色代币的奖励概率则为100%减去橙色代币奖励概率。
在完成任务后,参与者需要完成问卷测试,问卷主要测试认知能力、情绪、焦虑和社交特征。
在这项任务中,经验学习策略和观察学习策略被定义性分类。经验学习策略是指参与者选择之前获得奖励的代币,避免选择无奖励的代币。观察学习策略是指参与者选择了前一个参与者所选盒子的预期代币。具体而言,观察学习策略表现为,如果前一个参与者选择了A盒子并获得了橙色代币,那么再次选择A盒子时,参与者就会选择橙色代币;如果对方在当前试验中改变了选择,选择了B盒子,那么参与者就会选择同伴期望选择的那个盒子对应的代币,即蓝色代币。
经验学习和观察学习的不确定性被分为高低两组,并通过结果-行动-结果序列来观察。经验学习的不确定性由同种颜色的代币奖励结果确定,例如,一个颜色的代币并没有在连续试次中给予对应奖励,那么这时候经验学习的不确定性是高的;相反,若一个颜色的代币在连续试次中都给予奖励,那么经验学习的不确定性较低。与此类似,观察学习的不确定性由推断他人目标获得代币的实际奖励决定,若选择他人目标获得代币而获得了奖励,则观察学习的不确定性低。此外,范式还根据奖励幅度即奖励的多少区分了高低不同奖励的情况。如果奖励不大于25点,那么就是低奖励,否则则为高奖励条件。
PART 2
结果
研究发现,参与者能够学习到代币的价值,并选择更有价值的代币。在这两项实验任务中,准确率都明显高于偶然水平,这意味着参与者成功完成了任务。而对于学习行为,研究者收集了价值翻转后(橙色蓝色代币价值交换后)的前8次试验的选择准确率,发现平均准确率随着试次的增加而提高(图2中A和B)。
为了进一步明确参与者的决策,研究者基于观察学习(vs.经验学习)的选择比例,作为参与者是否偏好某种策略的指数。结果显示,在研究1和2中,选择观察学习的平均值与0.5没有显著差异。这说明在不同的参与者和不同的研究中,对观察学习和经验学习策略的依赖程度大致相同(图2中C和D)。
作者同时采用混合效应一般线性模型(Mixed-effects general linear model)分析了经验学习和观察学习对参与者选择行为的影响。在这里,参与者对代币的选择是由前一轮代币结果,即在最后一次试验中获得的奖励分数(经验学习),和推断出的他人的目标选择代币(观察学习)共同预测的。因此,如图2中E和F所示,经验学习固定效应和观察学习固定效应在两项研究中都很显著。此外,在这两项研究中,准确率与经验学习效应和观察学习效应之间存在正相关。
图2 学习、观察学习倾向和混合行为的行为特征
那么参与者是否会根据环境条件在观察学习和经验学习两种策略之间灵活切换?在对观察学习和经验学习低不确定性和高不确定性试验进行分类后,如图3A和B所示,黄色条形图之间的差异大于紫色条形图之间的差异,这证明经验学习和观察学习不确定性之间存在明显的交互作用,因此当经验学习不确定性较低时,观察学习不确定性的影响更强。
此外,不确定性对不同的学习策略也存在不同的影响效果。当观察学习不确定性高时,依赖观察学习的依赖性会出现相对大幅的下降(与经验学习相比)。在图3C和D中,在观察学习不确定性条件下,橙色线比蓝色线有更加明显的下降。而经验学习不确定性则对两种策略的依赖性产生了相反的影响:在经验学习不确定性条件下两种学习的改变出现交叉。这表明,当经验结果更可预测时(经验学习不确定性低),经验学习应该更受青睐,而当经验结果不确定性增高,经验学习不再具有明显的优势地位。
研究中还有一种对奖励大小的操纵,然而奖励幅度差异(奖励变化)对观察学习与经验学习的选择倾向没有发现主效应影响,但是发现了一个交互效应:当高奖励幅度时,依赖观察学习的倾向性较低,而依赖经验学习的倾向性较高。
图3 观察学习和经验学习之间不确定性驱动决策的行为特征
随后,为了回答个体是否存在不同的策略使用的差异问题,作者采用了计算建模的方式,对比了5个模型。模型1是仅采用经验学习策略的模型;模型2是仅采用观察学习策略的模型;模型3是经验学习加观察学习策略但采用固定权重的固定双决策模型;模型4是经验学习加观察学习但采用动态权重的动态双决策模型;第5个模型是捕捉无关、非倾斜策略的基线模型。
为了使模型稳健,作者首先进行了模型拟合,然后生成刺激数据,并进行了参数恢复。参数恢复的结果表明,每个模型都具有相同解释的能力。作者进一步计算了每个模型可以解释的人数比例,发现5中模型都存在一定的人数使用比例,没有一个模型可以成为每个参与者的最佳模型。这样的发现说明参与者会使用不同的策略模型,即策略使用存在异质性。同时,作者发现,不同的学习策略方式对应不同的学习率,其中以动态双决策(模型4)组的学习率增长最快(图4中A和B)。
图4中的CDEF,比较了经验学习和观察学习对行为的贡献,发现学习类型和分组之间存在显著的交互作用。特别是,仅经验学习组的受试者更依赖于过去的结果,而不是另一位参与者的行动来指导行为;仅观察学习组的受试者则相反。此外,组别还存在主效应,基线组的经验学习和观察学习效应总体上最弱;动态决策组的经验学习和观察学习效应总体上最强。作者还比较了决策的行为特征,强调了组间差异。
基于5个模型的分组结果,作者将不确定性、策略和组别三个因素放在一起进行了分析。结果发现三者之间存在明显的交互作用。观察学习的不确定性主要影响仅观察学习组和双决策使用组。然而,经验学习不确定性更多地影响动态双决策组。由此,固定和动态双决策组都会受到观察不确定性的影响,而动态双决策组还会受到经验不确定性的影响。
图4 学习、混合策略和仲裁的群体差异
最后,是回答最后一个问题的时候了:五个组别在一系列精神症状方面是否也存在有意义的差异?
作者对所有量表问题进行了因子分析。结果显示有8个主要因子,它们分别是抑郁、社交焦虑、自闭症特质、状态焦虑、社交反应迟钝、社交群体回避、特质焦虑和表现焦虑。
将8个因素对应5组进行测试,结果显示,无策略组(即基线组)和动态双决策组具有显著特征。基线组的标志是自闭症特征高、社会反应能力差和特质焦虑低。而动态双决策组的标志则是自闭症特质低、社会反应能力强和特质焦虑高。
图5 问卷项目因素分析
此外,根据不同的因素,研究还发现自闭症特质在不同组别之间存在差异。如基线组和固定组、基线组和动态组、仅观察学习组和固定组之间存在差异。同样,特质焦虑也存在组间差异,如基线组和动态组、基线组和固定组、仅经验学习组和动态组之间存在差异。此外,自闭症特质与特质焦虑呈正相关。
图6 精神症状维度的群体差异
PART 3
讨论
基于以上结果,本研究认为,根据每种策略的可靠性,人们明显以预期的方式调节自己的行为(当经验学习可靠性高而观察学习可靠性低时,人们倾向于经验学习;当观察学习可靠性高而经验学习可靠性低时,人们倾向于观察学习)。奖励的幅度(而非幅度的差异)对行为有重大影响,当近期奖励幅度较大时,经验学习比观察学习更受青睐。
同时,没有一个模型能最好地解释所有参与者的数据;相反,作者发现不同的参与者群体依靠不同的策略来完成这项任务。对参与者进行这种基于策略的分类与心理病理学有关:特质焦虑和自闭症特质是造成大部分群体差异的两个主要因素。动态决策组的特质焦虑因子得分最高,这与切换时刻较多的范式有关。特质焦虑是问卷项目的一个子集,如果只使用一个量表,则组间没有差异,需要其他项目的控制,此外,高特质焦虑与寻求信息的需求有关。
总体来说,本研究发现,当结果可预测性较高时,个体倾向于使用基于过往经验的经验学习策略;而在观察到的行为推断更可靠时,则偏向于使用基于他人行为的观察学习策略。更为重要的是,研究揭示了个体在策略选择上的显著异质性,这种差异可能与个人的焦虑程度、社交功能障碍(如自闭症和社交焦虑)等心理特征密切相关。
文字|Xinze
排版|Rongjia
审核|Jingmin, Haiyan