个体在奖励各异情况下灵活地整合社会信息
Humans flexibly integrate social information despite interindividual differences in reward
作者
本次介绍的文献‘Humans flexibly integrate social information despite interindividual differences in reward’在2024年发表于Proceedings of the National Academy of Sciences(PNAS)。本篇论文的作者来自于德国蒂宾根大学的人机认知实验室(Human and Machine Cognition Lab, MHC-LAB),包括Alexandra Witt和Charley M. Wu(MHC-LAB首席研究员),以及Wataru Toyokawa等人。他们致力于人类认知科学与机器学习研究的交叉领域,力求利用人类认知的见解来改进机器学习方法,同时利用机器学习作为理解人类智能的工具,研究现象背后的认知原理。
我们在理解人类社会学习方面已经取得了很大进展,包括最近将社会信息整合到强化学习框架中的研究。然而,之前的研究经常以观察者[observer] (被试)和展示者[demonstrator] (被试看到的示例)都具有相同的奖励环境为前提,而忽视了现实世界互动中社会信息的多样性。该研究通过引入“社会相关的赌博机/老虎机”任务塑造被试之间的收益差异,从而在更真实的情景下研究社会学习。研究提出的社会泛化(Social Generalization, SG)模型将社会信息纳入泛化过程,但将社会信息视为比个人观察更嘈杂的因素,在仿真实验和两个在线实验的测试中,SG模型都优于其他对比模型。研究结果表明,人类的社会学习比之前认为的更加灵活,SG 模型说明了潜在的资源理性权衡,其中社会学习部分取代了个人探索(注:从社会学习中获取到的信息一定程度上代替了自己探索环境获取到的信息)。这项研究强调了人类社会学习的灵活性,使我们能够整合来自具有不同偏好、技能或目标的他人的社会信息。
如果你在陌生的地方寻找一家餐厅吃饭,你是会去评分最高的餐厅,还是根据自己的喜好选择呢?由于饮食差异的存在,人们一般不会完全依赖他人的评价进行选择,而是会综合他人评价与自身喜好,选择适合自己的餐厅。关于社会学习的研究多聚焦于人们如何使用来自与自己相似的人的社会信息,并将社会学习的策略分为三类,即何时(when)、何事(what)与何人(who)策略。它们分别决定了在什么时候、对什么事件、从什么人身上进行社会学习。除了社会学习的使用与策略,获取社会信息、使用社会学习的机制,也被广泛研究。
在先前的研究范式中,学习者(被试)与展示者(被试看到的示例)都具有相同的奖励环境与目标,这与“人们常常去学习模仿与自己目标相同的人以获得最佳效果”的概念相契合。所以在这些研究中,模仿他人的行为似乎成为了最优解。但是,在现实生活中,因为人与人之间差异的存在,仅模仿他人的行为在多数情况下并非是最好的选择。想象你在下班的路上,发现之前天天堵车的道路今天突然没有车了,还看到有一些眼熟的车子选择转弯绕路,你也许会选择和他们一起,从而正确地绕开了正在施工的道路。这些眼熟的车子与你的目的地并不相同,但他们和你具有相同的偏好——绕开施工的道路。因此社会学习绝非单纯地模仿,人们仍需考虑他们与其模仿对象的偏好是否一致。
心理理论(Theory of Mind)推理可以解答人们如何对具有不同偏好的展示者进行社会学习,该领域的许多研究揭示了人们如何根据他人行为推断其心理状态信息,尤其是偏好。经过推理,人们需要判断展示者与自己是否具有相同的奖励或目标,因为这决定了自己对于模仿者的模仿行为是否是有益的。就算最终目标不同,人们仍可从中获取利于自身决策的有益信息。在现代社会中,人们常常使用综合评价作为社会信息进行决策,该过程却没有对他人与自己相似程度的判断。
综上,该研究旨在揭示:对于与自己的偏好不同的人,人们如何使用从他们那里获得的信息?(注:该文章的任务更多地是探究:在偏好相同(最大化累计奖励)、奖励环境相似(被试的奖励环境与示例的奖励环境的相关度为0.6/0.2)的情况下,人们如何利用社会学习来优化自己的决策)
「READING」
该研究所使用的社会相关的赌博机任务源自作者在2018年的研究中所使用的空间相关的赌博机任务[1] (Wu, C. M., et al, Nature Human Behaviour)。
图 1 空间相关的赌博机任务
如图所示,在空间相关的赌博机任务中,被试需要在固定的选择次数中揭示被覆盖的方块,以获得对应数字的奖励,被试在该任务中需要获取尽可能多的奖励。并且该研究设计了一维与二维的对应任务。图中的Rough与Smooth代表了相邻方块奖励的变化幅度:Rough组的变化幅度大于Smooth组。
图 2 社会相关的赌博机任务
该研究所使用的社会相关的赌博机任务以二维空间相关的赌博机任务为基础,被试的任务目标同样是获取尽可能多的奖励。不同的是,被试将与三位同伴一起进行任务,在每一步操作时,被试可以同步看到同伴的选择与结果(如图2A)。被试地图的奖励分布由一个模板按照一定的相关度生成,进而,三位同伴地图的奖励分布由被试地图的奖励分布按照一定相关度(r = 0.6)生成(注当被试与同伴地图的奖励分布的相关度r = 0.6时,被试可以更多地采纳社会信息来帮助自己决策;补充实验,当相关度r = 0.2时,被试应该谨慎利用社会信息;此外,该研究中未涉及到,当相关度r=0时,被试应该完全不利用社会信息)。
图 3 实验设计
在该研究中,实验分为两部分。在实验一中,被试被随机分配到四人小组中进行团队任务。实验二则是单人任务与团队任务交替进行,在单人任务中,同伴的选择会被遮盖,这一轮决策中,被试需要根据自己的个人信息进行决策。
图 4 计算模型. AS: 反社会基线模型;
DB: 决策偏差模型 ; VS: 价值塑造模型; SG: 社会泛化.
l. 反社会基线(Asocial Baseline, AS)模型:
AS模型使用高斯过程上置信界(Gaussian Process Upper Confidence Bound, GP-UCB)模型,作为研究任务的反社会基线。通过多元高斯分布,输入先前的(先验)决策与奖励,获得奖励的预测(后验)分布。
其中m为预测奖励的均值(后验均值),v为预测奖励的方差(后验方差),K为观测值子集的协方差矩阵, 为观测噪声,I为单位矩阵。
使用径向基函数(Radial Basis Function, RBF)作为核函数决定协方差矩阵。其中λ为长度尺度,与两点之间的假设空间相关性呈正相关。
在完成奖励预测后,该模型使用置信上限(Upper Confidence Bound, UCB)取样以平衡探索与利用的策略倾向。该取样结合了后验均值与方差,得出UCB值。其中β为不确定性定向探索参数,其与更多的探索行为呈正相关。
最后该模型使用softmax函数将价值函数转化为策略。其中τ为随机探索参数,与选择的随机性呈负相关。
ll. 决策偏差(Decision Biasing, DB)模型:
DB模型将基于频率的社会信息纳入策略之中。其中ind对应个人参数,soc对应社会参数,且社会策略与展示者的选择次数呈正相关。该模型通过将混合参数γ作为社会学习的权重,使个人策略与社会策略相结合。
lll. 价值塑造(Value Shaping, VS)模型:
VS模型则是将社会信息引入价值方程。其中V代表对给定选择x的UCB值,α为社会奖励参数,决定着社会影响力的强度。
V. SG模型:
SG模型将社会信息引入高斯过程回归,这使社会信息推广到周围的选项,与空间背景局部增强的非特定形式对应。由于社会信息较个人信息可靠性更低,在该模型中,观测噪声由个体(δ = 0)或社会(δ = 1)观察决定。其中社会噪声越低,对社会信息的依赖越高。(注:该研究中的模型中,只有SG模型是以分布的形式来利用社会信息的,因此SG模型的拟合效果最好,是很显然的)
该研究使用了锦标赛算法(Tournament Selection) 对上述计算模型进行进化仿真迭代。研究者首先对所有可能的模型组合设置对应的初始代理数量,之后随机选择四个代理进行实验任务,最终选择表现最好的模型进行下一次迭代任务,且被选出的模型有突变的可能。
进化仿真的结果表明,所有的初始代理群体最终都会全部迭代为SG模型,说明SG模型对该任务的仿真效果最优。此外,研究者找到了SG模型的最佳仿真参数组合:泛化参数λ = 1.96,这与真实环境的潜在价值(λ = 2)接近;随机探索参数τ ≈ 0.06,表明仿真选择大部分为基于价值函数的确定选择;社会噪声参数 = 3.2,这意味着在试验任务中模仿同伴的选择并非最优决策;定向探索参数β = 0.19,该参数展现了定向探索被社会学习中的社会信息替代的程度。
图 5 进化仿真
l. 行为结果:
图 6 实验一:行为结果
实验一的结果表明,随着任务的进行,被试的平均奖励显著提高,社会搜索距离(被试在第t个trial选择的选项与另一被试在第t-1个trial时选择的选项之间的欧几里德距离)显著减小(图 6 A,B)。这表明被试的表现越来越好、选择越来越集中。
研究者按信息源(个人或社会)对历史奖励的搜索距离进行回归分析,结果表明随着先历史奖励的增加,被试的搜索距离显著减小,并且源于被试个人的信息对搜索距离的影响显著高于社会信息的影响(图 6 C),反映出人们对社会信息具有更低的依赖性。随着历史奖励的增加,模仿行为(搜索距离=0)的选择率显著增加,创新行为(搜索距离=1)的选择率同样显著增加,且幅度显著大于模仿行为(图 6 C)。这表明由于奖励差异的存在,被试认为对同伴的模仿并非是最优行为,在同伴获得高奖励的区域附近探索才有可能获得更高的奖励。
ll. 计算建模结果:
图 7 实验一:计算建模结果
实验一的模型拟合结果表明最优模型为SG模型(图 7 E),但是该模型的拟合参数相比之前进化仿真所获得的参数表现出差异性:其泛化参数λ显著低于真实值,定向探索参数β显著低于反社会基线模型中的参数β,且社会噪声参数显著高于最佳进化仿真结果(图 7 F)。参数的差异性表明被试并不认为他们所观察到的决策是环境中的最优选择,且被试对社会信息的依赖程度低于最佳仿真水平。SG模型的拟合结果表明,随着社会噪声的增加,被试更倾向于个人探索,并且获得的平均奖励更低(图 7 G, H)。
实验一表明,即使在社会信息不完全适用于自己的情况下,被试仍可使用社会信息指导他们的决策。被试的行为符合SG模型的预测结果,这表明社会信息的利用在一定程度上与个人信息相似,但相较进化仿真最优模型,被试认为社会信息比个人信息更不可靠、噪声更大,其中包含着更多的无用或干扰信息。这种信息整合方式被认为是最符合实验任务环境的方式,但当被试过度依赖环境信息时,社会噪声与任务奖励的线性关系将不再成立。
因此研究者设计了实验1R以确认被试是否会过度依赖环境信息。在该实验中,被试与其同伴的任务地图的相关性,即奖励的相关性被降至最低(r = 0.1),这意味着对同伴行为的单纯模仿只有很低的任务奖励。研究者发现,AS模型成为实验1R的最优模型,并且该仿真的社会噪声参数远高于SG模型的最佳拟合参数。这表明被试在该实验中认为社会信息几乎没有价值,他们更倾向于使用个人信息完成任务,而不会过度依赖社会信息。
l. 行为结果:
图 8 实验二:行为结果
研究者通过在实验二中设置单人任务,引入了解释社会影响的基线。在实验二中,团队任务复现了实验一的结果:随着任务的进行,任务奖励随之提高、社会探索距离随之减小(图 8 A, B)。单人任务的结果表明,社会搜索距离受社会信息的影响更大(图 8 B)。对于个人信息,单人任务的拟合结果具有更高的斜率,说明在单人任务中被试对个人历史奖励更敏感(图 8 C)。而对于社会信息,团队任务的斜率更高(图 8 C)。由于社会信息在单人任务中较少,因此单人任务仅作为基线与团队任务作比较,证明被试在团队任务中对社会信息的利用。此外,单人任务中,被试对于两种行为的选择率均显著低于团队任务,说明被试在单人任务中更保守,而在团体任务中更多进行探索。
ll. 计算建模结果:
图 7 实验二:计算建模结果
实验二的计算建模结果表明,对于单人任务,由于没有社会信息的存在,其最优模型为AS模型。团队任务的最优模型与实验一相同,为SG模型(图 7 E, F)。对于每个任务各自的最佳拟合模型,由于社会信息的缺失,被试在学习过程中,会更加依赖由个人探索获得的地图信息,因此AS模型(单人任务的最优模型)的定向探索参数β显著高于SG模型(团队任务的最优模型)(图 7 G)。社会噪声对直接探索与任务奖励的影响与实验一相同:高社会噪声会导致高水平的直接探索与低水平的任务奖励(图 7 H, I)。对于拟合参数,团队任务中的直接探索参数β显著低于单人任务,这表明当社会信息有效时,社会学习可以在一定程度上代替直接探索。
实验二通过引入非社会基线对比个人策略与社会策略,在复现实验一结果的同时,进一步表明了社会信息的使用,不仅仅是相关环境中单纯个人信息使用的结果,社会信息的使用在一定程度上取代了不确定性导向的探索。
本研究通过两个实验表明即使个体间获得的奖励存在差异,在稳定环境中的社会学习仍具有适应性。这种对社会信息的适应性使用,与不确定性导向的探索的减少密切相关,意味着社会学习起到了探索工具的作用。但在有被试参加的任务中,相较于最优进化仿真所得到的结果,人们从环境中获取的社会信息并未得到充分利用。研究者认为这种现象可以用资源理性来解释:由于社会信息的嘈杂性,并非所有社会信息都是对自己有用的,其信息密度低于人们通过自己的经历与总结所获得的个人信息,因此人们仅在个人信息较少、且绝对必要的时候依赖社会信息进行社会学习。此外,这种资源理性的推理,也可以解释为什么在可能的情况下,定向探索会一定程度上被社会学习取代:过去的研究表明,定向探索会增加认知负荷,这意味着该策略对于个人的成本较高,因此社会学习在这个过程中作为探索工具,一定程度上减少了不确定性导向探索的功能,避免过度探索。
参考文献:
[1]Wu, C. M., Schulz, E., Speekenbrink, M., Nelson, J. D., & Meder, B. (2018). Generalization guides human exploration in vast decision spaces. Nature Human Behaviour, 2(12), 915–924. https://doi.org/10.1038/s41562-018-0467-4
[2]Witt, A., Toyokawa, W., Lala, K. N., Gaissmaier, W., & Wu, C. M. (2024). Humans flexibly integrate social information despite interindividual differences in reward. Proceedings of the National Academy of Sciences, 121(39), e2404928121. https://doi.org/10.1073/pnas.2404928121
文案:Guanghan
校对:Haiyan, Shuo, Julia
排版:Zhexu
2024.12.7