【探索】李宁《未来科技与组织行为》:76%复现成功率!AI能否取代人类成为实验‘主角’?

2024-10-15 11:30   上海  



研究背景

你能想象有一天,心理学实验中的“参与者”不再是人类,而是生成式AI吗?随着人工智能技术的快速发展,这样的场景正逐渐变为现实。在我们日常的社会科学研究中,实验、问卷、和访谈是了解人类认知和行为模式的重要工具。然而,随着大语言模型(LLMs)如GPT-4的出现,我们或许正在见证传统研究方法的一场变革。

最近的研究表明,LLMs在心理评估和经济决策中可以模拟出与人类非常接近的反应。这似乎为AI替代人类参与实验打开了一扇门。然而,当涉及敏感的社会话题或特定人群的心理行为时,AI的表现却往往与人类大相径庭。那么,AI到底能否真正替代人类成为心理学实验中的“被试”?在实验反应上,AI与人类之间是否存在显著的系统性差异?

为了解答这些疑问,我们进行了大规模的实验复现研究,复现了154个来自顶级社会科学期刊的文本类情境实验,总样本量涵盖了53,840名人类被试和82,870条由GPT模型生成的数据记录。这不仅是对AI能否胜任此类任务的严峻考验,更是对未来科学研究方式的大胆探索。



研究方法

复现实验样本选择

我们选择的是2015年至2024年间发表在顶级期刊上的文章,期刊包括Organizational Behavior and Human Decision Processes (OBHDP), Academy of Management Journal (AMJ), Journal of Applied Psychology (JAP), Journal of Personality and Social Psychology (JPSP), and Journal of Experimental Psychology: General (JEP)。

我们选择了文本型的情境实验,因为这类实验与LLMs的文本处理能力高度契合。通过Google Scholar,我们使用experiment、scenario、vignette、MTurk、Prolific作为关键词检索了期刊中的相关文章,从每个期刊符合要求的文章中随机选取10篇作为研究样本。

由于LLMs无法模拟个人实际经历或参与实际行为,为了确保选定的研究适合LLMs进行复现,我们排除了一些特定类型的实验,包括涉及根据现实经历自我报告来进行变量测量的实验、涉及生理测量或行为观察的实验、纵向追踪实验以及需要团队合作或群体互动的实验。最终样本包含了50篇文章的154项研究,共756个效应(618个主效应和138个交互效应)。

提示词设计与调整

每个实验的提示词都由四部分组成:

此外,我们为变量测量和推理设置了详细的说明,以便GPT-4能够根据研究目标准确评估关键变量。为了便于数据分析,我们要求GPT-4输出结构化的JSON格式数据,确保能够准确提取并与人类参与者的数据直接对比。

在大规模复现之前,我们使用GPT-4网页版对提示词进行了预测试,根据大语言模型与人类注意力机制的差异,我们对35.06%的提示词在不产生引导性的前提下进行了必要调整,以确保成功的变量操纵和GPT对情境的准确理解。

GPT-4复现与数据分析

确定最终提示词后,我们通过OpenAI API进行大规模模拟。我们将“温度”参数设为1.0,以保证回答多样性和合理性的平衡。考虑到异常/遗漏回复、回答格式转换等原因造成的样本流失,我们收集的样本量是原始样本量的1.5倍。

数据分析过程中,我们严格遵循原始研究中的分析方法,如描述性统计、回归分析、方差分析(ANOVA)、t检验、F检验、结构方程模型(SEM)、卡方分析等。对于未明确分析方法的原始研究,我们使用该领域中最常见的分析方法。

复现结果分析

我们重点关注原文中报告的主效应和交互效应的复现情况。我们为每个效应进行了详细编码,记录了期刊、样本特征、数据收集平台、所涉及的变量以及原始实验/GPT复现实验的样本量、信度、效应方向、效应量和显著性。

我们将不同类型的效应量转化为相关系数(r),以确保结果的可比性。对于GPT-4的复现结果,我们如果发现效应方向与原实验相反,r值会被编码为负值。此外,很多原实验仅报告了p值范围(如p<0.05,p<0.01),我们通过r值和样本量计算出精确的p值,用于更深入的分析。



研究发现

复现成功率

我们分析了618个主效应,其中417个原文显著的主效应,以及138个交互效应,原始研究中有83个原文显著的交互效应。

总体上,76.0%的原文显著的主效应(317/417)成功复现,这个复现成功率相对于以往的心理学复现尝试来说相当高。当不考虑原文效应的显著性,只看效应方向时,GPT-4与原始研究的方向一致性为80.62%。

然而,交互效应的复现率较低,仅为47.0%(39/83)。GPT-4在交互效应的方向一致率为61.82%,这一现象与以往用人类被试开展的复现研究一致,因为交互效应通常更复杂,更容易受到情境因素的影响。

复现率描述性统计


显著性分析

我们对p值的分析显示了有趣的结果。对于主效应,GPT-4复现中的p值通常小于原始研究的p值(原始:均值0.117,标准差0.265;复现:均值0.056,标准差0.172)。这表明GPT-4在否定零假设时的力度更强。

原始实验和复现实验的p-value对比

总体上,GPT的显著结果率为86.49%,而人类分析的显著率为76.67%,这表明GPT更可能产生显著结果。不过,在71.6%的原始研究中未显著的结果在复现中变得显著,这可能是因为GPT-4对微弱效应更敏感,或其较为一致的响应模式减少了实验中的噪声,从而增加了产生假阳性的风险。

交互效应也有类似的模式,GPT-4复现中的p值通常小于原始研究的p值(原始:均值0.164,标准差0.286;复现:均值0.126,标准差0.238)。GPT-4在交互效应中的显著率为66.36%,略高于人类分析的65.42%。

效应量(Effect Size)分析

我们对499个主效应(去除了方向不明确、效应量无法转换为r值的主效应)进行了效应量分析,结果显示复现研究的效应量通常较原始研究更大。复现研究的平均效应量(r值)为0.321,显著高于原始研究的0.240。此外,GPT-4复现的效应量标准差也更大。

原始实验和复现实验的r-value对比

我们还计算了复现效应量与原始效应量的Spearman相关系数,发现相关性为0.457,与人类参与的复现研究相当。这表明尽管GPT-4的效应量较大,但其与原始效应量的总体关系仍与人类研究一致。

有趣的是,只有19.44%的主效应的原始r值落在复现研究的95%置信区间内,而51.50%的原始r值低于复现置信区间的下限,这表明在大多数情况下,GPT-4的复现效应量较原始研究更大。

相对r-value的分布情况

此外,GPT-4回答的标准差较低,96.99%的置信区间较原始研究更窄,这可能是GPT-4在复现中产生较高显著率的原因之一。

r-value置信区间分布情况

回归分析

我们选择了4个重要的因变量:是否复现成功、原始效应量是否落入复现效应量95%置信区间、原始效应量和复现效应量差值、原始效应和复现效应方向一致性。回归的自变量包括期刊类型、数据收集平台类型、变量是否属于特定价值观导向的话题、是否进行提示词调整、原始效应量。

结果显示,涉及种族民族变量的研究以及涉及伦理道德变量的研究复现成功率较低、效应量差值较小,且涉及种族民族变量的研究更有可能在复现中产生效应方向不一致,这表明在这些社会敏感话题上GPT-4复现效应存在挑战。这可能是由于LLMs倾向于在假设情境中作出“政治正确”的回应,这些价值观的倾向可能使其更加谨慎,避免产生可能被视为不道德或有争议的回答。

此外,对提示词做出了调整的实验也显示出更低的复现成功率、更小的效应量差值和更高的方向不一致性,这表明LLMs在理解这些实验时可能本质上就更具挑战性。

结果还表明,发表在管理学期刊的研究更有可能原始效应量落入复现的95%置信区间内。同样,在MTurk或Prolific平台上进行的研究也更有可能原始效应量落入复现的95%置信区间内,这可能是因为这些平台的参与者通常回应假设场景,他们的反应模式与GPT-4的回答方式更为一致,而其他与任务直接相关的参与者可能会产生与GPT-4生成的响应更不一致的结果,导致效应量的收敛性较低。



研究启示

对复现研究的启示

我们发现GPT-4的复现成功率显著高于以往心理学领域的复现研究。这不仅反映了原始效应的稳健性,还可能是因为模型对微弱效应更敏感,这些效应在人类复现中容易被忽略。尽管这种敏感性有助于发现更多效应,但也可能导致效应夸大或假阳性结果。GPT-4在未显著的原始研究中生成显著结果的频率较高,这可能是因为它对数据噪声或虚假相关的响应较强。因此,尽管GPT-4能揭示潜在的重要模式,我们仍需谨慎解读这些结果,尤其是当缺乏人类研究的支持时。

此外,研究还发现,在涉及种族、道德等社会敏感话题时,GPT-4的复现成功率较低。由于其内置的避免偏见机制,GPT-4在这些复杂议题上表现得更加谨慎和中立,与人类反应有所差异,这表明LLMs在处理此类话题时存在局限性。

对心理学实验和企业应用的启示

LLMs为心理学实验带来了新的可能。在正式招募人类参与者前,通过AI进行假设测试和实验设计优化,不仅节省成本,还能加速新现象的发现。然而,尽管LLMs可以较好地复现实验中的效应方向,但其对真实效应量的估计可能不够准确,从而增加假阳性结果的风险。因此,在使用LLMs进行心理学研究时,必须保持谨慎,最终仍需通过人类研究来验证这些结果。

在企业管理和商业决策中,LLMs同样展示了巨大的应用潜力。企业可以在发布管理政策前利用GPT-4模拟员工反应,预见潜在问题并优化决策。在市场营销中,LLMs可用于预测消费者对新产品或广告的反应,助力营销策略制定。在金融领域,LLMs能模拟股市投资者对企业事件(如并购、产品发布等)的反应,为企业提供前瞻性的市场应对策略。这些应用不仅提升了决策效率,还节省了时间和成本。

对理解大语言模型与人类认知的启示

通过对比LLMs与人类在实验中的表现,可以更加清晰地了解AI与人类认知的异同,这对开发更高级的AI系统甚至通用人工智能(AGI)非常关键。同时,LLMs的表现也揭示了其潜在的偏见和局限性。例如,GPT-4在某些实验中可能表现出特定的决策偏差,这可能源于其训练数据或算法中的系统性问题。这对于AI在招聘、贷款审批等高风险场景中的应用尤为重要。通过心理学实验识别这些偏见,我们可以制定更健全的保障措施和道德规范,确保AI在社会敏感领域的应用更加公正合理。


欢迎下载论文了解更多的信息:


下载地址:https://arxiv.org/abs/2409.00128



- Thanks For Reading -




上海肝脏杂志社
及时发布肝脏疾病领域的新进展、新的研究成果及新技术,加强与读者交流
 最新文章