【探索】李宁《未来科技与组织行为》：76%复现成功率！AI能否取代人类成为实验‘主角’？

2024-10-15 11:30 上海

研究背景

你能想象有一天，心理学实验中的“参与者”不再是人类，而是生成式AI吗？随着人工智能技术的快速发展，这样的场景正逐渐变为现实。在我们日常的社会科学研究中，实验、问卷、和访谈是了解人类认知和行为模式的重要工具。然而，随着大语言模型（LLMs）如GPT-4的出现，我们或许正在见证传统研究方法的一场变革。

最近的研究表明，LLMs在心理评估和经济决策中可以模拟出与人类非常接近的反应。这似乎为AI替代人类参与实验打开了一扇门。然而，当涉及敏感的社会话题或特定人群的心理行为时，AI的表现却往往与人类大相径庭。那么，AI到底能否真正替代人类成为心理学实验中的“被试”？在实验反应上，AI与人类之间是否存在显著的系统性差异？

为了解答这些疑问，我们进行了大规模的实验复现研究，复现了154个来自顶级社会科学期刊的文本类情境实验，总样本量涵盖了53,840名人类被试和82,870条由GPT模型生成的数据记录。这不仅是对AI能否胜任此类任务的严峻考验，更是对未来科学研究方式的大胆探索。

研究方法

复现实验样本选择

我们选择的是2015年至2024年间发表在顶级期刊上的文章，期刊包括Organizational Behavior and Human Decision Processes (OBHDP), Academy of Management Journal (AMJ), Journal of Applied Psychology (JAP), Journal of Personality and Social Psychology (JPSP), and Journal of Experimental Psychology: General (JEP)。

我们选择了文本型的情境实验，因为这类实验与LLMs的文本处理能力高度契合。通过Google Scholar，我们使用experiment、scenario、vignette、MTurk、Prolific作为关键词检索了期刊中的相关文章，从每个期刊符合要求的文章中随机选取10篇作为研究样本。

由于LLMs无法模拟个人实际经历或参与实际行为，为了确保选定的研究适合LLMs进行复现，我们排除了一些特定类型的实验，包括涉及根据现实经历自我报告来进行变量测量的实验、涉及生理测量或行为观察的实验、纵向追踪实验以及需要团队合作或群体互动的实验。最终样本包含了50篇文章的154项研究，共756个效应（618个主效应和138个交互效应）。

提示词设计与调整

每个实验的提示词都由四部分组成：

此外，我们为变量测量和推理设置了详细的说明，以便GPT-4能够根据研究目标准确评估关键变量。为了便于数据分析，我们要求GPT-4输出结构化的JSON格式数据，确保能够准确提取并与人类参与者的数据直接对比。

在大规模复现之前，我们使用GPT-4网页版对提示词进行了预测试，根据大语言模型与人类注意力机制的差异，我们对35.06%的提示词在不产生引导性的前提下进行了必要调整，以确保成功的变量操纵和GPT对情境的准确理解。

GPT-4复现与数据分析

确定最终提示词后，我们通过OpenAI API进行大规模模拟。我们将“温度”参数设为1.0，以保证回答多样性和合理性的平衡。考虑到异常/遗漏回复、回答格式转换等原因造成的样本流失，我们收集的样本量是原始样本量的1.5倍。

数据分析过程中，我们严格遵循原始研究中的分析方法，如描述性统计、回归分析、方差分析（ANOVA）、t检验、F检验、结构方程模型（SEM）、卡方分析等。对于未明确分析方法的原始研究，我们使用该领域中最常见的分析方法。

复现结果分析

我们重点关注原文中报告的主效应和交互效应的复现情况。我们为每个效应进行了详细编码，记录了期刊、样本特征、数据收集平台、所涉及的变量以及原始实验/GPT复现实验的样本量、信度、效应方向、效应量和显著性。

我们将不同类型的效应量转化为相关系数（r），以确保结果的可比性。对于GPT-4的复现结果，我们如果发现效应方向与原实验相反，r值会被编码为负值。此外，很多原实验仅报告了p值范围（如p<0.05，p<0.01），我们通过r值和样本量计算出精确的p值，用于更深入的分析。

研究发现

复现成功率

我们分析了618个主效应，其中417个原文显著的主效应，以及138个交互效应，原始研究中有83个原文显著的交互效应。

总体上，76.0%的原文显著的主效应（317/417）成功复现，这个复现成功率相对于以往的心理学复现尝试来说相当高。当不考虑原文效应的显著性，只看效应方向时，GPT-4与原始研究的方向一致性为80.62%。

然而，交互效应的复现率较低，仅为47.0%（39/83）。GPT-4在交互效应的方向一致率为61.82%，这一现象与以往用人类被试开展的复现研究一致，因为交互效应通常更复杂，更容易受到情境因素的影响。

复现率描述性统计

显著性分析

我们对p值的分析显示了有趣的结果。对于主效应，GPT-4复现中的p值通常小于原始研究的p值（原始：均值0.117，标准差0.265；复现：均值0.056，标准差0.172）。这表明GPT-4在否定零假设时的力度更强。

原始实验和复现实验的p-value对比

总体上，GPT的显著结果率为86.49%，而人类分析的显著率为76.67%，这表明GPT更可能产生显著结果。不过，在71.6%的原始研究中未显著的结果在复现中变得显著，这可能是因为GPT-4对微弱效应更敏感，或其较为一致的响应模式减少了实验中的噪声，从而增加了产生假阳性的风险。

交互效应也有类似的模式，GPT-4复现中的p值通常小于原始研究的p值（原始：均值0.164，标准差0.286；复现：均值0.126，标准差0.238）。GPT-4在交互效应中的显著率为66.36%，略高于人类分析的65.42%。

效应量（Effect Size）分析

我们对499个主效应（去除了方向不明确、效应量无法转换为r值的主效应）进行了效应量分析，结果显示复现研究的效应量通常较原始研究更大。复现研究的平均效应量（r值）为0.321，显著高于原始研究的0.240。此外，GPT-4复现的效应量标准差也更大。

原始实验和复现实验的r-value对比

我们还计算了复现效应量与原始效应量的Spearman相关系数，发现相关性为0.457，与人类参与的复现研究相当。这表明尽管GPT-4的效应量较大，但其与原始效应量的总体关系仍与人类研究一致。

有趣的是，只有19.44%的主效应的原始r值落在复现研究的95%置信区间内，而51.50%的原始r值低于复现置信区间的下限，这表明在大多数情况下，GPT-4的复现效应量较原始研究更大。

相对r-value的分布情况

此外，GPT-4回答的标准差较低，96.99%的置信区间较原始研究更窄，这可能是GPT-4在复现中产生较高显著率的原因之一。

r-value置信区间分布情况

回归分析

我们选择了4个重要的因变量：是否复现成功、原始效应量是否落入复现效应量95%置信区间、原始效应量和复现效应量差值、原始效应和复现效应方向一致性。回归的自变量包括期刊类型、数据收集平台类型、变量是否属于特定价值观导向的话题、是否进行提示词调整、原始效应量。

结果显示，涉及种族民族变量的研究以及涉及伦理道德变量的研究复现成功率较低、效应量差值较小，且涉及种族民族变量的研究更有可能在复现中产生效应方向不一致，这表明在这些社会敏感话题上GPT-4复现效应存在挑战。这可能是由于LLMs倾向于在假设情境中作出“政治正确”的回应，这些价值观的倾向可能使其更加谨慎，避免产生可能被视为不道德或有争议的回答。

此外，对提示词做出了调整的实验也显示出更低的复现成功率、更小的效应量差值和更高的方向不一致性，这表明LLMs在理解这些实验时可能本质上就更具挑战性。

结果还表明，发表在管理学期刊的研究更有可能原始效应量落入复现的95%置信区间内。同样，在MTurk或Prolific平台上进行的研究也更有可能原始效应量落入复现的95%置信区间内，这可能是因为这些平台的参与者通常回应假设场景，他们的反应模式与GPT-4的回答方式更为一致，而其他与任务直接相关的参与者可能会产生与GPT-4生成的响应更不一致的结果，导致效应量的收敛性较低。

研究启示

对复现研究的启示

我们发现GPT-4的复现成功率显著高于以往心理学领域的复现研究。这不仅反映了原始效应的稳健性，还可能是因为模型对微弱效应更敏感，这些效应在人类复现中容易被忽略。尽管这种敏感性有助于发现更多效应，但也可能导致效应夸大或假阳性结果。GPT-4在未显著的原始研究中生成显著结果的频率较高，这可能是因为它对数据噪声或虚假相关的响应较强。因此，尽管GPT-4能揭示潜在的重要模式，我们仍需谨慎解读这些结果，尤其是当缺乏人类研究的支持时。

此外，研究还发现，在涉及种族、道德等社会敏感话题时，GPT-4的复现成功率较低。由于其内置的避免偏见机制，GPT-4在这些复杂议题上表现得更加谨慎和中立，与人类反应有所差异，这表明LLMs在处理此类话题时存在局限性。

对心理学实验和企业应用的启示

LLMs为心理学实验带来了新的可能。在正式招募人类参与者前，通过AI进行假设测试和实验设计优化，不仅节省成本，还能加速新现象的发现。然而，尽管LLMs可以较好地复现实验中的效应方向，但其对真实效应量的估计可能不够准确，从而增加假阳性结果的风险。因此，在使用LLMs进行心理学研究时，必须保持谨慎，最终仍需通过人类研究来验证这些结果。

在企业管理和商业决策中，LLMs同样展示了巨大的应用潜力。企业可以在发布管理政策前利用GPT-4模拟员工反应，预见潜在问题并优化决策。在市场营销中，LLMs可用于预测消费者对新产品或广告的反应，助力营销策略制定。在金融领域，LLMs能模拟股市投资者对企业事件（如并购、产品发布等）的反应，为企业提供前瞻性的市场应对策略。这些应用不仅提升了决策效率，还节省了时间和成本。

对理解大语言模型与人类认知的启示

通过对比LLMs与人类在实验中的表现，可以更加清晰地了解AI与人类认知的异同，这对开发更高级的AI系统甚至通用人工智能（AGI）非常关键。同时，LLMs的表现也揭示了其潜在的偏见和局限性。例如，GPT-4在某些实验中可能表现出特定的决策偏差，这可能源于其训练数据或算法中的系统性问题。这对于AI在招聘、贷款审批等高风险场景中的应用尤为重要。通过心理学实验识别这些偏见，我们可以制定更健全的保障措施和道德规范，确保AI在社会敏感领域的应用更加公正合理。

欢迎下载论文了解更多的信息：

下载地址：https://arxiv.org/abs/2409.00128

- Thanks For Reading -

http://mp.weixin.qq.com/s?__biz=MzI5NTAxMDEwNg==&mid=2672647473&idx=4&sn=09fe01896a4acfb6e8a5a78cd903b72e

上海肝脏杂志社

及时发布肝脏疾病领域的新进展、新的研究成果及新技术，加强与读者交流

【中性粒细胞与急性肝衰竭】杨世欣郭金龚作炯《肝脏》：中性粒细胞胞外诱捕网在急性肝衰竭中的作用研究进展

关注|国际科学理事会（ISC）“科学出版的原则”

【AIH与肝功能衰竭】王有洁谢佩玉《肝脏》：不同预后的自身免疫性肝炎所致的肝功能衰竭临床特点以及肝组织学特征的比较

【氨甲环酸与肝硬化静脉曲张出血】孙梦雪唐敏杨长青《肝脏》：氨甲环酸在肝硬化静脉曲张出血中应用的研究进展

【人文】游苏宁《老游评书》：学术出版的业界翘楚，同频共振的人生挚友

【丙型肝炎消除方案】王昕饶慧瑛《肝脏》：根据每个国家的需求和实际情况制定丙型肝炎消除方案

【肝性脑病】邓文佳王磊王浩然赵鸽《肝脏》：肝性脑病危险因素分析及诊断模型的临床研究

对话医院CIO | 周国鹏：行走于临床和信息化的“结合部”

【探索】《知识分子》：人形机器⼈的奇点时刻，还有多久到来？

【晚期HCC免疫治疗疗效预测】朱继兰赵霞杨蕾《肝脏》：多参数磁共振成像联合CT动态增强对晚期肝细胞癌免疫治疗疗效的预测价值

【肝血管瘤与肝转移瘤鉴别诊断】李炜黄世坤任道昌唐艳《肝脏》：多层螺旋CT增强扫描诊断肝血管瘤的成像特点及其与肝转移瘤的鉴别

【博览】《元战略》：全球人工智能伦理——对200条人工智能治理准则和建议的综述

【药物性胆汁淤积型肝损伤】高硕玉张秦姚博悰《肝脏》：药物性胆汁淤积型肝损伤患者的临床表现、影像学特征以及转归

【非酒精性脂肪肝血清脂质组学研究】丁荣蓉周新兰陈良《肝脏》：非肥胖型与肥胖型非酒精性脂肪肝血清脂质组学研究

Nature | 计算蛋白质设计：AI如何重塑生物学的未来

【自噬与酒精性肝病】李澳忠万静之秦绪军《肝脏》：自噬在酒精性肝病中作用及机制研究进展

【肝窦内皮细胞与NASH】陈光文蔡晓波陆伦根《肝脏》：肝窦内皮细胞在非酒精性脂肪性肝炎中的作用

【人文】崔心刚《中华外科杂志编辑部》：初心不改，追求卓越

【非酒精性脂肪肝血清脂质组学研究】丁荣蓉周新兰陈良《肝脏》：非肥胖型与肥胖型非酒精性脂肪肝血清脂质组学研究

【肝硬化食管胃底静脉曲张无创预测】张嘉欣韩文白莆菥《肝脏》：肝硬化食管胃底静脉曲张无创预测的研究进展

【博览】杜鹏洪云等《科学与社会》：我国不同学科类型专业学会差异化研究

【探索】《医健趋势》：基因疗法——医学的未来还是伦理的挑战？

【血液净化与重症肝病】姚红宇周霞刘鸿凌《肝脏》：血液净化在重症肝病中的应用研究进展

【肠菌移植与肝病治疗】王永薇刘世恒张玉果《肝脏》：肠菌移植在肝病治疗中的研究进展

【博览】卢阳旭《科学与社会》：同行评议和量化评价的制度化及悖论——基于评价社会学的视角

【肝细胞腺瘤影像学】廖忠阳李杭陈泳松《肝脏》：不同分子亚型肝细胞腺瘤影像学表现

【博览】岳鑫鑫《科研写作研究所》：文献述评与理论贡献的两个联系和三个区别

【探索】《知识分子》：2024年诺贝尔经济学奖得主谈——美国创新对当下中国的启示

【肝硬化并发门静脉血栓诊断】邱原元张敏项伟艳《肝脏》：基于超声造影定量参数、超声血流参数构建肝硬化并发门静脉血栓的诊断模型

【DAA治疗失败的慢性丙型肝炎】崔蕊马杈李萍萍《肝脏》：直接抗病毒药物治疗失败的慢性丙型肝炎患者临床特点及基因型分析

【博览】世界医学会《中华医学会医学伦理学分会》：《赫尔辛基宣言》2024版正式发布

【慢乙肝低病毒血症治疗】金燚沈泳利李佟《肝脏》：核苷(酸)类似物经治的慢性乙型肝炎患者低病毒血症的研究进展

【NAFLD到MASLD命名】黄震霆徐小萍吴静《肝脏》：从非酒精性脂肪性肝病到代谢功能障碍相关脂肪性肝病的命名讨论

【博览】上海市卫健委联合市公安局、财政局等14部门《医策智库》：上海市2024年纠正医药购销领域和医疗服务中不正之风工作要点

【人文】朱维铭《中国实用外科杂志》：医者仁心，学术楷模——纪念黎介寿院士诞辰100周年

【数字化管理门静脉高压】闫玉凤袁敏傅青春《肝脏》：基于数字化管理门静脉高压多学科会诊及管理平台的构建及应用

【乙肝肝硬化结节超声造影】傅鹏唐亚丹杨立新《肝脏》：乙型肝炎肝硬化不同性质结节在超声造影灌注时相的增强表现特点

【探索】李宁《未来科技与组织行为》：76%复现成功率！AI能否取代人类成为实验‘主角’？

【早期肝癌治疗】靖长友朱桐李建军《肝脏》：经肝动脉化疗栓塞联合射频消融治疗早期肝癌的效果

【肝血管瘤与HCC鉴别】于健董文健彭仁聪《肝脏》：60例不典型肝血管瘤患者声速匹配技术及剪切波弹性成像表现及其与肝细胞癌鉴别

【探索】饶毅《饶议科学》：为什么中外科研课题如此不同？

【干细胞与肝细胞体外肝病模型】张雨心鄢和新《肝脏》：干细胞来源的肝细胞体外肝病模型相关进展

【肝巨噬细胞和血小板与肝纤维化】曾秋月奉镭王华敏《肝脏》：肝巨噬细胞和血小板在肝纤维化中的研究进展

【人文】游苏宁《老游评书》：期颐之年驾鹤去，德艺双馨誉杏林——追忆张志宏教授

【规范临床实践指南制定】于乐成陈成伟《肝脏》：规范临床实践指南制定，让患者得到最优同质化治疗

【肝肿瘤超声造影诊断】刘萍吴仁梅彭粤如《肝脏》：超声造影各期增强特点在肝内胆管细胞癌与肝细胞癌、肝血管瘤鉴别诊断中的价值

【博览】《吉大一院图书档案》：全球顶级三大期刊 & 四大医学顶刊总览！

柳叶刀 | 直接面向消费者的医疗检测：建立在恐惧之上的行业

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉