2024年初,中山大学秦昕教授与合作者的最新研究探讨了运用人工智能(AI)来模拟真实人类被试参与社会科学研究的有效性。该研究运用ChatGPT模拟人类被试复现了22个发表在顶级心理学期刊上的最新研究(2023年1月后发表的研究),复现准确率高达93.2%;进一步,通过ChatGPT模拟来完成数据收集的综合成本(时间和费用)与在线众包平台(如MTurk等)相比,实现了超过40,000倍的跨越式提升(时间降低约1440倍,费用降低约30倍)。该研究揭示了运用AI扮演人类被试赋能社会科学研究的显著优势和应用价值。这项研究的作者包括中山大学秦昕教授(第一作者)、对外经济贸易大学黄鸣鹏教授和明尼苏达大学Jie Ding教授(通讯作者)。
AITurk(www.aiturk.cc),意为基于AI的“MTurk”(AI-based MTurk),是一个基于上述研究成果所建立的研究平台,用以赋能研究者运用AI来扮演人类被试开展社会科学研究和教学。
研究/平台要点
准确率高:AI模拟人类被试复现现有研究结果的准确率高达93.2%,显著高于现有相关研究(约50%-75%),彰显了该研究算法的优势;
检验严格:首个使用ChatGPT复现未包含在其训练数据库中的社会科学研究结果的研究,即仅复现2023年1月后发表的研究(相应ChatGPT训练数据库是截止到2021年9月);这种方法更严格地证明了AI在模拟人类被试反应方面的有效性,大大提升了该研究发现的可信度;
超高速度:仅需1分钟即可完成在线众包平台1天才能完成的数据收集,时间降低约1440倍;
超低成本:仅需1美元即可完成在线众包平台30美元才能完成的数据收集,费用降低约30倍;
小样本高效能:采用每组仅30个被试的小样本(而原研究平均每组约90个被试)复现现有研究结果,复现准确率同样高达93.2%,研究的时间和费用效率进一步提升约3倍;
适用性广泛:AITurk支持实验、问卷调查和访谈等多种研究类型,几乎涵盖了MTurk、Prolific等在线众包平台支持的所有研究类型。
应用方向
开展预研究(pilot study):快速和低成本地探索、检验新假设;通过多轮测试迭代、优化研究设计;
开展特殊群体研究:可以完全自定义人群(不同于在线众包平台有限的人群选择),快速和低成本地模拟难以招募的少数群体被试(通过在线众包平台时间和费用将大幅增加);类似地,还可模拟不同文化背景的人类被试,便捷开展跨文化研究;
检验现有研究可重复性:快速和低成本地评估现有研究(包括研究者自己正在开展的研究)的可重复性;同时,帮助研究者使用小幅度修改的研究材料快速重复研究,以分析这些小修改是否影响研究结果,从而更快地得出稳健的科学结论;
作为新范式,开展正式研究并汇报:研究者可以在论文中包含一个使用AITurk生成数据的子研究,同时清楚地说明这些数据的来源和材料,并提供可以直接查看研究材料的AITurk链接,方便读者通过AITurk使用完全一样的材料复现该研究。如果AITurk生成的数据也能独立支持假设(即与人类被试结果交叉验证),这将极大增强研究发现的可信度和透明度;
辅助研究方法教学:提供研究方法训练的模拟环境,为学生演示研究设计过程,现场复现并展示研究结果。
人工智能(AI),尤其是大语言模型(Large Language Models, LLMs),正广泛应用于科学研究。然而,目前还少有研究探讨AI在推动社会科学研究方面的潜力。这项研究探讨了AI(该研究中具体为“ChatGPT 4.0”,以下简称“ChatGPT”)能够在多大程度上有效地模拟在线众包平台(如Amazon Mechanical Turk [MTurk],Prolific和CloudResearch等)上的真实人类被试的反应。ChatGPT是基于多元的数据集训练而成的大语言模型,其数据集包含了具有不同人口统计学特征和背景的个体之间的对话和互动,这使得它有可能捕捉到广泛的人类心理和行为模式,因而可以模拟出与人类心理和行为反应非常相似的反应。进一步,ChatGPT的设计旨在以与人类非常相似的方式进行回应,它能够理解并根据给定的上下文(即提示)生成反应,就像人类一样。这种对情景的理解进一步增强了它在不同情况下根据特定提示模拟人类心理和行为反应的能力。因此,该研究认为,在社会科学研究的实验、问卷调查和访谈中,ChatGPT有可能比较准确地模拟人类被试的心理和行为反应,从而成为社会科学研究的有效工具。
在社会科学研究中,相比于传统的线下研究,在线众包平台(如MTurk等)可以帮助研究者减少开展研究的时间和费用。尽管如此,通过这些平台进行实验、调查或访谈仍然耗时且昂贵。例如,根据在线众包平台的相关文献,开展一个典型的5分钟在线实验,涉及300名参与者,在MTurk上需要约12小时,费用为约180美元(300人 * 0.50美元/人 * [1 + 0.2 {服务费率} ])。该研究提出,ChatGPT可以有效模拟复杂的人类心理和行为反应。因此,利用ChatGPT模拟人类被试反应的能力,就可以建立一个基于AI的“MTurk”( AI-based MTurk,以下简称“AITurk”),从而大大减少开展研究的时间和费用。比如,开展一个与上述相同的实验,使用AITurk时,所需时间约为0.5分钟,费用约为6美元。这意味着时间效率提高了约1440倍,费用效率提高了约30倍(见表1)。特别是在研究者测试初步研究想法或设计的可行性时,他们通常会进行多轮预研究(pilot study);在这些情况下,AITurk的时间和费用优势尤为显著。同样重要的是,鉴于可重复性是科学的关键特征,AITurk也可以作为评估现有研究可重复性的有效工具,助力提升科学研究的可复现性。
注释:
a MTurk费用:按6美元/小时+20%服务费估算。
b 当研究被试为少数群体(如LGBTQIA+,美国印第安人或阿拉斯加原住民)时,由于在线众包平台上用户多样性的缺乏,通过其招募这类被试的时间和费用将大幅增加。相比之下,通过AITurk模拟这类被试,时间和费用几乎保持不变。
c AITurk完成研究的预计时间和费用是基于ChatGPT的当前速度和价格计算的,因此,其完成研究的实际时间和费用会随着ChatGPT的速度和价格的变化而变化。
研究方法
为检验ChatGPT模拟在线众包平台上的人类被试反应的准确性,该研究使用ChatGPT 4.0模拟人类被试,复现了22个发表在顶级心理学期刊上的研究。具体来说,该研究按照四个条件来选择要复现的研究:1)发表在顶级心理学期刊(即Journal of Personality and Social Psychology [JPSP] 和Journal of Applied Psychology [JAP])上;2)发表于2023年1月至2023年6月期间(相应ChatGPT训练数据库是截止到2021年9月);3)使用在线众包平台招募被试开展实验;4)提供了相关文本材料可供复现实验。此外,该研究聚焦于复现这些研究中的主效应,而非调节效应或中介效应。根据这些严格标准,该研究纳入了14篇论文中的22项研究,其中包含36个主效应假设。在复现这些研究时,该研究首先通过编程调用ChatGPT的应用程序编程接口(Application Programming Interface, API),进而调用ChatGPT生成符合特定人口统计学特征的ChatGPT被试,然后让ChatGPT被试参与和完成这些研究中的实验。
该研究为每个要复现的研究生成了两个数据集。在第一个数据集中,ChatGPT被试的数量与原始研究的样本量一致,而且ChatGPT样本的人口统计学特征也与原始研究保持一致。第二个数据集则使用更小的样本量,即每个实验组仅30个ChatGPT被试(一个保守的样本量;Cohen, 1988);其中,ChatGPT样本的人口统计学特征被设定为默认值。具体来说,被试所在国家设定为美国,男女比例设定为各50%,年龄的平均值和标准差根据22个选定研究中报告的年龄平均值和标准差平均值设定,教育水平和种族构成根据2023年美国事实年度报告(USAFacts, 2023)中披露的数值设定。
研究结果
该研究对AITurk模拟生成的数据集进行了统计分析。结果显示,这两个数据集得到了一致的复现结果。具体而言,在研究层面,AITurk生成的两个数据集的分析结果都成功复现了22个研究中的20.5个,复现率达到93.2%(20.5/22);在假设层面,AITurk生成的两个数据集的分析结果都成功复现了36个假设中的33个,复现率为91.7%(33/36)。如果通过在线众包平台(如MTurk等)开展这22项研究,研究者可能要花费约11天(0.5*22)和约3960美元(180*22);而使用AITurk则仅需要约11分钟(0.5*22)和约132美元(6*22)。也就是说,AITurk模拟在线众包平台上人类被试反应的准确率达到93.2%,而所需时间约为在线众包平台的1/1440,所需费用约为在线众包平台的1/30。如果采用小样本检验(即每个组仅30个被试),研究所需的时间和费用还可进一步降低(约为1/3)。
讨论
这项研究对AI和社会科学研究有重要的理论贡献。第一,这项研究扩展了我们对AI,特别是大语言模型(如ChatGPT等)在模拟人类反应方面的能力的理解。尽管先前的研究证实了AI在理解和分析人类反应方面的有效性(Elyoseph et al., 2023; Kocoń et al., 2023; Wilkerson & Casas, 2017),但很少有研究系统地探讨和检验AI在模拟人类反应方面的能力。这项研究通过使用ChatGPT复现现有社会科学研究并检验其模拟人类被试反应的准确性,弥补了这一不足。与这项研究最相关的是Horton(2023)的研究,它使用大语言模型模拟人类生成的数据复现了3个行为经济学实验(来自Charness & Rabin [2002], Kahneman et al. [1986], & Samuelson & Zeckhauser [1988]),进而指出了大语言模型在社会科学研究中的价值。然而,它使用ChatGPT来复现的是经典的行为经济学实验,而这些实验的结论已经包含在ChatGPT的训练数据库中。与此不同,这项研究是首个使用ChatGPT复现未包含在其训练数据库中的社会科学研究结果的研究,即仅复现2023年1月后发表的研究(相应ChatGPT训练数据库是截止到2021年9月);这种方法更严格地证明了AI在模拟人类被试反应方面的有效性。这一区别大大提升了该研究发现的可信度,并为运用AI模拟人类被试反应奠定了更坚实的基础。
第二,这项研究挑战和扩展了对人类行为独特复杂性的传统理解,对社会科学理论的发展具有重要意义。具体来说,人类行为一直被认为是极其复杂、难以被计算机准确模拟的。该研究在一定程度上挑战了这一普遍认知,揭示了AI在模拟人类行为复杂性方面的潜力。这也展示了AI在社会科学研究中的应用价值,并启发我们更深入地思考如何运用AI增强甚至改变社会科学研究的方法和理论。
这项研究对开展研究和教学也具有重要的现实意义。第一,AITurk为开展预研究提供了一种快速、低成本的途径。通过AITurk,研究者可以快速和低成本地开展预研究,探索、检验新假设。同时,研究者还可以使用AITurk进行多轮测试,在短时间内快速尝试和优化不同研究设计。通过AITurk开展预研究后,再通过人类被试开展后续研究,这种多层次研究体系可以显著提高研究早期阶段的效率,并大幅降低研究费用。
第二,AITurk可以作为评估现有研究可重复性的有效工具。社会科学重视研究的可重复性,然而,复现已有研究需要大量的人力、财力和其他资源,且原始研究和复现研究之间在样本特征等方面存在的背景差异可能成为“隐藏的调节变量”,导致复现失败。AITurk不仅可以促进对现有研究(包括研究者自己正在开展的研究)的快速、低成本复现,而且还能够通过大语言模型将背景因素纳入考量。同时,AITurk还可以帮助研究者使用小幅度修改的研究材料快速重复研究,以分析这些小修改是否影响研究结果,从而更快地得出稳健的科学结论。
进一步,AITurk甚至可能重塑社会科学研究中的某些范式。例如,研究者可以在论文中包含一个使用AITurk生成数据的子研究,同时清楚地说明这些数据的来源和材料并提供可以直接查看研究材料的AITurk链接,方便读者通过AITurk使用完全一样的材料复现该研究。如果AITurk生成的数据也能独立支持假设(即与人类被试结果交叉验证),这将极大增强研究发现的可信度和透明度。同时,这类数据和相应材料的可获得性将使其他研究者能够很方便地开展复现研究,评估原始研究发现的稳健性。这种做法将有助于提升公众对社会科学研究的信心。
第三,AITurk可以提供研究方法训练的模拟环境,作为研究方法教学的重要工具。例如,教师可以用AITurk便捷地向学生演示研究设计过程,还可以即时生成研究数据、现场复现并展示研究结果。学生也可以使用AITurk便捷地尝试不同的研究设计,进而助力相关研究能力的训练。
论文全文详见(或直接点击“阅读原文”):
https://osf.io/preprints/psyarxiv/xkd23