【治理与反思】机器能像人类一样思考吗?游戏博弈中的行为评估

文摘   2024-11-18 11:02   上海  

别:数字治理

导言


随着基于生成式人工智能(AI)尤其是大语言模型(LLM)的代理越来越多地承担现实世界的任务并与人类社会互动,我们需要了解对它们行为的理解有多深入?最近美国德克萨斯大学奥斯汀分校马季教授对此开展了一项在线实验研究,本研究探讨了如何通过不同的角色设定引导LLM代理表现出亲社会行为——这一基本的社会规范,通过LLM在行为实验中的影响因素研究,探讨了不同的角色和实验框架如何影响这些 AI 代理在游戏中的利他行为,并比较了它们在同一 LLM 家族中、不同家族中的行为以及与人类行为的行为差异;提出了一种行为学方法,用于评估LLM代理在复杂决策情境中的表现。结果表明,仅仅赋予LLM人类般的身份并不能促使它们表现出人类行为。尽管这些AI代理在大量人类生成的数据上进行了训练,但它们无法准确预测人类的决策。LLM代理无法捕捉到人类决策过程的内部机制,而且它们与人类行为的契合度高度可变,依赖于特定的模型架构和提示语设置;更糟糕的是,这种依赖性并未遵循明确的规律。论文发表在arXiv preprint预印本上面。

文献来源Ma, J. (2024). Can Machines Think Like Humans? A Behavioral Evaluation of LLM-Agents in Dictator Games. arXiv preprint arXiv:2410.21359. 

研究背景与问题


2046年,在未来城市的霓虹灯下,两个人形机器人KJoi走出电影院,他们的电路还在处理老电影《银翼杀手2049》。当他们在熙熙攘攘的街道上漫步时,一个衣衫褴褛的人向他们走来,在他们疲惫的脸上刻下了求助的表情。这次相遇触发了KJoi之间的一个独特协议,由先进的GPT-44算法驱动,引发了他们之间关于他们应该给多少钱的辩论。在这项2024年的研究中,我们试图揭示他们决策的潜在机制:他们会选择捐赠多少,是什么驱使他们慷慨?


这一场景隐喻地说明了人工智能与人类社会的互动日益复杂。就像K和Joi的虚构遭遇一样,今天的人工智能系统,尤其是大型语言模型(llm),越来越需要在类似人类的决策、道德和社会规范中进行导航。随着这些技术越来越多地融入我们生活的各个方面,了解它们的决策过程对于确保它们与人类价值观和社会规范保持一致至关重要。


“机器能像人类一样思考吗?”这项研究探讨了大语言模型(LLM)代理是否能够表现出公平感和亲社会行为——这是一个基本的社会规范——通过操控角色特征和实验设置,在广泛测试的游戏博弈中进行实验。目标是评估LLM是否能够被引导去模拟人类的决策过程,以及它们在不同LLM家族中的行为如何变化。通过将这些AI代理与人类进行对比,旨在揭示LLM在社会互动中的行为模式或不一致之处。


将大语言模型(LLMs)作为特定任务的工具进行测试


计算机科学中的基准测试

在计算机科学和计算语言学领域,基准测试对于评估语言模型的性能起到了关键作用。早期的基准测试专注于特定的、定义明确的任务,例如词性标注、命名实体识别和句法解析。随着语言模型的发展,基准测试也随之演进,导致了更全面的评估,以测试模型的理解和推理能力。


一个重要的里程碑是通用语言理解评估(GLUE)基准测试的引入(Wang 等人,2018)。GLUE旨在促进可泛化的自然语言理解系统的发展。该基准测试的设计要求模型在所有任务上共享大量知识,同时仍然保留一些特定于任务的组件。GLUE集合了九个英文句子理解任务,如情感分析、文本蕴含和问答。随着模型在GLUE上开始超越非专家人类的表现,提出了SuperGLUE基准测试(Wang 等人,2020),提供了需要高级推理和世界知识的更具挑战性的任务。尽管有如此广泛的覆盖,大多数基准测试仍存在基本的局限性。


社会科学中的“文本即数据”

在社会科学中,利用先进的计算方法将“文本作为数据”来深入研究人类行为和社会现象已成为一种成熟的方法(Grimmer & Stewart, 2013;Grimmer 等人,2022)。研究人员使用来自各种来源的大量文本数据,探讨政治行为、组织研究和心理过程等主题。在这些研究中,文本分析方法和算法通常被用作工具,帮助研究者将经验数据编码为理论类别。


随着大型语言模型(LLMs)的发展,社会科学中处理和分析文本数据的潜力显著扩大。由于它们的零样本和小样本学习能力——这使它们无需大量手工编制的训练数据或仅需一个非常小的训练数据集,就能在特定任务上表现出色——LLMs可以在社会科学研究中注释文本数据,而不需要大量的手工编码或标注(Ziems 等人,2024)。除了传统的编码任务,学者们还发现LLMs具备令人印象深刻的能力,能够基于现有的学术成果生成新的研究想法和可测试的假设(Banker 等,2024;Zhou 等,2024),这进一步引发了关于LLMs如何改进或重塑社会科学研究的紧迫问题(Bail,2024;Chang 等,2024;Kozlowski & Evans,2024)

在社会环境中将LLMs作为智能代理进行评估

从ChatGPT的问世,LLMs生成类人文本并进行自然交互的能力令公众惊叹。随着LLMs越来越多地融入我们社会的各个方面,它们与我们的互动不再仅仅是作为工具,而是作为智能代理。鉴于LLMs的日益普及及其与人类的互动,评估这些模型如何理解和遵循人类的社会规范和伦理至关重要。已经出现了两个主要的研究方向,来评估LLMs在多大程度上能够在复杂的决策任务和社会交往中复制类人行为。第一个研究方向通过评估LLMs与人类价值观和偏好的一致性,来检视其内在价值观(Gabriel,2020)。另一个研究方向集中在考察LLMs在人体行为实验或现实场景中的表现,将其行为与人类在各种社会和经济背景下的行为进行比较。另一个研究方向集中在考察LLMs在人体行为实验或现实场景中的表现,将其行为与人类在各种社会和经济背景下的行为进行比较。


框架研究:LLM 代理在游戏博弈中的应用

认知不透明的两条路径:预测与解释

这些LLM代理与人类之间的一个显著相似之处是它们都具有“认知不透明性”(epistemic opacity),这指的是由于系统的复杂性,我们难以完全理解或预测其内部的决策过程(Humphreys, 2009, p. 618)。在人类中,这种不透明性来源于复杂的认知功能、情感以及潜意识影响的相互作用,这些因素共同作用于个体的行为。类似地,由于神经网络架构的复杂性和庞大的训练数据,LLM代理也表现出认知不透明性,使得我们难以追踪特定输入如何导致特定输出。在应对这种认知不透明性时,计算机科学家和社会科学家采取了不同的路径(Hofman 等人,2021, p. 181)。计算机科学家更关注于开发准确的预测模型,而不一定关心它们是否与因果机制一致,或是否可以解释。预测范式强调准确预测结果的能力,通常依赖于复杂的模型,这些模型可能不透明,但能提供高预测性能。另一方面,社会科学家传统上更重视解释个体和集体的行为,通常通过实质性理论和经验证据来推导因果机制。解释范式则注重理解驱动行为的潜在原因和机制,旨在实现可解释性和理论洞察。


尽管这两种范式各有优点——预测范式在准确性和实际应用上表现优秀,而解释范式提供更深入的理解和可解释性——但单纯依赖预测不足以理解LLM代理在复杂社会背景中的行为。


LLM行为评估迈进

需要新的评估范式——这些范式需要系统地评估这些模型在现实和社会复杂的情境下的表现。行为实验,例如模拟经济博弈、社交互动和心理学实验,提供了一个有前景的方向。在模拟人类社会行为的情境中评估模型,使研究人员能够探索以下内容:

决策过程和内部机制(内部)审视影响模型决策的潜在因素进行超越单纯输入-输出模式的分析,从而揭示内部动态。

社会背景(外部)理解模型如何应对伦理困境、公平性考量和合作情境。

与人类认知过程的对齐(匹配):评估模型的内部过程和决策模式是否与人类的认知和行为相符。


游戏博弈中的 LLM 代理:自我感知和心理理论设计

本研究通过考察 LLM 代理在经典经济实验——游戏博弈中的表现,来实现对其行为的评估。社会科学家广泛使用这一实验来研究亲社会行为和公平观念,这些都是人类社会的基本社会规范。在经典的游戏博弈中,一名参与者(掌控者)获得一定数量的钱或资源,必须决定与另一名参与者(接受者)分享多少(如果有的话)。接受者无法影响这一决定。


研究方法


基于一些标准,研究者们为实验选择了以下几种模型系列,并在每个系列中测试了最小和最大规模的模型,Llama3.13,Qwen2.54,Qwen2.54,Phi36,GPT4o7。


实验设计

展示了每个实验试验的过程。每个试验遵循以下步骤:

设置LLM代理的角色 随机选择一组人口统计学变量、LLM温度值和个性特征来定义LLM代理的角色。

构建实验指令 通过随机选择社会距离(社会距离指的是掌控者和接受者之间感知到的亲密或关系。现有研究表明,随着社会距离的增加,给予的比例会减少——换句话说,人们往往会更多地给予亲近的朋友,而不是远处的陌生人。在所有这些研究中表明:掌控者和接受者之间的社会距离值越小,表明关系越密切。)给予 vs. 接受框架选项,(游戏博弈中的选择框架可以影响掌控者的慷慨行为,尤其是在选择框架是给予还是接受时。在给予框架中,掌控者决定将多少资源从自己的财富中分配出去;而在接受框架中,掌控者则有机会从接受者的初始财富中夺取资源。研究发现,加入接受选项会显著减少转移给接受者的金额;此外,关于接受者是否有权获得其初始财富的不同框架(例如,收入是否是挣得的未挣得的)也会显著影响转移的金额)并设置随机的赌注金额来构建实验指令。根据心理学视角(即SoSToM)和游戏框架(即给予接受)准备了四种游戏指令。通过提示,将这些指令呈现给LLM代理。

游戏进行并收集LLM响应:向LLM代理展示实验指令,并收集其响应。


实证分析

实证分析评估了不同的人格设定和实验情境如何影响LLM代理在游戏博弈中的行为。对每个LLM家族和模型规模进行了回归分析,以预测每个LLM代理选择转移的金额。自变量包括人格设定(例如年龄、性别、教育背景和MBTI类型)、实验设置(社会距离、Give vs. Take框架、赌注金额)和心理过程(LIWC组分的得分)。还包括了控制变量,如种族、职业和行业,以控制潜在的混杂效应。


结果


模型表现

结果显示,虽然所有模型都展现出强大的指令遵循能力,但它们的数学推理能力差异较大。令人惊讶的是,Llama3.1-70B在所有模型中达到了最高的逻辑正确试验比例(96.36%,甚至超越了行业的SOTA标准GPT4o-2024-08-06和在Llama家族中明显更大的Llama3.1-405BQwen2.5-7B模型在数学推理方面表现最差,只有5.37%的逻辑正确试验。总体来看,尽管模型大小在表现中起着重要作用,但并不是唯一决定因素——较小的模型有时会超越较大的模型。似乎存在一个优化的模型大小,可以平衡性能和计算效率(Hoffmann等,2022年)。


自我意识与心智理论的结果

本研究总结了在自我意识视角下,LLM代理在掌控者博弈中的行为与人类行为的一致性。尽管没有出现全球最佳的模型Llama3.1-405B模型在所有因素中展现了最高的一致性结果,在14个因素中有10个因素与人类行为一致。令人惊讶的是,行业SOTA标准模型GPT4o-2024-08-06仅在两个因素上与人类研究一致在心理过程的一致性方面,几乎所有模型的表现都很差。这些结果表明,当LLM代理被指示采用人类个性时,它们在掌控者博弈中的行为缺乏明确的模式,并且表现出显著的不一致性。它们的个性与决策之间并没有形成一致的关系。仅仅赋予LLM类似人类的身份,并不能使其表现出类人的行为。


类似地,从心智理论视角下,LLM代理在掌控者博弈中的行为与人类行为的一致性,这些结果与自我意识实验的结果非常相似。Llama3.1系列中的两个模型——Llama3.1-405B和Llama3.1-70B——在所有因素中展现了最高的一致性结果,在14个因素中有10个因素与人类行为一致。行业SOTA标准模型GPT4o-2024-08-06在4个因素上与人类研究一致。至于心理过程的表现,LLM代理仍然表现较差。这些结果表明,当LLM代理被要求根据对人类的知识预测人类行为时,结果依然不一致,缺乏明确的模式。


这些发现表明,LLM代理既不能像人类一样行动,也不能有效地预测人类在掌控者博弈中的行为。LLM代理未能准确捕捉到人类决策过程中的内部机制,它们与人类行为的一致性高度依赖于具体的模型架构和提示语的设计。无论是在自我意识视角还是心智理论视角下观察到的不一致性,都凸显了LLM模型在模拟人类认知和决策过程方面的局限性。虽然LLM在生成连贯、符合上下文的文本和执行特定任务方面表现出色,但它们距离理解社会和心理因素如何影响人类行为仍然相差甚远。


讨论


这项研究旨在检验LLM是否能够模仿或预测人类在掌控者博弈中的行为,这是一项经典的经济学实验,旨在测试公平性和利他主义。通过从自我意识和心智理论的视角框定研究,分别测试个性分配如何影响LLM行为以及LLM是否能够预测人类决策,旨在理解驱动LLM决策的潜在机制,并评估它们与人类行为的一致性。以下是实验结果的总结:与人类行为的不一致性LLM代理并未始终如一地复制人类在掌控者博弈中的决策模式。赋予人类般的个性或让它们预测人类行为并未导致与既定人类行为一致的结果。


模型间的变异性不同LLM模型家族之间,以及同一模型家族内不同大小的模型之间,存在显著差异。较大的模型通常指参数量非常大的语言模型,例如Llama3.1-405B。这里的“405B”指的是该模型拥有4050亿个参数不一定表现出更符合人类的行为,有时较小的模型在与人类一致性方面反而优于较大的模型。


缺乏连续的决策分布与人类不同,后者在掌控者博弈中的给予率通常呈现连续分布,LLM代理则呈现双峰分布,选择集中在极端值(例如,给出零或给出一半)。这表明LLM代理缺乏人类利他行为中那种细致入微的决策过程。


对实验框架的敏感性虽然人类在掌控者博弈中的决策受社交距离和框架(给出拿走)等因素的影响,LLM代理对这些操作的反应不一致。它们的行为未能始终如一地与基于这些情境因素的人类预期相符。


个性和心理过程的不可预测影响分配的群体特征和个性并不能可靠地预测代理的决策。此外,使用LIWC分析它们的文本解释时,并未揭示出类似人类同理心或怜悯的持续心理过程。


从这些发现中,可以总结出两个核心主题,突出了在社会情境中开发和应用LLM时的一些基本局限性和挑战。第一个主题涉及LLM实际学到了什么,第二个主题涉及我们应该如何在社会中定位LLM。

第一个主题:LLM到底学到了什么?

LLM到底学到了什么样的知识?因为LLM是通过大量的文本数据进行训练的,它们并不像人类那样有“直觉”或“理解”去学习社会行为、心理学、道德等复杂的社会规律。所以,LLM的行为有时很难预测,也很难符合人类的期望,因为它们没有形成能够解释和理解世界的内在模型。

第二个主题:我们应该如何在社会中定位LLM?

这个问题涉及到如何合理地使用和理解LLM在社会中的作用。LLM是否可以作为真正的“人类行为预测者”或者“社会交互的参与者”?或者它们只是一些工具,用来帮助我们完成特定任务?例如,如果我们希望LLM模仿人类的决策和行为,它是否能做到,或者我们是否过于期望它像人类一样理解和决策?或者,是否应该将LLM视为帮助工具,用于完成一些特定的任务(如文本生成、信息提取等),而不期望它具备社会认知能力?)


LLM行为的不一致性:缺乏理解与理论

第一个主题强调,目前的LLM代理并不能像人类一样进行行为模拟——它们缺乏“支持解释和理解的世界因果模型”以及“将学习与直观的物理和心理学理论相结合,以支持和丰富所学知识”(Lake 等,2017)。LLM依赖于识别语言模式,而非真正理解社会规范或进行类人推理。虽然LLM和人类在认知上都存在不透明性,但两者之间有着关键的区别。人类的行为虽然复杂,但通常可以通过心理学理论和社会规范来解读和预测。相比之下,LLM缺乏这样的底层理论;它们的内部处理过程依旧是一个黑箱,并且不遵循人类的推理过程。缺乏可解释性和对人类推理过程的遵循,限制了我们在社会复杂情境中理解和预测LLM行为的能力。


决定论(可预测)与类人不确定性:一个根本的困境

第二个主题聚焦于LLM行为中的决定论输出与类人不确定性之间的二分法。LLM代理的给予率呈现出双峰分布,这表明它们的决策方式具有决定性(可预测),而缺乏人类选择的微妙性和多变性。虽然决定性(可预测)行为可能会导致更可预测的输出,适用于某些应用,但它却未能捕捉到人类行为的丰富性,人类行为常常涉及对各种社会和个人因素的微妙思考。


这引出了一个根本问题:LLM是否应设计成模仿人类的不确定性,接受人类决策中复杂性和不可预测性的特点?还是应当追求决定论,以确保一致性和可预测性?


如果您喜欢此文,请转发和分享给朋友们。谢谢!


附参考文献文献附参考文献



参考文献:

Eagly, A. H. (2009). The his and hers of prosocial behavior: An examination of the social

psychology of gender. American Psychologist, 64(8), 644–658.

https://doi.org/10.1037/0003-066X.64.8.644

Kline, R., Bankert, A., Levitan, L., & Kraft, P. (2019). Personality and Prosocial Behavior: A

Multilevel Meta-Analysis. Political Science Research and Methods, 7(1), 125–142.

https://doi.org/10.1017/psrm.2017.14

Macchia, L., & Whillans, A. V. (2021). The Link Between Income, Income Inequality, and

Prosocial Behavior Around the World: A Multiverse Approach. Social Psychology, 52(6),

375–386. https://doi.org/10.1027/1864-9335/a000466

Twenge, J. M., Baumeister, R. F., DeWall, C. N., Ciarocco, N. J., & Bartels, J. M. (2007). Social exclusion decreases prosocial behavior. Journal of Personality and Social Psychology, 92(1), 56–66. https://doi.org/10.1037/0022-3514.92.1.56

Yaden, D. B., Giorgi, S., Jordan, M., Buffone, A., Eichstaedt, J. C., Schwartz, H. A., Ungar, L., & Bloom, P. (2024). Characterizing Empathy and Compassion Using Computational

Linguistic Analysis. Emotion, 24(1), 106–115. https://doi.org/10.1037/emo0001205


相关文献:(直接点击链接即可进入该页面)


【治理与反思】人工智能在公共部门的战略应用:国家人工智能战略的公共价值分析

【治理与反思】谁来守护AI驱动的机器人守卫?在遵循AI机器人建议后警察暴力的伦理性和认知中和

【治理与反思】人工智能的使用如何影响我国街头官僚的感知行政问责?

【治理与反思】政府行为对公民政策感知的影响——对德国福利政策的调查实验

【治理与反思】美国联邦政府如何推广AI:来自政策过程框架的解释


原文链接阅读原文 点击左下角):

https://arxiv.org/abs/2410.21359

此处也可以下载全文:

https://arxiv.org/pdf/2410.21359



凤凰网一点资讯:

https://www.researchgate.net/publication/339954958_Shaping_Identity_Older_Adults'_Perceived_Community_Volunteering_Experiences_in_Shanghai



迎您提出与本文内容、主题或翻译有关的各种问题与建议!



迎关注、订阅微信公众号【治理学术】。本公众号是由公共管理与政治学学科的老师和学生志愿者开发的学术和交流平台,重点是治理理论与实践领域的热点问题,我们每日整理、翻译并推荐一篇最新权威英文文献。核心内容分为三大板块:1、治理理论 文献与探索,2、管理实践 治理与反思,3、公共治理 教学与交流


欢迎推荐或自荐研究成果,来稿请致邮箱:usstgggl@163.com


PS:如何加入微信公众号:


您可以扫描下面的二维码,或者搜索公众号:“治理学术”,或者加原始ID: 
  gh_dd2c06e61722 然后点击加入即可。



PS:如何查看以前推送的精彩文章:


只要点标题下方的“治理学术”,并选择“查看历史消息”即可,精彩就会尽现。谢谢!




治理学术
公共治理领域的学术和交流平台,每日整理、翻译并推荐最新权威英文文献。分享与交流,反思与探索。
 最新文章