北大孟涓涓教授在PNAS发表评论：大语言模型如何模仿人类行为特征

学术 2024-11-13 09:59 北京

北京大学孟涓涓教授于2024年2月在《美国国家科学院院刊》(Proceedings of the National Academy of Sciences, 简称PNAS)上发表关于人工智能与行为科学的评论“AI emerges as the frontier in behavioral science”。

Title: AI emerges as the frontier in behavioral science

人工智能成为行为科学的前沿

孟涓涓

·北京大学光华管理学院

·应用经济系系主任

·国际期刊MS副主编

孟涓涓，现任北京大学光华管理学院应用经济系系主任、教授，光华行为科学和政策干预交叉创新团队召集人之一。目前任国际期刊Management Science副主编。2022年获国家自然科学基金国家杰出青年科学基金项目资助，2019年获国家自然科学基金优秀青年科学基金项目资助。孟涓涓长期专注于行为经济学与行为金融学的研究。

孟涓涓教授关于AI的采访

随着GPT等大语言模型与人类关系越来越密切，AI也表现出与人类更相似的行为甚至个性。如何更好地理解AI行为，从而更好地与之相处？

近日，受《美国科学院院刊》（PNAS）邀请，北京大学光华管理学院孟涓涓教授对探索ChatGPT与人类行为相似性的研究（Mei et al. 2024）展开评论。

孟涓涓表示，AI行为科学成为新前沿，有助于辅助人类决策和设计去偏见机制。随着大语言模型展现出更广泛的人类行为特征，它们不仅能在决策中模仿人类行为，还能在实验中替代人类参与者，为政策评估和调整提供经济有效的手段。当然，它们也会对人类心智和社会关系产生不确定的影响。

当前，随着大语言模型（LLM）特别是生成式预训练转换器（GPT）驱动的应用程序广泛传播，AI越来越多地表现出人类特性，比如AI模型对风险、时间和社交互动产生了明确偏好，甚至会产生独特的个性和看似情绪化的反应，这些现象引发了学术界的好奇心，一些近期的研究探索了ChatGPT的理性程度（Chen et al. 2023）和认知能力（Binz et al. 2023）。

Mei et al. (2024)将经济学和心理学的经典行为评估方法应用于探索ChatGPT-3和ChatGPT-4等AI聊天机器人的行为特征。该研究使用了一个特征数据库，囊括了来自50多个国家108314个人类主题的综合行为，实现了人类和AI决策之间的比较。

孟涓涓表示，这些研究标志着一个新的研究方向的出现，可以称之为“AI行为科学”，即利用人类行为科学的方法来评估和设计AI的行为。采用行为科学方法研究AI时，应该保持以人为中心的视角。

研究AI行为有何意义？

谈及研究AI行为的意义，孟涓涓列举了以下三个方面：

首先，理解AI尤其是大语言模型的行为，可以更好地辅助人类决策。在大语言模型出现之前，一个常见的现象是“算法厌恶”：例如人们不愿接受算法作为劳动者，或排斥在消费时与AI聊天机器人互动，这种倾向源于人类的过度自信、对AI能力的怀疑或对与算法互动的本能抵触。这对发挥AI潜力帮助人类决策构成了挑战。然而，随着AI在大语言模型出现后开始更接近地模仿人类行为，算法厌恶的倾向可能已经开始减弱。为了让人们能够有信心将他们的选择交给大语言模型，这些模型需要在关键决策中表现出与人相似的行为。因此，让大语言模型的偏好与基本的人类行为特征一致是至关重要的。

其次，行为经济学已经证明，人们经常表现出行为偏误，设计助推或选择架构机制来纠正这些行为偏误是行为科学和政策设计中的一个开创性主题。利用大语言模型消除偏误是技术进步带来的新可能性，或比现有的方法更系统化。人们不需要一步一步地被推着做出决策，只需要一次性把决策委托给大语言模型，就能做出更系统、更好的选择。事实上，目前的证据表明，ChatGPT在选择一致性方面表现出比人类更高的理性水平，这也成为一个值得探索的新方向。

此外，大语言模型可以在实验中替代人类参与者，扮演不同背景的个体进行政策实验或模拟。这使得政策的评估和调整更加经济有效。随着大语言模型表现出更广泛的人类行为特征，也可以设计出基于异质反应的个性化政策。

如何应用行为科学方法研究AI？

“采用行为科学方法来研究人工智能时应该建立一个全面的行为评估框架，其中需要包含适用于重要决策环境的行为特征维度。”孟涓涓说，“例如，如果目标是让大语言模型协助资产配置决策，那么识别影响此类背景的行为特征就至关重要。”

孟涓涓介绍，Mei et al. (2024)主要采用了一个经济学的框架，将重要的决策背景分为两种类型：个人决策和人际决策。

从经济学的角度来看，个人决策通常分为四种情境：直接消费选择（例如选择苹果还是香蕉）、在不确定性下的选择、跨期选择和概率判断（包括信念更新和学习）。这几类情境支撑了人们经常做出的大多数决策。对于每种情境，经济学家都会识别出驱动这些决策的基本行为特征。例如，不确定性下的选择在很大程度上受到风险偏好和损失厌恶的影响。对于跨期选择，一个人的耐心水平起着重要的作用，冲动的决策或拖延也经常影响这些选择。对于概率判断，根据信息形成准确的信念是至关重要的。这一过程中的常见偏误包括信息回避、先入为主和过度自信。

在这一方向上，Mei et al. (2024)采用了一种扫雷游戏来测量风险偏好，他们的图灵测试比较了GPT和人类的决策，结果显示66.0%（ChatGPT-4）和61.7%（ChatGPT-3）的情况下，GPT的选择看起来与人类相似。然而，与人类规避风险的倾向不同，GPT主要表现出风险中立性。有趣的是，ChatGPT-3似乎能够从过去的损失中学习，变得更加谨慎，而ChatGPT-4则不然。这种变化是否来自对未来风险水平判断的改变，或来自某种形式的路径依赖偏好，仍有待进一步研究。

人际决策涉及到如利他主义、信任、互惠、社会从众和战略考量等社交偏好。孟涓涓进一步介绍，Mei et al. (2024)在研究人机决策时通过几个游戏（包括独裁者游戏、最后通牒游戏、信任游戏、公共物品游戏和有限重复囚徒困境游戏等），来研究GPT是否表现出如利他主义、不平等厌恶、信任和互惠等偏好。一个值得注意的发现是，GPT在这些游戏中一致地表现出比人类更高的慷慨程度，表现出更强的利他主义和合作倾向。然而，ChatGPT-4的慷慨并非是无条件的，它确实展现出了一定程度的策略思考，在有限重复的囚徒困境游戏中使用了以牙还牙的策略。

孟涓涓表示，采用行为科学方法研究人工智能涉及两项任务：

第一项是基于特定框架的AI行为评估。这类框架使用包含数值偏好参数的数值模型，在统一结构中捕捉行为特征。这项任务中一个重要的探索方向是结构估计方法，即以建模的方式揭示潜在偏好参数。Mei et al. (2024)以估计一个人与另一个人收益之间的权重函数为例来证明这种方法，他们发现AI通常给予他人的权重大约是0.5，这比人类通常的做法要多。对此，孟涓涓认为，这个估计值有助于预测AI在不同场景（如团队合作或企业社会责任等涉及利他主义的场景）中的行为。这种跨情境预测的能力来自于在结构模型中估计基本行为参数，使AI能够在各种情况下辅助人类做出决策。

第二个任务是设计AI行为。Mei et al. (2024)自然地引出了一些问题，例如为什么ChatGPT 4.0表现出比人类更慷慨的行为，以及为什么它似乎与ChatGPT 3.0有所不同。鉴于当前训练过程的不透明性，为这些问题提供明确的答案是具有挑战性的。因此，孟涓涓表示，未来一个有趣的研究方向有可能是：探索如何训练大语言模型以表现出特定的行为特征。将捕捉基本行为参数的结构引入到训练过程中或许是方法之一。设计AI行为的其他可能途径包括调整奖励函数，在训练过程中引入明确的规则或约束，或者对表现出所需行为的数据进行模型训练。找到设计人工智能行为的最有效方法是一项复杂的挑战，需要计算机科学家和行为科学家紧密合作。

AI发展会对人类心智和社会关系产生何种影响？

孟涓涓表示，采用行为科学方法来研究人工智能，有助于使人工智能更快更自然地融入人类社会。然而，人工智能的发展也可能会影响人类行为和社会文化。

首先，算法偏见是一个主要问题，因为它会影响人类的决策。当算法受到利润最大化的商业动机的驱动，从而强化人类已存在的偏见时，就会出现更复杂的问题。例如，社交媒体上的个性化推荐系统可能会加剧人们对证实其现有信念的信息的偏见，导致极端化。Levy (2021)发现，这些系统对Facebook回声室效应的贡献率为40%，而个人订阅的贡献率则为27%。

其次，过度依赖诸如GPT之类的人工智能，可能会导致人类在多个方面出现认知退化。由于AI能够迅速提供解决方案，人们的探索欲、创造性和独立思考能力可能会下降。更重要的是，由于人工智能提供的观点往往比较集中，人们的行为特征可能变得更加同质化。Mei et al. (2024)发现GPT的行为明显比人类的反应更同质化，ChatGPT-4的决策比ChatGPT-3更集中。这种多样性的缺乏可能在进化角度对人类不利，可能会降低人类应对风险的能力。

尽管存在潜在缺点，但AI也可以对人类行为产生积极影响，例如增强人们的平等观念。研究显示，ChatGPT-4普遍表现出比人类更多的利他行为。更广泛地说，大语言模型可以在劳动力市场上显著缩小“外行”和“专家”之间的表现差距，使机会更加平等；在消费市场上，随着AI产品变得更加实惠，它们可能有助于构建更加平等的社会。例如，大语言模型驱动的个性化教育可以使农村地区的学生接触到以前只有城市孩子才能接触到的一流教育资源，也许会培养出更加平等的世界观。

参考文献：

1. Q. Mei, Y. Xie, W. Yuan, M. O. Jackson, A Turing test of whether AI chatbots are behaviorally similar to humans. Proc. Natl. Acad. Sci. U.S.A. 121, e2313925121 (2024).

2. Y. Chen, T. X. Liu, Y. Shan, S. Zhong, The emergence of economic rationality of GPT. Proc. Natl. Acad. Sci. U.S.A. 120, e2316205120 (2023).

3. M. Binz, E. Schulz, Using cognitive psychology to understand GPT-3.

Proc. Natl. Acad. Sci. U.S.A. 120, e2218523120 (2023).

4. J. W. Burton, M.-K. Stein, T. B. Jensen, A systematic review of algorithm aversion in augmented decision making. J. Behav. Decis. Mak. 33, 220–239 (2020).

5. K. Kawaguchi, When will workers follow an algorithm? A field experiment with a retail business. Manage. Sci. 67, 1670–1695 (2021).

6. X. Luo, S. Tong, Z. Fang, Z. Qu, Frontiers: Machines vs. humans: The impact of artificial intelligence chatbot disclosure on customer purchases. Mark. Sci. 38, 937–947 (2019).

7. Y. Zhang, R. Gosline, Human favoritism, not AI aversion: People’s perceptions (and bias) toward generative AI, human experts, and human–GAI collaboration in persuasive content generation. Judgm. Decis. Mak. 18, e41 (2023).

8. M. Karataş, K. M. Cutright, Thinking about God increases acceptance of artificial intelligence in decision-making. Proc. Natl. Acad. Sci. U.S.A. 120, e2218961120 (2023).

9. S. Benartzi et al., Should governments invest more in nudging? Psychol. Sci. 28, 1041–1055 (2017).

10. S. DellaVigna, E. Linos, RCTs to scale: Comprehensive evidence from two nudge units. Econometrica 90, 81–116 (2022).

11. S. Mertens, M. Herberz, U. J. J. Hahnel, T. Brosch, The effectiveness of nudging: A meta-analysis of choice architecture interventions across behavioral domains.

Proc. Natl. Acad. Sci. U.S.A. 119, e2107346118 (2022).

12. J. J. Horton, Large language models as simulated economic agents: What can we learn from homo silicus? National Bureau of Economic Research working paper. https://www.nber.org/papers/w31122. Accessed 11 February 2024.

13. L. Brinkmann et al., Machine culture. Nat. Hum. Behav. 7, 1855–1868 (2023).

14. B. Cowgill et al., “Biased programmers? Or biased data? A field experiment in operationalizing AI ethics” in Proceedings of the 21st ACM Conference on Economics and Computation, P. Biró, J. Hartline, Eds. (ACM,

2020, New York), pp. 679–681.

15. J. Chen et al., Bias and debias in recommender system: A survey and future directions. ACM Trans. Inf. Syst. 41, 1–39 (2023).

16. R. Levy, Social media, news consumption, and polarization: Evidence from a field experiment. Am. Econ. Rev. 111, 831–870 (2021).

17. E. Brynjolfsson, D. Li, L. Raymond, Generative AI at work. National Bureau of Economic Research working paper. https://www.nber.org/papers/w31161. Accessed 11 February 2024.

（参考文献可上下滑动查看）

来源：北大光华高层管理教育

为了我们不走散，学说请你加星标

疯狂暗示↓↓↓↓↓↓↓↓↓↓↓

http://mp.weixin.qq.com/s?__biz=Mzg3NzU5OTcyNg==&mid=2247621932&idx=3&sn=7f6efc12078c4b2dcc25762dfe79f9f5

学说平台

“学说”平台（www.51xueshuo.com）是清华大学孵化的专业知识传播平台，平台利用学术大数据和人工智能技术，通过学术直播、音视频分享和个性化推送，推动经济金融领域的学术交流和普惠，促进中国科技创新传播与最佳商业实践分享。

中科大张鑫、程丽红、余玉刚，合作论文在信息系统顶刊ISR上发表！

港科大梁健熙教授在会计学顶刊TAR上发表：信用评级是否反映了关于SEC调查的私人信息

预告 | 清华大学科技创新中心与科研城市论坛

比特币价格创历史新高，如何看待挖矿？回顾区块链经济学被引最高的RFS经典论文

预告 | 国际公共部门会计准则理事会(IPSASB)动态与可持续报告准则最新进展——会计准则公益大讲堂第四期

解锁AI+金融 | QS排名全球第八新加坡国立大学人工智能与金融项目

不知道稳健性检验怎么做？来看看这篇顶刊8种稳健性检验

诺奖得主托马斯·萨金特等顶级学者阵容，人工智能经济学研讨会即将举办！

上财靳庆鲁教授和马慧教授等，合作论文在管理顶刊MS上发表！

NBER最新中国故事：特朗普关税引起的中美贸易战，加速了越南北部城市经济增长

突破！广西大学青年教授发表运筹顶刊《Operations Research》！

连平：特朗普重新执政对中国经济影响几何？

报名即将截止 | “机器学习在经济金融领域的应用”研讨会

上海交大姚韬教授在顶刊MS上发表：多臂老虎机算法用于高维数据决策

NBER中国故事：以明朝覆灭为例研究精英家族策略

预告 | 中国会计学会管理会计专业委员会2024年学术年会

CEO与分析师同名会导致信息偏袒？港中深黄侃元教授PNAS论文

浙大陈帅、港中深张鹏等在AEA P&P发表中国故事：空气污染与心理健康

什么是高质量的学术人才评审？——基于2352名评审专家的调查报告

预告 | 2024中国工业经济学会数字化与创新学科专委会年会暨第十届大数据产学研论坛——人工智能与经济高质量发展

预告 | 2024科学与技术预测前沿学术论坛

港中深陈睿、西南交大陈若然、南科大王宇、港科大王譞合作发MS！

央财彭章、北大施新政教授，合作发表FM：犯罪对企业就业的有害影响

暨大&福大老师在FM发表中国故事：2015股灾之后，国家队股权对公司业绩有何影响？

预告 | 2023-2024年度数字经济开放研究平台年度峰会

北大孟涓涓教授在PNAS发表评论：大语言模型如何模仿人类行为特征

港大助理教授发表顶刊MS：存在双重道德风险时的动态合同设计

独生子女婚配成为中国贫富差距扩大主因

华中科技教授在FM发表中国故事：中美贸易战对中国企业创新的影响

NBER中国故事：利用机器学习大规模挖掘中国历史资料

中国故事再次登上AEJ | 国际朋友与敌人

中国故事获2023年MS最佳论文 | 政策不确定性与企业创新

教授亲历：国内国外学术会议的10个区别

上交刘佳璐、上财裴思琦、港中文张晓泉，合作发表管理学顶刊MS！

港城李烜博教授，发表会计学顶刊JAR：商业关系是否影响ESG评级

预告 | 2023-2024年度数字经济开放研究平台年度峰会

预告 | 国际商务中文教育学术会议暨国际商务中文教师人才培训活动

《American Economic Review》11月刊目录及摘要

港理工黄文利老师机器学习论文在会计学顶刊CAR发表！

港大熊琰、多伦多大学杨立岩教授，合作发表金融学顶刊《Journal of Financial Economics》!

2025QS亚洲大学排名发布！北大港大新国立蝉联前三

预告 | 第二十一届中国金融学年会

浙大、人大教授等JPE论文见刊，2024年11月刊目录及摘要

武大沈思晨研究员、港大邹宏教授，合作发表管理学顶刊MS！

预告 | 国际商务中文教育学术会议暨国际商务中文教师人才培训活动

香港大学助理教授发表会计学顶刊JAR！独作！

《经济研究》宣布2025年开始公布论文数据、代码及附录！

中国故事登上会计顶刊TAR：信用报告对贷款违约率和使用率的影响

《Review of Financial Studies》11月刊目录及摘要

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉