PNAS：在心智理论任务中评估大语言模型

学术 2024-12-17 22:14 上海

本期推荐一篇最新发表在PNAS上的论文《在心智理论任务中评估大型语言模型》。心智是人类独有的认知能力之一，指的是我们能够理解和预测他人内心的信念、欲望、意图等心理状态。在日常生活中，我们无时无刻不在利用这一能力来判断他人的行为和动机。传统上，心智理论能力是通过“错误信念任务”来评估的，这是一种经典的心理学实验，用来检测个体是否理解他人可能持有与自己不同的信念。本研究旨在评估现代大型语言模型（LLMs）在这一经典任务中的表现，探索它们是否能够像人类一样，在涉及“错误信念任务”的情境中，准确地推测他人心理状态。研究特别关注这些模型在解决错误信念任务时的表现，尤其是它们是否能理解他人对事物的错误认知，以及这种能力是否会随着模型规模和训练数据的增加而不断改进。

为了实现这一目标，研究设计了40个定制任务，涵盖了两种经典的错误信念任务：意外内容任务和意外转移任务。每个任务由8个场景组成，包括一个错误信念场景和三个与之匹配的正确信念控制场景，并且所有场景都有逆转版本。研究团队对11种不同版本的LLM进行了测试，涵盖GPT-1、GPT-2、GPT-3系列及最新的ChatGPT-4等模型。每个模型的表现通过对其理解和预测角色心理状态的能力进行评分，模型必须在多个场景中给出正确答案才能通过任务。为了避免模型仅凭记忆或猜测来应对任务，研究还设计了正确信念控制任务，以确保模型的表现不仅依赖偶然因素。

研究结果表明，随着模型的不断进化，LLMs在解决错误信念任务方面的表现逐渐提高。尤其是ChatGPT-4，成功解决了约75%的任务，其表现接近6岁儿童的水平。相比之下，早期的GPT模型仅能解决20%的任务，远低于ChatGPT-4的表现。这表明，LLMs在理解他人信念和推测心理状态方面，随着模型规模的扩大和训练数据的丰富，展现出了明显的进步，甚至涌现出了类似心智理论的能力。

总体而言，本研究为理解人工智能如何逐步具备更复杂的认知能力提供了重要的实证支持，尤其是在社会互动和心理状态推测等领域。

论文原文：

PNAS，Vol. 121 No. 45

Evaluating large language models in theory of mind tasks

Michal Kosinski

唧唧堂学院推荐订阅

以下专栏及课程，安卓手机用户可通过下方小程序链接订阅，苹果手机用户请通过文末“阅读原文”链接访问唧唧堂学院H5页面订阅。

论文导读

**心理学**

心理学论文导读会员（年度）

2024心理学论文导读600篇

心理学百篇热门论文导读专栏（2023年第2期）

心理学百篇热门论文导读专栏（2023年第1期）

心理学百篇热门论文导读专栏（2022年第2期）

心理学百篇热门论文导读专栏（2022年第1期）

更多心理学论文导读专栏请访问

数据库

方法班课程

更多方法班直播课程请访问

咨询+开票+团购

从数据到洞见，全面解读学术研究！

最新文章

NBER: 谁会成为明星科学家？

NBER: 分班教学如何影响学生的非认知技能

EJ 经济学杂志2024年11月论文摘要12篇

全新上架，含早鸟福利 | 管理学论文数据库资源包，4大数据库，5年顶刊论文覆盖！

PNAS：在心智理论任务中评估大语言模型

PSPB: 低估偏见如何影响浪漫关系中的满意度

PSPB 人格与社会心理学简报 2024年11月论文摘要6篇

QJE 经济学季刊 2024年11月论文摘要12篇

Econometrica 计量经济学2024年11月论文摘要10篇

已更82篇！AI人工智能经管社科论文导读专栏

LQ：研究透明性指数

唧唧堂管理学学术资源包，探索管理学研究的全新可能！

LQ：不同经济背景下的有效领导力

JOB 组织行为期刊2024年11月论文摘要6篇

AITurk：AI扮演人类被试的研究神器

RES 经济研究评论2024年11月论文摘要17篇

JPE：团队中的性别组成、领导力与女性影响力

MS：即时配送中的快递员派遣问题研究

Mgmt S 管理科学2024年11月论文摘要40篇

SSCI论文写作与发表：基于作者、评审、编辑的三重视角

JFE 金融经济学杂志 2024年11月论文摘要7篇

RFS 金融学研究评论 2024年11月论文摘要7篇

RFS：团队与破产

PS：男性赋予权力，女性拥有地位，性别化的权力和地位联想

普博跟风发了篇SSCI，真香！

JSP：制度性性别歧视认知中的性别差异

JSP：女性对玻璃天花板的认知削弱了希

JAP：跳槽过程中的“蜜月-宿醉效应”

已收录理论410条，管理学最新顶刊论文的理论都在这个数据库！

JAP 应用心理学 2024年11月论文摘要6篇

AER 美国经济评论 2024年11月论文摘要10篇

NBER：评估求职推荐系统中的偏见：对算法的审计

11月已更363篇！超额更新！2024年经济学顶刊论文导读数据库

PSPB：社会经济地位显著影响个体的元认知

JPSP：基于面部和身体的社会判断

11月已更超360篇！2024年心理学论文导读专栏+数据库，订阅特惠！

JEPG 实验心理学综合 2024年11月论文摘要18篇

MgmtS：编辑与算法：在线新闻中的推荐技术

JOM：反馈在制造业中的影响

JPE：高成本贷款借款人的财务状况与决策能力

JPE：失业者能借贷吗？对公共保险的启示

JPE 政治经济学期刊 2024年11月论文摘要8篇

MS：在线搜索与最优产品排序

MS：竞争媒体平台的竞争策略

JMR：品牌年龄对消费者品牌选择的影响

PNAS：语言情感预测抑郁症状变化

DP：社会关系对低学历年轻人心理健康的动态影响

DP 发展心理学 2024年11月论文摘要21篇

唧唧堂：JF 金融学杂志2024年10月论文摘要16篇

JFE：加密货币与众不同吗？

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉