人工智能在心智理论测试中战胜人类

学术 2024-11-07 15:30 北京

测试结果并不一定意味着人工智能可以“理解”人。

心智理论是指可以理解他人心理状态的能力，正是它驱使着人类社会运转。它帮助你决定在紧张的情况下该说什么、猜测其他车辆的驾驶员将要做什么，以及与电影中的角色产生共鸣。一项最新的研究表明，ChatGPT等工具所使用的大语言模型在模仿这一典型人类特征方面表现得非常出色。

“在进行这项研究之前，我们都相信大语言模型无法通过这些测试，特别是那些判断不易察觉的心理状态能力的测试。”该研究的合著者克里斯蒂娜•贝奇奥（Cristina Becchio）说，她是德国汉堡-埃彭多夫大学医学中心的认知神经科学教授。这项她认为“出乎意料和令人惊讶”的研究结果发表在2024年5月20日的《自然•人类行为》杂志中。

贝奇奥和她的同事并不是首先提出证据表明大语言模型的反应能够表现这种推理能力的人。在2023年发表的一篇预印本论文中，斯坦福大学心理学家迈克尔•科辛斯基（Michal Kosinski）报告了几个模型在几种常见心智理论测试中的测试情况。他发现，其中最好的是OpenAI的GPT-4，它正确完成了75%的任务，他说，这相当于过去研究中6岁儿童的表现。不过，这项研究中的方法遭到了其他研究人员的批评，他们进行了后续实验，并得出结论，大语言模型之所以能得出正确答案，往往是基于“浅显的启发”和捷径，而不是真正基于心智理论推理。

本研究的作者很清楚这种争论。“在论文中，我们的目标是使用广泛的心理测试，以更加系统的方式来应对机器心智理论的评估挑战。”该研究的合著者詹姆斯•斯特拉坎（James Strachan）说，他是一名认知心理学家，目前是汉堡-埃彭多夫大学医学中心的访问科学家。他指出，进行严谨的研究意味着要测试人类和大语言模型处理相同任务的能力，这项研究比较了1907个人与几个流行的大语言模型的能力。

大语言模型和人类都完成了5种典型的心智理论测试，前3种是理解暗示、反语和失礼。此外，他们还回答了“错误信念”问题，这些问题通常用于确定幼儿心智理论的发展程度。这些问题是这样的：如果爱丽丝在鲍勃不在房间的时候移动了某样东西，那么鲍勃回来后应该去哪里找这个东西？最后，他们回答了“奇怪故事”中一些相当复杂的问题，这些故事中的人物相互撒谎、操纵并产生了很多误解。

总体而言，GPT-4占据了优势。它的得分在错误信念测试中与人类相当，在反语、暗示和奇怪故事方面的总分高于人类，只在失礼测试中表现不如人类。为了理解失礼测试结果有所不同的原因，研究人员对该模型进行了一系列后续测试，探索了几种假设。他们得出的结论是，GPT-4能够对有关失礼的问题给出正确答案，但在固执己见方面受到“极端保守”编程的限制。斯特拉坎指出，OpenAI在模型周围设置了许多围栏，“旨在保持模型真实、诚实和正确”，他认为，旨在防止GPT-4产生幻觉（即编造内容）的策略可能会妨碍它对一些问题输出观点，比如故事角色是否在高中同学聚会上无意间侮辱了老同学。

研究人员很谨慎。他们没有说自己的研究结果表明大语言模型实际上拥有心智理论能力，而是说大语言模型“在心智理论任务中的表现与人类行为没有区别”。这就引出了一个问题：如果一个仿品和真品一样好，那你怎么知道它不是真品？斯特拉坎说，这是一个社会科学家以前从未尝试回答的问题，因为对人类的测试会假设这种品质在某种程度上是存在的。“我们目前还没有一种方法甚至是一种理念来测试心智理论的存在，这是一种现象学品质。”他说。

华盛顿大学计算语言学教授艾米丽•本德（Emily Bender）因坚持揭露人工智能行业的膨胀炒作而成为了该领域的传奇人物。她对这个激励着研究人员的问题提出了异议。“面对相同问题，文本处理系统能否产生与人类相似的答案为什么如此重要？”她问道，“我们能够了解大语言模型内部是如何运作的吗？它们可能有什么用处，又可能带来哪些危险？”

本德对论文中的拟人化表示担忧，论文研究人员说大语言模型有认知、推理和作出选择的能力，还使用了“大语言模型和人类参与者之间的物种公平比较”这一措辞。本德说，这“完全没有将软件囊括在内”。

汉堡-埃彭多夫大学医学中心团队的研究结果可能并不表明人工智能真的能理解我们，但值得思考的是，人工智能能够做出令人信服的行为，这会带来什么影响。虽然这种大语言模型在与人类用户交互和预测用户需求方面会做得更好，但它们也可能更多地用于欺骗和操纵。它们会引来更多的拟人化，让人类用户相信用户界面的另一端是有思想的。

作者：Eliza Strickland

IEEE Spectrum

《科技纵览》

官方微信公众平台

往期推荐

2024年人工智能现状

辩证审视人工智能生成的软件

不要将人工智能提示工程师作为职业起步

http://mp.weixin.qq.com/s?__biz=MzI3NjUyMTgxNQ==&mid=2247553674&idx=1&sn=fd4536bfc3d05c87074c911e282d392b

悦智网

IEEE Spectrum是国际期刊界卓越的技术写作和报道的一盏明灯。我们旨在提供一个跨学科技术领域的“全局”，让读者了解工程学、科学和技术领域的创新成果与发展趋势。

最新文章

雷达猫咪探测器

Science | 浙江大学：高效生长铝纳米线森林的新技术！

人形机器人的兴起

印度初创公司在72小时内打印出火箭发动机

电动汽车的未来发展

湖南大学/河北师范大学合作，Nature Nanotechnology！

激光雷达芯片进入发展快车道

比利时微电子研究中心计划利用超导缩小计算机

效仿芯片制造的血糖监测仪

3所高校，新晋ESI前万分之一

海洋封存碳的速度比以前想象的要慢

首次在液体中发现热电效应

测量时间和空间的畸变

生成性人工智能的未来发展

这位工程师负责欧洲核子研究组织的粒子加速器正常运行

提高天基功率的一种方法：继电器

西湖大学，Nature Materials！

ARTEMIS：卫星导航电离层精准监测助力北斗高精度应用

毫米波或许不是最有前景的6G频谱？

武汉大学/北京大学合作， Science！

风电制氢技术走向海洋

被遗忘的中文键盘史

反应堆燃料可用于核炸弹

北京理工大学，Nature！

生成式人工智能带来的电子废弃物垃圾不容忽视

人工智能在心智理论测试中战胜人类

2mm芯片植入视网膜，盲人重获阅读能力

华北电力大学，首篇Science！

北大校友打造的1000个智能体「我的世界」，背后原理揭晓了！

民勤盐渍农田磷肥利用状况与科学施肥对策建议（项目咨询报告）

睡眠可以修复心脏

以太坊智能合约安全漏洞检测

复旦大学，Nature！

新型载液使氢气更容易运输

超人的速度！自主驾驶无人机击败最优秀的人类选手

新能源汽车电磁安全测评技术

苹果最强芯M4 Max首发！新MacBook Pro顶配57099元

中国科学院最新Nature！

AI-HIFU人工智能超声无创手术机器人——引领人工智能无创伤外科医学新纪元

国自然基金重大调整，这4点需要关注！

新型混合存储器旨在减少人工智能的能源使用

芯片扩展中的摩尔定律

量子纠缠如何为雷达安全保驾护航？

Nature | 北京大学钱珑、张成课题组开发表观比特DNA存储新技术

海龟激发心脏监测器设计灵感

最新自然指数TOP200！

量子纠缠的发生需要多久？

高温超导胶带

通往100%可再生能源之路

特斯拉机器人能自己走，自由穿梭工厂，手上还能抱11kg重物！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉