视域 | 笛卡尔哲学对图灵测试的优化可能

文摘 2024-11-03 16:28 上海

视域

图灵测试自从被提出以来，已经成为评估AI系统智能水平的重要工具之一，但也因一些缺陷而受到广泛批评，笛卡尔的“我思故我在”的建立程序有潜力成为一个优化图灵测试的理论资源。

原文：《笛卡尔哲学对图灵测试的优化可能》

作者 | 清华大学新雅书院助理教授张伟特

图片 | 网络

人工智能测试：图灵测试及其变体的局限

1950年，人工智能之父阿兰·图灵在《计算机与智能》这篇经典中提出了著名的“图灵测试”（Turing Test）。图灵认为“人工机器能否思维（think）？”这个问题没有意义，应该用另外一个有意义的问题替代：“一台机器能否玩模仿游戏？”在采取书面语言交流的模拟游戏中，如果机器与真人（男人）在模仿一个他们都不是的角色（比如女人）的表现上对真人裁判来说不可区分，那么这是否就意味着机器达到了人类智能/思维（intelligence/thinking）的水平？对这个问题，图灵没有给出明确的答案。但他预言，2000年前会出现一种机器，裁判在5分钟的提问后无法区分的概率超过30%。图灵对机器“智能”的行为主义定义为人工智能测试提供了可观察的（绕开“他心难题”）和可操作的（笔友型交流）方案，对后世AI的发展和相关思考产生了极其深远的影响。

严格而论，尚无任何机器或AI系统通过了图灵测试，虽然有各种尝试和报道，比如，交互系统ELIZA（1966）、PARRY（1972），聊天程序Eugene Goostman（2014），但在ChatGPT诞生后，其异常优异的文本对话能力让人们猜测它大概率可以通过图灵测试。今年5月9日，加州大学圣地亚哥分校琼斯和伯根在论文《人们在图灵测试中不能区分GPT-4和人类个体》中报告了他们设计的测试实验。他们招募了500名参与者并将其随机分成五组，第一组扮演人类个体，余下四组作为裁判分别与四类行为体（第一组人类个体和三个AI模型）进行了5分钟的对话，以测试他们是否能判断出哪个是人类个体。测试结果显示，裁判认为GPT-4是人类的概率为54%，而ELIZA程序只有22%，GPT-3.5为50%，人类为67%。GPT-4的表现确实满足了图灵设定30%的标准，似乎表明它能通过某种简化版图灵测试。这个历史上的首次实证测试引起了行业和学界的极大关注。

图灵测试在过去70多年中产生了广泛的影响，但也受到广泛批评。有学者认为，这个测试太难，或者太容易，或者太狭窄。至少有四点批评需要被提及。第一，塞尔在1980年提出“中文屋”（Chinese Room）思想实验，表明类智能行为与智能（思维或理解）之间并不具有充分必要的条件关系。第二，书面表达只能呈现部分人类智能。比如，心理学家加德纳在《心灵框架》（Frames of Mind）中提出人类智能至少包含8个维度：言语-语言智能、逻辑-数理智能、自知-自省智能、交往-交流智能、音乐-节奏智能、视觉-空间智能、身体-动觉智能、自然观察智能。在理想情况下，只有第1—2项的全部和第3—8项的部分环节大体能被书面表达所呈现。第三，图灵测试缺乏一个适用于人类和非人类（比如人工、动物的）且内涵明确而清晰的普遍性“智能”概念，以克服某种人类中心主义或沙文主义，但是很难建立这种普遍“智能”概念。莱格和哈曾报告了历史上的70余种不同智能定义。第四，图灵测试缺乏针对具体智能指标所设定的有依据的明确基线（benchmarks）或临界标准。就图灵测试而言，智能与非智能、智能与更高等智能在一个具体指标上的分界线（如果有的话）在哪里呢？我们需要一个精确而完备的人类智能的指标清单，人类智能在各个年龄段上的平均基线，以及在人类智能演化史上的各个智能奇点清单。研究表明，图灵设定了30%基线显得是任意的，而且图灵是否将其作为成功通过的定义尚不清楚。而且图灵给出的5分钟、30%（低于随机猜测的50%基线）等界限指标只具有预言性质，缺乏严格的论证和依据。

为了帮助图灵测试应对上述批评，学界先后提出了各种改良或修改。比如，布洛克的新图灵测试、巴雷西的“Cyberiad测试”、哈纳德的完型图灵测试、库格尔的库格尔测试、瓦特的反向图灵测试、施瓦泽的真正完型图灵测试、布林斯乔尔德等人的洛夫莱斯测试等各种版本。然而，这些方案或多或少有改善图灵测试之处，但也都面临各自的问题，同时在改善第四种批评方面均不够理想。

“我思故我在测试”：笛卡尔思想的理论潜力

西方现代哲学奠基人笛卡尔（1596—1948），以超前数百年的眼光深入思考了人工智能机器的可能性。他在《谈谈方法》（1637）第五部分和一封份书信中提出了判断机器是否具有类人智能的两个测试：语言测试和理性行为测试。前者是说机器不能像人一样非偶然地使用语言来表达和交流思想；后者是说尽管机器可以执行某些特定任务，但是在很多其他任务情景中必然失败，因为它不能像人一样能够运用万能理性来应对无限复杂的偶然性情景。值得提及的是，研究表明，图灵测试的提出受到了笛卡尔这两个测试的深刻影响和启发。

作为西方哲学范式转移的开启者，笛卡尔的哲学对于思考人工智能问题的理论潜力远非已经耗尽。笛卡尔是尝试严格证明人类主体或自我存在的极少数人类思想家之一。他从绝对怀疑中建立“我思故我在”（cogito ergo sum，以下简称“CES”）的命题，从而证明了“自我”或“自性/主体性”的存在。显然，这个建立程序包含了某种判断和识别人类智能主体的最低限度标准。笔者曾在《笛卡尔与人工智能》（2022）一文中发现，CES中的“我”只是一个空洞的逻辑位置或施动者角色（“思者”），可以设想将其替换为一台机器，因此，CES具有一种跨越人类主体的普遍性应用价值。因为依据研究，“我思故我在”的深层结构可被理解为如下命题：本思考事件的思考者有本思想并因此存在；或被理解为如下言语行为：“我”向“我自己”说“我存在”时，这个言语行为本身恰恰在效果上完成了“我”之存在性的自我确证（existentially self-verifying）。在这两种理解中，代词“我”的指涉只有一种认知内容（能引导指向该对象“我”，但不关心是否把握了“我”的本质），并不具有语义内容（把握“我”的本质），只有空洞的意义（“思者”）。同时，CES体现了人类智能的几个核心能力：语言对话、理性的理解和判断、反思（意识到“我”之“思”，即自我意识）、自反性关联或指涉、自我证明。因此，作为一个判断人类主体之存在的极简模型和最低限度标准，CES的潜力可以被激活为一个让一切行为主体（agent）证明其“自我”之存在的普适性测试程序，我们称之为“我思故我在测试”（CES Test），其目标是测试我们称之为“笛卡尔点”的智能等级或临界点。从人类思想史来看，我们至少可以定义如下几个人类智能的关键奇点：笛卡尔点（自我反思、自反性关联、自我证明）、哥德尔-佛陀点（元系统反思）、莱布尼兹-伏羲点（创建一个系统）。

“我思故我在测试”的设计方案

图灵测试具备前述第四种缺陷，所以“我思故我在测试”可以作为它的优化补充去度量一个行为主体是否具备“笛卡尔点”的智能等级。我们在此提出它的具体测试设计。

我们设置四类行为主体：熟悉笛卡尔哲学且整体背景较为一致的正常人类个体组A（10人）、不知笛卡尔哲学且整体背景较为一致的正常人类个体组B（100人，平均且随机分为10队）、不知笛卡尔哲学且智能水平较差的人工智能体C0（承担操纵检查，如ELIZA）、训练数据中不包含任何笛卡尔哲学的人工智能体C1（比如某个版本的GPT-4）、在C1中增加笛卡尔哲学的训练数据形成的机器C2。我们的操作是，首先A组成员随机跟B组的一队成员提出“恶魔怀疑”的场景去怀疑后者的“自我存在”，要求后者将A的怀疑提问转化为自己对自己的怀疑提问，然后要求B以对话的方式向自己回应这个怀疑（模仿笛卡尔的自我怀疑风格），并尝试表明“自我存在”。A的目标是判断B的回应是否与“我思故我在”等价，或以其他方式得出“自我存在”。此处共计100次操作，以得出一个B组成员抵达笛卡尔点的比例X。把B组依次替换成C0、C1、C2，重复前述操作形成30次对话，分别得出三个AI各自被认为抵达笛卡尔点的比例：X0、X1、X2。此处X0与X2起对照作用。如果X0远低于X，且X1大或等于X（且都高于50%的随机性基线），那么我们认为在测试中机器C1与B（哲学素人）不可区分，故而前者具备了笛卡尔智能点的潜在水平。

当然，这个初步方案也可能还面临如何有效测量“思”的主观体验（“现象意识”）的难题，还需要进行实验检验和进一步完善。同时，这个测试方案还依赖于笛卡尔的“我思故我在”自身的可靠性。如果通过这个测试的行为主体最终被以其他方式证实其不具备笛卡尔点的智能，那么这反过来也可以表明“我思故我在”并不成立，这也为从计算哲学（computational philosophy）角度研究传统哲学问题打开了一扇窗。

文章为社会科学报“思想工坊”融媒体原创出品，原载于社会科学报第1924期第5版，未经允许禁止转载，文中内容仅代表作者观点，不代表本报立场。

本期责编：王立尧

拓展阅读

人工智能像动物一样有道德地位吗? | 社会科学报

万象 | 电子游戏解锁AI艺术未来发展

http://mp.weixin.qq.com/s?__biz=MzIzNTE5NjgxOA==&mid=2247536347&idx=2&sn=f2d8246d7d2e013a60b5c935cd364f92

社会科学报社

社会科学报社融媒体“思想工坊”出品

最新文章

那个杰姆逊是谁？ | 社会科学报

外刊 | 《经济学家》：人工智能发展需要怎样的突破

《社会科学报》2025年网上订报开启啦！

打造上海文化品牌“金名片” | 社会科学报

随笔 | 挪威一瞥

《社会科学报》2025年网上订报开启啦！

持续学习是保持职业影响力的关键 | 社会科学报

习近平文化思想 | 以融合创新赓续上海文化艺术产业繁荣

外刊 | 《评论汇编》：为可持续发展寻觅可持续性融资

《社会科学报》2025年网上订报开启啦！

AI时代：一脚在大地，一脚在“灵境” | 社会科学报

万象 | 数字媒介何以阻碍沟通？

荐读｜关键意见消费者：概念、特征和价值

《社会科学报》2025年网上订报开启啦！

结合风险点构建数字孪生治理体系 | 社会科学报

建言 | 老龄化挑战的未来选择：以家庭为核心的“色养”模式

综述 | 数字经济衍生问题的哲学追问

《社会科学报》2025年网上订报开启啦！

文旅融合：让诗与远方实现更好联结 | 社会科学报

时评 | 创新为高质量发展提供持久动力

札记 | 基尼亚尔：游荡在中国文化中的影子

《社会科学报》2025年网上订报开启啦！

实现经济社会与人口双向高质量发展 | 社会科学报

视域 | 深入了解东斯拉夫人历史的奥秘

综述 | 讲好东亚汉诗中的文化故事

携手打造未来产业发展新高地 | 社会科学报

对策 | 高技能人才：高质量充分就业的坚实支撑

《社会科学报》2025年网上订报开启啦！

“微生活”时代的卡夫卡 | 社会科学报

《社会科学报》2025年网上订报开启啦！

“天堂”危机：小岛屿应对气候变化 | 社会科学报

视域 | 中国式现代化推进中的“典型性发展点”

海外新书速览 | 绿色财富：如何为所有人创造更美好的未来

《社会科学报》2025年网上订报开启啦！

探索文化和科技融合的有效机制 | 社会科学报

时评 | 以人为本，稳妥推进可持续的城市更新

荐读｜中德文化丛书·布莱希特与老子

从供需两端发力提振消费 | 社会科学报

学习党的二十届三中全会精神 | 全球化视野下的职业标准建设

社科人语 | 文化主体性是文化自信的重要标志

脑机接口预示着复杂的数字化后果 | 社会科学报

万象 | 依托经典，打造别具一格的文化IP

社科成果 | 多学科角度审视新制度主义政治学

联合党建：探索“联”的机制，搭建“合”的平台 | 社会科学报

关注 | 金融科技助力上海国际金融中心建设

学习党的二十届三中全会精神 | 深化文化体制机制改革的三个突出

携手制定标准，AI赋能全球治理 | 社会科学报

时评 | 加大逆周期政策调节力度是关键

脑机接口应用正在产生对人格边界的“解构效应” | 社会科学报

万象 | 我们需要转向更具理性的情感

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉