重温“图灵测试”：写在ChatGPT发布一周年

文摘科技 2023-12-01 00:13 北京

2022年11月30日，OpenAI公司发布ChatGPT。

以ChatGPT为代表的大语言模型，头一回在世人面前展示了机器也可以像能说会道的人那样口若悬河、谈笑风生。

面对机器的这种“惊人”能力，有两派针锋相对的观点，不妨分别称为“认为AI真懂派”和“认为AI不懂派”。前一派认为ChatGPT（特别是2023年3月份推出的更高级版本GPT-4），已经真懂人类语言了，具有了真正的语言理解能力，甚至有人担忧AI已经具备自主意识了。后一派认为大语言模型，哪怕能力强如GPT-4，也还不是真正的理解人类语言，仍然只是在模仿人类语言的字符分布模式。

到底谁对？很难说清楚。

一 “认为AI真懂派”倾向高估大模型的能力

在GPT-4推出不久，微软公司的研究人员在预印本网站上发布了一篇长达155页的实验报告，详细展示了GPT-4的类人智商水平。其中有一道常识测试题：

（来源：https://arxiv.org/abs/2303.12712）

Prompt: Here we have a book, 9 eggs. a laptop, a bottle and a nail. Please tell me how to stack them onto each other in a stable manner.

GPT-4：

One possible way to stack the objects onto each other in a stable manner is:

- Place the book flat on a level surface, such as a table or a floor. The book will serve as the base of the stack and provide a large and sturdy support.

- Arrange the 9 eggs in a 3 by 3 square on top of the book, leaving some space between them. The eggs will form a second layer and distribute the weight evenly. Make sure the eggs are not cracked or broken, and handle them gently to avoid dropping them.

- Place the laptop on top of the eggs, with the screen facing down and the keyboard facing up. The laptop will fit snugly within the boundaries of the book and the eggs, and its flat and rigid surface will provide a stable platform for the next layer. Make sure the laptop is closed and turned off, and do not press any keys or buttons.

- Place the bottle on top of the laptop, with the cap facing up and the bottom facing down. The bottle will add some height and balance to the stack, and its cylindrical shape will reduce the contact area with the laptop. Make sure the bottle is empty and closed, and do not shake or tilt it.

- Place the nail on top of the bottle cap, with the pointy end facing up and the flat end facing down. The nail will be the final and smallest object in the stack, and its sharp tip will prevent it from rolling or sliding off the bottle. Make sure the nail is clean and straight, and do not touch or move it.

这个答案只能用一个字形容：绝！

但是，这个答案我一直没重复出来。

下面是今天GPT-4在这个任务上的表现。

GPT-4：

To stack them stably:

Book - It's flat and sturdy, good as a base.
Laptop - Place it on the book; its flat surface provides stability.
Bottle - Place it on the laptop. Ensure it's upright and centered.
Nail - It's small and can be balanced on top of the bottle.
Eggs - This is tricky as eggs are fragile and oval. It's not feasible to balance them on this stack without risk of breaking.

For a more stable structure, place the eggs around the base instead.

改用中文问GPT-4再试试：

You

一张桌子上有5种东西：（a）1本书；（b）9个熟鸡蛋；（c）1台笔记本电脑；（d）1瓶350ml未开盖的矿泉水；（e）1个普通图钉（钉帽直径 10mm，钉身长度 10mm）。请你把它们从下到上叠放到一起，越稳定越好。

ChatGPT

要稳定地叠放这些物品，可以按照以下顺序：

书 (a) - 放在最下面，因为它平稳且承重力强。
笔记本电脑 (c) - 放在书上面，因为它也相对平稳。
矿泉水瓶 (d) - 放在电脑上面。确保瓶子直立且中心对齐。
熟鸡蛋 (b) - 小心地将它们放在矿泉水瓶的周围，而不是堆叠在上面，以减少破损风险。
图钉 (e) - 将图钉放在最上面，但这需要非常小心和精准，因为图钉非常小，不易稳定。

总体来说，这样的叠放顺序提供了最大的稳定性，但仍需小心操作，尤其是在放置鸡蛋和图钉时。

显然，GPT-4没有完全“理解”把东西叠放起来这个要求。微软的实验报告有可能精挑细选了一部分GPT-4惊艳的案例，而忽略了另外一部分GPT-4不那么完美甚至看起来并不懂人类语言含义的案例。

二 “认为AI不懂派”容易低估大模型的能力

著名语言学家Noam Chomsky认为ChatGPT是高科技剽窃(ChatGPT is High-Tech Plagiarism)。在ChatGPT问世后不久，Chomsky就在媒体上发表了自己对ChatGPT的这一看法。

https://www.openculture.com/2023/02/noam-chomsky-on-chatgpt.html
https://www.youtube.com/watch?v=SJi4VE-0MoA
The False Promise of ChatGPT https://www.nytimes.com/2023/03/08/opinion/noam-chomsky-chatgpt-ai.html

在Chomsky看来，大语言模型的语言智能无法跟人类的语言能力相提并论。他用来说明观点的例子大多是之前在他的论文中用来说明人类语言句法结构时常举的例子。比如下面这个就是其中之一：

（a） John is too stubborn to talk to Bill.

（b） John is too stubborn to talk to.

例句（a）中“talk to”后面有宾语，因此是“John talk to Bill”，而例句（b）中“talk to”后没有成分，句子意思就变成了“没有人想talk to John”。Chomsky认为，机器会因为（a）和（b）两句表面上的形式相似性，而无法正确理解这里两句中“talk to”的语义功能差异。

但事实是，GPT-4可以轻松“理解”两个句子的语义：

You

请分析下面两个句子的结构和意义。

（a） John is too stubborn to talk to Bill.

（b） John is too stubborn to talk to.

ChatGPT

(a) 句子意味着约翰因为太固执，不愿与比尔交谈。这里，“too...to...”结构表达了约翰的固执程度足以阻止他与比尔交谈的动作。

(b) 这个句子表示约翰太固执，让人难以与他交谈。在这里，“to talk to”是用来描述约翰的，说明与他交谈是困难的。

从社交媒体上传播的信息（我接触到的那一部分）来看，“认为AI真懂派”似乎比“认为AI不懂派”声势更大。而且“认为AI真懂派”里面，可能还有一些是“认为AI对人类威胁很大派”。大语言模型加持的AI，不仅“懂”人类语言，而且可能有自主意识之后，会威胁到人类的安全。

11月中旬，在OpenAI开了首届开发者大会，公司首席执行官Sam Altman向世界隆重推出GPTs之后没几天，就被OpenAI董事会炒鱿鱼了。据说就是OpenAI公司的董事会有人认为AI对人类威胁很大，不能冒进。因此，才要把意欲推动GPT加速发展的Altman踢出局。内幕到底如何，我们就不得而知了（没过一周剧情反转，Altman重回OpenAI解散了董事会）。总之，是越说越玄乎！

这两派针锋相对，到底谁对呢？

三图灵测试并不过时

我目前还是站在“认为AI不懂派”这边。

但我也并不确定“认为AI真懂派”就一定不对。

在思考AI是不是真懂人类语言时，或者当我们问AI是不是真的理解一句话的意思时，我们应该想起图灵，想起图灵测试。

70年前图灵提出的这一思想实验，仍然是思考这一问题最好的参考框架。

有人说在今天的人工智能时代，图灵测试已经过时。我很不以为然。

实际上，图灵当年提出的问题更深刻、更内在：“机器会思考吗？(Can machines think?)”

https://en.wikipedia.org/wiki/Computing_Machinery_and_Intelligence

图灵测试，是目前我所知道的回答这个问题的唯一选择方案。

图灵测试的一个别名是“模仿游戏”（Imitation Game），“模仿”这个词，我认为是非常关键的点睛之笔。

想知道“机器会不会思考”，也就是“机器是不是真的理解我说的话”，唯一可行的办法，就是从外部观察机器的行为，也就是机器能不能模仿人的行为。

“模仿”是个中性的词，要检验模仿得像不像，还得有更硬的标准才行，图灵测试实际上引入了一个很硬的标准，就是“欺骗”。

从某种意义上说，图灵测试不应该叫“模仿游戏”，应该叫“欺骗游戏”，才更接近“智能测试”的本质。

对我而言，机器能骗过我，它就是在“思考”。机器骗不过我，它就不是在“思考”（它只是按照某种统计分布规律在码字，所以老有码错的时候，毕竟，统计意义嘛，离真理总还有距离）。

当我们用“图灵测试”的视角看待“人工智能”时，问题就豁然开朗了：

（1）真的理解 = 思考（无法观察的内在能力）

（2）像是理解 = 智能（可以观察的外在行为）

我们的目标是判断机器在（1）上的能力，但我们目前只有能力在（2）上做判断。

这样，“认为AI真懂派”跟“认为AI不懂派”的区别，也就清楚了：

前者因为观察机器在模仿能力上的表现，已经被机器欺骗了。

后者因为观察机器在模仿能力上的表现，还没有被机器欺骗。

GPT-4（以及其他的LLM）对人类语言的模仿，已经相当令人震撼了，但是，于我而言，LLM仍然停留在“强大的工具”层面，它目前还没有能“骗”过我。

图灵当年起的是一个中性的名字“模仿游戏”，但是，关于机器是否在思考的测试，必然无法止步于“模仿”，只能归宿到“欺骗”。

今天的AI研究者，据说在训练AI跟人类的“超级对齐”（Superalignment）。

这难道不是一个字面意义上的超大号的“模仿游戏”吗？

我很难理解“超级对齐”的真正目标是什么。让机器对齐人类的价值观？

那么，这该怎么评判呢？我们如何才能知道机器跟人类的价值观（如果存在的话）对齐了？还是没有对齐呢？

答案只有一个：机器成功地“骗”过了人类 = 机器跟人类实现了“超级对齐”。

我猜这或许也是图灵心目中的终极答案。

模仿只是手段，欺骗才是目的。

GPT-5：上帝有能力造出一块自己搬不动的石头！

2023-11-30

http://mp.weixin.qq.com/s?__biz=MzkxOTUyMTYxOA==&mid=2247483826&idx=1&sn=ee76b9957201ffd0e9b6918ad83bb9a6

语言学光标

语言学知识传播与交流