“母鸡语言学”与“鸡蛋语言学”

文摘   2024-10-18 23:56   美国  

自从大模型席卷全球之后,一本正经胡说八道(简称“一本胡八”)就几乎同步成了流行语。殊不知,要追溯一本胡八的源头,还得看我们语言学。

“Colorless green ideas sleep furiously”(无色的绿色念头狂怒地睡觉)是一代语言学大师乔姆斯基70年前的成名之作。开创“语法正确的一派胡言”体

当你把这串一本胡八甩给ChatGPT 4o大语言模型时,它竟然秒回:“啊哈,这么说无声之歌也会静悄悄地跳舞喽?(Ah, and do silent songs dance quietly too?)”当然事先需要给它一个指令:见到英文用中文回复

你要是觉得不过瘾,让它继续一本胡八,它轻轻松松给你来个串烧:

  • 透明的黑夜在光明中奔跑。

  • 沉默的音乐在空中回荡。

  • 燃烧的冰雪在寒冷中冻结。

  • 无形的手掌握住了风的脚步。

  • 枯萎的花朵在生命里绽放。

    ……

机器会说话了。不仅会说话了。还会耍贫,会一本胡八!

让机器具备这样能力的,不是语言学家乔姆斯基,而是2024年诺贝尔物理学奖得主杰弗里·辛顿

辛顿“让人意外”地得奖也就算了,还“不出意外”地狠批乔姆斯基,指责乔姆斯基误导了几代语言学,并直言“语言是可以学习的,而非像乔姆斯基所说的语言是人脑天赋”。乔老爷子挨批,不管是不是乔家大院的人,只要身在语言学大家庭,多少都会觉得不爽。

有人可能觉得辛老爷子很过分,但实际上从辛老的立场看,乔老爷子才是更过分的一方,乔老爷子鄙视统计语言学派久矣。去年还以95岁高龄撰文批ChatGPT是高科技剽窃。辛老爷子只不过近些年扬眉吐气后才可劲儿吼了几嗓子。撇开这类江湖八卦不论,辛乔之争其实应该引发语言学人更多的深层次思考:

语言学跟人工智能应该是什么关系?语言学研究的终极意义是什么?

我不揣浅陋,基于对人工智能神经派技术路线,以及对乔姆斯基语言学核心要义的粗浅理解,尝试用一个蹩脚的比喻,来解读辛乔之争的核心,其实,这关系着一个亘古难题:

鸡生蛋还是蛋生鸡?

  1  辛老爷子与乔老爷子其实是同一个目标

人工智能,特别是大模型代表的“生成式人工智能”,和乔姆斯基的“生成语言学”,都冠以“生成”的帽子,绝非巧合,二者在深层次研究目标上实际完全一致,都是探究语言的生成机制。

乔姆斯基1950年代创立“生成语言学”时,提出的核心问题是:

人为什么会说话?

我第一次看到这个问题时,在头皮发麻的同时,瞬间想起了另一个同样愚蠢”的问题:“苹果为什么会从树上掉地下?

跟牛顿借助数学工具去解释物理现象一样,乔姆斯基发展出一整套数学方法,用形式文法(formal grammar)来解释语言的无限生成机制。在乔姆斯基提出形式文法理论的1950时代,正是人工智能作为一个学科初现雏形的年代。彼时一代宗师图灵把探讨“机器会思考吗”这个让他不爽的问题强行改成了“模仿游戏”:机器会模仿人说话吗?倡导用可观察的事实来替代仅呈口舌之快的无从验证式思辨。

如果把人说的话比作鸡蛋,上面的两个问题就成了:

(1)母鸡为什么会下蛋?

(2)咋搞出一个机器母鸡,让它下蛋?

对第一个问题,乔姆斯基毫不含糊地高呼:要研究母鸡!不要只盯着鸡蛋。在这之前,语言学家们一辈子就在盯鸡蛋。。。。。。

对第二个问题,图灵平静地预言:依我看,50年后机器能下蛋的概率不会低于70%。

乔老爷子作为语言学家,致力于回答第一个问题。辛老爷子作为人工智能学家,致力于回答第二个问题。而这两个问题,指向的是同一个目标:鸡生蛋

  2  辛老爷子跟乔老爷子其实是走同一条路

那么,通向“鸡生蛋”这个目标,有什么路呢?

其实现实世界中也只有一条路,就是蛋生鸡

车轱辘话:要想鸡生蛋,鸡从哪儿来,还得从蛋来。

乔姆斯基虽然革命性地提出了“母鸡语言学”理念(专业说法就是“生成语言学”),但实践中的语言学研究,其实仍然是“鸡蛋语言学”(专业说法是“描写语言学”)。并没有因为乔姆斯基喊了个口号,语言学就立马从“研究鸡蛋”变成“研究母鸡”了。为啥?

真相是:这个世界上就找不到能观察的母鸡。能观察的只有遍地的鸡蛋

要想实现“鸡生蛋”的目标,只能走“蛋生鸡”之路:通过观察鸡蛋,还原出母鸡的下蛋原理

  3  辛老爷子跟乔老爷子的走路姿势完全不同

乔老爷子观察鸡蛋的办法派人去观察。人提出一个假设的树结构框架,据此观察鸡蛋的各种具体而微的特征,包括时间、空间上不同的鸡蛋的各种特征(相当于语言学中的方言研究、历时演变研究、语言学类型学研究等等等等),根据较为有限的人力观察结果,总结成“母鸡下蛋知识宝典”,就完成了“蛋生鸡”的壮举,配备了“下蛋知识宝典”的母鸡,就有“鸡生蛋”的能力。

辛老爷子观察鸡蛋的办法派机器去观察机器用多层巨型神经网络来模拟母鸡。通过机器强大的算力,不知疲倦地观察海量鸡蛋的各种具体而微的特征(比人力能观察到的多得多得多得多得多得多的特征),调适神经网络的超大规模参数,最终拟合出一个能下蛋的母鸡,让这个母鸡下的蛋非常符合真实鸡蛋的特征。这个母鸡没有任何显性的总结成册的“下蛋知识宝典”,但它训练有素的神经网络就是神奇地会下蛋。

我们通过实例来简略看看乔氏母鸡和辛式母鸡的工作原理:

乔氏母鸡:要生出“Colorless green ideas sleep furiously”这串鸡蛋,乔姆斯基构造的母鸡示意图如下。

乔氏母鸡像一棵倒着的树。乔老爷假设句子像树根生叶一样逐层展开,从小小的S种子出发,逐渐枝繁叶茂,最终叶子连缀成话说出。

辛氏母鸡:要生出“啊哈,这么说无声之歌也会静悄悄地跳舞喽?”这串鸡蛋,辛顿构造的母鸡示意图如下。

辛氏母鸡是一个巨大的神经网络。辛顿假设母鸡生下一个蛋总是依赖上一个蛋,你只要从左侧给母鸡一串鸡蛋,母鸡就能激活神经网络中各层的神经元节点,就像过电一样(极度魔界般神秘),从右侧生出一串新的鸡蛋,完美地对齐左侧的鸡蛋。

那么,乔氏母鸡跟辛氏母鸡,谁下蛋能力更强,谁称得上是母鸡中的战斗鸡呢?

  4  乔氏母鸡跟辛式母鸡的区别:可控 vs 会学

人力蛋生鸡之路得到的乔氏母鸡,是个理性鸡符号鸡,知识鸡。知识鸡的特点实际上是完全照搬人类的理性(范畴、概念)思维特征,把人类假想的母鸡下蛋知识悉数记住,照章办事,流程透明,细节可控。用这种办法构造的知识鸡,是可靠的,不用担心安全问题。但知识鸡的缺点也非常突出,就是人类理性想出来的知识也常常不靠谱,不管用,下不出蛋。

走算力蛋生鸡之路得到的辛母鸡,是个经验鸡,神经鸡,学习鸡。学习鸡的特点是不理会人类的知识,自己从鸡蛋的特征中去学习揣摩母鸡的下蛋过程,观察了海量鸡蛋后,就能开始像模像样的下蛋了,但下蛋章程未知,黑箱操作,很难控制。用这种办法构造的学习鸡,不太可靠,安全问题让人揪心。但学习鸡的优点也非常突出,就是会学,学习能力强,泛化能力好,能适应复杂真实场景,下出各种各样的像是真的蛋(当然也包括一本胡八蛋)。

知识鸡重知识,轻学习;学习鸡重学习,轻知识。

多年来,乔氏母鸡力扛人类知识”大山艰难前行,辛氏母鸡则配备神经网络“学习”利器,轻装上阵。得益于互联网海量鸡蛋可以观察,辛氏母鸡不断进化,终成暴发之势。特别是在2022年11月30日ChatGPT横空出世后,让全世界见识了这个母鸡中的战斗鸡。

靠人观察鸡蛋来推进“鸡蛋语言学”,最大的问题是,人会累。穷一人一生之力,实际上也观察不了多少鸡蛋,而全世界的蛋实在是太多太复杂了,人的主观性又强,观察鸡蛋,也跟盲人摸象类似,张三说这个鸡蛋是大头朝东,李四说这个鸡蛋是大头朝西,很容易吵得不可开交。蛋的描写工作进行得不顺利,就很难完成“蛋生鸡”的浩大工程。人为了形式上完成任务,有时候就会匆忙糊弄出一个鸡完事,这个鸡虽然也能下蛋,但不经折腾。

靠机器观察鸡蛋来推进“鸡蛋语言学”,最大的好处是,机器不知疲惫为何物,观察角度由机器自己决定,没有盲人摸象吵架的问题。且观察速度极快,用GPU替换CPU之后,鸟枪换炮,日积月累,把全世界古往今来的鸡蛋观察了个底朝天,终于“察蛋成鸡”。依靠机器的大力出奇迹,辛顿仿佛一夜间飞跃“鸡蛋语言学”,高栖“母鸡语言学”的枝头。

  5  鸡生蛋还是蛋生鸡:AI会终结这个问题吗?

真的很难回答。

“知识鸡”是正道?还是“学习鸡”是正道?

不学习怎么会有知识?没有知识怎么会学习?

乔老爷子和辛老爷子的理想都是搞“母鸡语言学”(鸡生蛋),但现实中,大家实际上都是只能搞“鸡蛋语言学”(蛋生鸡)。

只不过,两人的搞法完全不一样。让人大跌眼镜的是,机器搞得比人强。倚靠算力,眼看着就要完成“蛋生鸡”伟业了。而倚靠人力,现在“鸡”影子还看不真切。

真让读书人一声长叹:“有路茫茫向谁问,感君空有泪沾襟”。

据说,语言学的尽头是生物学。这里的生物,就是那只会下蛋的母鸡。而辛顿在做的,是把生物母鸡,替换成机器母鸡。乔家大院有人说可以不关心机器母鸡,只关心生物母鸡如果把生物母鸡替换成机器母鸡这事真干成了呢?恐怕,生物学的尽头就是人工智能了。

假如有机会站在语言学和人工智能的头,回看来时之路,二者曾经互为主仆,也一度是友人,但无论如何不应该沦为路人。

辛氏母鸡还没完胜,乔氏母鸡也没尽输。大家加油!鸡蒜语言学加油!

鸣谢:ChatGPT 4o帮助制作了本文插图,并参与了例句生成。

注1:作为辛氏母鸡的阶段性代表,ChatGPT 4o还无法下出本文这样的蛋。这勉强可以作为辛氏母鸡尚未完胜的证据。

注2:如果是在比拼下蛋能力的赛道上只看结果,乔氏母鸡现在落后很多。但乔氏母鸡“知道”自己下蛋的每一个细节,在需要对下蛋过程进行精准控制的场合,乔氏母鸡也还有发挥空间。这大体可以勉强算是乔氏母鸡尚未尽输的证据。

上一篇:如果辛顿是对的

上x篇:重温图灵测试:写在ChatGPT发布一周年

语言学光标
语言学知识传播与交流