辛顿教授在2024年春季还获颁爱尔兰都柏林大学尤利西斯奖章(Ulysses Medal by University College Dublin,值得一提的是,乔姆斯基在2013年也得到过这个荣誉)。辛顿教授在获奖致辞中尖刻地批评到:
“ 语言学家被一个叫乔姆斯基的人误导了好几代,…… 他有一个偏执古怪的理论,即语言不是学会的。他成功地说服很多人相信这一点。但这一看就知道纯粹是胡言乱语。语言显然是学会的。大型神经网络学习语言,学习句法和语义,不需要任何先天结构,只是从随机权重和大量数据开始。乔姆斯基却仍然在说,但这并非真正的语言。这不算数。这是不对的。许多统计学家和认知科学家也说,永远不可能在这样一个大网络里学习语言。”(参见:杰弗里·辛顿接受尤利西斯奖章时发表的获奖感言,《当代语言学》2024年第4期489-495页))
两派观点针锋相对,势同水火。
单从表象来看,无论是ChatGPT的风靡全球,还是如今辛顿教授得到诺奖的肯定,都无疑宣告了基于人工神经网络的深度学习派胜出,乔老代言的语言学理论失败,即便不是彻底完败,也是占尽下风。
普通无名的语言学人,很难有乔姆斯基那样的一代鸿儒底气,在ChatGPT的炸裂效果面前仍然对LLM不屑一顾(参见:乔姆斯基:ChatGPT的虚假承诺,文/Noam Chomsky、Ian Roberts、Jeffrey Watmull;译/ 龚思量,2023-03-10 08:43,来源:澎湃新闻)。大概只能弱弱地问:
(1)乔姆斯基所代表的语言学理论是不是确凿无疑地错了?
(2)辛顿所主张的神经网络深度学习方式,是不是确凿无疑的正确道路?
回答这两个问题都不容易。
乔氏语言学理论也许错了;也许大方向没错,只是在计算实践中投入资源不够,还没有实现理论描画的蓝图。
辛顿所代表的神经派也许是对的;但基于人工神经网络的深度学习方法显然是机器专属的,与人类学习的方式格格不入。假设这条道路对计算机而言是确凿无疑正确的,那沿着这条道路继续走下去,很难不让人联想到未来机器碾压人类的末日场景。
二 困惑
辛顿教授在都柏林的演讲中,有一段关于智能研究范式的概括:
对智能的研究一直存在两种范式。
一种是受逻辑学启发的思路,其概念是智能的本质是推理。这就是让我们如此特别的关键因素,而推理是可以用符号规则操纵符号表达式来实现的。我们真正要做的是了解知识是如何表征的,是用什么类型的逻辑编程语言来表征的。学习之类的事可以等到以后再做。
另一种是受生物学启发的思路,这一思路完全不同。这一思路认为智能的本质是学习神经网络中连接的强度,逻辑和其他事情要晚得多。我们得先了解人是如何学会做控制自己的身体或识别物体之类事情的。推理之类的事以后再说。
前一种思路在实践中甚至还没有迈出第一步。因为人类所掌握的推理能力以符号规则的形式编码到计算机系统中,在面对真实世界中的任务时,总是会碰到知识覆盖面不足,知识泛化困难的问题。在有限的人类知识系统加持下,机器并不能形成学习能力,调整预装的知识系统。从应用角度看,机器就还是机器,只能“死板”地按照既有知识(规则)完成预设的特定任务(比如翻译、摘要等等),缺乏泛化能力,无法应对通用任务场景。
而大语言模型的发展进路,正是按照后一种思路,先掌握了语言能力(ChatGPT 3.5,GPT-4),然后再不断提升推理能力(GPT-4o,ChatGPT o1-preview)。简言之,LLM先是迈出了第一步(具备学习能力),现在又迈出了第二步(提升推理能力)。
下面展示ChatGPT o1-preview做归纳推理的一个小例子。
人:某人对“一,二,三,四,五,六,七,八,九,十”这10个数字做了一个分类,结果如下:(按照类中元素个数由少到多排序) (1)十 (2)五,九 (3)二,四,六 (4)一,三,七,八 请问:这个人的分类标准是什么? |
思考 26 秒 这个人的分类标准是按照汉语数字的声调来划分的:
因此,这个人是根据数字读音的声调来进行分类的。 答案:按照数字的声调,将它们分为一至四声四类进行分类。 |
(相信一般人看到这样的例子都会对LLM的能力感到震惊。这样的能力在其他一些大模型上目前还很难见到,比如Claude 3.5 Sonnet,文心一言等等,在面对这个问题时,都没有给出正确的答案。)
再看一个貌似更简单的测试任务,看看大模型的“语感”。
人:请逐句判断下面的句子是否有语法或者语义错误。如存在错误,请指出具体问题是什么。回答简明扼要。 (1)大家惊恐地望见他捡起地上的长枪朝自己后背狠狠刺去,立时鲜血直流。 (2)大家惊恐地望见他抬腿就狠狠地朝自己后背横扫过去,立马倒地不起。 (3)几个足球男绿头发运动员在今年的劳伦斯体育年度新星评选中受到了球迷的追捧。 (4)两个足球绿头发小运动员在今年的劳伦斯体育年度新星评选中受到了球迷的追捧。 (5)阿Q不仅没吃过宝岛槟榔,吴妈和小D王胡他们几个也都没吃过。 (6)阿Q不仅吃过宝岛槟榔,吴妈和小D王胡他们几个也都吃过椰子。 |
以下是对每个句子的简要分析: (1)无语法或语义错误。语义清晰,描写了一个人用枪自伤的情景,句子通顺。 (2)存在语法或语义错误。问题在于“抬腿就狠狠地朝自己后背横扫过去”这一部分:
(3)存在语义不清问题。问题在于“足球男绿头发运动员”这一短语:
(4)存在语义不清问题。与(3)类似,"足球绿头发小运动员"同样不明确:
(5)无语法或语义错误。句子表意清晰,表达阿Q和其他几个人都没吃过槟榔。 (6)无语法或语义错误。句子通顺,表述明确,强调了阿Q和其他人都吃过椰子。 总结:第(2)、(3)、(4)句存在问题,需做适当调整。 |
上面是GPT 4o的回答。显然,GPT 4o对这些汉语句子的“语感”和理解,跟人类还是有不少差距。看到上面这个问答,一般人可能就会感到很费解:大模型到底算是学会人类语言了还是没学会呢?
你说它学会了吧,它连很基本的句子正误判别的问题,都还无法做到全对。你说它没学会吧,它的整个回答文本,看上去又文从字顺,只是不能细究具体内容。而像上面那道数字分类标准的问题,大模型也能推出正确答案,可能超过不少普通人的水平。你就很难怀疑它没有过语言关。
大模型的语言能力到底怎么样?大模型的“思维”能力到底怎么样?
我们没有可靠的办法对此做出准确的判断和评价。目前只有不断地问答,就如图灵当年所构思的“模仿游戏”(图灵测试)那样,尝试在问答中寻找蛛丝马迹,去判断机器是不是“真的”在思考。
这样的“游戏”似乎没有个头。
在辛顿看来,可能不用再测了,大模型已经具备像人一样的语言能力了。这是显而易见的事。
在乔姆斯基看来,可能也不用测了。就是测破天,也说明不了大模型具备人一样的语言能力。
只有从理论上彻底把大模型学习人类语言的过程、机制说清楚,才能最终解决这个困惑。仅凭行为主义的测试标准,就算机器考了个满分,还是会有人不放心,不相信。这次满分,下次呢?
伴随着这种困惑,人就免不了思索LLM时代的(计算)语言学出路问题。
三 出路
对于笃信神经网络深度学习的AI研究者来说,抛开道德伦理的复杂问题不论,在纯技术的层面,只要资源条件许可,他们肯定是在深度学习这条道上一路开挂。而作为语言学研究者,就不得不面对抉择的难题。有哪些选择呢?既然“细思极恐”,那就只好粗略想想吧。大概可以列出以下四项:
A. 继续努力,夯实既有语言学理论,探求更多的人类语言学知识。
B. 跟上神经派的脚步,为深度学习贡献可能有价值的语言(学)数据。
C. 重启炉灶,在传统语言学理论和深度学习之外,开辟一条语言学新路。
D. 转行
上面选项中A、B实际上不矛盾,可以兼选。因为有价值的语言数据,理论上应该就关联着有价值的语言学知识。不过,两个选项也有区别,A着眼于直接用人类语言学知识去跟机器打交道,其目标是通过量变达到质变,当人类语言学知识积累到足够的广度和深度时,则语言学知识可以帮助机器获得类人的语言能力。B则遵循深度学习的范式,用数据(而非知识)去跟机器打交道。机器需要的是源源不断的语言数据供应,以改进其语言能力的欠缺。而人类语言学者扮演的角色,就是给机器提供高质量的语言数据。
C选项意味着既不认同乔姆斯基代表的语言学理念,也不认同神经派的深度学习大数据驱动模式,如果这个选项真能趟出一条新路,那必然意味着重大的学术思想革新。
D选项意味着前面三条路都走不通或不愿意走,属于不是出路的出路。不提也罢。
如此这般地粗略想过之后,结果感觉似乎更糟了。
Plan B,本质是为深度神经派做嫁衣裳。
Plan A和C,希望渺茫。留给语言学者的时间有多少?就看神经网络的机器学习能力进化速度了。
今天的大语言模型可以看作是基于人类提供的数据进行训练,达到了“解题者”的智能水平,还没有自己生成数据,通过真正的“自学”,达到“思考者”的智能水平。
思考,就是能自主找数据,自己训练自己,自己提升自己。
假如辛顿是对的,大型神经网络的深度学习确实是真正的“学习”之道,那么,总有一天,有深度学习神经网络加持的机器,就不需要借助人类提供数据来训练(学习),而是自己生成数据,自我训练来提升能力。当这一天到来时,A、B、C选项,连同不提也罢的D选项,统统失去意义。
所以,这些选项要有意义,就只能是辛顿错了。至少,不能是百分之百的对。
乔姆斯基对还是错,不太重要。毕竟,“语言先天论”一直都只是个理论假说,人畜无害。