从语言数据到语言智能——数智时代对语言研究者的挑战

学术   2024-10-11 16:10   北京  

中国外语2024年第5期(总第121期)







(点开可看本期目录)






学术探索





从语言数据到语言智能
——数智时代对语言研究者的挑战


刘海涛  浙江大学

1


摘  要:数基人工智能不仅破解了人类的“操作系统”,也正重新定义人类的知识,全方位挑战着人类的认知。数智时代的语言学家和认知科学家需要回答两个基本问题:为什么用我们能理解的方式,机器做不好?为什么机器能这样做,我们却理解不了?要想解开数据为什么会涌现智能之谜,我们可能需要回到真实文本,回到语言的概率性本质。本文认为在“数据→模式→知识→网络→智能”链中,语言研究的重点可放在模式和网络两个环节上,从而为构建可解释的人工智能贡献学科智慧。
主题词:语言;数据;模式;知识;网络;智能


1




数智时代的挑战

2023年2月24日,基辛格等人在《华尔街日报》刊发了题为《ChatGPT 预示着一场知识革命》的文章。文章认为,以ChatGPT为代表的人工智能(Artificial Intelligence,AI)正在改变人类的认知过程,这一过程自1455年古登堡印刷术在欧洲问世以来从未发生过任何变化。随着其能力的不断增强,AI正重新定义人类的知识,加速改变现实结构,并重组政治和社会。对语言研究者而言,《人类简史》作者尤赫拉利(2023:47)的一段话可能更易产生共鸣:“人类文化基于语言。而因为人工智能已经破解了语言,它现在可以开始创造文化……文化是人类的‘操作系统’,这意味着人工智能将能够改变人类思考、感受和行为的方式。”

AI作为一门学科差不多已有70年的历史了,但此前,除了在科幻作品中,人们从未感到AI离自己的生活如此之近,更不会产生种种担忧。如果我们将智能理解为获取知识和使用知识解决问题的能力,那AI便成了使用计算机获得知识并用这些知识来解决问题的学科。自AI诞生以来,研究者们就在努力研究知识的获得、表征与使用等问题。值得注意的是,此前的研究者采用的方法大多是将人类数千年来积累的知识转变为计算机可以接受的形式,这是因为人们一直以为,这些靠人的大脑破解自己大脑所得到的东西就是支配大脑运作的知识。既然这些知识可以支撑我们人类智能系统的运作,那计算机有了这些知识自然也就能做一些需要智能的事情了。用这种方式产生的AI,也可称为可解释AI。遗憾的是,可解释AI并没有取得预想的成功。问题出在哪儿呢?人们从知识处理的各个方面进行了反思,但由于这种反思大多建立在数千年来人类所习惯的思维方式之上,所以效果并不好。既然如此,ChatGPT之类的AI应用又怎么会引发知识革命呢?是什么将ChatGPT推上神坛的呢?我们先用被称为“人文社科历史研究透镜”的谷歌图书库来考察一下AI于20世纪50年代问世以来的曲折历史。


从图1不难看出,人工智能在20世纪80年代中后期曾经达到一个高峰,原因在于日本当时提出了一个第五代计算机计划(渊一博、广濑健,1987),也叫基于知识的智能机计划,其核心为逻辑程序语言Prolog+知识库,而所谓知识库是由人工建立的,知识表示形式采用的是人可以解释的形式。第五代计算机是可解释AI的集大成之作,但没有达到预定的目标,于是AI开始走上了下坡路。


图 1  人工智能近70年的发展


然而,人们对于采用非传统的方式创造智能体的努力并没有停止,从图1可以看出在2010年左右,AI又开始进入上升通道,并保持强升态势。正如我们此前所说的那样,智能与知识的获得、表征与应用密切相关,从理论上讲,AI的进步离不开人们在知识处理相关领域的突破,但诡异的是,很多人认为这次AI的进步与知识无关,以至于不断有人说要在现在的技术中加入知识的成分。这话听起来很不合逻辑,似乎计算机突然之间变得不用知识就可以完成过去我们认为需要知识才能做的事情。新技术好像重新定义了智能,但事实上,我本人更愿意相信基辛格等人的说法,新技术重新定义的是知识,而不是智能,智能还是运用知识解决问题的能力。


仔细观察图1,我们还可以发现有另外两条线几乎与“人工智能”是同时起飞的,这就是“大数据”(big data)和“深度学习”(deep learning)。也就是说,AI是与大数据和深度学习联动的,智能是通过深度学习的方法从数据中涌现出来的,而不是像此前那样用人类理解的方式把我们认为是知识的东西输入机器,机器便有了智能。为了区别于传统的AI技术,人们将目前的AI称为“数据智能”或“数基智能”,于是人工智能时代也被精确为数据智能时代,进而精简为“数智时代”了。


数据为什么能涌现智能?这是未来很长时间内,数智时代对人类认知的挑战。对于语言学家而言,面临的挑战可以进一步精确为:语言数据为什么能涌现语言智能?


乍一看,这个挑战似乎是无法应对的,因为数千年来,人类关于知识与智能的探究基本都与数据无关,但仔细分析以ChatGPT为代表的新一代AI技术,还是可以找到一些切入点的。特别是对于语言学家而言,如果能把握这次千年难遇的人类认知或知识革命,就极有可能将挑战转变为机遇。我们这么说的理由在于:语言是人类的革命性特征,语言智能在人类的所有智能活动中是最能反映人类智能特点的。因此,“大语言模型”(Large Language Model,LLM)几乎成了数智时代的另一个代名词,也就不足为奇了。在一本名为《大数据入门》的书中,提到了有助于构建AI的学科,其中有计算机、数学、医学、心理学、工程和语言学(Sarangi & Sharma,2020:26)。这里引用这本书的目的不是说语言学有多重要,而是想再次强化数据与智能的关系,而这种关系对于传统的语言研究来说是陌生的。事实上,正是这种陌生使主流语言学与这个时代渐行渐远,也就有了“解雇一个语言学家,系统性能会更好一些”的说法,当然,也有诸如“每当你雇用一位受过良好训练的语言学家时,你的树库就会更好一些”等积极的说法。


作为数智时代的语言研究者,听到这两句话,可能需要反思这样一些问题:为什么解雇了我们,系统会更好呢?是我们获得知识的方法不对?还是表征知识的方式有问题?抑或是我们一直关心的问题,可能不是驱动人类语言系统运作的主动力?什么才算是受过良好训练?树库是什么?树库好一些与系统好一些有什么关系呢?


限于篇幅,本文不可能面面俱到地回答以上问题,有兴趣的读者可参考刘海涛(2022)。下面我们从语言研究的角度讨论文本、数据、模式、定律、知识和智能的关系,希望有助于发现数智时代语言研究的切入点。



2




数据→模式→知识
→网络→智能

尽管就人类目前的认知水平而言,很难解释大模型为什么能像人一样来处理需要智能才能解决的问题,但大模型(预训练模型)做事的过程还是清楚的(车万翔等,2021;张奇等,2024)。首先需要使用大量语料来训练语言模型,即机器通过大量学习某种语言的文本,寻求构成文本的基本要素之间的联系和模式,进而形成这种语言的语感以及获得包括语言知识甚至常识在内的多种知识。需要注意的是,机器表征这些知识的形式,并非易于人理解的形式,而是采用了模仿人类大脑神经网络的方法。在预训练过程中,人可以理解的大量文本通过算法被转换为一种我们不再理解的网络形式,尽管人理解不了这种人造的“黑盒子”,预训练形成的语言模型“自身蕴含了丰富的知识,包括语言学知识,如词法(词性、词义)、句法(依存)等;以及事实型知识,如实体关系等”(车万翔等,2021:276)。基于这些语言模型,计算机可以像人一样理解和生成自然语言,像人一样处理需要知识才能完成的任务。

一般来说,最初训练语言模型的语料大多是维基百科等包含人类通用知识的文本,为了让机器具有专业知识,还需要用专业的数据集对通用模型进行微调。这一过程非常类似于人在进入大学前后的训练,即“神经网络有用的一个关键原因:它们以某种方式捕捉了‘类似人类’的做事方式”(沃尔弗拉姆,2023:31)。二者的区别在于,人类训练的是人的天然神经网络,而机器学习改变的是人造神经网络。由于人脑与电脑结构的不同,人类完成这个过程需要的时间更长。从这个意义上讲,目前的大模型只是采用了非传统的方式快速复制了人获得知识的过程。Schrimpf et al.(2021)从神经科学的角度对比了大模型人造神经网络和天然神经网络后得出了类似的结论,二者的这种相似性使得我们可以通过大模型人造神经网络来探究和构拟可控和可操作的大脑模型,进而探究大脑的运作机理以及通用智能的产生机制。

神经科学家可以借助先进的仪器来进行这方面的探究,但对语言学家而言,研究的出发点可能还需要回到自己擅长的文本上来,特别是真实的文本上来,因为文本也是大模型的知识源。然而,说起来容易,做起来难。不要忘记,大模型今天的成功是在“开除”语言学家的基础上取得的。在主流语言学理论失灵和语言学家失语的数智时代,语言学该如何重新出发呢?

我们来看一个具体的例子,下面这两句话来自一本巴斯克语书,有关这两句话的更多内容可以参考刘海涛(2023:164-169)。巴斯克语很古老,老得已经没有“亲戚”了,会讲这种语言的人并不多,好在数智体懂这种语言。我尝试用几种主要的机器翻译系统将这两句话进行翻译,结果如下:

(1)Zergatik hitz egiten da horren gutxi euskaraz?Zergatik hainbat euskaldun ez da euskaraz ia inoiz mintzatzen?
(2) Kial la eŭska estas tiel malmulte parolata?Kial multaj eŭskoj preskaŭ neniam parolas la eŭskan?
(3)为什么巴斯克语很少有人讲?为什么许多巴斯克人几乎从不说巴斯克语?
(4)为什么巴斯克语这么少?为什么这么多巴斯克人几乎从不说巴斯克语?
(5)为什么说白话的人很少,为什么很多白话的人几乎从不说白话?
(6)为什么他发言时支持率较低?为什么这么多支持者不接受媒体采访?

在上列语句中,(1)是巴斯克原文,(2)是世界语译文,接下来(3)(4)(5)(6)是不同的翻译系统给出的汉语译文。从译文的质量来看,世界语译文最好,汉语4种译文的可接受度从上到下递减,最后一种简直错得离谱。从这个简单的例子可得出两点启示:(1)巴斯克语和世界语都是使用人数不多的语言,但二者之间的互译质量不错,这说明训练语料的数量固然重要,但大模型似乎也掌握了一些人类语言的普遍规律,这些规律人每天都在用,但语言学家却可能没意识到;(2)线性文本和网络之间的转换规律、表征知识的网络形态对大模型的智能水平是有影响的。

这两点也许可以打开语言学家进入数智时代的大门:大量的文本能涌现何种可以反映人类语言系统运作的规律?如何通过网络来探究人类语言作为一种人驱复杂适应系统的奥秘?

关于ChatGPT的成功与它可能掌握的规律的关系,沃尔弗拉姆说(2023:83),“它表明我们仍然可以期待能够发现重大的新‘语言法则’,实际上是‘思维法则’。在ChatGPT中……这些法则最多只是隐含的。但是,如果我们能够通过某种方式使这些法则变得明确,那么就有可能以更直接、更高效和更透明的方式做出ChatGPT 所做的那些事情”。如果用(计量)语言学习惯的术语,上述引文中的“法则”(laws) 一般称为“定律”,而从真实文本中发现以齐普夫定律为代表的语言规律原本就是计量语言学的目标(刘海涛,2017)。这样一来,语言研究者的任务就成了从可见的文本中发现人类语言的模式或定律,让这些模式变得更明确,进而使大模型的行为更可解释。而模式或定律能这样做的原因在于,模式是构成人类知识体系的重要组成部分,换言之,模式就是知识,尽管其表现形式我们人类可能还不习惯,但它却是人类大脑日常运作不可缺失的动力源,这一点不难从任博德关于人类知识一书的标题看出:《模式的世界:知识的全球史》(Bod,2022)。据此,我们不难理出数智时代智能生成的链条:数据→模式→知识→网络→智能(刘海涛、隆蝉忆,2024)。这其中语言学家可以大显身手的环节有两个:从语言数据到语言模式;从知识到网络,以及基于网络的智能涌现机制。这两个环节恰好也是Kissinger等人认为的ChatGPT挑战人类认知能力的两个谜团:模式的产生机制,以及知识的存储、提炼与检索。


3




模式、语义和网络


如果模式是生成智能或解释智能行为的要素,那我们可能需理一理有关模式的一些基本问题,如来源、表征形式等。

语言学教材Language Files中有一张我喜欢在“语言学导论”课上常用的“言语交际链”示意图(Dawson & Phelan,2016:8),图中有9个环节:(1)思考想传达的东西;(2)挑选能表达想法的词语;(3)依规则将这些词语按一定的顺序排列起来;(4)找出这些单词的发音;(5)将这些发音送到说者的发音器官;(6)说者发出有关词语的声音;(7)听者听到声音;(8)听者将声音解码为语言;(9)听者接收到说者想传达的思想。


这9个环节,除了(6)(7)之间的音序列,其他环节都是难以进行客观观察的,大多是我们对于语言生成与理解过程的想象和构拟,但遗憾的是,我们很难据此构造出类似人类水平的机器,而没有按照这种方式构建的数(基)智(能)体却有更强的自然语言交互能力。为什么会这样呢?如果将音序列转换为文字,那我们可进行客观研究的对象就变成了线性的文字符号序列。换言之,基于这些音(文字)序列发现的规律可能更接近科学意义上的语言规律。人类语言所具有的这种线条性,是人类生理机制约束的产物,也是索绪尔认为的语言最重要的两大特性之一。但专门研究语言的科学家对可观察的人类语言线性序列所蕴含的规律又知道多少呢?如果考虑到,诸如ChatGPT之类的AI系统就是从这样的序列中习得语言规律,并使用这些规律预测线性语流中接下来会出现的词,进而生成符合人类使用习惯的语言符号序列的,那么,ChatGPT的成功,可能就揭示了一些“在科学上非常重要的东西:人类语言及其背后的思维模式在结构上比我们想象的更简单、更‘符合规律’。ChatGPT已经隐含地发现了这一点”(沃尔弗拉姆,2023:103)。这是否也意味着,现代的语言研究者把语言想得过于复杂了,复杂到了人不好理解,机器更搞不懂的程度。更有可能的是,这种复杂并没有揭示语言系统运作的本质规律。如果是这样,ChatGPT恰巧“发现”的规律长什么样呢?


在谈到ChatGPT如何生成更像自然语言的词时,沃尔弗拉姆(2023:11)说道:“还可以通过强制要求‘词长’的分布与英文中相符来更好地造‘词’。”虽然对于主流语言学而言,词长分布可能是陌生的,但它却一直是计量语言学研究的一个主要方向(Chen et al.,2015;练斐等,2024)。如果词长分布的规律有助于生成更自然的“词”,那句长分布的规律也会有益于生成更自然的句子。基于数十种语言的真实语料,人们发现词长分布符合齐普夫-阿列克谢夫分布规律(Popescu et al.2014:14-86),而句长则更符合扩展正负二项分布(周义凯、刘海涛,2023)。“从这个意义上来讲,学会一门语言,本质上就是掌握一套非常复杂的概率分布。”(陈浪,2024:40)由于这些源于自然语言文本的概率分布反映了以天然神经网络为载体的人类语言系统运作的基本规律,而“语言模型的目标就是建模自然语言的概率分布”(张奇等,2024:1),所以这些数据驱动的语言研究可以提供切实的理论基础,使大模型能够选择更好的参数、构拟更好的人工神经网络,进而使机器学习更有针对性、更有效、更省力。


显然,尽管词长、句长分布规律简单适用,但仅有这些是不够的,我们还需要其他层面的数基规律,如依存距离最小化和依存方向连续统(刘-有向性)等可以反映人类语言系统组织和运作的规律(刘海涛,2022)。这些规律是从人类真实语料中发现的,或者说,大多是人无意识地从语言的使用过程中获得,又在语言的使用中不断完善而形成的,是人类语言系统得以顺畅运行的基础,也是语言智能的反映。既然如此,我们的问题即为,ChatGPT之类的大模型是否掌握了这些规律,换言之,在大模型这个“黑盒子”里,能找到类似的规律吗?如果能找到,这些规律又长什么样呢?


前文说过,语言的线条性很重要,不仅因为它是人的生理机制约束的产物,是语言作为一种人驱系统的体现,更是因为线性字符串几乎是语言研究者唯一可客观观察的对象。索绪尔在《普通语言学教程》中也意识到(1980,0.3 章节),语言是言语的“平均数”,没有一个人的语言是完备的。索绪尔说的这个从言语中产生的抽象的语言“平均数”就是“语感”,也可以说,你的语感或语言是从语言使用中涌现出来的。如果语言是言语的“平均数”,越多的“言语”数据参与到计算过程中,算出来的“平均数”就越接近那个抽象的“语言”,你的语感也就会越好;如果没有一个人的语言是完备的,在“平均数”的计算过程中,有越多人的“言语”参与进来,最终得到的“平均数”(语言)也就越完备。如果再考虑到语言不是一个非黑即白的系统,而是一个灰色的概率系统,没有数据是无法感知到语言的“灰度”的,那么,从大量真实语料中获得线性规律并用这些规律做事的ChatGPT能比它的AI前辈们更智能的原因,也就不难理解了。


回到刚才提及的两个问题:能找到类似的规律吗?如果能找到,这些规律又长什么样呢?这两个问题密切相关,因为人们找不到不知道长什么样子的东西。想要在大模型中找规律,先要搞清楚规律长什么样。尽管规律长什么样可能确定不了,但它不长什么样,还是清楚的。因为在大语言模型中,除了实数还是实数,所以大模型中一定没有我们语言学家习惯的各种东西。这样一来,大模型学到的语言规律就只能是数基规律,此前提到的词长、句长分布规律就是这种规律。除此之外,要找的规律还应是有用的和可理解的。


考虑到所有这些因素,张子豪和刘海涛(2023)研究了词的线性位置分布规律,即词在句子中的线性位置的概率分布。该研究表明,词的线性位置分布在6种语言中存在普遍模式,更重要的是,我们也在大模型的内部发现了这些模式。这可能说明,驱动人类语言系统运作的知识可能并不是或不只是以人类数千年来认为的形式存在的和起作用的。这些从真实语言中发现的、我们原本“不知道自己不知道”的规律,可能有助于人类逐渐打开数智黑箱,有益于在透明的数智玻璃箱中发现语言学家本该知道的东西。在这种情况下,我们也不能由于自己的认知局限,忽视数基大模型在知识获得、表征与处理等方面引发的革命性变化,而简单地说数智体是“高科技剽窃”“随机鹦鹉”等,因为模式和规律也是知识,而且是有用的知识。


如果语言大模型只是基于从语言数据中所发现的模式(规律)生成符合这些模式的文本,我们总觉得缺了一点什么,因为人类语言是脱离不了意义的存在。事实上,“自然语言处理界几十年的发展历史就是与歧义斗争的历史”(刘海涛,2001:25-26)。大模型能取得今天的成就,说明它找到了更好的歧义消解的方法,而这单靠词长、句长分布规律是搞不定的。为什么此前采用语言学家习惯的语义处理方式,计算机解决不好意义问题呢?其根本原因可能在于,语义学家一直采用各种形式化的手段来处理本质上不可分解的“意义”,而大模型抛弃了所有这些用五花八门的概念打造的远离日常语言的空中楼阁,回到了真实的语言,踏上了像人一样处理语言的征程,所以成功了。为什么回到日常语言,基于大量的真实语料,就能更好地把握词语的意义呢?因为按照维特根斯坦的说法,一个词的含义是它在语言中的用法,即意义只能在语言使用中发现,在使用中建构。也可以说,要捕捉一个词的意义,需要构建这个词与其他相关词的关系网络,否则语言学就成了研究“没有人的人类语言”的游戏。这个问题,我们在31年前已有提及(刘海涛,1993)。毫不夸张地讲,大模型能有今天,很大程度上是由于它实现了“用法论”。从文本语料中获得词的用法信息,并将其表征为一个唯一的向量,几乎成了当前计算机处理语义的标准操作(Smith,2020)。我们用这种方法可以得到每个词语的语义值,而且这个值还能随使用的变化而变化,学得越多,对词义的理解也就越透彻,充分体现了语言的概率性和学习的本质。


从真实语料中得到的人类语言线性规律为大模型生成符合人类使用习惯的字符串提供了有用的知识,基于“用法论”的语义处理机制又使大模型有了生成有意义话语的能力,所有这些都被集成在以人造神经网络为核心的电脑之中。如果将这种基于网络的知识处理方式符号化,学习或训练的本质就是增加新的节点,在已有节点间增加新的联结,调整网络中已有节点之间的权重等旨在寻求关系、构造网络的简单操作,而语言生成不外乎是在习得的网络的加持下不断预测线性语流中接下来可能出现的词语的过程。尽管我们对两种神经网络的了解还很有限,尽管神经网络与语言符号网络有这样那样的不同,但人和大模型均是在网络的支撑下运作的这一点是可信的,因此我们需要开展基于网络的各种语言学研究。这一点,其实也可在索绪尔(1980:160)的《普通语言学教程》中找到理据,“语言既是一个系统,它的各项要素都有连带关系,而且其中每项要素的价值都只是因为有其他各项要素同时存在的结果”。按照这个说法,研究语言最适宜的方法可能是网络方法,因为,只有网络才能更好地展现语言系统的要素以及它们之间的联系(Hudson,2007)。在大模型时代,不仅要用网络方法研究人类语言的结构模式和演化规律(陈衡、刘海涛,2023;刘海涛,2022),也要研究大语言模型内部的组织结构(Zheng,2024)。只有这样,才有可能破解大模型之谜,进而加深对知识获得、表征和处理机制的理解,打破数千年来在人类“软件”研究方面一直存在的“获得不足,验证来补”的困局。



4




千年难遇的机会


数基大模型的成功对人类认知提出了挑战。所有与人类“软件”有关的研究者均需要回答这样的问题:为什么用我们能理解的方式,机器做不好?为什么机器能这样做,我们却理解不了?也就是,数据为什么能涌现智能?如果人类不能尽快回答这些问题,不能早日解开数据产生智能的秘密,也许那些科幻作品中的场景很快就会出现,因为大模型具有的一般意义的知识已经超越了任何生物人所能掌握的知识。如果考虑到智能是获得并使用知识解决问题的能力,那么人工智能超越自然智能只是一个时间问题。

人类以“人机智能综合体”的形式运作已有一段时间了,只不过此前我们在“综合体”中扮演了主导角色,而现在机器开始抢角了,所以我们担心,我们害怕,我们不知道未来会怎么样。要想与AI和平共处,要想让AI回归增强人类智力的初心,人类需要更多地了解数基AI。因为没有了解,很难形成实际意义的智能“共同体”。大模型挑战的不是语言学家和认知科学家,也不是某个国家的人,而是整个人类。所有的地球人现在都站在了同一起跑线上,千年一遇的挑战变成了千年难遇的机遇。我们有一篇访谈的最后一句话说:“这是摆在全体中国语言学家面前的紧迫任务,也可能是未来五六十年里,中国语言学唯一一次超越或者引领世界语言学的机会。”(刘海涛、郑国锋,2021:18)这句话也是最适合结束本文的一句话,因为“中国外语”人不仅是生活在这个时代的人,更是数智时代语言研究的生力军。



注释和参考文献(略)。















作者简介:


刘海涛,浙江大学外国语学院教授,博士生导师。研究方向:计量语言学、数字人文、依存语法、语言规划。E-mailhtliu@163.com





---END---


责任编辑|秦彬彬

执行编辑|艾   斌



 点击“阅读原文”,关注中国外语官网。


高教社外语
高等教育出版社秉承“为您而想,为您而在”的教育服务理念,创办“高教社外语”公众订阅号,搭建信息资源平台,致力于推动中国外语教育事业的改革与发展。欢迎广大外语教师、学习者、研究员及专家订阅并持续关注。
 最新文章