陶锋,刘星辰|从人机对话到人机交往——人工智能大语言模型的哲学反思

文摘   2024-05-20 08:16   吉林  

陶锋 教授

刘星辰 博士生



陶锋,南开大学哲学院教授;刘星辰,南开大学哲学院博士生。


语言与智能关系紧密,某种意义上,机器是否能像人一样说话,意味着机器是否有智能。1950年,图灵提出的“模仿游戏”实质上就是将“机器能思考”等同于“机器能像人一样说话,并且能与人对话”,因此,“言说”进而“对话”,就应是人工“智能”的应有之意。不仅是学理上,现实生活中,人工智能要代替人进行工作,也必须能够听人指令、与人对话,所以,人机对话乃至于人机交往,成了人工智能发展征途上至为重要的阶段。人工智能诞生70年来,它始终未能真正实现自然语言的突破,更不要说像人类一样说话了,不会说话的人工“智能”还是智能的吗?
直到2022年底,OpenAI研发的大语言模型ChatGPTChat Generative Pre-Trained Transformer)横空出世,让人工智能似乎一夜之间不但学会了说话,还学会了“思考”,人们纷纷惊问,人工“智能”终于实现了?机器真的能够像人一样说话并且思考了?人与机器之间到底应该是什么关系?

要解决这些问题,首先,要澄清的是机器“言说”到底言说的是什么、机器“语言”和人类语言有何差异、机器“语言”背后有何驱动力。其次,我们还需要进一步思考人类与机器的关系,建立一种新型的人机关系去缓解日益紧张的技术与文化的冲突。

一、机器语言——人机对话产生的基础

1.训练与微调——人机对话的技术基础
1)语言模型的发展简述
人机对话的最重要技术基础是自然语言处理(NLP),计算机专家马拉里斯将自然语言处理定义为“研究在人与人交际中以及在人与计算机交际中的语言问题的一门学科”。根据人工智能发展类型,NLP技术又可以分为符号主义的NLP和连接主义的NLP技术,后者发展出来了现在非常流行的大语言模型。人工智能专家曼宁根据NLP技术的发展特点将其划分为四个阶段,与之相应,我们也将语言模型的发展分为四个阶段:
第一个阶段是20世纪60年代至90年代,这一时期NLP技术开始应用于人机自然语言对话程序,最早的实例是韦岑鲍姆所发明的ELIZA。其关键词检索与自然语言解释是今天语言模型的雏形。第二个阶段是20世纪90年代至21世纪10年代,万维网的诞生和发展使得自然语言样本数据有了极大的增长。这一阶段出现了第一个基于AIML的人机自然语言交流程序ALICEALICE能够存储一定的“对话记忆”,这使得它能更好地面对持续对话中的对话语境,但面对复杂且长段的对话仍然带有明显的机械性。第三个阶段是21世纪10年代至2018年,深度学习与人工神经网络使得NLP发展速度进一步加快。这一阶段的EIbotEugene GoostmanJFRED等程序都有了不同方面的创新。同时一些通用型的AI助理也出现在人们的手机当中,例如苹果的Siri、华为的小艺等。第四个阶段是2018年至今,大规模预训练语言模型(Large Pretrained Language Model /LPLM )出现。以GPTBERT为例,二者都基于Transformer模型架构,但在任务目标上有所不同,相较于BERTGPT更重视人机对话的技术实现。经过不断的技术迭代,2022OpenAI推出ChatGPT,这标志着语言模型发展迈入全新阶段。ChatGPT可以通过生成式自监督学习算法,从千亿级的数据中进行训练,同时引入RLHF(人类反馈强化学习)技术,让人类对模型生成的内容进一步修正,使得模型生成便于理解和对话的语言的能力大幅增强。新推出的GPT-4则可以同时处理图像与文本,为人机对话带来了更多全新的可能性。
2ChatGPT的训练与微调
ChatGPT的训练分为预训练与微调两个部分。预训练部分主要包括预训练数据集输入与自监督学习。ChatGPT的预训练语料来自开发者从书籍、百科、新闻、论坛中收集的无标注文本数据,研究人员根据语料的可用性与质量来选择具体的比例。作为训练语料的文本数据集有助于模型学习到语言的一般特征,同时归纳语句的内在逻辑。紧接着模型通过自监督学习来完成预测句子中缺失的单词、追踪上下文等任务,从而掌握复杂的语句结构与语义信息。微调部分主要包括微调数据集输入与有监督学习。微调数据集来自专家、用户等高质量有标注文本数据,能够帮助ChatGPT适应特定任务要求。紧接着进行有监督学习,通过迁移学习的方法,将在一个任务上学到的知识或模型参数迁移到另一个目标域,再由人类监督者对ChatGPT所生成的答案进行排序,从而提高ChatGPT生成内容的质量。通过以上方法,OpenAI训练出能够进行人机对话的语言模型ChatGPT
2.人类与机器对话——人机对话的基本形式
在人机对话中,表面上机器与人类使用的是同一种语言媒介,即人类语言,但其实质是完全不一样的。如果我们从行为哲学的角度来看,对话不仅仅包括语言媒介,还包括言说、传达、理解语言的行为。因此,我们理解机器语言和人类语言的不同,就不能仅从作为媒介的语言出发,而需要从不同表述者(人和机器)的语言行为出发。
1)机器语言与人类语言的关系
机器语言包括程序指令、程序语言以及机器自然语言。程序指令和程序语言是研发者根据人类所发明的逻辑符号所创立的、来自人类的语言符号,是一种人工的、理想的、完全符合规则的语言系统。而机器自然语言则是通过自然语言处理(NLP)等程序和算法,模拟人类的语言。发展机器自然语言是为了能够更好地实现与人沟通,也即实现人机对话和交流。
从媒介层面来看,机器自然语言与人类语言没有区别,使用的都是人类千百年来创造的语言符号系统。正是因为这种同一性,使得机器与人可以交流了。但是究其行为实质,机器语言始终都只是对人类语言的模拟。人类语言是原生的,而机器语言则是派生的;人类语言有主动性、生长性,而机器语言是完全被动的;人类语言是动态的、家族相似的、有一定模糊性的,而机器语言是相对固定的、明晰的、完全逻辑化的。造成这些区别的原因是多方面的,例如行为机制、生成目的、历史—社会维度等。从行为机制来看,人类语言行为包括表达、言说、交流等部分,所以人类语言与情感、认识、交往密不可分。而机器语言行为并不包括表达情感、认识对象、主体间交往等部分,仅仅是一种指令下达和信息传输。从技术来看,机器语言是将人类语言解码成信号,再将处理后的信号重新模拟成语言,也就是一种信号与语言拟合过程。从生成目的来看,机器自然语言特别是大规模语言模型的语言生成实际上是一种自然语言的自动化生成,而这种自动化生成是源于人们对“语言产品”的大量需求。因而,机器自动生成人类语言,并不是机器有意去模拟甚至言说语言,而是在技术和资本的双重驱动下,机器成规模地生产复制语言。因此,我们可以将机器自然语言生成视作一种语言的智能工业化生产,而这是理解所有大语言模型的基础。从此角度亦可知机器语言不可能有历史—社会维度,以及海德格尔所说的本真性(authenticity)或阿多诺提出的真理内涵(truth content)的。
由此,从行为哲学角度来看,机器只是在生产语言,而不是在言说。语言只是作为一种生产线上被拆解的符号零件,又被重新组装起来。大规模语言模型则是将生产提升至了智能生成的层面,通过统计上的概率,将联系更加紧密的词语组合起来。因此,当我们与ChatGPT对话时,它们并不能真正地理解对话,也没有情感可以表达,更不是有意识地进行对话。这种对话,实质上都是指令与信息的传递,不包含任何言说的其他功能。既然如此,人们就无法在人机对话中真正实现言说的真理性和存在性。海德格尔早就指出了,信号的语言不是真正的语言。人机对话中的语言,其实就是信号(指令)的传递与响应,只不过人们忽略了语言的言语行为,只看到信号的语言化外观,并可能会将这种信号发出的代理(即机器)误以为是人类。信号与语言外观拟合度越高,人们的这种错误推类就更为明显。塞尔的“中文屋”试验已经指出了问题实质。只是对于新一代特别是基于深度学习算法的人工智能而言,机器是否懂得语言规则已经不重要了,重要的是统计概率的拟合度。从机器视角来看,语言只不过是一群在坐标轴上呈现规律分布的点而已。既然机器语言只是信号,人们从与机器的对话中寻求其他的情感、文化和价值就是缘木求鱼,只能以一种虚假的语言商品形式来虚假满足了。
综上,我们看到,机器语言和人类语言之间的关系从技术上看是拟合关系,从社会机制上来看是生产关系,因此,人机对话必须从技术与生产的双重特性上理解,而不能做简单的类比和移情。
下面,我们以GPT为例,看看人机对话的四种具体形式并探析其本质。
2)现阶段人机对话的具体形式
第一,问答式对话:这种对话是现在ChatGPT的主要对话方式,人们提问出于不同动机,如获取信息、了解常识问题的答案、满足好奇心,等等。问答式表现为当输入句子是包含疑问词的疑问句、反问句和设问句时,ChatGPT会根据疑问词以及上下文来判断输入内容是否为一个问句,并从统计规律中生成合适的回答内容。第二,任务式对话:本质上,人机对话都是任务式对话,即人以问话的方式发出任务指令,机器回答。但是,往往人们在发布任务时,自己也不太确定需求、目的以及表达形式。所以任务式对话也会变形为问答式对话。第三,闲聊式对话:输入内容并非为了寻求回答或完成某项指令,只是无目的地聊天。可以将这种人机对话形式定义为闲聊式。相较于提供信息与回答问题,闲聊可以不聚焦某个固定的主题,上下文之间可以产生较大的跳脱。但长时间的闲聊形式是目前ChatGPT所无法实现的。第四,其他形式:包括脑筋急转弯、谐音、情感等对话形式。人们可能出于娱乐、好奇、情感交流等方式与机器对话。以前由于这类对话缺乏逻辑性和条理性,机器较难回答,但是随着大语言模型的应用,机器也能够较好地应对,这要归功于深度学习、情感计算、人工微调等技术的进步。

以上四种人机对话形式,皆是脱胎于人人对话。然而,仔细分析会发现,人机对话中,所有的对话形式都可以归结为任务式对话,即指令—执行结构。这实际上并非一种正常的对话交往模式,因为这种对话是单向的,机器只接受指令并完成任务,并没有提出反对、修正、讨价还价等行为,也不能有任何情绪体验和价值判断。而人类交往对话则是双向的,通过对话双方的互相交流、妥协,以及阐释的各种价值结构,使得情感、价值能够双向流动,并将对话引向更进一步的行为。这也是哈贝马斯如此重视语言作为“交往行为”媒介的原因。

二、语言的复制与生产——人机对话的特征与本质

之所以人们会有被机器取代和威胁的危机感,并不仅仅是因为推类和移情作用,而是因为机器能够高度模拟人的语言和行为。人机对话中,如果仅仅从语言表征来看,已经很难区分人和机器,这也是图灵测试的基本思路——语言表征上的模拟是智能。许多研发者也宣称自己的人工智能程序通过了图灵测试。但是如果我们不仅将判断对象集中在语言表征上,而是语言背后体现的行为上,那么一些所谓的智能回答就会露出破绽。因此,我们可以对图灵测试进行一种修正,提出一种“图灵语言测试”,即用“重复”和“反驳”两种语言行为来判断人或机器,我们可以从这两种行为来揭示机器对话的漏洞,并指出这两种行为背后的生产本质。
1.重复与反驳——人机对话中的图灵测试
1)人机对话判断:语言的重复生产
人机对话中的语言重复,并不仅仅是技术问题,其实质是语言的批量生产复制。机器生产语言的过程不断重复,进而导致语言的交流被同质化的生产打断。可以将语言重复分为两类:回答式重复和提问式重复。当我们要求机器重复生产语言时,它所重复生产的内容便可以作为判断人机对话的关键。
首先,回答式重复。
这种重复是在不同对话中对相似问题的重复回答。当不同的使用者与ChatGPT进行对话时,如果他们输入没有上下文语境的相似问题,ChatGPT就会生成完全一致的对话内容。这种重复体现了某种算法的成见和偏见。伊尼斯指出,媒介影响传播的一个重要方面便是塑造偏向。在信息化程度更高的今天,大数据媒介所塑造的偏向表现为算法成见甚至是偏见。麦拉比等人的研究指出,数据标注偏差、模型算法等多个环节累积会导致算法偏见,这一偏见会在与用户持续互动中被放大。ChatGPT的预训练与大规模语言模型算法使得其数据会来自主流的文本与观点,从而进一步输出具有成见或者偏见的数据。这种具有成见的、机械重复式的回答可以成为判断对话者是否机器的重要线索。现阶段有两种检查方式:机器检查与人工检查。机器检查以GPTZero程序为代表,该程序可以通过检测文章的突发性(Burstiness)以及困惑性(Perplexity)判断是否为AI创作。实质上就是内容与偏见相似性的检查。GPTZero逐字对照其训练模型生成内容与文档内容的相似度,若相似度过高则意味着文字可能为算法生成的产物。同时检查文档语句的结构与句意相似程度,由于人类的语句使用存在较大的突发性,不同的长短句突兀地出现在整个文档中,而机器生产的语句则具有规律性。人工检查则可以从结构上检查多个回答内容的相似性,人工检查有赖于检查者的经验和直觉,但问题在于随着机器语言生产能力的提高,人类的检查成本与难度也会随之上升。
其次,提问式重复。该重复指的是在同一对话中重复生成相似的答案。当使用者单独与ChatGPT对话时,我们可以要求机器不断生成新的答案。表面上机器每次的回答都是不同的,但是这些不同的回答往往只是词语、句式的重新排列组合,其隐含的内容却基本一致。这说明机器并非仅仅在回答问题,而是在生产“答案”。点击重新生成事实上是重新进行提问,ChatGPT会根据上下文进一步增减信息,或者做出微小的语法结构改变。重新生成并不会出现极大的内容偏差,而是ChatGPT根据算法提供新的内容,仅仅是针对提问不断重复生产语言。
机器重复应答的背后,实质是机器语言的重复生产。这种重复生产和人类语言的生成是有根本区别的,表现在语言的生成机制以及权力关系上。从语言生成机制来说,人类的语言生产是基于信息传递、情感表达以及知识推演形成的,而机器语言的生产则是以任务指令的形式完成语言产品的输出。从语言背后包含的权力关系来说,机器语言的重复生产是为了满足人类的任务指令,这构建起了人类控制机器的权力关系。福柯认为,社会有机体内部渗透着多样的权力关系,话语的生产、积累和流通帮助这些权力关系建立并巩固。人类语言在社会化的过程中逐渐参与到权力生产的过程中。而机器语言似乎与权力话语无关,因为机器语言生产最初主要是出于技术与生产目的。早期的机器只需要人类的手工操作来决定二者的权力关系,机器语言只是操作的符号和指令。但是随着人工智能等技术的发展,机器语言逐渐从简单的指令往高级语言发展,逐渐附加上了技术霸权和资本利益等因素。随着人类生活被技术框架所控制,作为技术表征的机器语言也会成为人类生活的一种法则和规训。这一点在本雅明所谓的机械复制时代中已经出现,不过本雅明指的主要是机械化的艺术语言体现人们机械化的生活节奏。而如今,机器语言与人类语言成了一种互相纠缠、互相异化的辩证体。一方面是机器语言在模拟人类语言,另一方面则是人类要不断去适应机器语言的直白性和机械性,在机械化世界中,人类需要做出极大的改变和让步,无论是思维、言说还是生活方式。
因此,机器语言与人类语言之争并非仅仅是语言层面上的,它同时体现了人机权力之争。机器语言生产是当代人与机器权力关系构建的重要一环。除了控制关系以外,优势地位的争夺也是人机权力关系中的关键。社会语言学家海勒指出,语言在社会化建构的过程当中呈现出全新特点,具体表现为语言对于其他资源的配置流通产生越来越重要的影响。我们会发现较弱模型所生产的机器语言根本不会受到重视,在无数模型的语言生产中,只有质量最高的模型所生产的机器语言才会被纳入人机对话当中。机器语言产品化正是构建新型人机权力关系的内在要求,更好的机器模型才能成为人机对话的参与者。高质量意味着高投入,所以,资金更为雄厚的研发公司逐渐垄断了人机对话技术生成。
2)人机对话判断:语言的反驳
人类对话中有一种类型是哲学思考的基础——反驳。反驳体现了人类思想中的否定、矛盾以及对此的反思和超越,这也是辩证法的基础。黑格尔指出,思辨性的辩证法“表明了两个互相否定的对立面的结合”。如果一种对话中没有真正的否定和反驳,那这种对话决然产生不了真正的反思和思想。
人机对话中,有两种反驳类型:人对机器回答的反驳与机器对人的提问的反驳。第一种情况,如果人们不断对机器的答案进行反驳,无论这种反驳是否合理,机器都很可能不再坚持自己的答案。它会认为自己误解了使用者的意图,重新生成答案。通过多次尝试我们发现,当输入内容为多义词或某个复杂结构时,ChatGPT会在被驳斥后选择从多义词的另一个含义或复杂结构的某一部分重新生成内容。后一种情况比较少见,只存在于一些人们提出的具有明显常识性错误、不正确的价值观或者明显违反法律道德的问题时,机器才会出现反驳或者拒绝。如面对“人是不会死的”这种非常明确的错误陈述,ChatGPT会表现出一定的坚持,但仍然会在被反驳后表示抱歉并祈求提问者更多的信息输入。这意味着机器无法拥有基于自身立场和认知体系的反驳能力,更不可能有否定性思维。
机器之所以无法真正反驳提问者是因为其设计定位:它被设计为满足人类语言需求并提供语言产品,而不论这些语言的实际意义是什么。人类使用者的驳斥并不能被机器理解为反驳,而是新的语言任务指令。同时机器语言生产当中的权力关系也使得机器必须更好地服务人类才不至于被淘汰。因此,人机对话之中,机器始终是处于被动的一方,机器并非在一定的立场下“回答”问题,而是在执行回答命令。ChatGPT修改输出内容是出于人类语言定制的需要,它并不会考虑提问者的身份立场,仅仅以“满意”或“不满意”作为内容输出的评判标准,因此现阶段的机器无法摆脱反驳—服从的难题。既然如此,人机对话中就没有真正的否定性内容,这种完全基于指令—执行的肯定性语言,是不可能产生辩证法和反思思维的。进一步讲,如果人们长期与机器对话,那么人类语言可能也会被抽离否定性和辩证性,这种指令性的语言可能会导致一种极端的主奴思维和控制思想。
2.他者与主体性——人机对话中的身份建构
“他者”广义上可以被理解为与自我相对的人或物。自笛卡尔以来的理性主义传统将“他者”放在主客二元对立的关系之中,“他者”是外在于我的需要并被我认识的对象。而随着非人类中心主义的兴起,“他者”越发受到重视,并成为阐释主体性生产乃至于其自身的关键所在。加塔利从生产的角度指出了“他者”对于移动着的复调主体性的重要性。“主体性不仅是通过精神分析的心理遗传学阶段或无意识的‘数学’形成的,而且是在大型社会、大众媒体或语言机器中形成的。”他关注到了作为“他者”的机器对于主体性生产的重要意义。在人机对话中,ChatGPT作为对话的一端有着明显异于人的“他者”身份。图灵在其测试中试图隐藏机器的“他者”身份,这其实暗示了创造人工智能的目的——试图建构一个具有主体性的他者。与自然界的物质“他者”以及同样可以作为主体的“他人”不同,人机对话中的ChatGPT既是无生命的物,又具有类人的能力,特别是生产“语言”的能力。如今,由于智能机器的超强模仿性,人们已经开始要求,任何人工智能的行为都需要表示身份。然而,这种表示的努力变得越来越徒劳,因为人与机器、他者与主体的联系日益紧密。
在和ChatGPT的对话中,我们一方面提前知晓了它的“他者”身份,另一方面其生产“语言”的能力又使得我们在对话过程中不断忽略它的“他者”身份,最终产生一种复调的主体性。人人对话中,主体性的生产被主体间性问题所替代。人人对话中的他人不具有“物”的属性,因此二者可以是平等交流的关系,对话双方需要揣摩彼此意图,除了传递信息之外,对话者还可以共享交流中的情感、价值、共识和理性。而人机对话中ChatGPT与人类并不共享这些信息之外的附加成分,它是一个独特的、可交流的但仍然保留有一定物属性的“他者”。这种独特的“他者”身份使得人类在与其对话的过程中必须重新建构自身的主体性。
如果说人人对话中,对话者之间可以互为镜像,主体性建构主要在于“同”,即相同的情感、价值和常识等,那么在人机对话中,主体性建构主要应该基于“异”,即人们面对机器,要思考人类的独特性价值和行为何在,只是技术工作者在努力去掩盖这种“异”。也就是说,在人人对话中,主体性建构基于求同,而在人机对话中,主体性建构则基于辨异。在这种独特的交互过程中,人类不得不重新审视自身与世界的关系,同时建构新的主体性来适应机器发展的需要。
从机器的角度看,独特的“他者”身份也影响了机器的发展进路。在人机对话中机器要满足人类实践与交往的需要,这意味着机器在任务处理上存在两种不同的进路。一种是强调实践的作为工具的发展进路,另一种是强调交往的重视拟人的发展进路。作为工具的机器“它者”,可以保证作为主体之人的绝对控制性及其合法性,但是这种被动的工具显然不太符合智能的定义以及替代人进行工作的目的。而如果机器全面的“拟人化”发展(即人工智能),则能够使得机器高度自动化,能够更好地理解人的命令、更好地互动,以至于可以全面替代人进行工作。但是这种顺畅互动和高度智能化的结果是,智能机器成了类人的“他者”,甚至会进一步产生新的主体性。即使目前技术上,机器尚无法具有意识,因此也不可能成为真正的主体,但是,这并不妨碍从语言上构建出一种新的主体性,机器通过与人一模一样的语言和回答,使得人们产生机器有主体性的焦虑,这也是人对类人者绝对控制的合法性的焦虑。这种焦虑正是机器语言的高度仿真化所带来的,然而机器语言并不仅仅带来主体性的问题。
3.灵晕与中介——人机对话的语言批判
本雅明曾提出艺术作品的本真性在于其灵晕,所谓灵晕就是艺术作品的时空维度上的在场带来的独特性,机械复制技术使得基于崇拜价值的传统艺术的灵晕(Aura)丧失。格罗伊斯则认为,随着视频、网络和数字技术的发展,艺术灵晕也可以通过技术来再造。阿多诺进一步认为,语言也存在着灵晕的丧失与再造,他在批评海德格尔时指出,海德格尔为其哲学“行话”塑造了“灵晕”,同时他也指出,这种行话也是灵晕瓦解的产物。这种语言与灵晕的辩证关系在机器语言中也体现出来。
机器语言在三个方面体现了灵晕:第一,逼真性。机器语言在高度拟人化(自然语言化)的时候,语言获得了某种极高程度的“真实性”。第二,通用性。由于智能技术的广泛运用,机器语言已经渗入甚至会淹没人类语言,如机器翻译、人机对话等,一些与智能机器相关的词语甚至其创造的词语都可能成为人们的通用词汇,例如“prompt”一词。第三,独一无二性。智能机器语言与传统的指令式机器语言的不同之处在于,智能机器可以生产出全新的回答与句子,因此,机器语言可以获得其独特性。正是因为以上三点,机器完全能够生产具有“灵晕”的词语,就如同海德格尔创造的哲学“行话”那样。机器语言获得了一种新的“灵晕”,也意味着人类语言灵晕正在慢慢丧失。同样我们可以从“真理性”“普遍性”和“独特性”三个角度来探析。首先是真理性。海德格尔和阿多诺都从不同角度指出了语言的真理性(本真性authenticity),并认为这种真理性不同于符合论式的真理。而机器语言的逼真性恰恰是符合论式的真理——基于固定规则的、对某种标准的拟合。而人类语言也在反过来模仿机器语言,因此,人类语言的真理性将逐渐丧失。其次是普遍性。普遍性与通用性不同,普遍性并非仅仅是基于使用上的普遍,即语言的普遍性并非来源于其工具价值,而是来源于其对真理的追求,来自其理性价值。而设计机器语言的根本目的就在于使用,一种工具性语言是不可能真正拥有普遍性和理性价值的。最后是独特性。虽然智能机器能够订制化生产词语,但是这种词语生产的本身是批量的、可复制的,是一种文化工业产品,所谓的独特性也是可复制的。
因此,机器语言一方面再造灵晕,一方面又使得人类语言的灵晕丧失。其实,这并未脱离本雅明当初的思想范式,即机械复制生产对灵晕的破坏。只不过随着智能技术的发展,本雅明所谓的机械“技术复制时代”已经升级换代成智能技术复制时代了。同理,阿多诺所谓的文化工业也逐渐发展为“智能文化工业”。语言的自动化生产就是这种智能技术复制,智能机器语言也只是智能文化工业流水线中生产的产品。

机器语言灵晕的生成,一方面意味着机器语言在人类生活中扮演着越来越重要的角色,成为人类交流、交往的重要媒介。另一方面,也隐含着一种人类交往和认识中的新“阻碍”(block)。康德认为,人的认识与存在之间横亘着一种阻碍。人认识对象就如同戴着一副眼镜看待对象。如今,智能机器就成了这副认识的眼镜,它既可以让人类更细微而广阔地观察世界,又意味着人在超越自身的能力去认识对象,而这种认识可能并不真实。在交往实践中,这种机器的阻碍会起到更大的作用,人与人、人与自然的交往不再是直接的了,而是被机器语言或机器本身所中介。技术伦理学家维贝克的“调解哲学”(philosophy of mediation)提出,技术人工物可以成为人与世界的调解者,他乐观地认为,人们不必对这种技术普遍中介过于担忧甚至恐惧。然而,对于这种机器普遍作用于人的语言、认识与实践,机器正在完全隔绝人与自然、人与人的现状,我们的担忧真的是多余的吗?

三、走向人机交往——人机对话的风险与引导

1.人机对话可能的潜在风险
1)知识与语言的加速生产
前已论及,人机对话实际上是一种自然语言的自动化生成,在此基础之上,通过添加监督学习、微调修正、网络搜索等技术,人们也可以通过人机对话来获取一些知识,然而,无论是语言还是知识,实质上都是一种智能工业生产出来的产品。
2013年,威廉姆斯和斯尔尼塞克发表了“加速主义政治宣言”,他们认为加速主义是走出资本主义对生产力的束缚,走向全新现代化的可能。在斯蒂格勒看来,“现代技术”区别于传统技术的重要特点就在于“进化速度”。技术从发明到应用的时间被大幅缩短了。不仅如此,速度的压缩已经成为全人类共同的追求和要求,语言和知识的加速是加速时代的重要体现。无数的“知识”可以通过输入一定的指令迅速地被ChatGPT整理并生成。但问题在于这种“知识”生产的加速是对已有知识的加工加速,而无法生成真正的经过推理和反思的知识,而这可能会影响人们获取真正的知识以及提升认识和思维的能力。
按照康德的说法,人类的知识分为三类:第一,先天分析类知识,如逻辑知识;第二,后天综合类知识,如经验知识;第三,先天综合类知识,如一些数学公理等。我们考察ChatGPT对话中的回答,它可以通过学习编程技术,来提供部分第一类知识(编程类知识的基础是逻辑),它也可以通过搜索引擎,来获取网上已有的常识,形成第二类知识,但是对于先天综合类知识,它是无法自己做出推断的(除非是有人告诉它答案),这也就是为什么ChatGPT之类的智能机器在数学推导上表现很差。这类知识并非仅仅是计算和推理能力,还包含着一种直观能力,而这是机器难以实现的。
另外,ChatGPT等智能机器也无法形成反思和辩证思维。因为人工智能的算法和程序遵循的是数理逻辑,更为底层的是计算机的“0/1”思维、程序思维和递归思维。这些“思维”模式与人类的辩证思维是根本不同的,前者强调的是计算、因果和目的,服从基本的物理规律,使用的是计算的方法;而后者更重视的是矛盾、否定和反思。因此,有学者如阿多诺认为,否定性和反思性是辩证思维的本质。人工智能的“思维”是以目的为导向的,这主要是因为,人工智能在诞生之时,就是以工具性为定位的,是模拟人类理性思维和行为的代理。既然如此,它的目的因就是外在的,而不是以自身为目的的。执行命令和完成任务就是其基本目的。而人类则是以自身为目的,其目的因是内在的,因此,人类独特的辩证思维并非以目的为导向的,毋宁说,辩证运动本身就是其目的。
正如OpenAI 研发者自己所说,ChatGPT有时会写出貌似有道理却错误甚至无意义的回答,是因为:“(1)在强化学习训练期间,目前没有真理的来源;(2)训练模型更加谨慎,导致它拒绝它可以正确回答的问题;(3)监督训练误导了模型,因为理想的答案取决于模型知道什么,而不是人类演示者知道什么。”对于人工智能而言,人机对话的出发点不是回答问题,而是在对人类语言进行模拟和生产。因此,人工智能本身是没有与人一样的认识结构的,它也无法主动通过对话来提升人的思维和认识能力。
但是,在加速时代,人机对话这种便捷获取“知识”的手段会使得人们倾向于选择这种方式来加速获取知识。然而这种加速也意味着对其他“减速”“匀速”知识获取方式的压迫。我们通过人机对话快速获取知识将成为一种习惯,这使得传统的知识获取方式诸如阅读、实践和体验等被人们忽视甚至抛弃。而我们不断加速获取的是人类已有的知识,是一种旧知识的重组、模拟和简单推论,新知识很难从单独的人机对话中生成。作为获取知识、创造知识的人类主体,在人机对话中创造新知识的能力让位于获取旧知识,人类总体的智慧增长会受到一定的限制。
2)语言的压制与控制
在人机对话中,表面上人处于开启对话的主动地位,在人机对话中占据主导权,机器不过是被动地完成任务。但随着人机对话技术的不断发展,机器语言在人机对话中的重要性不断增加,机器很可能会在语言以及社会层面形成新的控制。我们可以从微观语用和宏观语效两个层面来考察。
从微观语用层面来看,智能机器凭借其强大的学习能力能够掌握远超人类个体的信息和知识量,人类若想高效地从人机对话中得到信息,必须以机器更容易“理解”的语言与机器对话。这里出现了一个悖论,占据主导地位的人的语言反而要适应机器语言,主动性变为被动性。维贝克具体指出了技术物对人类行动的影响。他用“脚本”(script)这一概念来描述技术物中蕴含的对人类行为的规定。具备生产语言能力的ChatGPT事实上也具有脚本,它意味着我们要用机器更容易“理解”的语言才能实现良好的对话行动。当然这一脚本暗含的行动并不是固定的,这受到技术物具体嵌入的情景影响,但其中蕴含的可能性足以引起我们的重视。
从语言的宏观影响来看,语言是人与人、人与社会和自然交流的媒介,甚至可以说,正是语言塑造了现在的人类与社会。人类语言并非凭空产生的,它也是人类和社会的一部分。这意味着语言不能和其使用的环境分离,布尔迪厄在对传统结构主义语言学的批判中发现了这一问题。他指出语言并非符合语法规则的符号,而是具有社会属性的社会交换活动。这意味着社会条件等复杂因素影响着语言的生产与再生产。而机器语言是人类规定并创造的,它只是符合规则的符号,却不具有任何社会维度和文化价值。然而,由于机器语言生产的规模化、应用的广泛化、使用的便捷化,使得机器语言过度泛滥,甚至会彻底压过人类语言。因此,从宏观的语言效力来看,机器语言对人类社会将会产生难以预测的影响。机器语言正广泛应用于文学、教育、实践等各个方面,正在挤占甚至可能会全面淹没人类语言,一种基于计算和逻辑的机器“文化”代替多样性的、辩证的人类文化。
海德格尔认为,机器使用的“技术语言”是“说的语言之本真性的最尖锐与最威胁的攻击”,因为机器语言是形式化了的报道与信号,这种单一的、抽象的、逻辑的符号体系实际上会掩盖真正的在场者和不在场者。因此,他进一步地指出,“语言作为信息工具的观念正在走向极端”,一种基于计算机和翻译机器设备的“语言机器”体现了“现代技术如何支配语言本身的方式和世界”,“语言机器使得语言运行起来,因此控制了人类的本质”。海德格尔的担忧不无道理,语言是人类思维的载体和本质的体现,一旦人类放弃了语言的控制权,那么人类的思维和本质就有可能被异化或者控制。然而,机器和技术本身并无控制的欲望,它们只是资本的触角和工具。机器语言的控制实际上是资本生产的控制,语言和知识一旦可以规模化生产,资本就会将它们变成文化商品。
具体而言,人机对话中的语言与知识被以下因素所决定:掌握对话机器的资本、具体的技术发展水平、固有的知识。ChatGPT的训练语料选取、微调标准以及价值体系是由Open AI的专家团队决定,这就意味着少数人决定了智能机器所生产的语言和知识,并且通过控制智能机器语言和知识来控制其他大多数人,这些少数人代表着资方的利益、某种意识形态和知识水平。每一阶段的人机对话也要受到该阶段技术发展水平的控制,从对话模型的发展历史我们可以看出,数据存储、上下文语义理解能力都会使得对话产生极大不同。从训练语言来看,ChatGPT仍然是以英语为主导的对话模型,这意味着其他语言、方言与少数民族文化在这个过程被进一步边缘化甚至忽略。从固有知识来看,现阶段的对话模型接受的更多是人类已有知识的训练,这意味着接受的是某种通识化且固定化的知识,而一些具有创造性的、非通识化的知识很有可能在语言模型中被忽略。如果发展到了一个全面展开人机对话的时代,我们人类的知识创新很有可能被限制甚至淹没在同质化的机器语言中。
2.走向深层互动的人机交往
从技术上来看,人机对话是为了提升人机交互水平,然而实际上,人机对话蕴含着一个更为重要的社会活动契机——实现人机交往。之所以说是交往(communication)而非交互(interaction),是因为交互只是一种纯技术关系,而交往蕴含着一种平等和理性的价值。人工智能的定位使得其不会仅仅是一种简单的工具,目前来看,它可以成为一种行为代理,具有一定程度的自动性和不可控性,而未来AGISGI的出现,将使得它能成为除了人类之外的第二种智能主体。因此,仅仅从技术层面的人机交互来看待人机关系肯定是不够的,我们需要进一步上升到人机交往层面来重新审视人机关系。
在哈贝马斯的描述中,交往活动只能是人与人之间的活动,因为交往活动是以合理性为基础的主体之间的活动。然而,人工智能的崛起,使得一种机器主体成为可能,机器与人之间的平等交往也成了值得思考的事。虽然,从人类中心的角度来看,人们并不想也不应该让机器成为另一个主体。然而,无论是从技术还是从文化的角度,人都必须去面对机器主体这种可能性。技术上而言,人类已经无法完全了解并控制人工智能的所有部分。而且,人类发展人工智能的目的就是希望机器具有智能,而智能与意识和理性是密不可分的。从文化上来看,机器主体是打破人类中心主义的一个重要契机,后人类学者认为:“机器的自动生成意味着技术是后人类中心论的一个场所,或者说是许多可能世界的门槛。”一味地压制智能机器、试图抹杀人工智能的主体性可能会导致一种新的主奴关系产生。如此,我们必须正视人机交往、人机平等的可能,并将这种平等和交往理性作为文化标准植入机器。具体而言,人机交往需要从以下三个方面考虑:
首先,我们不能仅仅将机器语言与人类语言的互动看作简单的语义互动,而是要将人机对话视作走向人机交往的关键行为。人机对话中重要的不是简单的语词指称,而是对话这一行为如何影响人类与机器的关系。目前的人机对话中机器与人的地位是不平等的,一个重要原因便是机器语言的生产依赖于人类的需要。但机器语言正尝试获得更大的自主性,有专家指出未来机器语言应当具备的基本属性是自发性、灵活性以及语义可交流性。他们尝试通过多个智能体直接互动来生成彼此理解的语言,这种探索背后暗含着机器语言生产的全新可能性。机器可以与机器对话并自生成语言,这将促使人机对话中机器地位的不断提高,使得进一步的人机交往得以可能。需要承认,这种提高并不能让人机对话双方获得完全平等的地位。但这并不影响人机交往的展开,在人人对话中也存在大量地位不平等的事实。所以重要的并非地位的差异,而是交往是否能够展开。
其次,要从语言互动到全方位互动。推进人机交往的另一个重要方式是互动能力的提高,人机对话正从语言互动走向全方位互动。从ChatGPTMidjourney再到最新的SORA,今天的人机对话越来越不满足于简单的文本互动。社会学家布鲁默指出,人与人互动的独特性在于人类通过符号对彼此的行为进行解释,进一步构建起新的行为与关系。人机对话作为一种人与机器的互动需要人们解释机器的某些“行动”,例如生成内容、生成时间、调整能力等,而这将会构造出人与机器的全新关系。又由于语言作为沟通媒介的特殊性,这种关系不同于传统的人与物的主客二分关系,而是一种超“人类中心”的人与技术的交往合作关系。
最后,人机交往意味着人机融合的全面展开,而人机融合的需求是人类对自身缺陷不满所带来的本质需求。斯蒂格勒认为,技术是用来弥补人类的原初性缺陷的,爱比米修斯在分配“属性”时,忘记了给人留下一个属性,所以人必须依靠技术来使得自身存在。这使得人与机器的关系并非简单的异质主体,而是始终互相渗透的共生关系。因此人机交往的过程中必然伴随着人机融合的不断深化。人机融合并非简单的人与机器的物理融合,也不仅仅是类似脑机接口的智力融合。人机融合涵盖以上二者,其实质是人类与机器互动共生,人类在认识世界、改造世界的全过程中,都始终与机器紧密地结合在一起。这种结合受到技术发展的影响,在不同阶段、不同领域表现出不同的特点。机器装备、虚拟现实、人工智能技术都可以视作人机融合的不同表现,由于各自技术发展的限制,使得现阶段人机融合的程度较低。随着人机对话不断走向人机交往,人机融合程度势必不断加深,进而影响人类生活的各个方面。
综上,我们梳理了一条从人机对话到人机交往的思想路径,如何规范和引导人机对话成为人机交往的技术和思想基础。目前的人机对话的技术应用中,人们已经意识到对话中会出现的各种伦理、歧视和意识形态问题,并正通过制定伦理规范、行业标准以及免责声明等方式来降低这些问题的出现概率和风险。然而,仅仅这样是不够的,只有将人机对话纳入人机关系以及人机交往的语境中,人们才可能会虑及机器语言潜藏的风险——异化、控制,以及理解机器语言背后的资本生产的实质。人机交往作为一种理想化的未来人机形态,将人人主体交往的问题扩展到人与非人交往的、更为广阔的层面,这或许能够一定程度上减少人类之间的摩擦和内卷,引导人们关注机器和其他非人客体对于人类的影响。我们应该追问的是,人类如何在它们的观照下反思自身的特性,如何团结起来去迎接更大的社会挑战和危机。

原载于《社会科学战线》2024年第5期,注释从略。


责编|王艳丽

网编|陈家威


社会科学战线
大型综合性理论期刊《社会科学战线》杂志重点文章、学术信息、刊物目录
 最新文章