本文刊于《阅江学刊》2024年第5期
转载请注明来源
文末附电子版下载链接
吴静,哲学博士,南京师范大学公共管理学院教授、博士研究生导师,南京师范大学数字与人文研究中心主任。
一、文生视频可以“模拟世界”吗?
二、大语言模型会产生意义的“通用性”吗?
三、从技术通用性到知识的公理化:人工智能时代的认识论悖论
四、人工智能的奇点时刻:向实转?向虚转?
OpenAI发布的通用视觉大模型Sora以强大的文生视频能力在2024年的春天又掀起了一波人工智能角逐战的新高潮。在简单的文本提示之下生成的长达六十秒、一镜到底、多镜头运镜的视频,分辨率高达1080p,其清晰度和流畅度比起专业拍摄的视频毫不逊色。
于是,在震惊和赞叹中,乐观的人们开始预期通用人工智能在短期内实现的可能性。毕竟以GPT系列为代表的生成式人工智能和Sora代表的视觉通用大模型,分别实现了以文本作为提示(prompt)的多任务执行。如果再加上谷歌的Gemini和Gemma对于跨语言和模态的模型推进,人工智能技术的发展似乎进入了目力所及的飞跃期。
然而,在这种乐观和狂喜背后,仍有很多问题值得深思。其中之一就是大语言模型和世界模型对人类世界和知识的表征合法性问题。
如果说“元宇宙”所传达的是对数字化的替代性世界的救世叙事,那么,被命名为“世界模拟器”的Sora则以技术为名具有了对当下世界进行描绘的话语权力。从某种意义上说,对于以大模型技术作为基底的文生视频系统,数据库的质量、颗粒度以及微调方式都可以决定它所展现的世界图景。
乐观的数据主义者对数字技术给予绝对赋权,使其可以决定知识和文化的输出形态和传播内容。而数字媒介和人工智能在排他性的意义上使自己的输出结果更具有权威性和传播性。
尽管图像生成器能够识别某些像素集合的概念形式,但并不真正知道其本质是什么。原因在于大型语言模型无法创造意义或“理解”语言和图像,只是纯粹以形式进行训练,这种方式忽视了形式和意义之间的关联,导致模型在面对真实世界的多样性时表现出局限性甚至错误。
在近期《自然》(Nature)杂志发表的一篇研究论文中,社会科学家表示人工智能系统的超强能力为人类认知带来了进一步的风险:它卓著的性能使得研究人员认为这些工具具有超人的能力,尤其是在客观性、生产力和理解复杂概念方面。佐治亚理工学院一项关于“可解释性陷阱(Explainability pitfalls,EPs)”的研究也指出,人工智能解释可能会误导用户在不知情、无防备的情况下做出符合第三方利益的决策。
这些问题的存在都在提醒开发者和使用者从初期阶段开始就共同关注和评估人工智能系统和应用所蕴含的认知风险和社会性后果,因为一旦这些作为工具和公共性连接的工具深深嵌入研究流程或社会管理系统中,它们将更难以被察知和解决。即便能够纠正,其所耗费的各方面社会成本也将难以估量。
以Sora所代表的通用视频生成式人工智能为例,大语言模型的训练数据集来源于生存世界中的有限数字化资源,尽管其体量庞大但并不是真正意义上的“全数据”,可开发者却号称其足以表征和模拟全部世界。
当人类离预期的通用人工智能时代越来越近的时候,面对这种由数据主义构建起的技术-话语双重权力,需要以哲学批判和技术批判结合的路径来推进真正的反思与预防性研究。
一、文生视频可以“模拟世界”吗?
如果说以ChatGPT为代表的生成式人工智能是通用人工智能发展历程中的一个奇点,那么多模态任务实现则是迈向通用人工智能的必经之路。因为相比于单模态,多模态大模型可以同时对文本、音频、图像等不同类型信息进行处理,在输入输出的效果上达到类似于人脑的信息接收和表达模式。
具体而言,在输入端,由于不同模态数据包含的信息具有互补性,它们之间可以实现不同特征集的对照融合,多模态大模型可以通过联合学习各模态数据的潜在共享信息,提升数据任务的有效性,进而提升通用大模型能力。在这个基础上,人机交互的界面会更为友好,使用门槛更低,不但用户体验感得以提升,而且在推理侧也可以减少信息损耗。
而在输出端,适用性和便捷性会进一步加强。因为多模态模型可以直接生成综合结果,省去了多个专项模型的切换和后期整合,同时输出的信息也更符合人类综合感知的信息接收模式,为多目的、多任务的通用任务实现做好铺垫。
2023年初,OpenAI的ChatGPT以文本单模态生成式人工智能独领风骚。之后GPT-4、Midjourney、文心一言等大模型纷纷在大语言模型基础上发展了各自的文生静态图片功能。
而谷歌公司更是于2024年12月发布了号称史上功能最强的大模型Gemini,它强调原生多模态(natively multimodal)任务实现,支持输入文本、图像、音频和视频,输出图像和文字,“无缝”理解、操作和组合不同类型的信息,拥有了强大的交互能力。这比起之前OpenAI将纯文本、纯视频和纯音频模型拼接在一起的多模态实现方式,是一个巨大的技术进步。研发者声称这种“原生性”体现为模型从初始阶段就被设计为“多感官”模型,通过对其“投喂”多模态数据(包括文字、音频、图片、视频、PDF文件等)进行训练,之后再进行微调。
在谷歌给出的与GPT-4的对比成绩单中,Gemini Ultra在32个常用的学术基准的30个上领先GPT-4。不过,Gemini在技术上的突破却受其冒进的宣传策略所累,在惊艳一时后饱受争议。但这并没有改变人工智能开发者对多模态任务实现的强力投入与暗中较劲。
此次OpenAI正是吸取了谷歌上次宣传危机的教训,不但强调效果上的“一镜到底”,同时在其官网放出了多个不同题材视频来证明Sora的鲁棒性。秉持着这种技术与文化上的优越感,Sora被母公司赋予了“世界模拟”的能力,使得其文生视频不但在文字的抽象表达和影像的具象画面之间直接画了等号,而且和之前Midjourney等工具主打创作的路径不同,它通过命名所宣示的是对“现实”和“世界”的表达权。
于是,在OpenAI官网展示的视频中,借助于细节的逼真,“时尚女性”被具象化黑头发的东方面孔,“宇航员”成了成年白人男性,“24岁的女人眼睛”被固定为修了眉、画了眼线、涂着睫毛膏、有着宽双眼皮的妆后明眸,“艺术环廊”展示的是西方的艺术作品……当文字所具有的无限的表达张力被有限的画面定格时,作为技术的文生视频任务得到了实现,但想象的空间却丧失殆尽。
德里达在讨论完成文学叙事的意谓建构时用的“空场之无”的概念可以用来观照传统的影像所表达的社会联结:“这个作为文学处境的空正是批评家应该认识到的其对象之特性,因为他总是绕着这个东西在说话。或者更确切地说,既然‘无’不能作为对象,那么不如说批评家的恰当对象乃是‘无’本身隐身时所确定的方式。”显然,缺场的“无”正是影像叙事得以成立的逻辑结构,它是使影像显形和生成意义的社会情境。
和过去的影像历史极为不同的是,对于Sora生成的视频,人们失去了对叙事维度和符号意义的好奇。单纯的观看之下,唯一被讨论的是其与文本提示之间的对应关系。原本丰富的生成在“模拟”的大旗之下被简化为对世界图景的定位。余下的只有景观复活的盛大狂欢与流溢。然而,在充盈的景观之下,内容本身除了技术能力之外,却几近匮乏。观看者不再会对影像的内容本身、拍摄情境以及一切与现实表达相关的维度有探究的欲望。
因为说到底,这种影像甚至不再是描绘或模拟,而是更纯粹的符号生产,是被抽离了象征意义的视觉符号的“结晶体”。这种“模拟”甚至和现代性审美对现实主义的偏爱相去甚远。
表面上看起来,现实主义所主张的“艺术朴素再现自然”的古希腊艺术观和“模拟世界”的口号之间确有几分相似,但两者所表达出来的内涵却迥然相异。因为现实主义关心的是“稳固所指事物,也就是说将其校准,使它成为某种能够被重新辨认出来的意义”。
而在利奥塔看来,这就是以现实为基准线对意义的确定。“稳固所指事物”是让审美判断去服从于认识判断和理性判断的过程,它是以理性主义为原则的现代性的根本逻辑。而这种认识判断本身正是通过能够实现“我思”的主体性来实现的,因此这种对于“艺术再现”的判断正是理性主体与其观照客体之间通过判断力而形成的确定距离。
但是,在Sora通过文本提示产生的影像中,既不存在由认识判断形成的确定距离,也不存在如超现实主义所倡导的反思判断力形成的对符号审美的取消。相反,影像符号脱离了一切“现实”,从数据的堆积中飘浮而出,获得了普遍表达的权力。物与物、物与符号、表现与真实、镜头与对象、观察者与镜头的一切关系都不再重要,呈现出“一种没有形象、没有回声、没有镜子、没有表象的现实”。这是丧失了焦距的镜头语言。
在这种失重化的“现实”中,符号秩序成了自在存在,无法向实在界溢出,进入真实性完全缺席的状态。它既不是现实,也不是独立于现实之外的自主性;既不与自身同一,也不与它所表现的世界同一。
究其原因,这种影像在剥离构成叙事张力的“空场之无”的同时也剥离了它的经验化和具身化,而代之以被赋予了无可辩驳的普遍性和自然性的数字化。其生成机制正是视觉中心主义的知识生产体系所刻意隐匿的默认值,它凭借特定的数据前设(训练数据集)和价值模型(已有数据的表征框架)构成了对现实的理解以及视频生产的特征。
如果说,现代艺术的核心主题之一就是在距离反思的基础上重新审视主客体之间的关系以及人与世界之间的关系,那么通用视觉大模型通过数据拟合进行“创作”所宣扬的正是去主体化的数据技术与世界的关系,“世界模拟器”的傲慢布展的则是对世界进行垄断性表达的权力。
审美判断进退维谷,因为正如“用户头戴苹果Vision Pro的时候以为看到了物理世界,但其实只是在屏幕上看到了携带不断变化的RGB色彩信息的单目3648×3144个像素的各种变化。甚至图像其实并不是连续的,而是以每秒90-96次的帧率不断刷新,拟合人眼视觉原理,让用户产生视频是连续的错觉。一旦快速甩头,画面就会产生运动模糊。重度游戏玩家甚至能体会到画面撕裂。”
这种比真实还真实的“超真实”景观当然既不能模拟真实,也不能取代现实,它只是在无限的符号生产能力和传播机制下消解了真实与虚拟之间的边界。然而,这一次,虚拟以具象的方式转身消解了真实的丰富性。
以Sora为例,针对文字提示所具有的无限张力空间和无穷的表现形式,人们并不关注两种模态的数据信息含量极度不对等的事实,也并不乐于探讨对于这寥寥数语的文本提示还可能有多少种表现形式,更不关注所展现的影像符号的文化属性(西式的“红色长裙”、妆后的“眼睛”),而只是追随发布者的意愿单纯地观看和惊叹。这种单向度的观看所体现的除了哲学上的缺乏深度和无批判性之外,同时也是在技术上对于多模态数据信息之间的不对称关系的不察。
多模态技术是一种利用多种信息输入方式来进行人机交互的技术,这种技术可以融合来自不同传感器和输入设备的信息以提高人机交互的自然性、直观性和效率。在多模态技术中,不同模态的信息可以通过特定的算法进行融合,以产生更丰富、更准确的输入信息。此外,多模态技术还可以利用深度学习等机器学习算法进行自适应学习和优化,以更好地适应不同用户的输入习惯和需求。
就一般情况而言,模态之间存在一定的关联性,每种模态数据能为其余模态信息提供一定的信息,有效的多模态拟合有助于增加信息的有效性。然而,每种模态数据各自的特征不同,所蕴含的信息密度也不同。
例如,文本信息的抽象程度和表达的意义就远高于图像数据。因此,对不同模态数据进行同等处理或对所有模态特征进行简单的连接整合不能保证挖掘任务的有效性。而目前多模态大语言模型受限于输入侧的多模态理解能力,多数模型无法实现多模态内容的生成。
比较通行的做法是基于特征的融合算法,即从不同的模态数据原始特征中学习到新的融合特征,然后利用学习到的新的融合特征完成分类、预测等任务。但这种做法的问题在于不同模态的表示、分布和密度可能不同,简单的属性连接会忽略模态特有的统计属性和模态间的关系。
文生视频从抽象到具象的转换之间的不对称正是源于两种模态数据之间的异质性。当文本和影像两种模态特征呈现出较大差异值时,只采用线性和非线性转换来弥补两种模态数据之间的语义偏差,实际上难以保证融合结果的有效性。可以想象,如果以此为基础开发下游应用或管理下层任务,必然导致偏差的出现。
也正是因为这个原因,谷歌最新发布的开源大模型Gemma尽管在技术构架上是以Gemini为基础,却没有延续Gemini让人叹为观止的多模态,而是返回到文本单模态处理上,同时适当调整(缩小)了模型的规模,使用了过滤后的训练数据集,甚至也没有针对多语言任务进行训练。
尽管这在表面上看起来是从多模态任务实现的一种回撤,但事实上这一策略调整下的Gemma在性能上却有了大幅度的提升,在文本领域可以实现强大的通用能力,同时具备较为先进的理解和推理技能。这从一个侧面说明了多模态开发所要面对的技术难度。
一个突出的难点就是现有不完整多模态数据融合算法难以有效学习跨模态数据共享语义的问题。如果想要引导模型学会执行多种不同模态和语言任务,则需要提供不同的数据,并针对新任务对整个模型进行特化。尤其是如何在跨模态特征学习、共享表示和验证上保证泛化的有效性,是多模态发展中一个尚未解决的问题。无论是通过降低模态共享特征的语义偏差以提高迁移融合的效率,还是将不同模态的数据转化为统一的特征表示,都有可能面临匹配不对应和信息损耗甚至冲突的问题。
从这个意义上可以判断,Sora的文生视频也许可以算是多模态尝试的一步,但就目前而言,难以产生实质性飞跃的应用。“世界模拟器”这样充满噱头意味的命名既不是当下人工智能的事实,更不应该是未来人工智能的目标。
二、大语言模型会产生意义的“通用性”吗?
从通用人工智能发展的必然性来看,原生多模态大模型是未来研发和竞争的主力战场。但原生多模态大模型开发与不同模态数据迁移融合在表征、对齐、推理、生成、迁移、量化等环节均面临非常多的难点,因为一方面某些模态比其他模态包含更多关于任务的信息,不同模态有专门的输入表示,另一方面模态之间的关联是动态变化的,其数据的融合迁移不但需要考虑情境化,还需要不断地更新迭代。
这导致现有多模态任务实现更多的是以建立在Transformer构架上的大语言模型作为预训练的基础。因为Transformer能够对信息单元(token或patch)之间的密集相关性进行建模,同时对其输入进行很少的假设。通过将密集的连续信号分成多个patch并将它们转换为一维的序列,并且能够在不改变Transformer结构的前提下处理可变长度的序列。
这也就意味着,在一定程度上而言,大语言模型依旧是多模态模型的“大脑”,它所形成的基本语义关联同时是其他模态数据信息处理的基础之一。基于Transformer的预训练可以有效地处理图片、音频、视频等模态信息分类,再将不同种类的模态信息对齐到LLM的语义空间,以此实现模态之间的迁移和融合。
在这一信息迁移的过程中,从文本到图片/视频中的关键帧的信息对齐称为“创作”的基础。这种“对齐”,是不同模态“理解”和“交流”的“共识”。所以事实上,通用人工智能的“通用”维度,不仅仅是建立“一机多用”的多目的实现系统,更重要的是在多语言、多文化、多模态甚至多价值之间实现“通用”。
而在这种可通约性的实现当中,作为“对齐”基础的根基性预设在很大程度上决定了人工智能“理解”世界的方式,同时它也反作用于使用者,在不知不觉中规定甚至改变了用户的认知和理解框架。
当然,对于通用人工智能技术的愿景来说,这种可通约性只是相对容易实现的第一层次目标,它还需要在知识表示、推理、学习、交互甚至执行等多个方面有突破性进展。
即使是这一步,想要真正贯彻“通用”依旧存在巨大的困难,它不仅存在于技术层面的信息处理,更体现为如何从哲学和文化层面获得“通用”的合法性,以及在反事实推理能力上的强化。这也就是为什么Gemma的研发团队选择了避过“通用性”的这些挑战,专注于单模态通用模型性能的提升。
《人类简史》作者尤瓦尔·赫拉利于2023年4月29日在Frontiers论坛演讲时特别强调:对自然语言的掌握被看作人工智能革命的一个重要方面。他认为,如果将通用人工智能的能力实现归结到一个更具有决定性的基础,那么这一基础就是操纵和生成语言的能力,无论是图像、声音还是文字。显然,这一点可以从当下多模态模型开发的大语言模型的基础性地位中得到验证。
一方面,自然语言是人与人工智能连接的交互界面的关键性中介,它既是最友好的通用人工智能的交互方式,也是使用门槛最低、信息获取相对最有效率的界面设计。同时,自然语言的交互界面还关乎人-机之间在信任度和一定程度的可解释性上的关系建立。它是人-机关系伦理化和社会化的基础。
与用户使用习惯贴合度更高的语言使用,可以使人机互动的交互过程被感知和体验为真实的社交过程,它加深了人对于智能设备的情感投射以及由此而产生的人对技术的信任感。
这也就意味着,在最友好的关于人-AI交互界面的想象中,不但功能的“通用性”(即多目的性)必须与语言及所表达的意义体系的可通约性形成适配,而且语言的表达应该有助于在人-机之间建立适当情感反应的信任关系。
而大语言模型的海量数据库所推进的自然语言处理系统的可通约性和亲人性(赫拉利将之形容为人与人工智能的“亲密关系”建立)加强了人工智能在可解释性方面获得的权威感。
有研究表明,基于机器深度学习、以社交方式出现的人工智能服务体(Artificial intelligence service agents,AISA,生成式人工智能和通用人工智能都属于这种应用)对于用户所表现出的共情反应有助于加强用户对其的依恋和信任。这种信任可以体现为“亲密”和“权威”两种不同的形式。
交互语言的表达习惯越接近于用户的日常语言,其越被体验为私人性的,因而人-机关系愈加亲密化;而交互语言的表达越官方,就越具有权威感。
当然,必须辩证地看到,鉴于自然语言作为交互界面对用户使用心理的影响,不当的交互界面设计可能会导致过度信任或排斥的关系。因此,如何设置合理的距离感是健康的人-机融合中必须关注的问题。
另一方面,由数据所决定的“通用性”将随着自然语言交互界面重塑用户的认知和价值。在OpenAI公司提供的关于Sora的技术报告中,一段并不十分引人注意的表述透露出研发团队对于技术应用和市场的真正野心,即“通过扩大视频生成模型的规模,我们有望构建出能够模拟物理世界的通用模拟器,这无疑是一条极具前景的发展道路”。
值得注意的是,大模型对“通用性”的追求必然要求其对于知识价值体系和符号象征系统的预设符合资本全球化进程所产生的普遍性生产范式,这种生产范式在本质上以消弭地区、种族、文化等不能被资本一体化运作框架所涵盖的差异性因素为首要原则。
而对于大模型而言,向“通用性”的跨越,不仅仅意味着规模问题,更重要的是作为其养料的数据结构问题。虽然算法和模型决定了数字技术的意义生成框架,但数据的结构和其表现同样也决定了输出的质量。
作为生成式人工智能“大脑”的大语言模型的学习机理,其实和人类的理解方式相去甚远。它本质上是通过数学方式和逻辑关系去进行数据处理,目的是使计算机系统以人类语言作为中介,有效地实现与用户的通信。
从某种意义上而言,transformer处理和表达的只是token之间的关系,它既不编织叙事,也不生成意义,所以在语言的处理上大模型并不关注单个语词的含义和语言结构的意义生成。
这也就意味着,生成式人工智能所形成的文本或视频尽管在逻辑上具有连续性,但是与真实经验是隔绝的,它是由过去的数据重构起来的“元书写”,只是通过深度学习的思维链条和语言的概率逻辑生成的数学结果,而不是人类综合的认知能力的判断。事实上,从20世纪30年代以来的认知计算主义,就主张完全可以通过数学的方法实现对现实知识的把握。
在大模型技术中,当数据的类型、数据的体量和模型参数能够实现增长的时候,通过机器学习,在一定程度上可以表现出类似人类的思维方式,甚至情绪方式。
从个性的角度来看,大语言模型虽然整体上表现出个性倾向,但并不像人类一样拥有一致和稳定的个性倾向,更可能的是多个视角的加权取值。从认知能力领域来看,在归纳、类比、因果推理、心理理论等方面,以ChatGPT和GPT-4为代表的最先进的大型语言模型可以展示出与人类相当甚至超越人类的认知能力,但采取的认知模式与人类也并不一致。
尽管从任何可证伪的计算性意义上来说,知识甚至语言的统计学本身就相当于理解,或者说它可以制造一个和人类理解完全类似的结果。但这并不能作为人工智能拥有“意识”或“灵魂”的根据。但由于人们对人工智能结果的过度信任,往往会忽视作为其根基的数据和模型问题。
齐泽克说:“对既定历史现实的体验,要想获得其统一性,唯一的方式就是获得能指的代理,通过对‘纯粹’能指的指涉。将某一意识形态的统一性和同一性作为指涉点保证的,并不是实在客体。与此相反,正是对于一个‘纯粹’能指的指涉,为我们对现实历史自身的体验提供了统一性和同一性。”大模型技术正是这样一个“纯粹”的能指,它以对其结构性冲突和瓶颈的遮蔽为世界图景的连续性提供了技术的保证。
耶鲁大学的人类学家Lisa Messeri和普林斯顿大学的认知科学家Molly Crockett在共同合作的文章《科学研究中的人工智能和理解幻象》中提出了研究人员和用户都可能在面对人工智能给出结果时产生“客观性错觉”,即将AI系统的输出表达视为穷尽了所有可能的观点或是没有立场倾向的客观观点。
但事实上,这些工具的输出表达只不过反映了从训练数据集中获得的表达或观点,并且无法识别或规避这些数据中存在的偏见或价值倾向。
意识到这个问题对于批判性地看待大语言模型的“通用性”至关重要。语言毋庸置疑对思想具有塑形的作用:语言所给予的能指体系、语法关系暗含的认知判断、概念的差异及思想内涵和情绪都为思想的可表达性提供了路径。这并不是说,语言是某种在时间或逻辑上先于事实或思维的实体性建构,而是从再现和表征的形式上可能颠覆了将语言作为中性的表达工具。在这样的共识之下,从算法的底层逻辑和数据结构出发对大模型所提供的知识图景进行批判性审视就是一件十分必要的事情。
Sora没有公布训练数据库的所有来源和数量,以及demo(样片)的数据相关情况,因此难以判断它的具体能力和倾向性。但众所周知,在迄今为止可以获得的视频数据中,各种文化样态、行业领域及地域社群的分布并不均衡。
而且,不同创造主体和来源的视频质量也并不相同,发布的动机、制作过程、社会文化背景之间的差异也会造成视频的具体内容和表现方式上的异质性。一种被固着在大模型技术上的“世界”印象产生的同时,也是技术理性所制造的关于人类社会文化的“通约性”假象。它的问题并不仅仅在于保真性的缺失(如Sora发布视频中的蚂蚁腿的数量),更在于这种知识生产方式所生产出来的“普遍性”知识是否消解了现实生活的多向度和文化的多元表达。
由此,“通用性”必然在哲学上指向一种知识和价值的公理化。反映在技术策略上,训练团队如何在规模、形式、价值方面千差万别的数据的基础上保证训练数据集的合理性,是一个值得不断被追问和验证的问题。
三、从技术通用性到知识的公理化:人工智能时代的认识论悖论
随着人工智能研发和应用的竞争越来越激烈,下游的应用市场也在不断扩大。生成式AI在社会生活全方位的嵌入不仅带来了新的机遇,也引发了诸多新的问题。
一方面,以科技伦理为代表的技术审视开始关注智能应用的社会影响,但另一方面,数字化技术对知识生产和认知重塑的改变却并没有得到应有的重视。
事实上,以大模型为底层技术的人工智能系统,今天正在制造着某种关于世界的公理化的知识体系。而后者又在相当程度上改变,甚至重构着人类对于现实的理解以及人类自身。
人工智能条件下的知识生产呈现出具有内在矛盾性的双重特征:一方面是以开放性、高算力以及人-机强互动性为基础的知识的普遍有效性的特征。
知识形成的边界在形式上呈现出不断开放的态势,它不断地以更新的网络数据作为其数据来源,改变了过去的经验和知识的区域性特征。而由于数字时代的社交传播化属性,知识的生产与再生产也不可避免地呈现出扩散性和传播性的趋势。这就决定了知识越具有普遍性,就越有可能进入整个传播化的知识生产过程当中。这也解释了为什么采用对话式提示(prompt)的GPT系列比谷歌的BERT更容易受到一般使用者的追捧以至于造成轰动性的社会效应。
和社交媒体平台“用户生成内容”的创作民主化机制相类似,这种降维式的知识生产过程同时受到数据结构和资本市场需求的影响,甚至形成马太效应。一旦用户为了传播的需要而对由技术的通用性所设置的标准和原则曲意逢迎甚至趋之若鹜,那么知识的生产不但会脱离原有的严肃性,甚至会成为迎合流量为王、奇观至上的市场偏好。
“通用人工智能对普遍性知识结构的无意识追求,却在理论上近似于一种向主体哲学知识结构的形而上学式倒退,它预设了数字这一形成经验性共识的根本前提,并通过互联网中无处不在的算法推送、数据生产强化了这一认识。公众囿于数字媒介对信息获取形式的垄断,只能被动接受和理解经算法拣选后的信息。”
很显然,在服务于功能性和市场的“通用性”以及“数字的普遍理性”主导下的知识生产在本质上与公理化的资本生产别无二致,它将一种与技术伴生的观念架构普遍化和自然化,以之为知识生产的前提和原则,抽离了知识形成的情境性、历史性、特异性和偶然性等经验内涵,并借助于传播的弥散性最大限度地保障了知识生产的共识性和表面上的开放性。
而在另一方面,知识生产以及认知的中心化却在不断加强。当知识生产被符号秩序架构时,由他者(autre)掌握了其生产的权力,决定了表象与存在被认识的可能,决定了知识单元连接的关系。
当话语和知识的权力由算法掌控时,通过算法不断地运算,通过大数据的不断传播特性,算法布展着自身权力的繁殖力量。其结果是知识的内容甚至表达形式都臣服于话语的统治,而话语则获得了绝对力量去表达被自我设定的表象。这就是技术无意识的权力话语。
德勒兹曾以“公理化”(axiomatization)来形容资本主义生产方式的运行机制和扩张路径。和前资本主义社会借助特定符号意义,将社会要素的流动限制在特定场域内部,并凭借清晰且不可逾越的规则实现对社会进行整合的“编码化”体系不同,资本的公理化不但具有更为严密和周全的特征,且借助资本强大的同质化逻辑将所遭遇的一切元素裹挟进自己的洪流,哪怕这些元素本身具有解放性的潜力。
这种公理化逻辑并不通过明确的辖域来实施对社会要素的控制,相反,它通过更加普遍的、更具成长性和可塑性的“强中心”体系强化了控制的深度和广度:“只有一只作为中心计算机的眼睛,它进行着全范围的扫视”。在这基础之上,晚年德勒兹曾提出了“控制社会”(society of control)理论,以揭示信息通信与互联网技术普及应用的前景下,资本主义社会统治形式所发生的整体嬗变:技术的进步扩展了资本微观规训的社会场域,主体虽从福特制时代的“惩戒社会”中解放,却又随即陷入“技术-资本”合谋的控制论图景之中。
更为重要的是,这种控制方式因披上了价值中立性和形式开放性的外衣,而更加难以被辨识和揭露,从而在深层上强化了资本主义的统治秩序。既然如此,人工智能如何打破知识生产的封闭化?重返经验是必要的条件之一。也就是一定要加强知识和经验世界之间的关系。
这里的经验包含了经验现象及其背后的意义价值的关系,即关于价值体系之间的系统性认知。如果不能够重新观察、审视甚至反思新的经验世界,无论大模型的数据沉淀还是深度学习的结果,都有可能会成为浮在整个数据所制造的知识的表面之上的纯粹能指。它既不能缝合经验,也不能形成反思。
其实,除了Sora之外,Meta也推出了自己的非生成式视频模型JEPA。这是一种用于从图像中进行自监督学习的非生成方法,它的核心工作机理是:从单个上下文块预测同一图像中的各种目标块的表示。
和生成式人工智能相比,JEPA的预测是在经过编码的表征层进行的,而不是如生成式AI一样在输入层进行。这样的表征学习是从单个上下文块预测目标块之间的依赖关系。它不显示生成提示目标的预测信息(生成式AI),却是一种更为简单高效的图像语义学习方法。
然而,图灵奖得主杨立昆(Yann LeCun)在2024年3月8日的直播对谈中,在评论当下人工智能技术的局限性时以JEPA为例指出,该模型系统在训练时,并不是从视频输入中提取所有信息,而只是那些相对容易预测的信息。而所谓的“容易预测”实际上是以现有语义的理解框架界定的。
因此,对于特征,算法只保留其中可以建模和预测的内容,其余的则被编码器视为噪声并消除掉。这样不仅节约了处理冗余数据的算力,而且还能让模型从已获得确证的经验框架中学习到世界的抽象表征。这也就意味着,特征的形成、判定和提取都是在特定的抽象层次上描述的,它是对具象信息的凝练和总结。
大模型在语言方面之所以有效,是因为语言在某种程度上已经是抽象的,已经消除了很多不可预测的信息并且明确地将特征信息化(文字/语言化)。而生成,是反向的抽象到具象的肉身化过程。当图像已经被抽象为语言或者抽象的特征信息时,就可以利用语言的可预测性,把预测出来的东西解码为图像,就得到了提示想要的东西。这正是目前人们在文生视频模型上所做的。
由此可以看出,重返经验世界是特征提取和图像语义形成的基础。只有在它之上,才能形成“可预测”的抽象信息。
最近,在达沃斯举行的2024年世界经济论坛上,人工智能领域的两位专家卡尔·弗里斯顿和杨立昆都提出,对于人工智能而言,建立一个对世界有深刻理解的模型是至关重要的。然而,这样的世界模型是否能够仅仅通过预测语词来构建?答案是否定的,因为语言没有足够的信息。
虽然大模型已经从人类提供的文本中学习了数量大约为10的13次幂的信息单元(token),但这并不足以形成关于世界的全部信息。这不完全是数据规模的问题,还和数据的类型有关。
克里斯蒂安·马兹比尔格在“大数据”的基础上创造性地提出了“厚数据”(thick data)概念:“厚数据不仅可以捕捉事实,还可以捕捉这些事实的背景。……如果薄数据旨在根据我们的行为来理解我们,那么厚数据就是根据与所生活的世界的联系来理解我们。”
这显然是一种更高维度的数据要求,它诉诸一种在深度和广度上都更富有可扩展性的世界观,这才是弗里斯顿和杨立昆青睐的理想世界模型。厚数据旨在完善数据抓取的深度,“进一步细化对数据的诠释,以及反向加强数据的阐释力。这是一种更为情境化的数据提取和优化机制,它试图将‘事实-数据’这一抽象化过程中所丢失掉的丰富内容重新找回,并将‘过程性’纳入数据所能展示的图景中。”
多模态数据当然也属于“厚数据”的范畴,它们可以以不同的方式让模型掌握基于现实世界的语义关系。因为一个深刻且准确的世界模型意味着要观察全部而不是部分世界,了解现实的多重维度,以及它们为什么会以这样的方式运转。
尽管如此,杨立昆仍然对基于深度学习的生成式人工智能的未来投了怀疑票。他认为,人工智能的未来之所以不可能是生成式的,原因在于模型实际上无法通过计算机视觉或深度学习对世界运作方式建立任何真正的知识或理解,它们只是信息单元和语义的逻辑关系,即便计算机视觉也不可能通过图像复制或生成向人工智能传授关于世界的知识。这也就是为什么现有的生成式大模型在反事实推理和输出内容的合规性方面都非常欠缺。
由此可见,现有的大模型的性能还远未达到全方位理解世界、表征世界的目标,基于现实的“世界模拟”只是一幅意愿性的蓝图,其实现的真正基础并未得到保证。
四、人工智能的奇点时刻:向实转?向虚转?
最近几年,人工智能领域的“明战”和“暗战”以一种前所未有的激烈态势争夺着媒体和投资圈的注意力。在各家科企不定期抛出的新闻“炸弹”之下,突破有之,噱头有之,理想亦有之。但究其根本,无外乎是以技术的制高点吸引更多的投资和资源。这也导致业界和下游应用市场出现不加甄别的“追热”行为。对高算力、高参数的大模型的追高使一种具象的数字加速主义以势不可挡的强度和态势迫近我们的生活。
尽管数字技术的嵌入已经不可避免地成为思考未来世界图景的底色之一,但当不同社会阶层都无差别地为“不明觉厉”的技术狂飙欢呼的时候,关键性的问题正在于:当个体和群体的意识以及无意识都在被社会认知方式和文化体系结构化的时候,对大模型加速主义的迷恋是否在一种技术决定论的前提之下抽象地将重塑社会未来的维度简单化?
它使得对于社会发展的想象丧失了真实的社会关系的维度,并且越来越脱离对于真实社会问题的关注。毋庸置疑,大模型技术的兴起,不仅显著提升了人工智能技术的创造场景和知识生产的能力,挑战了现有的教育和产业布局,同时也重新定义了通用人工智能的可能性,打开了AI系统与人类合作的崭新篇章。
然而,这并不意味着人类社会的全部问题可以在关于人工智能的讨论中得到解决。当虚实共生、人机融合成为新的时代命题时,如何把握“虚”“实”之间的关系是一个需要审视的维度。它不仅关系到社会资源的投入,还关系到视差、壁垒和社会复杂性,更关系到人类自身的重塑和对于世界的理解。
▼点击下载原文电子版
本刊声明
本刊刊文版权包括纸质版与网络版版权,均属于《阅江学刊》编辑部拥有,任何形式、任何媒介的转摘译或结集出版均须标明来源于本刊(详见本刊引文格式)。
欢迎学界朋友或学术媒体推广传播。媒体(网站、公众号等)如有意愿转载,请后台留言或拨打电话025-58731054获得授权,联系人:沈老师。
本文引用格式:
吴静:《从“世界模拟器”可以走向通用人工智能吗?》,《阅江学刊》,2024年第5期,第90-100页。
吴静.从“世界模拟器”可以走向通用人工智能吗?[J].阅江学刊.2024(5):90-100.
责任编辑:李海中
微信编辑:刘子章
校对:沈丹、来向红、李海中
作者照片:作者提供
终审:尹才祥
往
期
推
荐