左右滑动查看完整目录
“世界模型”时代
——人工智能影像的世界性实践
作者简介
明朝
芝加哥大学人文学院电影与媒介系2023级博士研究生。
摘 要
在“后电影境况”下,以Pika、Sora和可灵AI为代表的视频生成模型,预示着海德格尔意义上的“世界图像”时代向机器学习驱动的“世界模型”时代转变。人工智能影像不再只是单纯对象化的技术物,而是日益成为一种关系性的技术环境,由此引发的“幻觉”现象动摇了建立在“错觉”基础上的传统美学观念,也在哲学和技术领域向人类中心主义提出了挑战。
关键词
人工智能 世界模型 整体环境 幻觉
一、“世界模拟器”
2024年2月8日,在以国际电影节闻名的法国戛纳市举办的世界人工智能大会(WAICF, WorldAI Cannes Festival)上,图灵奖得主、“深度学习教父”兼Meta首席人工智能科学家杨立昆(Yann LeCun)发表了题为《目标驱动的人工智能:迈向能够学习、记忆、推理和规划的AI系统》(Objective-Driven AI:Towards AI Systems That CanLearn, Remember, Reason, andPlan)的主旨演讲。杨立昆肯定了近年来生成式人工智能在文本处理上取得的显著成绩,但强调今天的机器学习在通用智能方面存在严重缺陷,主要原因是缺乏对世界运作方式的理解。1早在2022年的一篇论文中,杨立昆就强调当前人工智能和机器学习系统构建“世界模型”(world models)的能力远逊于人类和动物。2自美国研究公司OpenAI发布生成式预训练变换器3.5(GPT-3.5)、并在2022年11月推出基于其构架的聊天机器人ChatGPT以来,杨立昆曾多次批评大语言模型被过度炒作,指出“世界建模”(world modeling)是机器未能达到人类智能的重要原因。3
在杨立昆否定生成式人工智能仅一周后,OpenAI发布了旗下首个文本到视频合成器。这款名为Sora的机器学习模型能够根据用户输入的提示词生成相应的视频片段。Sora并非第一个文生视频模型。2024年1月,谷歌推出了与“电影之父”卢米埃尔兄弟同名的Lumiere模型。它相比其前身、多模态的“零样本视频生成模型”VideoPoet要更加先进,能以每秒16帧的帧率生成时长5秒的短视频。4另一家硅谷科技巨擘Meta在2022年9月发布了Make-A-Video系统,并向用户承诺“只需几句话或几行文字即可生成奇异、独一无二的视频”。5基于文本、图片等数字媒介生成高质量视频也是Runway、Pika和StabilityAI等初创公司的愿景。很快,这些第三方工具将与Adobe公司自主研发的Firefly模型一同集成至行业标准的视频编辑软件PremierePro中。6
诚如许多分析者所言,Sora引人注目之处在于其生成内容的逼真性。2024年2月15日,OpenAI在YouTube官方频道上传了33个演示视频,并附上了生成片段时所用的提示词。从一个打扮时髦的女人在东京霓虹灯下漫步,到航拍重现加利福尼亚淘金热的历史档案,这些人工智能影像展现了复杂的细节和丰富的质感。虽然没有一支演示视频达到OpenAI所宣称的60秒时长,但它们的完成度已经要比过去的生成视频高出不少。在颇为复杂的摄影机运动下,关键帧之间也实现了难得的时空连贯性。TechRadar网站的记者克里斯蒂安·盖顿(Christian Guyton)认为Sora既令人印象深刻又让人忧心忡忡,因为人们将无法轻易区分真实和生成影像。7另一些观察者,如《综艺》(Variety)杂志的网络撰稿人丹·尼利(Dan Neely)则对电影行业的未来感到担忧,因为好莱坞的创意工作者可能会轻易被取代。8
也许,相比于“超真实”的视觉特效及其潜在的社会伦理后果,Sora更为激进的举措是自称为“世界模拟器”(world simulator)。在一篇题为《作为世界模拟器的视频生成模型》(Video Generation Models as World Simulators)的技术报告中,OpenAI把Sora定义为“构建通用物理世界模拟器的有望路径”。9该公司的研究科学家蒂姆·布鲁克斯(Tim Brooks)在接受采访时表示:“构建能够理解视频并掌握人类世界复杂互动的模型,是迈向未来人工智能系统的重要一步。”10Sora并非唯一一个有着包罗万象野心的产品。Runway 也不忘提醒用户可以“将视频生成系统(如Gen-2)视为非常早期且有限的‘通用世界模型’形式”。11无独有偶,快手在2024年6月推出的“可灵大模型”也把“模拟现实世界的物理特性”当作主要卖点。12
无论上述“世界模型”能否被视为对杨立昆质疑的直接回应,人工智能在“后电影境况”下都为影像理论提出了新问题。从这个意义上说,可以对照阅读德国哲学家马丁·海德格尔(Martin Heidegger)1938年的演讲《世界图像的时代》。马丁·海德格尔对比了“世界观”(Weltanschauung)和“世界图像”(Weltbild):在前者中,世界是由存在者的独特位置和生命经验所激活的“生活观”;在后者中,世界被“把握”为一幅图画,成为摆置在人类面前的客观系统。现代科学不仅阐释世界,更深刻地将“世界观”转变为“世界图像”,即一个可表现、可计算,并由人类主体控制和操纵的整体。如果说20世纪基于摄影术的“世界图像”旨在将世界捕捉为可由人掌控的图像,那么今天伴随数据驱动机器学习而出现的“世界模型”则试图批量生产脱离人类控制的世界。正因如此,人工智能影像可以被纳入更广阔的模型制作和世界构建的历史中加以审视。事实上,Sora的愿景不仅重塑了我们对真实和虚构的理解,也从根本上改变了我们思考世界的方式。当我们称某物为“世界模型”时究竟意味着什么?什么样的世界允许并促成了这种转变的发生?现代媒介技术在这一进程中又扮演了怎样的角色?
二、从“模本”到“模拟”:一部模型简史
Sora雄心勃勃的宣言似乎承诺了某种新的影本体论,但使用模型来构筑第二自然并非开创之举。英语的“model”一词源自法语的“modelle”和意大利语的“modello”,这两个词都可以追溯到古拉丁语的“modulus”。“modulus”是“modus”的缩小形式,后者更多与模式、方法和测量相关。模型因此具备规范、界定和限制功能。“modus operandi”意味着“做事方式”或“行为习惯”。
在16世纪末和17世纪初,“model”开始与工艺美术联系起来,用来指在搭建建筑之前绘制的样图,辅助雕塑创作的三维微缩模型,或者画家在画布上临摹的理想对象。以名词形式出现的“model”可以表示摹本、类型和表征,且这些含义常常相互重叠。在威廉·莎士比亚《亨利五世》第二幕的开场,致辞者称赞英格兰“你对于你伟大的气魄只是个具体而微的模型”13时,这一词语获得的是一种符号学意义上的解释,即模型不同于原型(prototype),它总是次要的、派生的,或是作为原始物的衍生品,或是无法获得之物的替代品。当菲利普·西德尼在《为诗一辩》中称《高蒲德克》不能充当“一切悲剧的正确模范”时,他意指文学可以基于共同元素和一般规则进行评估。14在19世纪,随着现代医学从尸体解剖学转向临床生物学,模型更是成为教学工具的同义词,用来指代牙医在安全环境中模拟手术操作的口腔模具。
在自然和社会科学中,“模型”被广泛用于替换理论、范式或框架。此时,模型和本体在造型上的相似性变得无足轻重。早在16世纪末,英国数学家和天文学家托马斯·迪格斯(Thomas Digges)便提到了托勒密学说中的“世界模型”(model of the world),并将其类比为“天体和元素域的状况”。15在这里,模型是一个系统或结构,为解决特定问题提供一套操作化的程序,在其范围内特定的陈述和公式被视为真。如果说迪格斯的书房里可能还有一台地球仪或一张宇宙结构图,到了20世纪初,数学家们开始把纯粹概念性的体系称为模型。例如,线性回归被称为一个“数学模型”。因为它描述了两个变量之间的关系,并且可以用Y=mX +b的方程式来加以表示。这种对模型的抽象认识很快被新兴的社会科学所借用。从埃米尔·涂尔干(Émile Durkheim)的四种“自杀社会类型”和塔尔科特·帕森斯(Talcott Parsons)的“AGIL框架”,社会科学家们越来越多地将概念、分类和理想类型统称为模型。现代经济学家对模型尤为痴迷,并用包括供需关系和帕累托最优在内的各种工具来简化复杂现实。
20世纪中叶,信息论、控制论和系统论的发展深化了科学家对计算机模型的理解,这些模型被广泛应用于战时物流、核链反应、天气预测和计算机图像等领域。科学家首先通过方程式建立描述系统时间演变的数学模型,然后将其转换为可执行的算法,以便计算机模拟系统的演变。16媒介理论家列夫·马诺维奇(Lev Manovich)在回顾文化分析的历史时总结道,计算机模拟不像量化定律和统计模型那样追求“完全正确”和精确预测。相反,它更适用于生产对世界的片面理解和局部知识,且服务于特定的理论构建。17在计算机模拟中,理论与模拟之间的权衡十分关键:虽然模型立足的理论能够提供抽象描述和微分方程,但考虑到计算难度和表现评估,更为实际的做法是适当“它放弃理论严谨性”以换取实验上的便利。18模拟模型在生态和行星科学中的广泛应用使其成为一种面向未来的事业,因为这些发现不仅重述了过去的故事,还以特定方式影响着将来的决策。
作为人工智能的重要分支,自然语言处理(NLP, Natural Language Processing)模型的历史可以追溯到20世纪40年代。相比之下,视频生成的流程要复杂得多。首先,训练一个从文本到视频的模型需要庞大的数据集,而这些数据集不像文本信息那样可以轻易从互联网上获取。此外,视频生成还需要巨大的计算能力,并且可用视频的时长也有限。种种因素导致视频生成的应用场景非常有限。其次,近年来在图像生成中取得成功的扩散模型(diffusion model)无法直接应用于视频生成,因为图像模型不涉及时间一致性,更不用说在将文本提示词转换为视频时可能产生的歧义。为此,Sora采取了多种方式来应对这些技术难题。它为模型注入了海量训练数据和计算资源。虽然OpenAI从未公开Sora的训练数据集,但是分析者推测其大量使用了在线版权素材——例如YouTube视频,并可能包含由虚幻引擎5(Unreal Engine 5)生成的文本-图像对。19自GPT问世以来,OpenAI一直采用“大力出奇迹”的策略。GPT-4拥有1.76万亿参数,并在大约13万亿标记上进行了训练,而其前身GPT-3则只有1750亿参数和3000亿标记。规模法则(Scaling Law)也使得Sora的“样本质量随着训练计算量的增加显著提高”20,其涌现效果让不少观察者感到惊讶。
其次,Sora采用了基于Transformer的扩散模型(DiTs,Diffusion Transformers)。“扩散”是一个逐步破坏或恢复数据分布中结构的迭代过程。通过缓慢向输入图像数据集中添加高斯噪声,样本被转换为纯噪声图像,这一过程称为“前向扩散过程”(forward diffusion process)。与之相配合的是一个去噪的“逆向扩散过程”(reverse diffusion process),其目标不是恢复图像的原始形式,而是生成一个与真实图像分布一致的新图像。威廉·皮布尔斯(William Peebles)和谢赛宁在2023年提出的DiTs用改进的视觉Transformer(ViT)瓶 颈 替 代 了 标 准 潜 在 扩 散 模 型 (Late nt Diffusion Model)的U-Net架构,使得Sora的“视频压缩网络”(video compressor network)能够更高效地处理图像块的分辨率和特征缩放。
简单概括,Sora的工作流程可以简化为以下几个步骤:21
1. 将原始视频压缩为降维的潜在表示,这些表示也称为“时空补丁”(space-time patches)。(如图3)
2. 从这些“时空补丁”中提取一个序列,并将其作为“标记”(tokens)输入DiTs。
3. DiTs在“潜在空间”(latent space)内生成视频。
4. 同步训练的解码器将“潜在表示”(latent representation) 转 换 为 “ 像 素 表 示 ”(pixel representation)。
在人工智能哲学家拉斐尔·米利埃尔(Raphaël Millière)看来,尽管将DALL-E 3的重新标注技术引入视频领域等尝试颇具新意,但是Sora更多的是一项工程成就,而非技术创新。22此外,由于神经网络的“黑箱”性质,我们尚不可知规模化的方法能将模型的表现提升到何种程度。最后,除了个别行星级别的计算机模型,本文所回顾的多数模型并不试图像Sora那样辐射整个世界。“世界模型”这一概念依然模糊不清、歧义丛生。一方面,所有的模型都可以被视为“世界模型”,因为它们都描绘了世界的某些方面。另一方面,如果建模活动无一例外地涉及简化和抽象过程,那么所有模型实践在世界性的意义上必然失败。因此,理解“世界模型”的关键似乎在于我们如何定义世界。如果目前关于Sora的讨论主要集中在影像与现实世界(特别是其物理特征)的关系上,本文希望提出另一种视角:在“世界模型”时代,影像逐渐地无法被视为对象化的技术物,而是成为一种关系性的技术环境。换句话说,模型活动不仅是在构建局部世界,同时也在塑造整体环境。要充分理解这种变迁,我们需要从媒介史的角度深入把握“环境”一词的演化。
三、作为“整体环境”的世界模型
“环境”的概念在19世纪成为现代科学的重要 议 题 。科 学 哲 学 家 乔 治 · 康 吉 莱 姆 ( G e o r g e s Canguilhem)指出,最初的“环境”概念糅合了机械观和人类地理学成分。让-巴蒂斯特·拉马克(JeanBaptiste Lamarck)使用“影响性状况”(influential circumstances)而非“环境”(milieu)一词,强调环境对有机体的单向作用。布丰伯爵(Comte de Buffon)、查尔斯·达尔文(Charles Darwin)以及后来的行为主义者如约翰·B·华生(John B. Watson)和雅克·洛布(Jacques Loeb)进一步了发展这一概念,相继探讨了生物是如何不仅被动地受环境影响,还积极与之互动并适应。23 18世纪末建立的巴黎自然历史博物馆通过收集、分类和实验活动,将“环境”定义为对“有机体”至关重要的外围空间。在鼎盛时期,博物馆通过殖民活动从世界各地搜集标本,并尽一切所能努力保持异域植物的存活,使在皇家花园基础上建立起来的苗圃和温室成为一个事实上的“微缩世界”。在博物学家乔治·居维叶(Georges Cuvier)领导下,博物馆采用了一种基于比较解剖学的新系统,根据不同的生理功能对物种进行分类,并研究生物与其生存和发展所需环境要素之间的关联。24“整体环境”(total environment)的概念因此涵盖了所有影响生物生存和发展的外部条件和因素,不仅涵盖气候、地理和生态因素,还包括生命形式之间的相互联系及其与环境之间的互动。
到了19世纪末和20世纪初,大型世界博览会成了新的“总体环境”样本。从1851年伦敦万国工业产品博览会的水晶宫到1893年芝加哥世界哥伦比亚博览会上复制异国村庄的中途广场,世界博览会试图在地标性建筑内呈现整个世界的样貌。世界博览会同时也是早期电影最重要的放映场所之一。较之于更加注重科学研究和知识进步的自然历史博物馆,博览会倾向于用宏大场面和沉浸体验来歌颂技术革命。电影史学家汤姆·冈宁(Tom Gunning)以1904年的圣路易斯世界博览会为例,指出通过汇集各国展馆、技术创新和文化艺术品,世界博览会为游客提供了一个地球村的直观“实物教程”(objectlesson)。25汤姆·冈宁强调,早期电影和相关视觉媒介在绘制“世界图像”上扮演了重要角色。在圣路易斯博览会上,电影更多充当背景技术,辅助着其他更生动、更具感官刺激的机械幻象。这些游乐设施结合电力、蒸汽、彩色玻璃、赛璐珞、丝绸等材料,实现了相比电影本身更具吸引力的效果。世界博览会还展出了结合人造影像的“虚拟旅行”,让游客无需离开展会便能探索遥远的地域和文化。这些虚拟旅行是现代电影经验的前身,它们轻而易举地压缩时间和空间,普及了毫不费力便能环球旅行的观念。26
世界博览会上,汤姆·甘宁所谓的“游客”和“观众”之间界限的崩塌,也凸显出媒介技术的误导和致幻功能。随着大众传媒的发展,这一现象在20世纪初愈演愈烈,最终引发了沃尔特·李普曼(Walter Lippmann)对“拟态环境”(pseudo-environment)的批判。在多年的新闻编辑和战争宣传工作后,沃尔特·李普曼于1922年出版了《公众舆论》。他指出,每个人的意见是通过个体与其周围环境的互动形成的。由于全面了解周遭世界既不可能也不可取,人们便倾向于依赖现代媒体提供的简单化表象。这些表象构成了沃尔特·李普曼所谓的“拟态环境”,即一种影响人们如何感知和反应世界的人工构造。与自然历史博物馆和世界博览会自成一体、兼收并蓄、有鲜明制度边界的“整体环境”不同,沃尔特·李普曼的“拟态环境”是弥漫、浸润、无处不在的。它既是强制的,又是自愿的;它的影响几乎无法逃避,只因真实环境“太大、太复杂、太瞬息万变,无法被直接了解”。27由于感受和认知更多地在集体无意识的层面运作,“拟态环境”更多影响着人们的心智,而非他们的实际处境。他在著作中多次引用心灵图像的隐喻,将“拟态环境”比作“我们头脑中的图画”,即对“外部世界”的内在感知和精神反映。28可以说,“拟态环境”既是一个“整体环境”,又是一个“世界模型”。
在十分相似的时代背景下,电影理论家安德烈·巴赞(André Bazin)发展了“完整电影”(total cinema)的概念。在他1946年的评论文章中,安德烈·巴赞试图从发生学角度探讨电影的诞生。尽管他又同时声称电影“尚未被发明”。29 他并不否认技术史,只是更关注电影作为一种模型的观念源流。30 他认为所有促使电影诞生的科学、经济和工业条件只起到了从属作用。相反,电影从一开始就是一种精神追求,被一种弗洛伊德式的驱力所牵引,即完整无缺、事无巨细地临摹现实的愿望。安德烈·巴赞在脚注中简要梳理了造型艺术的发展历程,从古埃及的壁画和浮雕到18世纪的错视画法,表明电影所追求的按照世界自身形象再造世界的“整体现实主义”(integral realism)存在已久。31完整电影以“神话”(myth)的形式存在,既是因为它由来已久,也是因为其象征无法被技术手段完全实现。与沃尔特·李普曼的“拟态环境”一样,安德烈·巴赞的“完整电影”强调了媒介技术塑造人们现实感知的强大影响力。安德烈·巴赞的命题也标志着一种转向:一方面,它延续了模型和现实世界之间不可分割的关联性(即模型无限趋近于世界);但另一方面,它又将模型严格定位在现实世界之外,认为其只能是现实的渐近线(即模型必然构成新的世界)。
“整体环境”从外部的、实体化的媒介物向内部的、数字化的媒介空间的转变,在20世纪60年代的早期计算机生成图像(CGI,Computer-Generated Imagery)中得到了更充分的显现(如图5)。数字技术史学者雅各布·加鲍里(Jacob Gaboury)就令人信服地指出,计算机生成图像不仅不是透视法和再现艺术的延续,通过虚拟摄像机渲染出与观众身体解耦的光学和视点,还构成了一种新的物质本体论。32以《黑客帝国》(The Matrix,1999)“子弹时间”为代表的数字特效不再是捕获性的事件记录,而是由离散焦点综合而成的空间完形。在美苏“太空竞赛”的白热化阶段,美国国家航空航天局(NASA)就把外太空想象成一个凌驾于大气层之上、由相互关联的复杂系统组成的“整体环境”。33但由于绝大多数准备工作仍需在地表进行,宇航员的训练过程高度依赖“列表-优先级”(listpriority)等图形算法驱动的飞行模拟器。34当迪士尼集团2003年在其EPCOT主题公园中开放“NASA风格”的“太空任务”(Mission: SPACE)穿梭模拟器时,大众也能借助高度拟真的计算机图像一睹太空的风采。
今天,机器学习模型生成的视频正在塑造一种新的“整体环境”。在生成式人工智能出现之前,计算机图像主要依靠多边形建模来对物理世界进行三维重建。然而,Sora采用了一条截然不同的路径:每个对象不再是根据预先设定的指令在数字环境中“渲染”(rendered)而成,而是通过参数和权重复杂到难以解释的神经网络“生成”(generated)得到。诚如索菲亚·奥德里(Sofia Audry)指出,神经网络不具备传统计算机程序的表征性,而是以特定方式对世界作出反应的可塑实体。35德国生物哲学家雅各布·冯·尤克斯库尔(Jakob von Uexkull)用“环境界”(umwelt)概念来说明每种生物都以自己的方式感知环境,例如壁虱只感知宿主的温度、气味和表面触感,蜜蜂通过紫外线寻找花朵,狗则根据微弱的气味变化分辨情境。基于尤克斯库尔的生物学理论,海尔斯进一步提出,每台计算机也可以被视作一个由其架构和输入/输出决定的、拥有“世界视野”(world-horizon)的系统。36神经网络既是对现实环境的数学表示,又在指涉过程中构成了自己的局部世界。同样的判断当然也适用于Sora。那么,研究Sora和它生成的世界就成了我们的下一个目标。
四、构造/破坏:世界性实践及其悖论
在《构造世界的多种方式》中,美国哲学家和语言学家纳尔逊·古德曼(Nelson Goodman)概述了构造世界的不同过程:组合与分解(在局部间创造联系或将整体分解为部分)、强调(区别相关和不相关的种类)、排序(将材料排列成合适的次序)、删减和补充(补充新材料或淘汰旧材料)以及变形(通过修正或歪曲进行重塑)。37他从非实在论的立场出发,拒绝世界的唯一性,主张存在“多个真实的世界”。38如亚历山大·德克洛斯(Alexandre Declos)指出的那样,古德曼的立场既不同于莱布尼茨的模态形而上学(即假设的可能性潜在但实际上不存在),也不同于科学哲学中的社会建构主义(即把世界表示为由不同“范式”引发的认识革命)。纳尔逊·古德曼与前者的不同在于世界不仅仅是索引性的,而是绝对和实在的;与后者的不同在于世界不是历时性的,而是共时性的。也就是说,用“文字、数字、图片、声音或任何类型媒介中的其他符号”构造的不同版本的世界同时存在。它们不仅无法被简化为一种更底层的原始结构,还允许我们在不同的世界间来回穿梭。39
虽然纳尔逊·古德曼主要使用语言和艺术作为世界构造的分析案例,但人工智能生成影像的世界性实践同样值得细致研究。Transformer架构的核心是注意力机制(attention mechanism),旨在依据相对重要性分配权重使模型专注于输入序列中的特定词汇。在以Sora为代表的生成式视频模型里,注意力不再是有机体聚焦外部刺激的认知过程,而是计算机检索海量信息的结构瓶颈。虽然人类也会根据情境需求切换不同形式的注意力,但这集合了内注意力(intra-attention)和多头注意力(multihead-attention)的Transformer架构存在根本不同。人类注意力受到包括社会线索、先前知识和情绪状态等广泛因素的影响,而机器学习模型中的注意力机制只取决于特定任务的优化效率。Transformer架构缺乏人类的细腻理解,但在同时快速处理大量信息时更加出色。如果说工业社会、以人类为中心的注意力受限于有机体的生理和心理条件,在多任务处理时需要合理分配大脑中定额的能量,那么后工业社会、以机器为主体的注意力可以在理论上通过计算资源无限缩放。此外,扩散模型的正向和逆向过程同时也是一个分解和组成的过程。当真实图像被噪音混淆并经过降噪被加以重组,在场和缺席之间的双向运动成了涌现行为的来源。当然,这一渐进式的过程也离不开某种排序。扩散模型常被类比为一个马尔可夫链(Markov Chain),即每一步的状态只依赖于前一步或后一步的状态。如果顺序被打乱,模型的“无记忆性”会导致其无法正确学习和生成数据。
Sora不仅声称能够模拟物理世界,还能生成数字世界,包括电子游戏中的虚拟环境。OpenAI在Sora的技术报告中上传了两段时长20秒的电子游戏《我的世界》(Minecraft,2011)片段,展示了第一人称视角的玩家在丛林生物群落中飞行和行走。作为“沙盒”游戏的代表,《我的世界》中的一切都被整齐地切割成尺寸标准、批量摆置的方块。游戏系统结合用户输入的种子值和内置的随机数生成器,实现了无限可能的世界生成。每当玩家化身到达当前“区块”的边界时,世界会随着图形处理单元的实时渲染而逐渐拓展,直至填满玩家的视野。这样看来,电子游戏不仅如阿伦达·张(Alexa Chang)所说,已成为现代人接触“自然”的主要途径之一,40同时也成为机器感知“世界”的重要方式。通过在这些开放世界的图像上进行训练,工程师期望模型能够习得环境背后隐藏的逻辑和规则,最终建立起外部环境的内在表征。即便游戏开发者不可避免地将现实世界的文化偏见注入数字系统,游戏内的单位基于独特的行为特性发生互动,仍会形成一个独立自洽的生态系统。Sora生成的视频复现了《我的世界》的许多基本规则,例如玩家行走时镜头会摇晃模拟步伐,靠近中立动物时会吸引它们的目光。当一次渲染的计算机图像成为二次生成的训练素材时,生成图像和物理世界之间的物理连接被进一步短路。对于许多机器学习模型来说,无论是YouTube博主上传的录制视频还是虚幻引擎渲染的数字图像,都会在扩散过程中被一视同仁地处理成真实图像。
人工智能影像的另一特点是生成过程需要消耗大量的劳力和算力。病毒视频《气球人》(Air Head,2024)的创作者在接受采访时透露,每10~20秒的Sora素材往往要经过数百次生成,生成内容与进入后期制作阶段的成品时长比例高达300:1。41尽管可以通过调整参数和方法来增加生成内容的一致性,但人工智能模型很难生成完全相同的内容。与CGI艺术家在渲染前可以对半成品进行持续微调不同,生成式人工智能为了重复生成一个理想的版本。必须舍弃更多的世界。因此,就像克洛德·列维-斯特劳斯(Claude Lévi-Strauss)将不同版本的俄狄浦斯故事定义为一个集合的神话,人工智能影像也不具备所谓的“真正版本”;它们的存在更接近科学哲学家卢德维克·弗莱克(Ludwik Fleck)所说的“表意符”(ideogram),即特定群体通过实践活动形成的符号或图像。表意符不仅是创造性经验的视觉表现,更是象征性观念的物质结晶。42每个版本的表意符都强调和放大了世界的某些方面,同时也构成了各自独特的世界。
值得注意的是,视频模型构造世界的方法同样也可能造成世界的破坏或崩溃。OpenAI在Sora的主页上提供了五个视频片段,展示了模型潜在的改进空间。其中一个片段展示了一群狼崽在高草包围的碎石路上打闹的场景。尽管用于生成视频的指令明确要求“五只狼崽嬉戏追逐”,但是起始画面却只包含三只在中间玩耍的狼崽和另一只迅速从左侧出画的狼崽。随着中间的狼崽相互分开,第四只狼崽和第五只狼崽从已有狼崽的身体中分裂出来。当它们靠近彼此时,更多狼崽的身体又在一团混乱中快速地出现和消失。在短暂几秒的时间里,狼崽的数量起伏不定,身体形态也不断变化。这种造型上的不稳定性让人联想到《终结者2:审判日》(Terminator 2: Judgment Day, 1991)中可以模仿任何形状的液态金属机器人T-1000,也是世界发生组合和分解故障的典型例证。
即使在相对简化的虚拟环境《我的世界》中,Sora也难以还原场景中的逻辑关系。在前文提到的范例视频中,一头猪在玩家转动镜头时凭空消失,另一个类似猪的动物在摄像机前的特写镜头后快速向后滑行,直至隐没在远处。这类情况在人工智能中被称为“幻觉”(hallucination)或“世界建模错误”(worldmodelling error)。虽然幻觉可能出现在从预训练数据到监督微调在内的各个阶段,但是语言模型的幻觉主要是事实性(factual)的,表现为虚构事实、错误的信息或逻辑不一致的内容,而视频模型的幻觉是因果性(causal)的,即未能准确理解或还原现实世界的逻辑和细节物理规律。除了违背物理规律的运动和物体的突然消失或出现,可能的错误还包括角色咬了一口后饼干没有显示出痕迹、在跑步机上运动的方向与传送带滑行的方向相反等。人工智能的批评者通常认为,上述问题的出现是因为人工智能模型通过数据统计生成内容,但缺乏对现实世界的深层理解。美国心灵哲学家休伯特·德雷福斯(Hubert Dreyfus)早在1971年便引用胡塞尔对“内景”(inner horizon)和“外景”(outer horizon)的区分,提出有智能的主体对世界的认识依赖于“心理表征”(mental representation)和“预描绘”(predelineations)组成的“局势”(aspects)。这种具身性和情境性的知识无法通过纯粹的计算模型来习得。
德雷福斯对“老式人工智能”的批判在今天仍然适用,但“幻觉”作为一个不同于文艺复兴以来透视法传统的“错觉”(illusion)的美学范畴,无疑为我们敞开了新的阐释可能。与其将这些蹩脚的影像视为故障和错误,不妨借用人类学家马塞尔·莫斯(Marcel Mauss)和昂利·于贝尔(Henri Hubert)的概念,把它们理解为“草草制成的表意符”(poorly-executed ideogram)。他们在点评詹姆斯·乔治·弗雷泽的《金枝》中提出“相似法则”时,指出巫术表现与其模仿对象之间往往缺乏图像上的相似性。为了让符号产生并作用于相似物,它必须经过适当的“抽析和专注”。43然而,“草草制成”并不意味着失败,只是意味着形象并不忠实复制原物。在巫术活动中,越不忠实的复制品反而会被赋予更大的魔力。一切意向性活动都需要在主体间性中寻找意义,人工智能的世界性实践也离不开人与机器的共生关系作为参照。源于“人类纪”的模仿、和谐、统一等传统美学观念,或许限制了我们对可能世界的思考。正如唐娜·哈拉维(Donna Haraway)所说,世界性实践需要“制造古怪的亲缘”和“真正活在当下”。44从这个意义上说,研究人工智能影像不仅是为了探讨机器和算法如何解读我们留下的图像和视频数据,更是在这个过程中反观我们自身及其所处的世界。
——选自《电影新作》2024年第4期“电影与人工智能”专题,详见知网、纸刊