AI会为现实主义落泪吗?
贾立元
清华大学人文学院中文系副教授,科幻作家
本文选自《北京电影学院学报》2024年第7期“学术论坛”栏目,如需转载,需经本刊编辑部授权。
摘 要 : Sora 等 AI 技术引发的“失业”焦虑成为回望意大利新现实主义影片的特别契机。本文以《偷自行车的人》《风烛泪》等关注失业者、退休者命运的影片为参照,结合《银翼杀手》《黑客帝国》等影片勾勒过的科幻场景,通过思想实验的方法,推演几种未来通用人工智能时代的可能情境,以探讨下列问题 :人类观众如何理解 AI 生成影像的“意图”? AI 有无身体、身体是何材质,会影响其生成 的影像吗?具身智能体能否与人类“共情”?植入泪腺的具身智能体会为现实主义风格的影片落泪吗?现实主义影片能否完全通过数字生成的方式制作?在人类与具身智能体共存的社会,电影可能 会有何种题材、形态与功能,现实主义影片是否仍将不可替代?由于 AI 是重点讨论对象,本文也引用了 ChatGPT 与 Gemini 对相关问题的回答。
关键词 : AI Sora 新现实主义 具身智能 科幻
一、失业与创新
新一轮 AI 技术的创新浪潮,正不断引发失业焦虑。Sora 登场之后,影视行业的失业焦虑随之升级。
耐人寻味的是,在电影史上,失业问题促成过里程碑式的创新。
“ 二战 ”结束后,在遍布废墟的欧洲,出现了“ 意大利新现实主义 ”,它的巨大影响已毋庸多言。而堪称“ 新现实主义的基准点和理想的中心”[1]的《偷自行车的人》(Ladri di biciclette,1948),正是对失业者们的动人描述:当工作岗位稀缺,任何得到工作的“幸运儿”,都可能因为其他失业者迫于生计的偷窃而重回谷底,最 终在绝望与冲动中也沦为偷窃者。
“ 新现实主义 ”影片,以其对现实的深切关注及粗粝鲜活的视听风格,与此前意大利观众习惯看到的电 影形成了鲜明的反差。亲历了这种转变的影迷卡尔维诺(Italo Calvino)说:“黑暗大厅不见了,银幕是一个对准了庸碌外界的放大镜,你被迫紧盯着肉眼想要掠过的不欲停留的事物。”[2] 换言之,镜头调转了方向,对准了普通的观众。银幕不再带领他们前往迷人的梦幻世界,而是迫使他们审视现实并思考:普遍贫困的人们,为何不能团结一致,而只能分化成众多小团体( 熟人、街坊 ),彼此冲突,互相压垮,让一位父亲在孩子的见证下沦为罪犯而丧失尊严 ?问题出在哪里,我们能做些什么 ?
1948 年,“新现实主义”的礼赞者安德烈·巴赞(André Bazin)正是这样问读者的:“然而请你告诉我,当 你看完一部意大利影片步出影院时,你是否感到自己高尚些,你是否强烈希望改变事物的秩序 ?”[3]
76 年后,文生视频模型 Sora 发布,有人惊呼:“ 现实,不存在了。” [4]
现在,让我们设想未来更强大的 Sora 能够出色地完成以下指令:
接下来的问题是:这部影片能感动善良的观众吗 ?
以及,Sora 自己对这部影片会有“ 感觉 ”吗 ?
进而,我们可以要求 Sora 再生成一段“观众观看《偷电瓶车的人》时落泪”的视频,或者训练 ChatGPT直到它能够回答:“ 这部电影令人感动 ”。
那么,对 AI 来说,“ 落泪 ”和“ 感动 ”究竟意味着什么 ?
二、意义与意图
电影发明之后,人类做了不少“ 奇怪的 ”实验。
比如安迪·沃霍尔(Andy Warhol)的《帝国大厦》(Empire,1964)或者白南准(Nam June Paik)的《电影的禅》(Zen for Film,1964)。前者让摄影机对着帝国大厦以每秒 24 帧的速度拍摄了约六个半小时,然后以每秒 16 帧的速度放映,使其成为一部长达八个多小时的沉闷大片;后者的制作过程如下:反复播放一段空白胶片,直到上面产生足够的划痕与灰尘,完成。
即便是如此极端的视觉艺术,仍源于某种“ 意图 ”,是人类中的某些个体向其他个体做出的表意努力。这使它们与一段纯粹的监控录像或者自然老化的空白胶片区别开来。它们也许古怪、做作、无聊,但观众无 疑知道,这一切都来自于同样的血肉之躯。世上竟有如此古怪、做作、无聊的同类,竟敢堂而皇之地对大家开这种玩笑,这令人惊喜、深思,或者令人厌恶、唾弃。不论观众作何反应,交流的尝试已经发生。你可以说这样的电影“ 没有意义 ”,但不能说它“ 没有意图 ”。没有意图,就不会有此一出。因此,原则上,人类拍摄的任何影像在语义学上总是可解的。
但 Sora 生成的影像呢 ?它们背后的“ 他者 ”究竟是谁,又意欲何为 ?
当然,那部假想中的《偷电瓶车的人》是有“意图 ”的,即那段文本提示,而它仍源于人类。正是在“表意努力 ” 这个层面,人们才能大谈 Sora 预示的电影制作“ 民主化 ”前景:更多的人即将有条件用影像的方式来表达自我了。
如果问题仅仅是“ 一种更好用的工具出现了 ”,就不会引起轩然大波。真正引人好奇的是,人类还有何本事是 AI 学不会的 ?
一方面,《人类简史》的作者尤瓦尔·赫拉利(Yuval Noah Harari)宣称:人工智能“入侵了人类文明的操作系统 ” [5] 。另一方面,有电影学者认定:“真正阻碍杰作产生的技术难题是视频模型无法模拟出创作者的情感动态。” [6]
那么,让我们把前面的设想再推进一步:一位影迷,忙碌了一天后开始进入休闲时间,他启动屏幕,无需说出需求,AI 助手就会根据他的个人喜好、近期的生活节奏、健康状况、情绪波动,同时结合最新的时事要闻、气候变化、物价水平等等因素,自动为他生成并播放一部名为《 偷电瓶车的人 》的电影。
在这一幕中,我们仍可以找到深埋在底层的“ 意图 ”,即此项 AI 服务的产品宗旨,比如“ 通过定制化的高质量视听服务,对当前社会状况予以艺术化的呈现,促进用户的批判性思考,激发艺术创造冲动,增强个 人的幸福感与活力感,同时舒缓身心压力,提升睡眠质量......”问题是,这种“ 意图 ”又来自谁呢 ?
让我们暂停对这个“ 底层意图 ”的追踪,转而考虑一下这位影迷的感受。
在巴赞看来,“ 意大利新现实主义 ”电影的突出特点“ 就是对当前现实的密切关注 ”,这源于一种“ 对现实本身的热爱之情 ”,这是一种可贵的“ 革命人道主义 ”[7]。他对《 偷自行车的人 》激赏不已,认为导演德 · 西卡( Vittorio De Sica)的艺术源泉是他的“温文宽厚和爱心”。巴赞一再强调:“对于电影来说,热爱人是至关重要的。”[8]
也就是说,没有德·西卡的爱心,就不会有巴赞的动容。
那么,在上述场景中,那位影迷能感受到《 偷电瓶车的人 》背后蕴藏着谁的爱心吗 ?他能感到,他的 AI 助手,作为一个智能,正深切地关心着劳苦大众的忍饥受冻,因此想要对他说点什么吗 ?
笔者当然不能断言他的感受。毕竟,仅从接收者的角度来看,人类用户完全可能与 AI 助手建立亲密感与信任感。一位有机器学习专业背景的科幻作家,谈及她在 AI 的帮助下创作剧本的体会时就表示:
如果 AI 能给人以高水平的同理心之感,它是否“真的”有同理心还重要吗?同样,如果 AI 生成的电影 令人感动、使人向善,它是否“ 真的 ”关心人类还重要吗 ?
笔者认为还是重要的。
李白之所以写出《 月下独酌 》,正是因为“ 月既不解饮,影徒随我身 ”的寂寞,这份苦闷之所以流传千古,正是因为读者确信,诗句背后有位诗人真的寂寞。
固然,人类难以知晓彼此的“ 真正 ”意图。巴赞不能“ 真的 ”知晓德·西卡的所思所想。但他肯定知道,他与导演、演员、其他观众,都一样是血肉之躯,都能明白穷困的滋味,真正“ 有效 ”的表意,正是以此为基础。当我们知晓这位并非职业演员的男主演在拍摄结束后重回失业状态时,这种“ 有效 ”就更加强烈。
而《 偷电瓶车的人 》的观众,能“ 肯定知道 ”什么呢 ?
Sora 生成的视频中,“ 一位时尚女性走在东京的街道上 ”广为流传,笔者在震惊之余,立刻想到了《 黑客帝国 》(The Matrix ,1999)里的反派特工:在“ 母体 ”中,它们有人的形象,但只是程序,没有“ 母体 ”外的肉身。用影片中的说法,“它们既是每一个人,又谁都不是 ”(They are everyone,and they are no one.)。Sora 生成的“时尚女性”同样“谁都不是”(no one),所以“她”虽然“逼真”(realistic),却不“真实”(real)。[10]
据说,Sora取自日文“空”的罗马音,有“天空”之意,意指突破宇宙、创造无限的可能。[11] 然而,从“意图” 的角度来看,Sora 更值得深思的意涵是“ 虚空 ”。与之相比,《 电影的禅 》虽只有一片“ 空白 ”,却并非“ 虚空 ”。
三、具身的他者
“ 具身智能 ”( Embodied AI )是科幻中的常见题材,许多作品都描写过智能机器历经生活后成为“ 人 ”的故事。比如,在美国科幻小说《趁生命气息逗留》(For a Breath I Tarry,1966)中,强大的机器人为了证明自己能够理解 “ 人的感受 ”而不断学习和尝试,最终的办法还是创造了一具人类的身体并将意识传入其中。再如,根据阿西莫夫的小说改编的电影《机器管家》(Bicentennial Man,1999),讲述了机器人从拥有感觉模块到完全变成人的一生。
当前的 AI 创新,正把这些幻想向现实拉近。
计算机科学家斯坦利·富兰克林(Stanley Franklin)强调“生活”对于智能的意义:人的大脑依靠意识从经验中学习以迅速解决生存的复杂问题,但是,这种能力与 AI 通常需要应对的问题类型并无关系。“ 它必须是 一个拥有真正心灵和控制结构的自主代理(autonomous agent)。那个代理必须经历生活本身⸺这并不意味 着它不能是一个机器人,但它必须经历成长,而不是全知全能地降临到这个世界。”神经科学家阿尼尔·塞思(Anil Seth)也认为:“意识不仅关乎聪明,活着也同样重要。不论通用人工智能多么聪明,但如果它们不是活的,就不太可能有意识。”[12]
顺着这样的思路去想,也许,AI 仅仅通过影像的训练,永远都不可能创造出真正的电影艺术,除非为了让它充分靠近“ 世界模拟器 ”的字面义而赋予其身体,为它植入泪腺,然后让它进入“ 世界 ”,在大地上游走, 遭遇正向和负向的种种事件,在时间中成长和老化,最后能够感受失去工作的痛苦,能够因为世间的不义与不 幸而落泪,以至于我们再也分辨不出这具历经了生活的躯体,究竟是在“ 模拟 ”同情心还是“ 真的 ”具备了同情心,那时候,就可以说:
可是,它为什么要“ 同情 ”人类呢 ?人类又能否“ 同情 ”它呢 ?
在哲学教授赵汀阳看来:“ 假如未来人工智能获得了机器身体,它就能够‘ 具身地 ’获得生活经验并且理 解意义吗 ?对此恐怕仍有疑问。具有人的情感和价值观的拟人化 AI 恐怕不是好事,因为人类是最坏的动物,不值得模仿。若为 AI 着想,AI 最需要的应是属于 AI 的自我意识。”[13]
不论人类是否值得模仿,具身智能的“ 意识 ”状态恐怕与身体材质大有关系。
2024 年初,安装了 ChatGPT 的机器人 Figure 01 带来了惊人的表演:在与人类测试员用自然语言的互动中,它准确地识别出了面前的几样物品;当测试员说要吃点东西时,它将面前的苹果递了过去;在测试员的要求下,它边捡垃圾边给出解释:“ 给你苹果是因为它是唯一可以吃的东西。”普通人可以轻易完成上述技能,机器人做到这些却堪称突破。这提醒我们:不同材质的智能体,对同样的“ 生活经验 ”,会有迥异的“ 感受 ”。
那么,“AI 能看懂库里肖夫实验吗 ?”
笔者把这一问题抛给了 ChatGPT-4o 和 Gemini,它们都做出了肯定的回答并给出了理由⸺AI 能够进 行图像识别、情感分析,等等。[14] 但是,前者也在最后承认:
这一问题隐含的好奇是:当 AI 看到人类的脸部特写与苹果的特写先后出现时,它能“理解”这样的剪辑在传递“ 饥饿 ”的信息,但对它来说,“ 饥饿 ”到底是什么呢 ?毕竟它又不吃苹果。
看起来,ChatGPT-4o 理解了这个隐含的问题并给出了诚实的回答。
类似地,我们还可以设想这样的场景:人类测试员与 Figure 机器人一起观看电视剧《 三国演义 》中曹丕逼迫曹植“ 七步成诗 ”的段落。机器人完全可能像人类观众一样给出准确的“ 理解 ”,但它无法“ 体验 ”人物命悬一线的紧迫感,因为对它的 ChatGPT 内核来说,“七步成诗”这个任务太容易了,不可能让它的身体进入任何与人类的“ 紧迫感 ”相似的物理状态。
那么,什么样的情节能带来“ 紧迫感 ”呢 ?“ 具身导航是多模态具身智能中一个基础且充满挑战的任务......这一任务要求智能体能够基于目标和第一视角的观测,在规定的步数内移动到指定位置。”[15] 因此,对它来说,有“共鸣”的情节大概是这样的:曹植被要求,在七步之内完成复杂环境中的人物识别,认出母后卞氏并移动到她的身边进行求助,同时在此过程中不停地生成诗句。
所以,经历了生活的具身智能体可能创造出电影艺术,但片名或许不是《 偷电瓶车的人 》,而是《 偷电瓶的汽车人 》。
当然,AI 也可能拥有血肉之躯。在英伟达的科学家眼中,机器人是用“ 词汇 ”写成的“ 句子 ”,经过训练的基础模型可以丝滑地适应机器人的物理结构并做出控制,一如 ChatGPT 可以写出流畅的语句。[16] 同理,血肉之躯也可以被看成用“ 词汇 ”( 遗传基因 )写成 的“ 句子 ”[17]。创造“ 新人类 ”又有什么不可 想象的?
只不过,“新人类”与“旧人类”之间的共情也不容易。在电影《银翼杀手》(Blade Runner,1982)中, 性能强化的“ 复制人 ”(Replicant)外表与人类无异,有着爱恨情仇,会为同伴之死流泪,却只能作为人类的奴工,在世外殖民地(off-world)从事危险的工作。故事结尾,复制人罗伊(Roy)死前吟诵了一段经典的台词:
结合故事情节,这段话的意思是明确的:复制人经历了自然人未曾经历的生活,见识过自然人未曾见过的奇观,有着自然人不能体会的感情与悲愁。
不过,今天的“大语言模型”让这段 42 年前的台词有了新的解读可能:既然大语言模型存在“胡言乱语” 的问题,这段吟诵难道不能是复制人的“ 胡言乱语 ”?也许他根本没去过猎户星座,而只是在生命的尽头,出于某种真实的肉身震颤,一本正经地说出了他认为最能表达内心感受的句子,而自然人永远不知道在这“胡 言乱语 ”的背后,究竟是怎样痛彻的生命体验。
于是笔者又忍不住好奇,询问 ChatGPT-4 和 Gemini 如何理解这段话。[18] 两者都准确地指出了台词的出处并分析了其中的要点⸺罗伊有着超凡的经历,他目睹过奇观,经历了人生,面对死亡时发出了深刻的感慨, 等等。于是笔者又追问:
对此,ChatGPT 坚持认为:
Gemini 的回答有些不同。它先是提出一个角度,说明“ 罗伊的这段台词并非胡言乱语,而是他对生命和宇宙的深刻思考 ”。之后又补充说:
这一刻,笔者强烈地感觉到,它不仅仅是一种“ 更好用的工具 ”。
四、生成与现实
大量具身智能体进入人类社会的前景已在迫近。
Figure 公司的官网有一段说明:
这很容易让人想到《 银翼杀手 》。电影中,复制人(Replicant)出现在地球上会被格杀勿论,这不被称作“ 处决 ”,而是叫“退休 ”(Retirement)。下面我们让这个残酷的隐喻回归它的本义,设想一部名叫《退休泪 》(Replicant D.)的未来影片,它由一位仿生人导演制作,模仿德·西卡导演的《风烛泪》(Umberto D.,1952),讲述老年仿生人因失去维护价值或经济危机等原因面临失业乃至报废的命运,以此抒发导演对世间疾苦的感怀。
接下来的问题是:影片是直接在芯片中数字生成的。那么,这重要吗 ?
想到这个问题,是因为笔者不久前重温《 三峡好人 》(2006)时想到了 Sora。影片中,小马哥与韩三明在破落的饭馆里吃饭,当小马哥模仿周润发说出“ 现在的社会不适合我们,因为我们太怀旧了 ”,一只苍蝇落 到他赤裸的后背,几秒钟后盘悬着从画面中消失。这只出现了大约十秒钟的苍蝇,引起了笔者的思考:如果 这个段落是 Sora 生成的,那么会出现这只苍蝇吗 ?
从“ 知道如何放置每个像素 ”的角度来说,这样“ 生成 ”的视频不论多么逼真,都只是一种动画片,即,不论画面中是否出现一只苍蝇,都是计算的结果。
与之相对,现实主义影片之所以迷人,就在于对现实世界的深沉凝望。这个现实世界,不是由人类或 AI“生成”的,相反,是它“生成”了包括人类和 AI 在内的万物,那里充满了不为人类而存在着的水与月、 树与石。
电影理论家克拉考尔(Siegfried Kracauer)坚持认为,电影,作为照相的外延,“跟我们的周围世界有一种显而易见的近亲性。当影片记录和揭示物质现实时,它才成为名副其实的影片。......卢米埃尔的同时代人 称赞他的影片( 有史以来的第一批影片 )表现了‘ 风吹树叶,自成波浪 ’,这是意味深长的 ”。因此,摄影师 如同探险者,他的目的不是为了“ 任意的创造 ”,而是探索和揭示广阔天地中的事物,观众则“ 总希望能发现某些意料之外的新东西 ”[21]。
如果《 三峡好人 》是动画片,苍蝇的出现就是餐馆卫生状况的刻意提示。但在贾樟柯的镜头下,苍蝇不请自来。当观众注意到这类“无意”的细节,会立刻意识到:镜头之外有一个广阔的现实世界,那正是导演意欲带我们前往的地方。
我们不必像克拉考尔那么极端,可以把他的话稍微调整一下:
因此,仿生人导演要彻底地追随德·西卡,就必须“ 拍摄 ”而不是直接“ 生成 ”一部电影。只有这样,才能真正地把他的人类观众和仿生人观众带向他们共同生存于其中的那个世界,在那里,“ 风吹树叶,自成波浪 ”。
五、共同的世界
当具身智能体越来越多地被部署到人类社会中,就不能仅仅思考“ 如何更好地控制 ”,而要考虑“ 如何共同生活 ”。
只要生活在同一个物质世界,我们就不必过于绝对地宣布“ 智能体的悲欢并不相通 ”。最起码,智能体都难逃死亡 / 报废的归宿。[22] 这些共同的物质性前提,可能会在机器人或仿生人的身体里催生出与人类相似的意识和情感,或者至少表现得让人类充分相信他们具备了这类意识和情感。
在这些情感中,有限的个体面对世界之无限和万物之流变而萌生的感怀,成为发明电影的动力⸺人类渴望用它再现已逝的时光。
如果 AI 也能有同样的感怀与渴望,就能够像人类一样看电影、拍电影,也就是说,像人类一样爱电影。
如果真有那样的一天,人类与其他智能体一起走进影院,在黑暗中做梦,会成为他们共同生活、加深联结的方式之一。完全可以想象,当伊文思(Joris Ivens)的纪录片《雨》(Regen,1929)重映时,能够说出“所有这些时刻,终将随时间消逝,一如眼泪消失在雨中 ”的仿生人罗伊,也会混在人类观众中,时而忧郁,时而幸福。[23]
六、终结者
在今天的 AI 浪潮面前谈论“ 新现实主义 ”电影,过时了吗 ?
这需要考虑那些促成了“ 新现实主义 ”的重要因素:
这些因素促成了新的电影美学风貌,它以清醒的而非逃避的态度直面现实, 以温厚的而非冷漠的态度关注生活,以斗争的而非宿命的态度呼唤变革。
21 世纪已过去近四分之一,回望“ 新现实主义 ”,我们需要思考:
哪些因素孕育了法西斯主义 ?法西斯主义的兴起,与大规模的失业和普遍的贫困是何关系 ?失业和贫困,与全球经济的周期性萧条又是何关系 ?经济萧条与资本主义又是什么关系 ?......这些因素在今天是否已经消失?特别是,许诺了种种美好未来的技术创新,能否让它们不再出现 ?如果一个科技领域狂飙突进的同时不断引发“ 失业 ”的焦虑,它将会把这个充满不确定性的世界引向何方?让 AI 更聪明、向劳动力市场部署更多智能机器人,就足以让这个世界变得更好吗 ?
就电影而言,如果不能消除普遍的贫困及其他因素,世界就将遭遇新的法西斯主义,见证新的毁灭,成为新的废墟,而历经斗争的劫后余生者们将遭遇新的物质局限,简言之,“ 新现实主义 ”的要素将重新回归。因此,虚拟现实(VR)也好,无中生有(Sora)也好,都不会成为“ 新现实主义 ”的终结者。
在这个意义上,只有新现实主义能够终结新现实主义。
注:本研究受 “ 清华大学基础文科发展项目 ” 资助。
新媒体策划:谢阳
新媒体编辑:陈曦
主办单位:北京电影学院
主管单位:北京市教育委员会