新文推荐|(美)列夫·马诺维奇/文 张昊博/译:《AI 图像与生成媒介:关于当下革命的若干笔记》

文摘   电影   2024-10-09 10:52   北京  


AI 图像与生成媒介:关于当下革命的若干笔记


( 美 )列夫·马诺维奇(Lev Manovich)

美国纽约市立大学研究生中心计算机科学教授

张昊博

河北美术学院影视艺术学院专任教师

本文选自《北京电影学院学报》2024年第9期“学术论坛”栏目,如需转载,需经本刊编辑部授权。

摘 要 : 近年来,生成式人工智能(AI)技术在视觉媒介领域的广泛应用,引发了学界从本体论、认识论与 方法论等多个维度对艺术存在的重新审视。生成式 AI 利用深度神经网络模型在大型数据集上进行训练,并根据用户输入的指令自动生成美学风格多样化的“艺术作品”。然而,这一自动机制在丰富人类艺术创作与表达的同时也引发了一系列文化域的关键问题 :生成式 AI 是对数据集中的艺术作品的简单复制或模仿,还是复杂创新与超越?生成式 AI 与人类的艺术创造力之间是否有相似之处?这些问题亟待深入探讨。本文回顾了 AI、视觉媒介与艺术的发展历程,揭示了其中存在的接续性关系, 旨在分析生成式 AI 在当代视觉媒介、艺术与文化当中的引发的艺术革命。 


关键词 : 生成式 AI AI 图像 视觉媒介 生成媒介



    我们似乎正处于媒介创作革命真正的开端:“生成媒介” (generative media)的崛起时刻。自 1984 年以来,我便开始通过计算机工具进行艺术和设计方面的工作,见证了几次重要的媒介革命,包括苹果电脑和用于媒介创作与设计的桌面程序的引入,极为逼真的三维计算机图形和动画的发展,1993 年后互联网的普及,以及 2006 年后社交媒体网络的兴起。似乎,新兴的 AI“生成媒介”革命与这些革命有着同样的分量, 但实际上,这场革命可能与 19 世纪摄影术的发明或 16 世纪线性透视在西方艺术中的运用一般,具有更为重要的意义。 

图 1 Stable Diffusion


    如果你对这个话题不太熟悉,那么这是一篇简要的历史梗概。生成媒介的革命已经发展了 20 余年。最早 提出利用庞大的非结构化网络文本、图像和文化产品来训练计算机以执行各式各样任务的 AI 论文可以追溯至 1999 年至 2001 年间。2015 年,谷歌的“深梦”(deep dream)和“风格迁徙”(style transfer)的方法吸引了众多 关注:突然间,计算机能够创作出模仿许多艺术家风格的崭新的艺术图像。2021 年 1 月发布的 DALL-E[1] 是另 外一个里程碑:现在,计算机可以根据文本描述合成图像。Midjourney[2]、Stable Diffusion[3] 和 DALL-E 2 软件都在 2022 年为这一进化的提速做出了贡献。当下,合成图像拥有照片的逼真性,以及各类物理或数字媒介中多样化的美学风格,包括马赛克、油画、街头摄影或三维计算机图形渲染。用于生产这些图像的符码,在人工智能领域被称之为“模型”,其于 2022 年 8 月公开,并引发了一系列实验和加速化的发展。 


    我将描述当前各类形式中,视觉生成媒介的若干特征,而我认为这些特征非常重要且新颖。我的一些论点 也适用于生成媒介的一般特征,但大多数聚焦于视觉媒介⸺这反映了自 2022 年中期至 2023 年初,我几乎每 天使用流行的 AI 图像工具所留下的一丝经验,例如 Midjourney 和 Stable Diffusion(偶尔还有 Runway ML[4])。不过首先,让我们定义一些关键术语。 


一、关键术语 


    在本文中,“艺术家”或“创作者”意指任何使用媒介或它们的组合形式创作文化实体,且技术精湛的人。而“生成媒介”“AI 媒介”“生成 AI ”和“合成媒介”等术语皆可互换。它们指用深度神经网络(deep neural networks)创作新型媒介实体的过程,例如图像、动画、视频、文本、音乐、三维模型、场景,以及其他类型的媒介。除此之外,神经网络还能够用于生成特定的元素和内容种类,比如逼真的人类面孔、人体的姿势和动作。神经网络又可以用于媒介编辑,例如将图像或视频中的一部分替换为空间上更为合适的内容。 


    这些网络在现有的大型媒介物集合上被训练。当下盛行的媒介生成式人工神经网络的种类包括扩散模型(diffusion models)、文本―图像生成模型(text-to-image models)、生成式对抗网络(generative adversarial networks,GAN)和转换模式(transforms)。对于使用神经网络生成的静态或动态的图像来说,图像生成、合成图像、AI 图像和 AI 视觉这些术语是可以互换的。 


    需要注意的是,“生成”一词也可以以不同的方式指涉通过任一算法程序(而不仅仅是神经网络)而制造文 化制品的过程,甚至一种不需要借助计算机,但又基于某项规则的过程。这就是“生成艺术”“生成设计”这 些短语在今天文化话语和大众媒介语境中典型的使用方式。在本章中,我将更为严格地使用“生成”一词,指代深度网络模式和使用该模式从事媒介生成的应用程序。 


    还需要注意的是,“生成”一词还可以通过不同的方式意指任何使用计算过程(而不只是神经网络)制造文化制品,以及甚至不使用计算机,而基于某项规则的过程。这就是“生成艺术”和“生成设计”这些术语在今天的大众文化与媒介中经常被使用的方式。在此,我将通过一个狭义范畴来使用“生成”一词,表示制作媒介制品的深层网络模式和使用该模式的软件。


二、“AI”作为文化认知 


    并没有一种特定的技术或单一的研究计划被称之为“AI”。然而,我们可以追溯这个概念在文化认知中的历史变革,以及它在每个时期的具体所指。在过去 50 年里,据说当一种独特的人类能力或技能被计算机技术自动化时,我们便称其为“AI”。但是,一旦这种自动化技术流畅运行且非常成功后,我们往往不再将其视为“AI 案例”。换言之,“AI”指的是那些自动化人类认知能力,且开始运作但尚未完全成熟的技术和方法。“AI”出现 在最早的计算机媒介工具之中。第一个交互式绘画和设计系统是伊万·萨瑟兰(Ivan Sutherland)的画板[5](1961- 1962 年),其中,有一个功能可以自动完成你给定的任何一个矩形或圆形。换句话说,它知道你想要做什么。从之前给出的较为宽泛的解释来看,这无疑已经是“AI”了。 


    1984 年,当我第一次接触到苹果第二代微型计算机(Apple 2)上运行的桌面绘画程序时,便惊讶于移动鼠标通过使模拟绘画的笔触出现在屏幕上。然而,今天我们不再将它视为“AI”。另外一个例子是 Photoshop[6] 自动选择一个物体轮廓的功能。这个功能是很多年前添加的⸺广义上讲,这也是“AI”,然而今天没有人会将 它称之为“AI”。数字媒介系统与工具的历史充满了这样的“AI 时刻”⸺起初让人惊叹,然后被视为理所当然,并在一段时间后遗忘其“AI”属性(在历史书中,这种现象被称之为“AI 效应”)。目前,“创作 AI”(creative AI)仅仅指最近开发的方法模式,即计算机将一些输入转换为新的媒介输出(例如,文本―图像的转换模式), 以及特定的技术(例如,某一类型的深度神经网络)。然而,我们必须牢记,在模拟人类艺术能力和协助人类进行媒介创作的漫长历史以及未来之中,这并不是第一次,同样也不会是最后一次。


三、从表征到预测 


    从历史的角度来看,人类通过若干方法创作出真实或想象场景的图像,从手工绘画到三维计算机图形技术 (见下文对这些方法的解释)。伴随着 AI 生成媒介的出现,一种全新的方法诞生了。计算机通过各类型媒介中 现有表征的大型数据集来预测新的图像(包括静态的或动画的)。 


    人们当然可以提出不同的历史路径,或者将一个历史时段划分为不同的阶段来引导当下的视觉生成媒 介⸺以下仅是一种可能的轨迹: 

(1)手工创作的表征形式(例如,使用各种工具的绘图、雕塑等)。这是一个相当机械化的阶段,而其中的 某些部分通常由在师傅工作室中得到训练的学徒助手完成,因此已经有了一些功能的委派。 

(2)手工创作但使用辅助设备(例如透视镜、显画器)。从纯手工到手工加设备。在此,一些功能被委派给 机械和光学设备。 

(3)摄影、X 光、录像、体积捕捉、遥感设备、摄影测量。从手工到使用机械记录信息;从人类助手到机械助手。 

(4)三维计算机图形。你在计算机中定义一个三维模型,并使用算法来模拟光源、阴影、透明、半透明、自然感、 景深、动态模糊等效果。从记录到模拟。(5)生成 AI。使用媒介数据集预测静态和动态图像。从模拟到预测。“预测”(predict)是 AI 研究者在他们 的出版物中描述视觉生成媒介的方式时经常使用的实际术语。因此,尽管这个术语可以比喻性和引发性地使用,但这也是在使用图像生成工具时,科学上实际发生的事情。当使用文本―图像的 AI 模型时,神经网络便会尝 试预测最符合文本输出的图像。我并不是说,使用“生成媒介”或其他常规的术语是不合适的。但是,如果我 们想更好地理解 AI 视觉媒介的合成方式与人类历史上形成的其他表征方式之间的区别,那么使用“预测”的概 念,将这些 AI 系统称为“预测媒介”,可以更好地捕捉这些差异。


四、媒介转换(Translations) 


    有很多创建“AI 媒介”的方式。一种方式是保持相同媒介类型的同时,转变用户的媒介输入。例如,用户 输入的文本可以被总结、重写、拓展等。输出和输入一般,都是文本。或者,在图像―图像(image-to-image) 的生成方式中,使用一张或多张输入的图像来生成新的图像。不过,从历史和理论的角度来看,还有另外一种 同样吸引人的路径。可以通过在不同媒介类型间自动“转换”内容来创建“AI 媒介”。由于这并不是字面上一对 一的转换,所以我把“转换”一词加上了引号。相反,从一种媒介输入指示的神经网络来预测来自另一种媒介 的适当输出。这种输入可以说是“映射”(mapped)到其他媒介的一些输出。文本被“映射”为新的文本、图像、 动画、视频、三维模型和音乐样式;视频被转化为三维模型或动画;图像被“转换”为文本等等。文本到图像的 转换方式目前比其他方式更为成熟,不过各式各样的方式最终都会赶上来。 


    不同媒介间的转换(或映射)并不是一个新概念。纵观人类历史,这些转换都是由手工完成的,并且通常 带有艺术性的意图。小说被改编为戏剧和电影,连环画被改编为电视剧,虚构或非虚构的文本用图像的方式呈 现等等。这些转换都是一种有意识的文化行为,需要专业技能和相关的媒介知识。如今,由于人工神经网络的 存在,一些转换可以大规模自动执行,进而成为一种新的交流和文化创作方式。当然,由人类团队完成的从小 说到电影的艺术改编和通过网络从小说到视觉效果的自动生成是不同的,但在许多简单的情况下,自动的媒介 转换可以很好地发挥作用。曾经需要艺术技巧的行为,现在是人人都能获得的技术能力。我们或许会对这种关 键文化操作的自动化和民主化所可能导致的一切损失感到难过:技巧,也就是所谓的“深层艺术的原创性”(deep artistic originality)或“深层的创造力”(deep creativity)。然而,如果“文化 AI”(culture AI)得到进一步加强, 且能够生成更多的原创性内容并更好地理解语境,那么任何损失都只是暂时的。 


     由于我们社会中的大多数人至少可以使用一种语言进行阅读或书写,所以文本到    其他媒介的转换方式在当 下最为盛行。这些方式包括文本到图像、文本到动画、文本到三维模型,以及文本到音乐模型。任何有书写能力的人都可以使用这些 AI 工具,或者使用现成的转换软件,并以这些工具最擅长的语言来创造提示,如英语。然而,对于专业人士来说,其他媒介映射也可能同样有趣。在人类文化历史的漫长历程中,媒介类型间的各式 转换都引起了人们的注意。它们包括视频和音乐间的转换(俱乐部文化);长篇文学叙事作品被改编为电影和电 视剧;在各式媒介上被图像呈现的文本,例如雕刻;数字(numbers)转为图像的数字(digital)艺术;描述绘画的文 本(始于古希腊修辞传统);声音和颜色之间的映射(特别盛行于现代主义艺术当中)。 


    对于所有媒介类型间的映射而言,AI 模型的持续发展,在没有偏袒文本类型的情况下,拥有巨大的潜力, 并且我希望,有更多的工具能够实现这一点。这些工具可以单独使用,也可以和其他工具与技术混合使用, 这对于专业艺术家和其他创作者来说都非常有益。然而,我自己作为一名艺术家,我并不是说,“文化 AI” 未来能够与先锋派戏剧导演彼得·布鲁克(Peter Brook)对哈姆雷特的启发性阐释相匹敌,或者说能够达到奥 斯卡·费钦格(Oscar Fishinger)在探索抽象电影中音乐和视觉之间对应关系时所展现的惊人水平。新式媒介 映射的 AI 工具激发我们去想象,给我们提供新的思路,并且让我们去探索特定设计的无穷变化,这就足够了。


五、普遍与特殊 


    现代人类的创作过程和预测性 AI 生成媒介的过程似乎是一致的。神经网络通过使用文化内容中的非结构 化集合来训练,例如数十亿张图像以及相应的描述,或者数万亿个网页与书面。网络可以学习这些制品组成部分间的关联(例如哪些单词经常毗邻出现),以及它们普遍的模式与结构。只要我们有所要求,经过训练的网络便会使用这些结构、模式和“文化原子”(cultural atoms)来创作新的制品。根据我们的要求,这些 AI 创作的制品可能与现存的事物非常相似,也可能不太一样。


    同样,我们的生活也是一个不断发展的过程,既包含监督性的文化训练,也包括无人看管的文化训练。为了吸纳新的文化信息,我们学习艺术和艺术史的课程、浏览网站、视频、杂志和展览目录、参观博物馆,并旅行。当我们“促使”自己制造一些新的文化制品时,我们自己的生物神经和网络(比迄今为止的任何 AI 网络都 复杂得多)会根据我们目前学到的东西生成这些制品:我们可以观察到普遍模式、制作特定事物的模板(例如用 正确的比例绘制一个人头或编辑一段采访视频),以及日常物品中的具体部分。换言之,我们的创作可能既包 含先前观察到的制品的精确复制,也包含我们通过学习得到的模板中所表达的新事物,例如色彩组合和线性透视。此外,人类和 AI 模型通常都有一个默认的“房屋”(house)风格(这是 Midjourney 开发者实际使用的术语)。如果没有明确指定一种风格,那么 AI 将会使用这种“默认”美学进行生成。对媒介的描述、灯光的类型、颜色 和阴影,以及“什么样的风格”这样的短语,后面跟着一个知名的艺术家、插画师、摄影师、时装设计师或建 筑师的名字时,都是避开这种默认风格的范例。


    由于 AI 可以模拟成千上万种现存的美学与风格,并在它们之间插值(interpolate)以创造新的混合体,所 以 AI 在这一方面比任何单独的人类创作者都更有能力。然而,目前技术娴熟且经验丰富的人类创作者也具有 显著的优势。人类和 AI 都有能力想象和表现不存在或存在的物体和场景。但是,与 AI 图像生成器不同,人类制作的图像可以包含非常特殊的内容、独特的微小细节和特别的美学方式,而这都是当下 AI 能力范围之外的。换言之,众多技术高超、经验丰富的插画师、摄影师和设计师都可以表现出一个经过训练的神经网络所能表达 的一切(尽管这需要很长的时间),但他们还可以想象出神经网络目前无法完成的物体与构图,以及神经网络 还未掌握的美学风格(至少是难以维持下去的美学风格)。


    人类和人工创作者之间的美学和内容的差距是什么原因导致的?在训练人工神经网络的过程中,那些在训练 数据中出现频率最高的“文化原子”、结构和模式通常能够被成功地学习。在神经网络的“思维”中,它们获得了更多的重要性。相反的是,那些在训练数据中很少见或只出现过一次的“原子”和结构却很难被学习,甚至根本没有得到分析。它们没有被纳入 AI 学习的人工文化宇宙之内。因此,当我们要求 AI 合成它们时,AI 是做不到的。


    鉴于此,诸如Midjourney、Stable Diffusion和Runway ML这类文本―图像AI,目前无法以我的风格生成图像,无法通过添加新的生成部分而扩展我的图像,也无法用我的风格绘制新的内容来代替我作品中的特定部分(例如,它们无法对我绘制的数字图像进行有效的“外部绘制”或“内部绘制”)。相反,这些 AI 工具生成的物体比我通常绘制的物体更为呆板,或者说它生产的东西仅仅是既模糊又无趣的。


    我并不是说,我的图像中的风格和世界是完全特殊的。它们也是我与特定文化相遇,以及在我观察到事物 和注意到事情后的产物。但是,由于它们不太常见(所以难以预测),所以 AI 很难去模拟它们,至少在没有使 用我的图像进行额外训练的情况下是这样的。


    在这里,我们遇到了创作者在使用 AI 生成媒介时遭遇的最大障碍。通常来说,AI 生成的新式媒介作品比 我们想要的更为呆板与刻板。而这会影响所有的图像维度⸺内容要素、照明、交叉线影(crosshatching)、氛围、 空间结构和三维图形的细节。有些时候,这是显而易见的,在这种情况下,你可以尝试纠正它,或者直接忽略。结果。然而,这种“替换”往往是非常微妙的,以至于我们不通过广泛的观察或者用计算机对大量图像进行定 量分析,我们就无法推测它们。换句话说,就像 18 世纪以来成立的统计学,以及 21 世纪 10 年代末以来的数 据科学领域一般,新式 AI 生成媒介的模型可以很好地处理数据中频繁出现的项目和模型,但并不知道如何处 理稀有且不同寻常的项目和模型。我们可以盼望,AI 研究人员有能力在未来解决这些问题,但这个问题太过 于根本,以至于我们不应该期待立即会出现解决方案。 


六、主题与风格


    艺术领域中,内容与形式间的关系已得到广泛地讨论与研究。在这个简短的部分,我并不打算介入这些讨论,或与相关理论展开对话。相反,我想思考这些概念是如何体现在 AI 的“生成文化”之中的。然而,我打算 不再使用内容与形式这对术语,而是使用在 AI 研究出版物和用户在线对话中更为常见的一对术语:主题与风格。 


    乍一看,AI 媒介工具似乎能够清晰地区分任何给定表征中的主题与风格。例如,在文本―图像的生成模 型中,你可以生成同一主题的无数图像。只需添加特定艺术家、媒介、质料和艺术史时期的名称,就可以根 据这些参考以不同的方式表达同一主题。早在 20 世纪 90 年代,Photoshop 的滤镜功能便开始区分主题与风 格,但 AI 生成媒介工具的技能则更为强大。例如,如果你在提示中指定“油画”,模拟笔触会根据所描绘的 物体在生成图像中改变大小和方向。AI 媒介工具似乎能够“理解”表征的语义,而不像早期的滤镜那般,只对 每个图像区域进行简单且同质化的转换,而不考虑其内容。例如,当我在同一个面板中使用马列维奇(Kazimir Malevich)和博斯(Hieronymus Bosch)的绘画作品时,Midjourney 就会生成一个空间图像,其中包含了很多类 似于马列维奇式的抽象形状和许多盛行于博斯作品中的小人形象,而它们按照透视效果被适当地缩放。 


    除了表现要求的内容外,AI 工具通常还会在图像中添加我没有在文本提示中指定的内容。当提示包括“以 什么样的风格”或“通过什么样的风格”,并在后面跟着知名视觉艺术家或摄影师的名字时,这种情况就经常发生。在一次实验中,我在 Midjourney 的 AI 图像工具中使用了 148 次相同的提示,每次都添加一位不同摄影师 的名字。提示中的主题基本保持不变⸺空旷的场景中有一些建筑物、一条街道以及延伸至地平线上的电线杆。有些时候,添加一个摄影师的名字不会对生成图像中的元素造成影响,而这些元素符合我们包括比例、透视和 氛围这些风格的直觉观念。但是,Midjourney 也时不时地修改图像的内容。例如,当某个摄影师的知名作品以 特定的姿势的人物形象时,该工具偶尔将这些人物添加到我的照片里(就像马列维奇和博斯,他们的作品被改 造以适应场景中的空间比例,而非机械复制)。Midjourney 有时还改变图像的内容,使其对应于某位知名摄影 师创作其最知名作品的历史时期。 


    根据我的观察,当我们要求 Midjourney 或一个类似的工具以特定艺术家的风格创作一个图像,并且我们 在提示中所描述的主题与该艺术家的典型主题相关时,结果便会非常成功。然而,当提示的主题和这位艺术家的图像十分不同时,以这种风格“渲染”的主题往往是失败的。 


    总而言之,为了使当前的 AI 工具成功模拟既定的视觉风格,你可能需要改变你想要表达的内容。并不是 每一种主题都可以在任何风格中成功且令人满意地表达出来。我认为,这些观察使“内容”与“风格”这两个概念间的二元对立复杂化了。对于一些艺术家来说,AI 可以从他们的作品中提取出风格,然后将其应用于不同的主题类型当中。但是,对于另外一些艺术家来说,他们的内容与风格似乎是不可分割的。 


    在我看来,这些观察以及其后的思考是使用 AI 生成媒介这样的新式媒介技术,并理解其工作原理的最为 重要的原因之一。当然,作为一个媒介理论家,我长时间以来一直在思考主题与风格(或者说内容与形式)间的关系,但是能够像我所描述的那样实施系统性的实验,则可以带来新的想法,并让我们能够以新的方式回顾文化的历史脉络。


七、推陈出新:AI 和现代主义 


    几十年来我们一直认为,AI 无法模拟人类的一种能力,或者说唯一的能力:艺术创造力。翻译语言、下国际象棋、下围棋、总结材料⸺这些以及更多的 AI 成就是意义非凡的。但是,一台计算机是否能制作出艺术上精湛且不存在的人和物的照片,以及精准复制任一媒介效果和成千上万知名艺术家风格的美丽图像?或者通过结合现有风格和艺术语言创造出无数的美学变化?这一切在五年前似乎是不可想象的。然而,近年来, AI 研究人员已经赋予了机器这些所谓人类独特的创造力和想象力。如果你是使用 Midjourney、Music ML[7] 或 GPT[8] 等程序的数百万用户中的一员,那么你可能对新近发现的 AI 创作能力感到既激动又焦虑,既兴奋又困惑。 


    我们现在对人类的创造力以及它的运作原理了解得非常多,远远超过了对“AI 创造力”的了解。自 20 世纪 50 年代以来,在哲学、心理学、认知科学以及其他相关领域,创建了很多替代性的创作理论,并描述了多种多 样的创造力。而随着时间的推移,我们也可能对 AI 的创造力做出相同的研究,但我们还没有进展到那一个阶段。 


    在经过数万亿个文本页面和数十亿张来自网络的艺术与摄影照片的训练后,神经网络便可以生成与技艺高 超的作家、艺术家、摄影师或插画艺术水平相当的新式文本或视觉作品。这些 AI 系统网络的能力分布在数十亿人工神经元之间的数万亿个连接之上,而不由标准算法所决定。换言之,我们开发了一种复杂程度与我们的 大脑类似的技术。我们并没有完全理解 AI 工具的运行原理,就像我们还没有完全理解人类的智能与创造力。 


    当前一代生成式 AI 系统,像 GPT 和 Stable Diffusion,已经在非常庞大且多样化的数据集上进行了训练, 而这些数据集包含数十亿或数万亿单个文本,或图像和复式文本。有趣的是,训练数据集可以限定在更为广阔 的人类文化历史空间的特定领域内,或者限定在特定历史时期的特定艺术家群体里。雷菲克·安纳多尔(Refik Anadol)工作室 2022 年创作的《无人看管》(Unsupervised,2022)是一个说明了这些可能性的 AI 艺术项目。该项目使用神经网络对现代艺术博物馆(MoMA,Museum of Modern Art)收藏的数万件艺术品的图像进行训练。在我看来,这些收藏是人类视觉史上最具创造性和实验性时期⸺现代艺术百年(1870―1970)⸺以及随后几十年艺术探索中许多重要案例的最佳体现之一,它们捕捉了现代主义艺术家为创造新的视觉与交流语言而采取的狂热且疯 狂的实验。 


    表面上看,现代主义的逻辑与训练生成式 AI 系统的过程截然相反。现代艺术家热衷于摆脱古典艺术及其定义方面的特征,例如视觉对称、分层结构和 叙事内容。也就是说,他们的艺术建立在对先前一切事物根本性的拒绝之上(至 少在理论上,正如他们的宣言所表达的那样)。而神经网络的训练方式却恰恰 相反,它通过迄今为止创造的历史文化和艺术来学习。神经网络就像是一个非 常保守的艺术家,在没有墙壁的“元”博物馆里学习历史中的艺术。 

图 2 《 无人看管 》( 雷菲克·安纳多尔,2022)[9]


    但是,我们知道艺术理论和艺术实践并不相同。现代艺术家并没有完全摒 弃过去和他们之前的一切事物。相反,现代艺术通过重释和复制古老艺术传统 中的图像和形式发展起来,例如日本版画(凡·高,Vincent van Gogh)、非洲雕塑(毕加索,Pablo Picasso)和俄罗斯圣像画(马列维奇)。因此,这些艺术家只 是拒绝了当时占主导地位的高雅艺术范式,以及现实主义和沙龙艺术,而不一切,它通常将某些旧有的美学观念加以改造,使其适应于当代艺术的语境,从而进行创新(以 20 世纪 10 年 代的几何抽象艺术为例,其中的艺术家使用了在实验心理学领域被广泛应用的图像来研究人类视知觉)。[10]当涉及艺术 AI 时,我们不应该被这些系统的训练方式所蒙蔽。的确,人工神经网络在先前创造的人类艺 术和文化制品上被训练。然而,它们新生成的输出并不是已经创作出来的东西的机械复制或模拟。在我看来, 这些输出往往是真正的新式文化制品,具有先前从未见过的内容、美学和形式。当然,仅仅是新颖并不能使一些事物自动地在文化或社会上变得更加有趣或更加重要。事实上,许多关于 创造性的定义都同意这样一个观点:创造性既有原创性,又有价值或实用性。[11]然而,估测生成 AI 生产的所有新型制品的百分比对于一个较大的文化来说是“有用的”(或“有意义的”), 但目前这并不是一个可行的计划。首先,我并不知道是否有一种系统性的尝试使用这样的系统进行“填充”(fill in),也就是说,通过提供数百万个专门设计的选项去填充所有内容和美学潜能的巨大矩阵。相反,就像在流 行文化的其他领域一般,只有少数的潜能被数百万用户意识到,而其他没有被意识到的潜能则无人问津。所以, 如果在潜在的 AI 制品的巨大宇宙中,只有一小部分在实践中得以实现,那么我们便无法对宇宙中其他部分的 原创性和实用性做出概括性的陈述。 


八、生成媒介和数据库艺术 


    一些 AI 艺术家,比如安娜·里德勒(Anna Ridler)、莎拉·梅约哈斯(Sarah Meyohas)和安纳多尔,他们在作 品中使用了特定数据集上训练的网络。而许多其他艺术家、设计师、建筑师和技术人员则使用其他公司和研究 机构提供的网络,然后根据他们自己的数据对其进行微调,而这些公司和研究机构的网络已经在非常庞大的数 据集(例如 Stable Diffusion)上进行了训练。 


    例如,艺术家列夫·佩鲁尔科夫(Lev Pereulkov)对 Stable Diffusion 的 2.1 模型进行了微调,他使用了 40 幅著 名的“非主流”艺术家的绘画作品,这些艺术家于 20 世纪 60 年代开始在苏联从事创作,如埃里克·布拉托夫(Erik Bulatov)、伊利亚·卡巴科夫(Ilya Kabakov)等。佩鲁尔科夫用自定义网络创作的图像系列《人工实验 1-10》(Artificial Experiments 1-10,2023)是原创性的艺术作品,他捕捉了这些艺术家的艺术特征以及他们独特的超现实主义和荒 诞的寓意,而没有直接地重复现有的任何作品,网络获取了他们的“DNA”,使得新的意义和视觉概念成为可能。 


    大多数每天使用生成媒介工具的普通人和创意专业人士都只是循规蹈矩地使用它,而没有进一步调整它。这种情况在未来或许会有所改变,这是因为采用我们自己数据的技术网络可能变得更加简单。但是,无论细节如何,所有训练网络生产的新式创造性文化制品都有一个共同的逻辑。 


    与传统的素描、雕刻和绘画不同,生成媒介的制品并不是从零开始创作的。它们也不是捕捉某种感官现象 的结果,例如照片、视频或录音。相反,它们是从其他媒介制品的档案中生成的。这种生成机制将生成媒介与 早期的艺术流派或过程联系起来。我们可以将它与 1898 年左右首次出现的电影剪辑,或 19 世纪流行的合成影 像相比较。我们也可以考虑一些特别相关的艺术作品,例如布鲁斯·康纳(Bruce Conner)1958 年拍摄的实验拼 贴电影《一部电影》(A Movie,1958),或者白南准(Nam June Park)剪辑电视片段后的装置艺术。 


    在这种媒介创作方法及其历史变迁的语境中,考察《无人监督》或《人工实验 1-10》这样的项目,将帮助我们 理解此类以及其他众多 AI 艺术作品,它们是与过去艺术进行对话的艺术实体,而不是纯粹的技术奇观或娱乐产品。当我浏览艺术史、视觉文化和媒介史,以寻求其他显著使用这种程序的例子时,我发现了许多相关的时刻和时期。它们与当前的生成媒介相关,这不仅是因为当时的艺术家使用了这种程序,并且这种运用的原因在所有情况下都是一致的。大量文化制品的新式积累与可获得性促使艺术家在这些积累的推动下创造新的艺术形式。


    网络和数字艺术家在 20 世纪 90 年代末和 21 世纪初创作了许多艺术作品,以回应崭新且迅速扩张的万 维网。例如,希斯·邦廷(Health Bunting)的《自述文件》(Read me,1998)是一个包含了关于艺术家文章文本 的页面,其中的每一个单词都连接到与该单词相对应的现有网域。马克·纳皮尔(Mark Napier)的《粉碎机 1.0》 (Shredder1.0,1998)则展示了一个包含大量网站元素的动态蒙太奇⸺影像、文本、超文本标记语言(HTML, Hyper Text Markup Language)代码和链接。 


    再往前追溯,我们会发现一种宽泛的文化范式,而这也是对历史艺术和文化制品在易于获得的媒介收集中积累的回应。这种范式被称之为“后现代主义”。后现代艺术家和设计师热衷于使用拼贴手法,创作出由引用与参考过去艺术组成的艺术作品,他们拒绝现代主义对新奇的关注,并与过去相决裂。 


    尽管关于 20 世纪 60 年代至 80 年代后现代范式的起源有不少解释,但其中一个与我们的讨论相关。早期艺术和媒介产品在结构化和易获得的收集中进行积累,例如幻灯片库、电影档案、附加很多艺术品照片的艺术史教科书以及其他模式⸺不同的历史时期、运动和创作者被放置在一起⸺启发艺术家从这些参考中创作拼 贴,并广泛引用它们。 


    在 20 世纪 10 年代至 20 年代的“现代主义”中,尽管总体上强调原创性和新颖性,但为了追求新颖所开创 的一种方法却是直接引用当时迅速扩张的当代视觉媒介的大型宇宙。例如,大标题加上图片与地图会使报纸更 具视觉冲击力;新的视觉面向杂志,如《时尚》(Vogue)和《时代》(Time)分别于 1913 年和 1923 年推出;当然, 一种新的媒介形式,即电影,也在继续发展。 


    为了回应大众文化在视觉层面的强化,20 世纪 10 年代早期,乔治·布拉克(Georges Braque)和毕加索便开始将实际的报纸、海报、墙纸和纺织物碎片融入他们的绘画当中。几年后,约翰·哈特菲尔德(John Heartfield)、 乔治·格罗兹(George Grosz)、汉娜·霍克(Hannah Hoch)、亚历山大·罗钦可(Alekssandr Rodchenko)等少数艺术 家开始发展照片的拼贴技术。照片拼贴成了从现有大众媒介图像中创作新式媒介制品的另一种方式。 


图 3 《 自述文件 》( 希斯·邦廷,1998)[12]


    当代艺术作品使用在文化数据库上训练的神经网络,如《无人看管》和《人工实验 1-10》,这延续了从图像 和其他媒介的积累中创作新艺术的长期传统。通过这种方式,这些艺术作品不断为艺术及其技术开辟新的可能 性,尤其是那些我之前提到过的“数据库艺术”(database art)[13]。引入新的方法来阅读文化数据库,并从中创 造新的叙事,是这一拓展的一部分。 


     因此,《无人看管》既不像 20 世纪 20 年代的现代主义艺术家一般,从现有图像中进行拼贴创作,也不像 20 世纪 80 年代的后现代主义艺术家一般,广泛地引用它们。相反,该团队训练了一个神经网络,从现代艺术 博物馆数万件艺术品中选取模式。然后,经过训练的网络生成新的图像,这些图像分享了相同的模式,但看 起来并不像任何特定的绘画作品。在整个动画的过程 中,我们穿越这些模式的空间,如“潜在空间”(latent space),探索当代艺术宇宙中的各种领域。[14]


    佩鲁尔科夫的《人工实验 1-10》使用了一种不同的 技术从现存图像数据库中生成新的图像。他选择了 40 幅有共同特征的艺术家的画作。这些艺术家于 20 世纪 60 到 80 年代的苏联发展出他们的“非主流”艺术。他们生活在同样的视觉文化当中,在我的记忆中,这个社会被两种颜色所主导:代表城市单调生活的灰色和和代 表宣传的红色。

图 4 《 人工实验 1-10》( 列夫·佩鲁尔夫,2023)[15]


    此外,佩鲁尔科夫还选择了一些共享其他特征的绘画作品:“我通常会选择一些以某种方式与画布或画布上的空间在概 念上相关的绘画。我从卡巴科夫那里得到了《新手风琴》(New Accordion, 2001)这幅画,这幅画的特征在于,画布上有纸屑的应用。”(2023 年 4 月 16 日与佩鲁尔科夫的个人交流)佩鲁尔科夫还精心制作了用于微调 Stable Diffusion 模型的自定义文本描述。为了让模型了解所选艺术家独特的视觉 语言,他为这些描述增加了“粗笔触”“红色照明”“蓝色背景”和“扁平圆圈”等术语。 


    显然,这些步骤中的每一步都代表了一个概念或美学上的决策。换言之, 《人工实验 1-10》成功的关键在于创建了这样一个数据库。这项工作显示了 如何微调一个经过数十亿张图像和复式文本(例如 Stable Diffusion)训练的 现有神经网络,并使其遵循艺术家想法的方式;这样,一个庞大的网络偏见 和噪音可以被克服,乃至最小化,而不需要支配我们自己的想象力。 


注:本文选自列夫·诺维奇与埃曼努埃尔·阿勒利(Emanuele Arielli)合作文集《人工美学:生成 AI、艺术与视觉媒介》 (Artificial Aesthetics:Generative AI, Art and Visual Media)第五章《AI图像与生成媒介:关于当下革命的若干笔记》(AI Image and Generative Media: Notes on Ongoing Revolution)。已获得马诺维奇教授文章转译的版权许可。 




责任编辑:刘洋


上下滑动阅读更多注释内容

[1] DALL-E 是一款由美国 OpenAI 公司于 2021 年 1 月发布的文 本―图像深度学习模型。

[2] Midjourney 是一款由美国 Midjourney 公司于 2022 年发布的 文本―图像生成式人工智能程序。

[3] Stable Diffusion 是一款基于潜在扩散技术的文本―图像深度 学习模型,于 2022 年 8 月由德国慕尼黑大学的计算机视觉 团队(Computer Vision Group,CompVis)开发。

[4] Runway ML(Machine Learning)是一款综合型艺术创作的人 工智能平台,可用于文本、图像的生成,以及视频剪辑,于 2018 年由美国 Runway 公司发布。

[5] 画板(Sketchpad)是美国计算机学者和互联网先驱伊万·萨瑟 兰 1963 年在博士论文中编写的计算机程序,他凭借该论文 获得了 1988 年的图灵奖和 2012 年的京都奖。画板开创了人 机交互,被认为是计算机辅助设计程序的鼻祖,同时也是计 算机图形学发展的重大突破。参见 Wikipedia.Sketchpad[DB/ OL].https://en.wikipedia.org/wiki/Sketchpad,2024-9-7.

[6] Photoshop 是一款由美国 Adobe 公司于 1988 年发布的光栅图 像编辑软件。

[7] Music ML(Machine Learning)是一个利用计算机等技术分析、 生成与合成音乐的领域,相关软件与平台包括 OpenAI’s MuseNet,Google’s Magenta,Amper Music 等。

[8] GPT(Generative Pre-trained Transformer)同样也是由 OpenAI 公司发布(2018 年)的人工智能程序,不过不同于 DALL-E的文本―图像模型,其主要用于自然语言的生成与处理。

[9] Refik Anadol.Unsupervised-Machine Hallucinationss-MoMA[EB/ OL].https://refikanadol.com/works/unsupervised/,2024-97. 

[10] 关于现代艺术和实验心理学之间关系的详细分析,参见 Paul Vitz & Arnold Glimcher,Modern Art and Modern Science: The Parallel Analysis of Vision[J]. Journal of Aesthetics & Art Criticism, 1985, 43(3):330. 

[11] wikipedia.Creativity[DB/OL].(2023)[2023].https://en. wikipedia.org/wiki/Creativity#Definition. 

[12] Health Bunting.Readem[EB/OL].http://www.medienkunstnetz. de/works/readme/,2024-9-7. 

[13] lev Manovich.Database as Symbolic Form[J]. Convergence , 1999, 5(2): 80-99. [14] 有关雷菲克·安纳多尔工作室使用的 GAN 网络训练方法 的更多细节,请阅读 Carina Y.Creating Art with Generative Adversarial Network: Refik Anadol’s Walt Disney Concert Hall Dreams[DB/OL].(2022-3-1)[2022-3-1].https://medium.com/@ ymingcarina/creating-art-with-generative-adversarial-networkrefik-anadols-wdch-dreams-159a6eac762d. 

[15] Lev Pereulkov.Artificial Experiments 1-10[EB/OL].https:// www.instagram.com/p/CnezVZ9KHMV/?next=%2Fm7exclus ive%2F&hl=pt,2024-9-7.


新媒体策划:谢阳

新媒体编辑:陈曦


主办单位:北京电影学院

主管单位:北京市教育委员会
国内统一刊号:CN11-1677/J
国际标准刊号:ISSN1002-6142
每月25日出版
邮发代号:82-172
国内发行:北京市报刊发行局
电话:(010)82283412
地址:北京市海淀区西土城路4号
《北京电影学院学报》编辑部
邮编:100088
投稿邮箱:xuebaobfa@bfa.edu.cn

北京电影学院学报杂志
作为集电影理论研究与电影高等教育为一体的电影专业学术刊物,长期致力于对国内外电影创作、电影理论、电影教育的高端研究。
 最新文章