Trevor Paglen谈论人工智能、不明飞行物和精神控制

文摘   2024-12-09 10:45   泰国  

Trevor Paglen, CLOUD #557 | Hough Line Transform; Hough Circle Transform, 2023
Courtesy the artist and Altman Siegel, San Francisco

早在 2022 年 11 月 ChatGPT 公布引发大量关注之前,艺术家特雷弗·帕格伦(Trevor Paglen)便耐心地向我们讲解了人工智能的底层技术和训练集。他不仅展示了这些技术如何解读图像——将其转化为数据并用于具有严重社会和道德后果的应用——还揭示了它们的组成。帕格伦的艺术关注的是监视、技术以及隐藏的权力形式。但也可以说,他的作品关乎信念与怀疑:它加强了我们的信念,让我们相信某些看不见的事物确实存在,同时也种下了怀疑的种子,质问我们是否同意生活在一个某些事物存在的社会中。比如中情局的黑色监狱和引渡计划,间谍卫星,秘密军事基地,机器“幻觉”生成的图像,推动面部识别系统的种族主义分类方案,我们日常行为的监视,还有不明飞行物。

帕格伦使用相机的目的并非主要是为了描绘,而是将其作为一种类比,类比那种让某些事物可见的非凡努力——无论这一事物是一个监视无人机,对我们面部照片进行的常规计算分析,还是塑造我们媒体消费方式的一种心理战策略。摄影既不是他的唯一媒介,也不是他的创作动机,但它对一种研究信念如何被强迫的实践来说不可或缺。

Trevor Paglen, Tornado (Corpus: Spheres of Hell) Adversarially Evolved Hallucination, 2017

莎拉·M·米勒 (Sarah M. Miller):过去大约十二年来,您一直在探讨人工智能的历史、工具和影响,尤其是那些解读图像的系统。如今,世界其他地方终于开始关注这个话题了——您对此感受如何?是否已经太晚了?

特雷弗·帕格伦:还不算太晚。我很高兴世界其他地方开始赶上这个话题,因为在这些对话中有更多的声音是非常重要的。很长一段时间以来,这些讨论都发生在计算机科学系和科技公司里,而我认为很多人文学科领域的人甚至不知道有这样一种完全不同的视觉模式正在被开发——即用机器“看”——并正在成为我们日常基础设施的一部分。从人文学科的角度来看,人工智能和计算机视觉背后的感知理论糟糕得令人震惊。让来自科技行业以外背景的人批判性地审视这些系统是至关重要的。

米勒:您经常使用“计算机视觉 (computer vision)”或“机器学习 (machine learning)”这样的术语,而不是“人工智能 (artificial intelligence)”来描述您的研究对象。这三者有什么区别?

帕格伦:“计算机视觉”有着悠久的历史,可以追溯到20世纪50年代和60年代,与数字摄影、数字成像、图像处理等的开发有重叠。而且在计算机视觉领域仍然常用着许多早于“机器学习”算法的技术。我通常尝试使用“计算机视觉”,因为我希望排除关于语言、聊天机器人以及其他一些广义上属于人工智能的优化算法。

机器学习真正的起点是2012年左右,那时人们发现可以使用早已发明的神经网络来实际完成任务——只要有大量的训练数据和强大的计算能力即可。机器学习就是我们现在称之为人工智能的核心内容。但在过去,也有不同的方法来研究人工智能,这些方法与机器学习完全无关——机器学习方法的主导地位是相对较新的,而人工智能已经存在了很长时间。

“人工智能”这个术语实际上并没有真正的含义,并且带有许多意识形态上的关联。它是一个容易导致神秘化的术语。

Trevor Paglen, Image Operations. Op. 10, 2018. Single channel video projection, sound, 23 minutes

莎拉·M·米勒:您许多与人工智能相关的作品都具有教程性质——教观众了解计算机视觉的工作原理以及其基础结构。我最喜欢的一件作品是 Image Operations. Op. 10 (2018)。您能描述一下您是如何创作这件作品的吗?

特雷弗·帕格伦:这是一段音乐家演奏德彪西(Debussy)的《G小调弦乐四重奏,第十号作品(String Quartet in G minor, Op. 10)》的视频。您会看到弦乐四重奏的演奏,也会听到音乐,而您的视觉视角会逐渐从相机的视角转变为各种计算机视觉和人工智能算法的视角,这些算法在解读演奏者及其动作——这些算法的“机械之眼”被设计用来估算年龄、性别、种族、情绪状态以及姿势。所以,您会感受到人类发展出的不同方法,用以尝试让计算机理解图像。

我们在我的工作室里构建了一种编程语言,用来与计算机视觉工具协作,并将其算法抽象重新转化为图像。我研究了不同类型的媒体和图像,寻找我认为与机械化视觉方式形成最鲜明对比的东西。器乐表演——那几乎是纯粹的情感过剩,基本上是无法量化的。所以,在这件作品中,我设置了这种对比。

米勒:实时观看这些分析过程真是令人惊叹。它让人理解,这些关于这些人是谁、他们在做什么以及他们的表达的计算是不断变化的,而且通常令人困惑。如果这些算法被用于分析例如监控视频这样的场景,它们将是不可靠的,并且——至少在某些情况下——完全与人类的感知不同步。

帕格伦:我还创作了一系列关于云的图像。您看到的是我拍摄的一张云的照片,同时您也在看到云通过计算机视觉算法被“看到”的方式——包括一些被无人机和导弹系统、人脸识别系统以及自动驾驶汽车所使用的算法。这有点像对斯蒂格利茨(Stieglitz)云照片的当代诠释。当您想到计算机视觉时,它的本质是将一张图像或某种视觉感官输入转化为数学抽象。

米勒:《福布斯》(Forbes) 的一位评论家乔纳森·基茨 (Jonathon Keats) 说,您对于人工智能的研究就如厄普顿·辛克莱 (Upton Sinclair) 对肉类加工行业的影响一样。这是一个很棒的比喻。

帕格伦:嗯,这是一个很高的评价,因为我花了很长时间去理解这些工具的工作原理,感受它们,然后找到一种语言来描述它。这是一种完全不同的范式,与我在艺术学院里学到的关于图像的思维方式有着根本性的不同。

Trevor Paglen, ImageNet Roulette (detail), 2019

莎拉·M·米勒:您关于训练集的作品揭示了将图像简单化地标注为事物、类型或身份的危险性。例如,ImageNet Roulette (2019) 展示了我们现有面部图像识别工具的基础态度,其荒谬、粗俗、刻板印象、种族主义和厌女主义各占一部分,更不用说这些态度还受限于文化和历史背景。

特雷弗·帕格伦:ImageNet 是计算机视觉研究中使用最广泛的数据集,创建于 2009 至 2011 年间。它的创建者说,他们想要制作一个“涵盖整个物体世界”的数据库。那么,如何实现呢?他们使用了 WordNet,这是一种特殊的词典,其中同义词按照概念聚类,形成一种分层结构,置于“植物”“人类”“人工制品”等高级类别之下。他们只保留了名词,因为他们的理论是,名词是可以拍照记录下来的对象。每个同义词形成一个“槽位”。然后,他们抓取了整个互联网,尽可能多地收集图像,并雇佣“点击工人”将这些图像归类到相应的“槽位”中。换句话说,这个过程要求工人决定每张图像的含义,并根据预先设定的分类方案对其进行标注。

回头看,这种方法有点过于简单化。他们当时的想法是,数据集如此庞大,谁可能会把整个东西看完?但实际上,你可以在一个下午查看两万个单词及其相关的图像。这种基本方法非常糟糕。数据集中充满了厌女主义的名词、种族主义的名词、残忍的名词——这些名词既抽象又可怕。而且,还有许多名词根本与视觉无关。

当像 ImageNet Roulette 这样的项目出现后,其他人开始审视这些数据集并意识到它们的糟糕之处时,行业的回应是:“让我们移除任何可能引发争议的内容。”但并没有对数据集的架构,或者图像与概念之间的关系进行根本性的反思。

莎拉·M·米勒 :在您与凯特·克劳福德 (Kate Crawford) 合著的一篇文章中,您写道:“图像是极其滑溜的事物,充满了多种潜在的意义、无法解决的问题和矛盾。整个哲学、艺术史和媒介理论的分支领域都致力于揭示图像与意义之间不稳定关系的所有细微之处。”然而我们却处于这样的处境:被一些从未质疑过表征与现实、图片与意义之间关系的人所构建的极其强大的系统所支配。

特雷弗·帕格伦:这些对应关系在工业流程和执法中最为“显而易见”的“有用性”体现得尤为明显。专门用来监控卡车司机的计算机视觉系统就是一个很好的例子。现在,卡车司机就像是未来人工智能辅助劳动监控的“煤矿中的金丝雀”。卡车的拥有公司会在卡车里安装一个智能摄像头,监视司机。如果——根据算法的判断——司机在抽烟、吃东西、目光离开了道路,或者看起来很疲倦,就会被系统提醒。他们会被罚款,或者他们的主管会被通知。所以,这是一种劳动监控的自动化。

类似的情况现在也出现在普通车辆中,保险公司希望获取关于您驾驶行为的数据,并根据计算机视觉系统对您驾驶的评估,实时调整您的保险费率。从哲学和道德的角度来看,这种图像思维方式存在巨大的问题。但如果您的目标是从家庭或以前的私人空间中提取价值,这些工具确实非常高效。

米勒:我觉得您的意思是,通过人工智能从标注图像中提取价值的方式变得越来越复杂——但对图像本身的理解方式却没有变得更细致入微。

帕格伦:我想更准确地表达这一点,那就是直观化和价值提取的经济学是相辅相成的。如果一家公司希望通过在您的厨房里安装计算机视觉系统来监控您吃什么来提取价值,他们不希望说,“哦,这种食物的意义是可变的……一切都是有语境的,是关系性的。”他们想说的是,“您吃了甜甜圈,您的健康保险费率将上升。”所以量化是价值提取过程的一部分。我认为图像的量化就是我们所说的一个重大的哲学问题,同时也是一个人权问题。但这种量化的时刻是能够提取价值的前提条件。这些非常僵化的视觉方式是系统的特性,而不是漏洞。

米勒:您经常与人工智能领域,特别是为机器学习训练集工作的人交谈。当您提出图像并没有透明、一致的意义时,他们会怎么回应?

帕格伦:我发现,在来自工程背景、数学或计算机科学的人中,很少有人能够用一种不将世界简化为计算的方式来进行概念化。我还没有与这一技术背景出身的人进行过一次真正细致入微的讨论,能够真正处理这个深刻而无法解决的哲学问题——一个不仅仅是思想实验的问题,而是一个对现实生活有真实且往往是致命后果的问题。

Trevor Paglen, They Took the Faces from the Accused and the Dead … (SD18), 2020. Mug shots of accused criminals and incarcerated people served as a common source for facial recognition algorithms in the early 1990s.

Trevor Paglen, They Took the Faces from the Accused and the Dead . . . (#00638_1_F), 2019

莎拉·M·米勒:您的作品很大程度上致力于揭示那些我们看不见的分析和预测系统的基础设施。您是否认为最近公众对生成式人工智能(Generative AI)的关注转移——这种随手生成图像或文本的广泛可用的能力——是一种对底层技术的干扰?还是它激发了您去探索一组新的问题?

特雷弗·帕格伦:我对生成式转向(generative turn)的回应性作品完全没有使用人工智能的机器视觉。我在思考的是关于感知操控的历史与实践,这与一种愈发自我优化的媒体有关,这种媒体旨在对个体产生特定的反应——让他们相信你想让他们相信的事情,让他们感知到你希望他们感知到的东西,或者让他们做你希望他们做的事情。

我正在研究的东西包括中情局的思维控制实验、舞台魔术、军事心理战。这些都是某种权威利用人类感知的漏洞来让你以特定方式感知世界的例子。这不仅是生成式人工智能在“幕后”所做的事情,还是我认为它将会在文化上发展的方向。

米勒:是什么促使了您方法上的转变?您之前关于计算机视觉的许多作品具有明显的教育性质,而您最近关于心理战和思维控制的作品似乎更加隐晦。

帕格伦:我将自己作为艺术家的历史看作是用不同方式观察技术的过程。一种模式是观察基础设施:去看看数据中心、海底电缆、天上的间谍卫星。看看围绕在我们身边的一切,它们是行星计算系统、监视系统或感知系统的一部分。在第二种模式中,我在观察那些同时也在观察我的事物。这涉及机器是如何“看”的,包括计算机视觉、人工智能之类的内容。

我认为我现在正进入的第三个阶段是:它们目前如何让我们看到以前看不到的事物和图像?这其中的政治是什么?换句话说,这些能够“看见”我们的技术是如何创造出一种媒体景观的可能性?在这个景观中,不仅我们被监视,而且这种监视被用来为人类创造新型的视觉文化,以从我们身上提取价值。

莎拉·M·米勒:您能描述一件与您所提到的媒体相关的新作品吗?这种媒体被设计用来让我们看到、反应或者相信某些东西。

特雷弗·帕格伦:到目前为止,核心作品之一是一部关于一个人讲话的视频装置,名为 Doty (2023)。这个人是理查德·多蒂 (Richard Doty),他在20世纪70年代和80年代为美国空军(Air Force)从事心理战(psyops)工作。他谈到了这种技术和培训:“这是你如何进行影响行动。”“这是你需要的要素来做好一次行动。”他在详细解析操作的步骤。然后,他谈到了他针对不同人群进行的影响行动,大多使用不明飞行物(UFO)作为一种模仿性装置(mimetic device),让人们看到或者相信他希望他们相信的事情。但影片中还有一个反转,他说:“是的,我制造了大量的虚假信息,并利用不明飞行物作为模仿性装置实施了一堆心理战。但是,不明飞行物也是真的。现在我要告诉你它们的真相。”

我觉得这个人的策略,缺乏更好的词来形容,简直是“颠覆认知”。我也认为它揭示了一种正在出现的媒体环境,在这种环境中,现实与非现实,或者幻觉与真实之间的区分变得无关紧要。

我有一个新的关于不明飞行物摄影的项目,这是我一直非常感兴趣的东西。我经常把不明飞行物摄影看作摄影的范式。某种意义上来说,所有的照片都是不明飞行物的照片。这与我最近关于心理战的作品非常一致。

Trevor Paglen, Near Windy Hill (undated), 2024

Trevor Paglen, UNKNOWN #89161 (Unclassified object near The Revenant of the Swan), 2023
All images courtesy the artist; Altman Siegel, San Francisco; and Pace Gallery

莎拉·M·米勒:像我这样的摄影历史学家当然喜欢指出,从来就可以通过操控、摆拍或修改图像来呈现对现实的虚假或偏袒的视角。然而,生成式人工智能(Generative AI)远远超越了斯大林(Stalin)将他的政治对手从官方照片中移除的做法,无论是在影响范围还是潜在后果方面。例如,面对宣传性深度伪造(deep fakes)的问题,您认为我们应该如何应对,而又不会强化这样一种观念:一张真正的照片曾经是,或者本质上是,必然可信的见证?

特雷弗·帕格伦:作为研究照片的人,我们知道照片是摆拍的,是被去语境化的,等等。然而,我认为我们都会同意,例如,从政治作用的角度来看,获得阿布格莱布监狱(Abu Ghraib)的那些照片是一件好事。至少,它们通过将某些事情呈现出来而引发了讨论。尽管照片并不能讲述“真相”,但它们具有一种真相的美学,在将某些事情放入文化议程方面可以走得很远。

人工智能打破了“某人拍了这张照片”这一概念。我担心,即使我们对诸如索引性(indexicality)之类的概念持怀疑态度,它们在我们如何集体解读照片方面仍然发挥着文化作用。当这种作用被打破时,我不知道会发生什么。这确实打破了一种共享的现实,而这种现实本身就不存在,始终是被制造出来的。这是一个令人沮丧的问题:制造共识是否是某种民主形式的前提条件?

米勒:那么,这是否意味着摄影的终结,如我们所认识的那样?

帕格伦:我认为我们如何理解摄影比以往任何时候都更为重要。研究、制作或处理摄影的人,在一个一切都与摄影相关的世界中具有高度的相关性。我认为自动驾驶汽车是摄影,间谍卫星和无人机也是摄影。我认为任何人脸识别系统都是摄影。摄影是人类与技术界面(human-technology interfaces)的范式,在这个阶段,它基本上与我们所接触的大量基础设施同义。批判性思考摄影的人在尝试构想和实施我们想要生活的世界方面可以做出巨大的贡献,因为这个世界越来越难以与摄影区分开来。
本文最初刊登于 Aperture 第 257 期《未来图像世界:摄影与人工智能》(Image Worlds to Come: Photography & AI)。
莎拉·M·米勒 (Sarah M. Miller) 是一位独立学者、教师和评论家,居住在美国加利福尼亚州奥克兰(Oakland, California)。
https://aperture.org/editorial/trevor-paglen-on-artificial-intelligence-ufos-and-mind-control/
声明:本文内容仅用于学习和交流目的。为了获得最准确的信息和完整的内容理解,建议读者参阅原文。本文翻译可能存在细微差异,敬请谅解。

📖更多阅读

欢迎关注春熙照相馆小红书
未来的图像世界:摄影与人工智能
Blaise Cepis的超现实主义摄影
喜欢的摄影师Stephanie Gengotti

OpenCall|代表作系列群展(第7期)征集

春熙照相馆
春熙照相馆是一个以讨论摄影、影像艺术为主要内容的播客。
 最新文章