为什么人工智能不会创造艺术？

财富 2024-09-07 10:36 上海

文章来源：纽约客

1953年，罗尔德·达尔(Roald Dahl)发表了短篇小说《伟大的自动语法机》(The Great Automatic Grammatizator)，讲述了一位电气工程师暗地里渴望成为作家的故事。有一天，在完成了世界上最快的计算机的制造之后，工程师意识到 “英语语法受严格得近乎数学的规则控制”。他建造了一台小说写作机，可以在30秒内生成一篇五千字的短篇小说；一部小说则需要15分钟，操作者需要像驾驶汽车或演奏管风琴一样操纵手柄和脚踏板，以调节幽默和悲情的程度。由此产生的小说深受欢迎，以至于一年内，英语出版的小说中有一半是这位工程师发明的产物。

在达尔的想象中，艺术有什么是不能通过按下按钮来创造的吗？现在，由像 ChatGPT 这样的生成式人工智能所生成的小说确实还不尽如人意，但可以想象，这类程序未来可能会有所改进。它们能变得有多好？它们能否在写小说、绘画或制作电影方面超过人类，就像计算器在加法和减法上超越人类一样？

艺术是出了名的难以定义，好的艺术和坏的艺术也同样难以界定。但我可以概括一下：艺术是通过做出大量选择的产物。以小说创作为例，这一点可能最容易解释。当你在写小说时，几乎每打一个字，你都会自觉或不自觉地做出选择；简单来说，我们可以想象一篇一万字的短篇小说需要上万个选择。当你给生成式人工智能程序一个提示时，你所做的选择非常少；如果你给出一个一百字的提示，你大约做出了一百个选择。

如果人工智能程序根据你的提示生成了一篇万字的故事，它必须填补你未做的所有选择。它有多种方法可以做到这一点。一种方式是基于其他作家所做选择的文本平均值，这种平均值通常是最无趣的选择，这就是为什么人工智能生成的文本往往非常乏味。另一种方式是让程序模仿特定作家的风格，这会产生一个高度衍生的故事。这两种情况都不是在创造有趣的艺术。

我认为同样的基本原理也适用于视觉艺术，尽管画家可能做出的选择更难量化。真正的绘画作品都带有大量决策的印记。相比之下，使用像 DALL-E 这样的文本到图像转换程序的人只需输入 “一个身穿盔甲的骑士与一条喷火龙搏斗 ”这样的提示，剩下的就交给程序了。(最新版本的 DALL-E 最多可接受四千个字符的提示，即数百个单词，但也不足以描述场景的每个细节）。生成的图像中的大部分选择都必须借鉴网上的类似绘画；尽管图像可能渲染得非常精致，但输入提示的人却不能为此邀功。

一些评论家认为，图像生成器对视觉文化的影响将不亚于摄影的出现。虽然这在表面上看似有道理，但摄影与生成式人工智能类似的观点值得进一步研究。在摄影刚刚发展起来的时候，我怀疑它并没有被视为一种艺术媒介，因为当时并不明显需要做出很多选择；你只需架好相机，然后开始曝光。但随着时间的推移，人们意识到可以用相机做很多事情，而艺术性就在于摄影师做出的众多选择。也许要清楚地说明这些选择并不容易，但当你比较业余摄影者和专业摄影师的照片时，你就会发现其中的差别。那么问题来了：使用文本到图像生成器是否也有类似的机会做出大量选择？我认为答案是否定的。一个艺术家（无论是用数字还是用颜料）在创作一幅画的过程中，隐含地做出的选择远比几百字的文本提示要多得多。

我们可以想象一个文本到图像的生成器，在多次会话后，你可以在文本框中输入数以万计的文字，以实现对生成图像的极其精细的控制；这将类似于纯文本界面的 Photoshop。我想说，一个人可以使用这样的程序，仍然配得上艺术家的称号。电影导演贝内特·米勒(Bennett Miller)曾使用 DALL-E2 生成了一些非常引人注目的图像，并在高古轩画廊展出；为此，他精心设计了详细的文本提示，然后一遍遍地指示 DALL-E 修订和操控生成的图像。他生成了超过十万张图像，才得到了展览中的二十张图片。但他说，在后来发布的DALL-E 版本中，他无法获得类似的结果。我猜测这可能是因为米勒使用 DALL-E 做了一些程序本不打算做的事情；就好像他黑进了微软的画图软件，让它表现得像 Photoshop，但新版画图软件一发布，他的黑进就失效了。OpenAI 可能并不打算为像米勒这样的用户打造产品，因为一款需要用户花费数月时间来创建图像的产品对广大用户来说并不具有吸引力。该公司希望提供一种只需花费很少精力就能生成图像的产品。

更难想象一个经过多次训练的程序能帮助你写出一部好小说。这个假设的写作程序可能需要你输入十万字的提示，以便它生成一个完全不同的十万字，组成你所设想的小说。我不清楚这样的程序会是什么样子。从理论上讲，如果存在这样一个程序，用户或许可以被称为作者。但是，我也不认为 OpenAI 这样的公司会想要创建需要用户投入与零基础写小说相同努力的 ChatGPT 版本。生成式人工智能的卖点在于，这些程序生成的内容远远超过你的投入，而这恰恰是阻碍了它们成为艺术家或作家有效工具的原因。

推广生成式人工智能程序的公司声称，它们将释放创造力。实质上，他们是在说，艺术可以只靠灵感而无需汗水，但这两者不能轻易分开。我并不是说艺术必须包含枯燥的工作。我想说的是，艺术需要在每一个层面上做出选择；在实施过程中做出的无数微观选择与在构思过程中做出的少数宏观选择，对最终作品同样重要。在艺术创作的选择上，把 “宏观”等同于 “重要”是艺术创作中的一个误区；艺术性正体现在宏观与微观之间的相互关系上。

相信灵感高于一切，我怀疑是不熟悉艺术媒介的表现。我认为，即使一个人的目标是创造娱乐而不是高雅艺术，情况也是如此。人们往往低估了娱乐所需的努力；一部惊悚小说可能达不到卡夫卡对书的理想——“凿开我们内心冰冻海洋的斧头”——但它仍然可以像瑞士手表一样精雕细琢。一部有效的惊悚小说不仅仅是它的前提或情节。我怀疑如果用一个语义上等同的句子替换掉惊悚小说中的每一句句子，最终得到的小说是否同样引人入胜。这就意味着，其中的句子——以及它们所代表的微观选择——有助于决定惊悚小说的效果。

许多小说家都有过这样的经历：有人找到他们，说自己有一个绝妙的小说构思，愿意与他们分享，以换取五五分成的收益。这样的人无意中透露出，他们认为遣词造句是一件麻烦事，而不是散文叙事的基本要素。生成式人工智能吸引那些认为自己可以在媒介中表达自己，而不必真正投入的人。但传统小说、绘画和电影的创作者之所以被这些艺术形式所吸引，是因为他们看到了每种媒介所蕴含的独特表达潜力。正是因为他们渴望充分利用这些潜力，他们的作品才会令人满意，无论作为娱乐还是作为艺术。

当然，大多数写作，无论是文章、报告还是电子邮件，都不会被期望包含数千个选择。在这种情况下，自动完成任务有什么害处吗？让我再小结一下：任何值得读者关注的文章都是写作者付出努力的结果。而这结果并不能保证最终值得一读，但没有努力，就不可能创作出有价值的作品。你在阅读个人电子邮件与阅读商业报告时的注意力是不同的，在这两种情况下，只有写作者投入了思考才值得关注。

最近，谷歌在巴黎奥运会期间为 Gemini 播放了一则广告，Gemini 是 OpenAI 的 GPT-4 的竞争对手。广告中，一位父亲使用 Gemini 写了一封粉丝信，他的女儿将这封信寄给一位激励她的奥运选手。在遭到广泛反对后，谷歌撤下了这条广告；一位媒体教授称其为 “我见过的最令人不安的广告之一”。值得注意的是，虽然广告并没有涉及高深的艺术创作或复杂的创意工作，但人们的反应如此强烈。没有人会期望孩子写给运动员的粉丝信会有多出众；如果是小女孩自己写的信，很可能与大多数其他信件无异。无论是对写信的孩子还是对收到信的运动员来说，孩子的粉丝信的意义都在于它的真挚而非优雅。

我们中的许多人都寄过商店里买来的贺卡，因为我们知道，收信人会清楚地知道，这些话不是我们自己写的。我们不会用自己的笔迹复制贺卡上的文字，因为那会让人觉得不诚实。程序员西蒙·威利森（Simon Willison）将大型语言模型的训练描述为 “为受版权保护的数据洗钱”，我认为这是思考生成式人工智能程序吸引力的有用方式：它们可以让你从事类似剽窃的行为，但却没有任何负罪感，因为你甚至不清楚自己在抄袭。

有人声称，大型语言模型并没有”清洗“它们所训练的文本，而是从中学习，就像人类作家从他们阅读的书籍中学习一样。但大型语言模型不是作家，甚至不是语言的使用者。顾名思义，语言是一种交流系统，需要有交流的意图。你的手机的自动补全功能可能会提供好的建议，也可能提供不好的建议，但无论哪种情况，它都不是想对你或你正发短信的人传达任何信息。ChatGPT 可以生成连贯的句子，这让我们容易误以为它在以某种方式理解语言，而你的手机自动补全功能却做不到，它并没有更多的交流意图。

让 ChatGPT 生成一系列词语，如“见到你我很高兴”，是非常容易的。关于大型语言模型的工作原理，我们还有很多不明白的地方，但有一点我们可以肯定，那就是 ChatGPT 见到你并不真的高兴。狗可以表达它见到你很高兴，开口说话前的儿童也可以，尽管两者都缺乏使用语言的能力。ChatGPT 既没有感觉，也没有欲望，这种缺乏意图的情况正是 ChatGPT 没有真正使用语言的原因。让 “见到你我很高兴”这句话成为语言表达的原因，并不在于它所组成的文本标记序列是否构造完整；而是它传达某种意图的能力。

因为语言对我们来说如此自然，所以我们很容易忘记它是建立在主观感受和想要传达这种感受的经验之上的。当大型语言模型发出连贯的句子时，我们很容易将这些体验投射到它身上，但这样做就会陷入模仿的陷阱；这就像蝴蝶翅膀上进化出大黑斑，能让鸟儿误以为它们是大眼睛的掠食者。在某种情况下，黑斑是有效的；鸟类不太可能吃有黑斑的蝴蝶，而蝴蝶只要能活下来，并不在乎为什么没有被吃掉。但是，蝴蝶和真正对鸟类构成威胁的掠食者之间还是有很大区别的。

使用生成式人工智能来帮助写作的人可能会说，他们是从模型所训练的文本中汲取灵感，但我要再次强调，这与我们通常所说的作家从另一个作家那里获得灵感的含义不同。想想看，一个大学生在提交上来的论文中只引用了一本书中的一段长达五页的引文，并说这段引文恰好表达了她想说的话，比她自己说的更好。即使该学生完全坦诚地向指导老师讲述了自己的做法，但说她是从所引用的书中获得灵感也是不准确的。尽管大语言模型可以对引文进行重新措辞，使其无法识别来源，但这并不能改变事情的根本性质。

正如语言学家艾米丽·M·本德(Emily M. Bender)所指出的，教师要求学生写论文并不是因为世界需要更多的学生论文。写论文的意义在于加强学生的批判性思维能力；就像无论运动员从事什么运动，举杠铃都是有用的一样，写论文可以培养大学生最终从事任何工作所需的技能。用 ChatGPT 来完成作业就像把叉车开进健身房，永远无法提高你的认知能力。

并不是所有的写作都需要有创意，发自内心，甚至不一定要特别出色；有时它只需要存在。这类写作可能服务于其他目标，例如吸引广告浏览量或满足官僚要求。当人们被要求撰写此类文本时，我们很难责怪他们使用任何可用的工具来加快进程。但问题在于，世界真的会因为有更多这样低投入的文本而变得更好吗？声称如果我们拒绝使用大型语言模型，那么创作低质量文本的需求就会消失，这显然是不现实的。不过，我认为不可避免的是，随着我们越来越多地使用大型语言模型来满足这些需求，这些需求最终也会变得越来越多。

我们正在进入这样一个时代：有人可能会用大型语言模型根据一个列表中生成一份文档，然后将其发送给另一个人，后者会使用大型语言模型将该文档浓缩回一个列表。有谁会严肃地认为这是进步吗？

有一天，我们的计算机程序可以做任何人类能做的任何事情，这并非不可能，但是，与推广人工智能的公司所宣称的相反，这并不是我们在未来几年内就能看到的。即使在与创造力完全无关的领域，目前的人工智能程序也有很大的局限性，这使我们有充分的理由质疑它们是否值得被称为智能。

计算机科学家弗朗索瓦·乔莱(François Chollet)提出了以下区别：技能是指你在某项任务中的表现，而智能则是指你获得新技能的效率。我认为这很好地反映了我们对人类的直觉。大多数人都能在充分练习的情况下学会一项新技能，但一个人掌握技能的速度越快，我们就认为他越聪明。这个定义的有趣之处在于，与智商测试不同，它也适用于非人类实体；当一只狗快速学会一个新把戏时，我们认为这是聪明的表现。

2019 年，研究人员进行了一项实验，教老鼠如何开车。他们把老鼠放在装有三根铜线的小塑料容器里；当老鼠把爪子放在其中一根铜线上时，容器就会向前走，或者向左转或向右转。小白鼠可以看到房间另一侧有一盘食物，并试图让它们的交通工具驶向那盘食物。研究人员每次训练老鼠五分钟，经过二十四次练习后，老鼠已经熟练掌握了驾驶技术。二十四次试验足以让老鼠掌握一项在物种进化史上可能从未遇到过的任务。我认为这就是智能的很好例证。

现在来看看目前广受赞誉的人工智能程序。谷歌 DeepMind 开发的程序 AlphaZero 下棋比人类任何棋手都好，但在训练过程中，它下了4400万盘棋，远远超过人类一生所能下的棋。要想掌握一种新游戏，它也必须接受类似的大量训练。根据乔莱的定义，像阿尔法零这样的程序具有很高的技能，但它们并不特别聪明，因为它们在获取新技能方面效率不高。目前，如果程序员事先没有得到任务的相关信息，那么即使是一项简单的任务，也不可能在短短24次试验中就学会。

经过数百万英里驾驶训练的自动驾驶汽车仍然可能撞上翻倒的拖车卡车，因为在它们的训练数据中并不常见这种情况，而人类第一次上驾驶课就知道要停下车来。与我们求解代数方程的能力相比，我们应对陌生环境的能力才是我们认为人类具有智慧的根本原因。在获得这种能力之前，计算机将无法取代人类，而这仍是一个漫长的过程；目前，我们只是在寻找可以用涡轮增压自动补全的工作。

尽管人工智能生成技术被炒作了多年，但其大幅提高经济生产力的能力依然停留在理论层面。(今年早些时候，高盛发布了一份题为《生成式AI：投入太多，收益太少？》(Gen AI: Too Much Spend, Too Little Benefit?》的报告) 生成式人工智能最成功的任务是降低我们的期望值，无论对我们所阅读的内容如此，也对我们为他人创作的文字如此。从根本上说，这是一种去人性化的技术，因为它将我们视为低于真实身份的存在：意义的创造者和领悟者。它减少了世界上的意图和目的性。

有些人为大型语言模型辩护，说人类所说或所写的大部分内容并不是原创。这是事实，但也无关紧要。当有人对你说 “对不起 ”时，别人过去是否说过 “对不起 ”并不重要；“对不起 ”只是一串在统计学上无足轻重的文字，并不重要。如果对方是真诚的，他的道歉就是有价值、有意义的，即使之前已有人说过对不起。同样，当你对别人说 “很高兴见到你 ”时，即使缺乏新意，你说的话也是有意义的。

艺术也是如此。无论你创作的是小说、绘画还是电影，你都在进行一场你与观众之间的交流。你创造的东西不必与人类历史上所有先前的艺术作品截然不同，它仍然可以是有价值的；你是作品的作者，你的作品源自你独特的生活经历，并在特定的时刻抵达欣赏你作品的观众面前，这就是它的新意所在。我们都是前人的产物，但只有在与他人的互动中生活，我们才能为世界带来意义。这是自动补全算法永远无法做到的，別信任何相反的观点。

共识流通处

与真知灼见共鸣，于流通之处达共识