好莱坞电影已经成为投喂AI的食物

文化   2024-12-01 20:56   上海  

By Alex Reisner, The Atlantic


自从生成式人工智能聊天机器人在互联网上出现以来,好莱坞的编剧们就一直在想,他们的作品是否被用来训练聊天机器人。这些聊天机器人能非常流利地引用电影内容,而且公司似乎在用所有可用的资料对它们进行训练。一位编剧最近告诉我,他看到过生成式人工智能近似模仿《教父》和上世纪 80 年代的电视剧《家有阿福》(Alf),但他无法证明程序是否接受过此类素材的训练。


现在我可以非常肯定地说,许多人工智能系统都是根据电视和电影编剧的作品训练出来的。不仅仅是《教父》 和《家有阿福》,还有其他 53,000 多部电影和 85,000 多集电视剧:苹果公司、Anthropic、Meta、Nvidia、Salesforce、彭博社和其他公司都在使用的人工智能训练数据集中包含了所有这些作品的对话。我最近下载了这个数据集,我在有关各种大型语言模型(或 LLM)开发的论文中看到过对这个数据集的引用。其中包括从 1950 年到 2016 年获得最佳影片提名的每部电影、至少 616 集的《辛普森一家》、170 集的《宋飞正传》、45 集的《双峰》以及《火线》、《黑道家族》和《绝命毒师》的每一集。它甚至包括金球奖和奥斯卡颁奖典礼直播中预先写好的 “现场”对话。


如果聊天机器人能模仿犯罪剧中的黑帮老大或情景喜剧中的外星人,或者更重要的是,如果它能拼凑出整个节目,而这些节目可能需要一屋子的编剧,那么像这样的数据就是原因之一。


确切地说,这个数据集中的文件并不是剧本。相反,它们是从一个名为 OpenSubtitles.org 的网站上提取的字幕。该网站的用户通常使用光学字符识别(OCR)软件从 DVD、蓝光光盘和互联网流媒体中提取字幕。然后,他们将结果上传到 OpenSubtitles.org,该网站目前拥有 100 多种语言和方言的 900 多万个字幕文件。虽然这看起来像是人工智能训练数据的一个奇怪来源,但字幕之所以有价值,是因为它们是书面对话的原始形式。它们包含了口语对话的节奏和风格,让科技公司得以将生成式人工智能的范围扩展到学术文本、新闻和小说之外,而所有这些也都曾被用于训练这些程序。在人工智能训练数据的世界里,写得好的言辞是一种稀缺品,对于训练聊天机器人自然地 “说话 ”可能尤其有价值。


根据研究论文,Anthropic 曾使用这些字幕训练其 ChatGPT 竞争对手 Claude;Meta 曾使用这些字幕训练名为Open Pre-trained Transformer (OPT) 的 LLM 系列;苹果曾使用这些字幕训练可在 iPhone 上运行的LLM 系列;Nvidia 曾使用这些字幕训练NeMo Megatron LLM 系列。此外,Salesforce、彭博社、EleutherAI、Databricks、 Cerebras 和其他各种人工智能开发者也使用它建立了至少 140 个开源模型,这些模型发布在人工智能开发中心 Hugging Face 上。其中许多模型可能会被用来与人类作家竞争,而这些模型是在未经这些作家许可的情况下建立的。


当我为这篇文章联系Anthropic公司时,该公司没有发表评论。此前,当我与 Anthropic谈及该公司对这一数据集的使用时,其发言人告诉我,该公司 “在公共数据集 The Pile 上训练了我们的生成式人工智能助手 Claude”,OpenSubtitles 也是该数据集的一部分,“它在业内很常用”。Salesforce 的一位发言人告诉我,虽然该公司已经在生成式人工智能开发中使用了 OpenSubtitles,但该数据集 “从未被用于指导或增强 Salesforce 的任何产品”。苹果公司同样告诉我,它的小型 LLM 仅用于研究。不过,Salesforce 和苹果公司与其他人工智能开发商一样,都将自己的模型提供给开发者,供他们在各种不同的环境中使用。本文提到的所有其他公司--英伟达、彭博社、EleutherAI、Databricks 和 Cerebras--要么拒绝置评,要么没有回应置评请求。


ChatGPT 发布两年后,创意作品未经许可就被用于人工智能产品可能并不令人惊讶。然而,许多艺术家和专业人士仍然对这一概念感到不安,他们认为自己的才能和生计受到了程序的威胁。透明度普遍较低: 科技公司往往不会宣传他们使用谁的作品来训练自己的产品。使用受版权保护的作品进行培训的合法性也仍然是一个悬而未决的问题。作家、演员、艺术家和出版商已经对科技公司提起了多起诉讼,指控人工智能训练过程中侵犯了他们的版权:《绝命毒师》(Breaking Bad)的创作者文斯·吉里根(Vince Gilligan)去年曾写信给美国版权局,称生成式人工智能相当于 “一种异常复杂且能量强劲的剽窃形式”。科技公司辩称,在受版权保护的作品上训练人工智能系统属于 “合理使用”,但法院尚未对此做出裁决。在版权法的规定中,字幕很可能被认为是衍生作品,法院通常会认为它们受到与电影相同的禁止复制和传播规则的保护。


OpenSubtitles 数据集从 2020 年起就在人工智能开发者中流传。它是用于训练生成式人工智能的数据集 Pile 的一部分。Pile 还包括来自书籍、专利申请、在线讨论、哲学论文、YouTube 视频字幕等的文本。对于公司来说,这是一种构建人工智能系统的简便方法,而无需查找和下载 LLM 所需的数GB的高质量文本。


任何人都可以下载 OpenSubtitles,但与大多数人工智能训练数据集一样,要了解其中的内容并不容易。这是一个 14 GB的文本文件,其中是短小的未署名对话,也就是说,说话者的身份没有被识别。根本无法分辨上一部电影在哪里结束,下一部电影在哪里开始,更不用说这些电影是什么了。我下载了数据集的 “原始 ”版本,其中的电影和剧集被分成 446,612 个文件,并存储在文件夹中,文件夹名称与 IMDb.com 上列出的电影和剧集 ID 编号相对应。大多数文件夹都包含同一部电影或电视剧的多个字幕版本(不同版本可能会有不同的调整),但我还是能够识别出至少 139,000 部独特的电影和剧集。我从 OpenSubtitles.org 网站下载了与每个片名相关的元数据--例如,允许我将演员和导演映射到每个片名--并利用这些元数据构建了上述工具。


OpenSubtitles 数据集为围绕人工智能的复杂叙事增添了另一褶皱,其中艺术家的同意甚至技术的基本前提都是争论的焦点。直到最近,才有作家动笔写剧本时会想到,他们的创意作品可能会被用来训练可以取代他们的程序。而字幕本身最初也并非用于此目的。多语言 OpenSubtitles 数据集包含 62 种不同语言的字幕和 1782 种语言对组合: 该数据集用于训练谷歌翻译和 DeepL 等应用程序背后的模型,这些应用程序可用于翻译网站、外国的路标或整本小说。数据集的创建者之一约尔格·蒂德曼(Jörg Tiedemann)在一封电子邮件中写道,他很高兴看到 OpenSubtitles 也被用于 LLM 的开发,尽管这并不是他的初衷。


无论如何,他也无力阻止。字幕存在于互联网上,不知道有多少独立的生成式人工智能程序使用了它们,也不知道这些程序产生了多少合成写作。


但至少现在,我们对被卷入机器的人有了更多的了解。


这个世界将如何决定他们的归属?


来源:

https://www.theatlantic.com/technology/archive/2024/11/opensubtitles-ai-data-set/680650/

编译:Lai-Chi


荔枝文化
我们互看,我们交换黑暗的词
 最新文章