《纽约时报》律师团队指责OpenAI意外删除了版权侵权行为的取证数据

文摘   2024-11-24 21:48   北京  
2024年11月22日,媒体报道,《纽约时报》和《每日新闻》的律师正起诉OpenAI,指控其未经许可抓取其作品来训练AI模型。这些律师表示,被告OpenAI的工程师意外删除了存储在其中一台虚拟机上的所有出版商搜索数据,这些数据是原告律师团队花费大量时间成本所整理的与被告侵权行为有关的数据。

今年秋季早些时候,OpenAI同意提供两台虚拟机,以便《纽约时报》和《每日新闻》的律师能在其AI训练集中搜索他们的版权内容。(虚拟机是基于软件运行的计算机,存在于另一台计算机的操作系统内,通常用于测试、数据备份和运行应用程序。)在11月20日晚提交给美国纽约南区联邦地区法院的一封信中,出版商的律师表示,自11月1日以来,他们及其聘请的专家已花费超过150小时来搜索OpenAI的训练数据。

以下为原告律师团队提交给法院的信件:

我谨代表原告方《纽约时报公司》(“《纽约时报》”)及《每日新闻》有限合伙企业等(“《每日新闻》”)(以下简称“新闻原告方”)就10月30日会议及双方于11月1日提交给法院的联合信函(文档编号305)中提及的训练数据问题提供最新情况报告,并再次请求法院命令OpenAI说明并承认其使用新闻原告方哪些作品训练了各自的GPT模型。

首先,新闻原告方在法院及双方此前称为“沙盒”的严格受控环境中,继续在OpenAI的训练数据集中搜索其享有版权的作品,承受着巨大的负担和费用。OpenAI已为新闻原告方提供两台专用虚拟机,并改进了计算资源以供搜索之用。自11月1日以来,新闻原告方又投入150个工时(以及更多的计算时间)在OpenAI的训练数据中进行搜索。然而,11月14日,新闻原告方存储在其中一台专用虚拟机上的所有程序和搜索结果数据被OpenAI工程师删除。尽管OpenAI恢复了大部分已删除数据,但新闻原告方的工作成果的文件夹结构和文件名已无法恢复。遗憾的是,没有文件夹结构和原始文件名,恢复的数据便不可靠,无法用于确定新闻原告方的被抄袭文章被用于构建被告模型的具体位置。因此,新闻原告方不得不从头开始重新创建工作成果,投入了大量的工时和计算机处理时间。新闻原告方昨日才得知恢复的数据无法使用,其专家和律师一周的工作必须重做,因此今日才提交此补充信函。

其次,自上次听证会以来,新闻原告方已向OpenAI提供了两次独立搜索所需的信息,以便OpenAI代表新闻原告方执行搜索:(i)11月4日,新闻原告方向OpenAI提供了与托管或曾托管新闻原告方内容的URL对应的搜索词;以及(ii)11月13日,新闻原告方向OpenAI提供了执行“n-gram”搜索的说明,以识别新闻原告方作品在训练数据集中的出现位置。3 截至目前,新闻原告方既未收到上述两次搜索的结果,也未收到确认OpenAI已开始搜索的回复。11月19日,OpenAI的律师仅报告称他们“最近与OpenAI工程师举行了几次富有成效的会议”。11月20日,即提交本文件当日,OpenAI针对《每日新闻》原告方的第一套请求承认书作出了答复和异议,表示既不承认也不否认原告方的作品是否出现在训练数据集中或是否被用于训练模型。

上述事态发展,包括OpenAI删除新闻原告方一周工作量(新闻原告方没有理由认为此举是故意的)的行为,表明OpenAI最具备条件使用其自己的工具和设备在其数据集中搜索新闻原告方的作品。新闻原告方也已向OpenAI提供了执行此类搜索所需的信息——OpenAI只需承诺及时执行即可。若无此类承诺,新闻原告方必须重申其在双方11月1日的联合信函(文档编号305)中提出的请求,即请求法院命令OpenAI说明并承认其使用新闻原告方哪些作品训练了各GPT模型。

根据前述信件,11月14日,OpenAI工程师删除了存储在其中一台虚拟机上的所有出版商搜索数据。

OpenAI试图恢复这些数据,并且大部分成功了。然而,由于文件夹结构和文件名“无法挽回地”丢失,恢复的数据“无法用于确定原告新闻机构的哪些抄袭文章被用于构建[OpenAI的]模型”,信件中写道。

“新闻原告方被迫投入大量人工和计算机处理时间,从零开始重建工作,”《纽约时报》和《每日新闻》的律师写道,“新闻原告方昨天才得知恢复的数据无法使用,整整一周的专家和律师工作必须重做,这就是今天提交这封补充信件的原因。”

原告方的律师明确表示,他们没有理由认为这次删除是故意的。但他们确实表示,这一事件凸显了OpenAI“使用自己的工具在其自己的数据集中搜索”可能侵权的内容方面“处于最佳位置”。

OpenAI的一位发言人拒绝发表声明。

然而,在11月22日周五晚,OpenAI的律师对原告方于发送的信件做出了回应。在回应中,OpenAI的律师明确否认了OpenAI删除了任何证据,反而指责原告方因系统配置错误而导致了技术问题。

“原告方要求对OpenAI提供的用于搜索训练数据集的几台机器中的一台进行配置更改,”OpenAI的律师写道,“然而,实施原告方要求的更改导致一个硬盘上的文件夹结构和一些文件名被移除——该硬盘本应作为临时缓存使用……无论如何,没有理由认为有任何文件实际丢失。”

在此案及其他案件中,OpenAI一直坚称,使用包括《纽约时报》和《每日新闻》文章在内的公开可用数据来训练模型是合理使用。换句话说,在创建像GPT-4o这样的模型时,该模型通过“学习”数十亿本电子书、散文等示例来生成听起来像人写的文本,OpenAI认为它不需要为这些示例支付许可费或其他费用——即使它从这些模型中获利。

话虽如此,OpenAI已与越来越多的新出版商签订了许可协议,包括美联社、Business Insider的所有者Axel Springer、Financial Times、《人物》杂志的母公司Dotdash Meredith以及News Corp。OpenAI拒绝公开这些协议的条款,但据报道,其中一个内容合作伙伴Dotdash每年至少获得1600万美元的报酬。AI已与越来越多的新出版商签订了许可协议,包括

OpenAI既未确认也未否认其未经许可在任何特定的版权作品上训练了其AI系统。

 

清华大学智能法治研究院
发布清华大学法学院、清华大学智能法治研究院在“计算法学”(Computational Law)前沿领域的活动信息与研究成果。
 最新文章