《纽约时报》律师团队指责OpenAI意外删除了版权侵权行为的取证数据

文摘 2024-11-24 21:48 北京

2024年11月22日，媒体报道，《纽约时报》和《每日新闻》的律师正起诉OpenAI，指控其未经许可抓取其作品来训练AI模型。这些律师表示，被告OpenAI的工程师意外删除了存储在其中一台虚拟机上的所有出版商搜索数据，这些数据是原告律师团队花费大量时间成本所整理的与被告侵权行为有关的数据。

今年秋季早些时候，OpenAI同意提供两台虚拟机，以便《纽约时报》和《每日新闻》的律师能在其AI训练集中搜索他们的版权内容。（虚拟机是基于软件运行的计算机，存在于另一台计算机的操作系统内，通常用于测试、数据备份和运行应用程序。）在11月20日晚提交给美国纽约南区联邦地区法院的一封信中，出版商的律师表示，自11月1日以来，他们及其聘请的专家已花费超过150小时来搜索OpenAI的训练数据。

以下为原告律师团队提交给法院的信件：

我谨代表原告方《纽约时报公司》（“《纽约时报》”）及《每日新闻》有限合伙企业等（“《每日新闻》”）（以下简称“新闻原告方”）就10月30日会议及双方于11月1日提交给法院的联合信函（文档编号305）中提及的训练数据问题提供最新情况报告，并再次请求法院命令OpenAI说明并承认其使用新闻原告方哪些作品训练了各自的GPT模型。

首先，新闻原告方在法院及双方此前称为“沙盒”的严格受控环境中，继续在OpenAI的训练数据集中搜索其享有版权的作品，承受着巨大的负担和费用。OpenAI已为新闻原告方提供两台专用虚拟机，并改进了计算资源以供搜索之用。自11月1日以来，新闻原告方又投入150个工时（以及更多的计算时间）在OpenAI的训练数据中进行搜索。然而，11月14日，新闻原告方存储在其中一台专用虚拟机上的所有程序和搜索结果数据被OpenAI工程师删除。尽管OpenAI恢复了大部分已删除数据，但新闻原告方的工作成果的文件夹结构和文件名已无法恢复。遗憾的是，没有文件夹结构和原始文件名，恢复的数据便不可靠，无法用于确定新闻原告方的被抄袭文章被用于构建被告模型的具体位置。因此，新闻原告方不得不从头开始重新创建工作成果，投入了大量的工时和计算机处理时间。新闻原告方昨日才得知恢复的数据无法使用，其专家和律师一周的工作必须重做，因此今日才提交此补充信函。

其次，自上次听证会以来，新闻原告方已向OpenAI提供了两次独立搜索所需的信息，以便OpenAI代表新闻原告方执行搜索：（i）11月4日，新闻原告方向OpenAI提供了与托管或曾托管新闻原告方内容的URL对应的搜索词；以及（ii）11月13日，新闻原告方向OpenAI提供了执行“n-gram”搜索的说明，以识别新闻原告方作品在训练数据集中的出现位置。3 截至目前，新闻原告方既未收到上述两次搜索的结果，也未收到确认OpenAI已开始搜索的回复。11月19日，OpenAI的律师仅报告称他们“最近与OpenAI工程师举行了几次富有成效的会议”。11月20日，即提交本文件当日，OpenAI针对《每日新闻》原告方的第一套请求承认书作出了答复和异议，表示既不承认也不否认原告方的作品是否出现在训练数据集中或是否被用于训练模型。

上述事态发展，包括OpenAI删除新闻原告方一周工作量（新闻原告方没有理由认为此举是故意的）的行为，表明OpenAI最具备条件使用其自己的工具和设备在其数据集中搜索新闻原告方的作品。新闻原告方也已向OpenAI提供了执行此类搜索所需的信息——OpenAI只需承诺及时执行即可。若无此类承诺，新闻原告方必须重申其在双方11月1日的联合信函（文档编号305）中提出的请求，即请求法院命令OpenAI说明并承认其使用新闻原告方哪些作品训练了各GPT模型。

根据前述信件，11月14日，OpenAI工程师删除了存储在其中一台虚拟机上的所有出版商搜索数据。

OpenAI试图恢复这些数据，并且大部分成功了。然而，由于文件夹结构和文件名“无法挽回地”丢失，恢复的数据“无法用于确定原告新闻机构的哪些抄袭文章被用于构建[OpenAI的]模型”，信件中写道。

“新闻原告方被迫投入大量人工和计算机处理时间，从零开始重建工作，”《纽约时报》和《每日新闻》的律师写道，“新闻原告方昨天才得知恢复的数据无法使用，整整一周的专家和律师工作必须重做，这就是今天提交这封补充信件的原因。”

原告方的律师明确表示，他们没有理由认为这次删除是故意的。但他们确实表示，这一事件凸显了OpenAI“使用自己的工具在其自己的数据集中搜索”可能侵权的内容方面“处于最佳位置”。

OpenAI的一位发言人拒绝发表声明。

然而，在11月22日周五晚，OpenAI的律师对原告方于发送的信件做出了回应。在回应中，OpenAI的律师明确否认了OpenAI删除了任何证据，反而指责原告方因系统配置错误而导致了技术问题。

“原告方要求对OpenAI提供的用于搜索训练数据集的几台机器中的一台进行配置更改，”OpenAI的律师写道，“然而，实施原告方要求的更改导致一个硬盘上的文件夹结构和一些文件名被移除——该硬盘本应作为临时缓存使用……无论如何，没有理由认为有任何文件实际丢失。”

在此案及其他案件中，OpenAI一直坚称，使用包括《纽约时报》和《每日新闻》文章在内的公开可用数据来训练模型是合理使用。换句话说，在创建像GPT-4o这样的模型时，该模型通过“学习”数十亿本电子书、散文等示例来生成听起来像人写的文本，OpenAI认为它不需要为这些示例支付许可费或其他费用——即使它从这些模型中获利。

话虽如此，OpenAI已与越来越多的新出版商签订了许可协议，包括美联社、Business Insider的所有者Axel Springer、Financial Times、《人物》杂志的母公司Dotdash Meredith以及News Corp。OpenAI拒绝公开这些协议的条款，但据报道，其中一个内容合作伙伴Dotdash每年至少获得1600万美元的报酬。AI已与越来越多的新出版商签订了许可协议，包括

OpenAI既未确认也未否认其未经许可在任何特定的版权作品上训练了其AI系统。

http://mp.weixin.qq.com/s?__biz=MzUwOTkwNzEwNg==&mid=2247514473&idx=4&sn=5e6d118e83ea69e22892f135d9c53d78

清华大学智能法治研究院

发布清华大学法学院、清华大学智能法治研究院在“计算法学”（Computational Law）前沿领域的活动信息与研究成果。

最新文章

第七届计算法学国际会议通知

李强主持召开国务院常务会议研究推动平台经济健康发展有关工作等

意大利骑手算法案的最新处罚决定

《纽约时报》律师团队指责OpenAI意外删除了版权侵权行为的取证数据

四部门开展“清朗·网络平台算法典型问题治理”专项行动

美国FCC因数据安全漏洞拟对视频门铃制造商处以70多万美元罚款

关于发布《网络安全标准实践指南——粤港澳大湾区（内地、香港）个人信息跨境处理保护要求》的通知

常州3人非法抓取小红书数据获刑

国家数据局印发《可信数据空间发展行动计划（2024—2028年）》（附图解、媒体解读）

美国政府问责署建议成立新机构来规范政府保护公民数据的方式

ICO关于共享个人信息以支持防范欺诈和诈骗的工作建议

工业和信息化领域数据安全合规指引（全文）发布

美国发布关键基础设施人工智能安全建议

NIST发布后量子密码学转型战略草案：网络安全的未来之路

卡巴斯基2025年犯罪软件和金融网络威胁的趋势预测

《国家数据基础设施建设指引（征求意见稿）》发布

《重庆市公共数据资源登记管理实施办法（试行）》《重庆市公共数据资源授权运营管理实施办法（试行）》｜公开征求意见

公安机关依法处罚快手公司

《中国互联网发展报告2024》和《世界互联网发展报告2024》发布

斯坦福李飞飞：《AI Agent：多模态交互前沿调查》论文全文翻译

《杭州市功能型无人车管理运行指南（1.0版）》公开征求意见

ICO关于养老营销业务的的数据保护声明

全球数据跨境流动合作倡议（全文）

英国ICO负责人：对大型科技公司征收巨额罚款并不是最有效的监管方式

美国司法部可能迫使谷歌出售Chrome

澳大利亚发布人脸识别技术隐私风险评估指南

香港私隐专员公署检视十个网上旅游平台收集个人资料的情况

美国17州总检察长致函国会支持《儿童网络安全法案》

数字化转型：海湾合作委员会法律的未来

隐私设计的数字权力风险与多元优化路径

因泄露超23.5万患者数据，美国一地方医疗机构赔偿150万美元

主播离职后，公司还能继续使用其出镜拍摄的视频吗？

美国零售商泄露5700万用户数据

上海市通信管理局关于侵害用户权益行为APP的通报（2024年第二批）

吉林省农业农村厅就《吉林省农村集体经济数字监管平台管理办法》征求公众意见

河南省市场监管局等八部门联合印发《河南省数据知识产权登记办法（试行）》

最高人民法院、最高人民检察院联合发布《关于办理拒不执行判决、裁定刑事案件适用法律若干问题的解释》

中国将发布《全球数据跨境流动合作倡议》

澳大利亚议会发布关于拟议隐私改革的报告

欧洲数字治理政策的未来趋势

ChatGPT允许访问底层沙箱操作系统

美国律所因泄露用户个人信息赔偿超5700万元，人均最高7.2万元

网络攻击扰乱美国超市药房运营，超2000家门店受影响

黑客声称近5亿Instagram用户的数据被抓取

零日漏洞已经成为黑客最常利用的漏洞类型

英国：使用隐私增强技术（PET）负责任地释放数据价值

上海市数据产品知识产权登记存证暂行办法

欧盟发布《通用人工智能实践准则草案（第一稿）》

网信办《移动互联网未成年人模式建设指南》全文及官方解读

江苏法院判决一起AI图片版权案，附判决书全文

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉