纽约法院1项驳针对OpenAI的版权诉讼

文摘 2024-11-11 19:00 上海

来源：The Docker

简评：法官只是认为OpenAI移除版权管理信息本身不构成实质损害，但也暗示在原告修改诉状后重新考虑诉请。

裁判要旨

纽约的一位联邦法官驳回了新闻网站Raw Story和AlterNet对OpenAI提起的诉讼，裁定原告未能证明使用他们的文章作为AI训练数据造成了足够的损害。

法官认可OpenAI的合理使用论点，指出ChatGPT基于训练内容合成AI回应，文章被完全复制的可能性很低。即使这种情况确实发生，也被视为错误而非功能，并且事实不受版权保护。

这一决定可能会影响其他针对AI公司的正在进行的诉讼，例如《纽约时报》与OpenAI之间的法律争端，以及音乐公司针对AI音乐生成器提起的诉讼。

一、主要内容

纽约的一位联邦法官驳回了新闻网站Raw Story和AlterNet针对OpenAI使用他们的文章训练AI系统的诉讼。这一裁决可能影响类似的正在进行的案件。

法官科琳·麦克马洪在发现原告未能展示OpenAI使用他们的内容作为训练数据造成的具体伤害后，驳回了此案。与其他针对AI公司的诉讼不同，这个案件关注的是版权管理信息的移除，而不是直接的版权侵权——尽管麦克马洪法官指出，背后的问题仍然是相同的。

法官的决定支持了OpenAI和其他AI公司的合理使用辩护，指出ChatGPT是根据其训练创建合成回应，而不是直接复制内容。她强调ChatGPT复制文章的确切副本的可能性是微乎其微的，并指出文章中的事实信息反正不受版权保护。

裁决还涉及了ChatGPT过去曾逐字复制文本的情况，指出这些情况无法在当前版本中复制——支持OpenAI的立场，即这种复制，当它发生时，是罕见的错误，而不是预期的功能。

在驳回当前案件的同时，麦克马洪法官为原告留下机会，允许他们提交修改后的诉状。然而，她对原告能否“声称一个可识别的伤害”表示怀疑，据路透社报道。“是否有另一个法规或法律理论能够提升这种伤害的等级，还有待观察，”麦克马洪说。

Raw Story的律师马特·托皮克表示，有信心法院的担忧将在修订后的诉状中得到解决。OpenAI尚未对这一决定发表评论。

AI版权之战的更广泛影响

麦克马洪的裁决可能为针对AI公司的进一步版权诉讼定下基调，特别是《纽约时报》对OpenAI的诉讼以及音乐公司针对AI音乐生成器提起的案件。《纽约时报》的案件特别挑战了OpenAI未经授权使用其文章来创建它认为的竞品。

这一裁决加强了OpenAI的立场，支持其论点，即AI生成的内容是训练数据的综合，而不是直接复制，这一区别可能在未来关于AI训练实践的法律战中证明至关重要。

二、裁判文书原文

美国联邦南区纽约地方法院

X ------ ----------

原告：

Raw Story Media, Inc.,

AlterNet Media, Inc.

VS.

被告：

OPENAI, INC.,

OPENAI GP, LLC,

OPENAI, LLC,

OPENAI OPCO LLC,

OPENAI GLOBAL LLC,

和 OPENAI HOLDINGS, LLC

-----------------X

决定和命令

麦克马洪，J：

原告Raw Story Media, Inc. 和 AlterNet Media, Inc.（合称为“原告”）根据数字千年版权法案（“DMCA”），17 U.S.C.§ 1201 等，对OpenAI, Inc., OpenAI GP, LLC, OpenAI, LLC, OpenAI Opco LLC, OpenAI Global LLC, 和 OpenAI Holdings, LLC（合称为“被告”或“OpenAI”）提起本诉讼。

OpenAI请求根据联邦民事诉讼规则12(b)(1)和12(b)(6)完全驳回原告的投诉。基于以下原因，OpenAI的驳回动议被批准。原告重新起诉的动议被拒绝，但不影响在适当记录下重新提起的权利——这意味着提交一个附有拟议修正诉状的通知，以及解释为什么拟议的修正不会是徒劳的。

背景

原告Raw Story Media, Inc. 和 AlterNet Media, Inc. 是新闻组织，共同在线发布了“超过400,000篇突发新闻特写、调查新闻文章和意见专栏”。被告OpenAI是七个在纽约州内经营业务的相互关联的组织，负责一个名为ChatGPT的AI服务。ChatGPT是一个由人工智能驱动的大型语言模型（"LLM"），允许付费用户输入文本提示，ChatGPT将生成回应。根据原告的说法，ChatGPT“给人的印象是它是一个无所不知的‘智能’信息源”。然而，“ChatGPT对其回应中提供的信息没有任何独立的知识”。相反，ChatGPT是在大量文本上进行训练的，这些文本被称为“训练集”。“这些训练集从Reddit网站上发布的链接集合到大部分互联网的内容抓取不等。”

原告声称“数千”篇他们的版权新闻作品被卷入了这次“抓取”，被剥夺了作者、标题和版权信息，并输入至少三个OpenAI的训练集（WebText、WebText2和Common Crawl）。原告声称这三个训练集随后被用来训练ChatGPT。由于ChatGPT没有提供作者、标题和版权信息，原告声称ChatGPT不会学会在基于他们版权作品的用户查询中传达这些信息，并且实际上ChatGPT“通常不提供其回应所依据作品的作者、标题和版权信息”。原告声称被告在训练ChatGPT之前从原告作品中移除版权管理信息（"CMI"），违反了数字千年版权法案（"DMCA"）第1202(b)(i)条，原告有权获得实际或法定赔偿。

原告进一步寻求对被告的禁令救济。原告声称早期版本的ChatGPT产生了大量剽窃内容。如果原告的作品在没有任何CMI的情况下保留在ChatGPT的库中，原告声称当前版本的ChatGPT有相当大的可能性会逐字或几乎逐字地复制原告的版权作品，而不提供这些作品中包含的作者、标题或版权信息。见救济请求。

OpenAI已提出驳回投诉。原告反对该动议。

法律标准

I. DMCA的第1202(b)(i)条

任何人在未经版权所有者或法律授权的情况下，不得故意移除或更改任何[版权管理信息（CMI）]，明知或在第1203节规定的民事救济方面，有合理理由知道这样做会诱导、使能、便利或掩盖对本法案下任何权利的侵犯。

II. 宪法第三条诉讼资格

即使在违反法规的情况下，第三条诉讼资格也要求具体的伤害。为了确立立场，原告必须展示（i）他遭受了具体、特定化、实际或即将发生的伤害；（ii）伤害可能是由被告引起的，以及（iii）伤害可能会通过司法救济得到补救。” “援引联邦管辖权的一方承担建立这些要素的责任。”

在像这里这样的案件中，案件处于诉状阶段，原告必须清楚地...陈述事实证明每个要素。诉讼资格不是一次性的；原告必须证明他们寻求的每种救济形式（例如，禁令救济和损害赔偿）的诉讼资格。

在第三条语境下，什么构成了具体的伤害？

一般来说，法院已经解释说，历史和传统为第三条授权联邦法院考虑的案件类型提供了有意义的指导。特别是关于具体伤害要求，法院在Spokeo v. Robins案中的意见表明，法院应该评估原告所声称的伤害是否与美国法院传统上认可的伤害类型有密切关系。这种调查询问原告是否为他们所声称的伤害找到了接近的历史或普通法类比。Spokeo并不意味着联邦法院可以根据当代不断演变的信念，放宽对第三条的解释，决定哪些类型的诉讼应该在联邦法院审理。

讨论

被告寻求完全驳回原告的投诉。被告认为原告缺乏第三条的诉讼资格来主张他们的索赔，因此法院根据联邦民事诉讼规则12(b)(1)缺乏对本案的主管权。作为替代方案，被告认为原告未能陈述一个可以授予救济的索赔，根据联邦民事诉讼规则12(b)(6)。

索赔者是否有立场是每个联邦案件的门槛问题，决定法院受理诉讼的权力。因此，我从这里开始我的调查。

原告认为他们有资格寻求两种形式的救济。首先，原告认为他们有资格寻求损害赔偿，因为非法移除版权作品中的版权管理信息（CMI）是一种具体的伤害。其次，原告认为他们有资格寻求禁令救济，因为他们声称存在相当大的风险，被告的程序将“向用户提供包含原告版权保护作品材料的回应，或者逐字或几乎逐字地重复版权保护作品。”被告回应称，这两种伤害理论都没有确定足够的具体事实伤害来建立立场。

我同意被告的观点。由于原告缺乏宪法第三条立场，原告对损害赔偿和禁令救济的索赔均被驳回。因此，我不需要考虑根据联邦民事诉讼规则12(b)(6)的替代动议。

I. 原告没有提起损害赔偿索赔的诉讼资格

让我们考虑原告关于他们损害赔偿索赔的主张：未经授权从他们的版权作品中移除版权管理信息（CMI）构成了实际的具体伤害，即使他们没有声称被移除CMI的作品副本被ChatGPT传播给任何人以回应任何特定查询。原告主张他们的伤害与版权侵权行为有“密切关系”，因为“防止移除或更改CMI的保护，类似于复制作品和准备衍生作品的权利，在这两者都授予版权所有者决定作品的未来版本如何与所有者发布的版本不同的唯一特权。原告认为，这反过来，符合普通法，普通法认为干涉财产，无需更多，就是一种具体的伤害。

我不信服原告所声称的因干涉财产而产生的伤害，提供了与原告所声称的伤害所必需的紧密的历史或普通法类比。首先，原告错误地认为第1202条“赋予版权所有者唯一特权，以决定作品的未来版本与所有者发布版本的差异。”版权法的其他条款提供了此类保护，但第1202条并非如此。第1202条保护版权所有者免受对作品版权管理信息（CMI）完整性的特定干涉。换句话说，只要被告保持原告的CMI完整，被告可以在未经许可的情况下复制甚至创作原告作品的衍生作品，而不会根据第1202条承担法律责任。实际上，DMCA的立法历史表明，该法案的目的并非保护基于财产的伤害。相反，它的目的是通过防止欺诈和误导来确保电子市场的完整性，并使美国符合其在世界知识产权组织（WIPO）版权条约第12条（“关于权利管理信息的义务”）和WIPO表演和录音条约第19条下的义务。

此外，我并不信服，在没有传播行为的情况下，仅仅从版权作品中移除识别信息，会构成任何历史上或普通法上认可的侵权行为。

TransUnion案明确指出：原告的伤害必须实际上是具体的——即真实的，而非抽象的。原告声称他们的作品（缺少版权管理信息，CMI）被用来训练一个人工智能软件程序，并保留在ChatGPT的文本库中。但原告并未声称有任何实际的不利影响源自所谓的DMCA违规行为。原告提出的观点类似于TransUnion案中的少数意见：如果一个被告违反了DMCA对特定版权所有者所负的义务，那么版权所有者就有足够的伤害可以在联邦法院提起诉讼。对此，法院的多数人意见是：不，没有具体的伤害，就没有诉讼资格。因此，原告缺乏第三条所要求的诉讼资格，以寻求对他们所声称的伤害进行追溯性赔偿。

A. 原告缺乏请求禁令救济的诉讼资格

因此，我们转向原告关于禁令救济的索赔。原告寻求一项禁令，要求被告从训练集和任何其他存储库中移除所有删除了作者、标题、版权和使用条款信息的原告版权作品的副本。救济请求。

原告主张他们有权获得这样的禁令，因为无论ChatGPT是否已经在没有附加所需版权管理信息（CMI）的情况下复制了他们的版权作品，都存在一个实质性的风险，即ChatGPT将来会这样做。一个面临未来伤害风险的人可以寻求前瞻性的禁令救济，以防止伤害发生，至少在伤害风险足够迫近和重大的情况下。如果所威胁的伤害是肯定即将发生的，或者存在重大风险伤害将会发生，则对未来伤害的指控可能就足够了。” 重大风险意味着存在“遭受直接伤害的现实危险。”

被告承认，对于这种类型的伤害，有明显的历史和普通法类比。然而，被告认为原告缺乏寻求禁令救济的诉讼资格，因为他们未能陈述事实，以表明ChatGPT在没有所需CMI的情况下复制原告作品的全部或部分的风险是“重大的。

我同意被告的观点。原告声称ChatGPT已经被训练在大部分互联网的内容抓取上，这包括来自无数来源的大量信息，几乎涵盖了任何给定主题的信息。原告没有在任何地方声称他们文章中的信息是受版权保护的，他们也无法这样做。当用户向ChatGPT输入问题时，ChatGPT会将其知识库中的相关信息综合成一个答案。鉴于知识库中包含的信息量，ChatGPT输出剽窃自原告文章的内容的可能性似乎很小。虽然原告提供了第三方统计数据，表明ChatGPT的早期版本生成的回应包含大量剽窃内容，但原告并没有合理地声称存在一个重大风险，即当前版本的ChatGPT将生成剽窃原告文章的回应。

因此，原告缺乏根据第三条寻求对其所谓伤害的禁令救济的诉讼资格。

让我们明确这里真正利害攸关的是什么。原告真正寻求补救的所谓伤害，并不是被告的训练集中排除了版权管理信息（CMI），而是被告未经补偿使用原告的文章来开发ChatGPT。OpenAI被告已经承认，使用受版权保护的作品来训练ChatGPT需要获得该内容的许可，在某些情况下，已经与大型版权所有者签订了许可协议，他们还在与新闻行业的其他版权所有者进行许可谈判，但没有向原告提供任何补偿。无论这种伤害是否满足实际伤害的要求，它不是DMCA第1202(b)(i)条所“提升”的伤害类型。国会可能将实际上在法律上不充分的损害提升到法律上可认知的损害地位。是否有另一个法规或法律理论确实提升了这种伤害类型，还有待观察。但这个问题不是法院今天面前的问题。

如果案件被驳回，原告寻求允许提交修改后的诉状。如果不看到拟议的修改诉状，我无法确定修改是否会是徒劳的。我对原告能否声称一个可认定的伤害持怀疑态度，但至少在禁令救济方面，我愿意考虑修改后的诉状。

结论

基于上述理由，被告的驳回动议被完全批准。原告重新起诉的动议被拒绝，但不影响在适当记录下重新提起的权利——这意味着提交一个附有拟议修正诉状的通知，以及解释为什么拟议的修正不会是徒劳的。这构成了书面意见。书记员被指示从法院未决动议列表中移除文档编号68的动议。

2024年11月7日

http://mp.weixin.qq.com/s?__biz=MzU1MzAzNzcwNw==&mid=2247493326&idx=1&sn=af2bbba46c3336ace9fe3bc99f871049

数据何规

数据合规及科技、AI最新动态。

最新文章

网信办、央行数据跨境监管最新动态

《网数条例》合规提示

全球数据跨境流动合作倡议

北互：员工离职后公司继续使用其出镜的视频侵犯人格权

工信部、上海通管局通报多款APP/SDK

煮酒言规 | 第147期 | AIGC版权第二案讨论

案例笔记：登记证书成AIGC作品的护身符？

三问“中国AI生成物可版权性第二案”

中国再出判决认可AIGC图片可版权性

“搜索提示词”算法侵权首案宣判！平台已履行算法解释说明义务，不构成侵权

国家病毒中心通报13款违规APP

纽约法院1项驳针对OpenAI的版权诉讼

煮酒言规 | 第146期 | 简历/监控存储期限专题

新《反洗钱法》中信息保护条款对金融机构的影响

关于AIGC的100个想知道（美国篇）

加拿大政府下令关闭Tiktok！

Meta非法处理个人信息被罚216亿韩元

反洗钱法修订：更好保护数据安全和公民个人信息

个人信息共同侵权责任——以上海近期公布案件为例

煮酒言规 | 第145期 | 重要数据和核心数据的关系

中消协：不明链接跳转何时休

个保法3周年 | 当下入局数据合规是逆风翻盘还是高位站岗？

最高院：侵犯公民个人信息罪违法所得认定并非一律不扣除成本

离谱，大疆给应聘失败者群发营销短信！

北互：游戏中辱骂虚拟账号侵犯名誉权！

科技部：正有序推进人工智能立法工作

煮酒言规 | 第144期 | 对外提供个人信息告知怎么做

删除个人特征标签实践调研

7×24免费数据合规咨询了解一下

领英违反GDPR被罚3.1亿欧元

特斯拉首批入列！增值电信业务对外开放试点正式启动

剑指中俄，美国推进敏感数据交易限制

数据合规入门简明指引

煮酒言规 | 第143期 | 数据安全和信息安全的异同

北互：“搬运”录用名单公示信息侵权！

Azure OpenAI将于10月21日起停止向境内个人客户提供服务

监管关注后，领英暂停将香港用户信息用于AI训练

中国网安协会：建议对英特尔在华销售产品启动网络安全审查

法国占卜平台违反GDPR被罚逾百万人民币

某医疗科技企业因数据泄露被上海网信部门处罚

煮酒言规 | 第142期 | 双清单必须做吗？

《网数条例》系列解读：网络数据安全负责人十问十答

六个典型场景下《网络数据安全管理条例》的实务要点

《网络数据安全管理条例》发布，要做什么？要怎么做？

《网络数据安全管理条例》主要影响及合规行动建议

单独同意真的可以被豁免

煮酒言规 | 第141期 | 《网数条例》讨论

全文解读《网络数据安全管理条例》

《网数条例》官方解读

《网数条例》的15个关键词

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉