世辉观点|美国AIGC著作权侵权案审前程序中的控辩法律分析(上)

学术   2024-09-11 18:57   北京  

作者|刘凡、王新锐


生成式人工智能(下称AIGC)著作权侵权案件,尤其是模型训练数据侵权案件从23年开始大量涌现,早期讨论多聚焦于“合理使用”原则,这一原则被看作是AIGC企业面对侵权指控时的破局关键。然而,美国的实际案例表明,合理使用并非这些案件首当其冲的争议,当事人往往后撤回著作权侵权认定上,这也导致理论与实践之间出现了明显的分歧。美国判例法的丰富性为被告提供了多种抗辩策略,如要求原告在起诉前进行作品登记、侵权指控必须具体明确、以及提供确凿证据证明版权管理信息的删除等。同时,AI技术与法律体系之间的固有矛盾也显现出来,特别是在数据收集、模型训练和内容生成阶段的技术复杂性和结果不确定性,使得权利人难以确立训练数据或生成作品与权利作品之间的直接联系。因此,侵权指控的成立与否,首先要明确对应关系、具体侵权对象,进而才有“合理使用”的适用空间。


一、

AIGC著作权侵权案件的审前程序

在AIGC著作权侵权案件的审前阶段,控辩双方的争议焦点通常集中在AIGC生成(过程和内容)的侵权性上。这涉及到著作权法的核心原则,如“思想表达两分法”、“接触及实质性相似”原则,以及针对不同类型作品(文字、图片)的判断标准和证明责任等。被告常通过提出驳回动议,从事实和法律角度对原告的指控进行挑战。通过指出原告在程序和实体性上的不足,以明确案件的争议点。在这些案件中,驳回动议成为被告挑战原告侵权主张、控制诉讼进程和方向的重要手段1


 本文将分析三起具有标志性的AIGC著作权侵权集体诉讼案件:Andersen v. Stability(Stability案)、Kadrey v. Meta(Meta 案)、Tremblay v. Open AI(Open AI案)。2这些案件不仅反映了文学和艺术界对AIGC技术的著作权挑战,也预示着大模型时代著作权保护的新趋势。Stability案作为该领域的首案,其起诉策略和主张对后续案件产生了显著影响。原告在这类案件中普遍采取了多元交叉诉讼请求的策略,从多个法律框架(包括联邦法和州法体系、著作权法、侵权法、DMCA、合同法等)寻求救济。被告则集中反驳原告的诉讼请求,指出原告权利基础不足、诉求不明确、法律要件不充分,以及主张受到联邦版权法优先权的制约。下文对三起案件的探讨将特别关注被告AIGC公司的驳回动议,分析其中对著作权侵权认定的挑战,以及对原告各项指控的程序和实体性反驳,旨在揭示AIGC著作权侵权案件的关键争议点,以及被告如何利用驳回动议这一程序工具来限定原告诉讼请求的范围,锁定案件的核心问题的诉讼策略。


二、

典型案件分析——审前程序中的“著作权侵权”

在三起案件中,原告提出的直接侵权、间接侵权以及DMCA违规行为的指控在我国法律体系中可对应于《著作权法》及其下位法规3;不正当竞争的指控对应于我国的《反不正当竞争法》;其他指控如公开权侵权、疏忽侵权等侵权法(Tort Law)指控则对应于《民法典》人格权编、侵权责任编的相关条款。以上指控除“使用著作权作品训练大模型构成直接侵权”外,大多都被法院驳回4。其中,原告所提起的包括不正当竞争在内的多项指控,以及在Stability案中的公开权侵权、Open AI案和Meta案中的不当得利和过失侵权指控,均因联邦版权法优先权被驳回。可见,通过审前程序的调整,法院以驳回裁决的形式实质上将案件的争议焦点回归到直接侵权、间接侵权和数字环境中的DMCA违规行为等问题上。本部分内容将对各个指控的控辩内容进行还原,并对应我国的法律体系做简要说明。


01

著作权作品的注册问题

该问题涉及原告提起著作权侵权之诉的权利基础,若权利基础存在瑕疵,则可能导致整个诉讼主张失去依据。在Stability案中,被告首先指出原告未在起诉前完成著作权登记,在形式上对原告的权利基础提出了挑战。此外,被告进一步质疑原告的权利归属,特别是在涉及作品转让或许可的情况下原告是否享有著作权或可以作为适格原告。法院因为其中两位原告未对其作品进行注册而驳回了二人的起诉,并将本案权利作品的范围限定在其余一名原告已完成注册的部分作品上。 


值得注意的是,在美国作品一经创作完成即自动获得著作权保护,但司法实践中的注册要求是为确保在侵权诉讼中,权利人能够提供明确证据证明其对作品的所有权,更类似行政穷尽的程序性要求。中国的司法实践也与此类似,权利人通常需要在立案时提交著作权登记证书及其他证明文件,以证实其创作和权利归属。本案原告因未完成著作权登记而遭受诉讼上的不利,这对未来中国司法实践中类似案件的权利人提出权利主张及被诉主体做出抗辩回应都十分值得关注。


02

直接侵权的责任认定问题

直接侵权的指控通常针对两项内容,即被告未经授权使用著作权作品训练模型,以及模型本身的侵权,但具体在三案原告的指控角度和法院的裁决标准上都各有不同。


 1. Stability 案

原告的两项直接侵权指控具体为:(1)被告使用受版权保护的图片作品副本训练模型(Stable Diffusion),及(2)被告基于模型开发人机界面(Dream Studio)以生成相似图片。对此,被告指出原告未明确指控的“图片复制”行为发生的时间,即在模型训练还是人机界面运行过程中。原告对此并未直接举证,而通过第三方网站的查询结果5确认其作品被用作 AI 训练图像。法院则意外认可了该举证,认定被告使用原告的作品进行模型训练并存储,构成直接侵权。


在这一点上,法院对直接侵权的认定标准不但与其他案件有差异,甚至在同一份裁定中,对比其他事项的裁判,都存在明显的标准过低倾向。事实上,本案中被诉模型是开源的,原告完全可以通过技术介入拿到源代码证据的支持,以明确复制行为发生的时间补强其陈述的证明力。但法院对其回避式举证的认可,相当于免除了原告举证具体侵权对象的责任,且在被告进一步提出 “原告对于‘模型对侵权图片的处理’问题,尤其是‘训练’的定义及其是否‘包含压缩副本或算法提取信息’指控不明”时,法官认为该问题不存在事实争议或该争议不足以导致诉讼请求被驳回,但这种关键技术问题的厘清实际上对认定直接侵权至关重要,原告应充分说明。


法院的裁决趋向表明,在权利人指控 AIGC 公司侵权时,由于 AI 技术的复杂性,法院可能倾向于接受不完全充分但满足高度盖然性原则的证据。这一立场可能剥夺了 AIGC 公司从技术专业性角度进行抗辩的机会,从而构成了对被告不利的法律环境。鉴于此,根据本案经验,AIGC 公司须对现有的训练数据验证机制、行业规范和公司内部政策进行全面审视,特别是要关注那些关于训练数据使用的限制和退出策略的规定,以确保在面对原告基于此类数据的侵权指控时,能够做出充分且及时的法律应对。


 2. Meta 案 

原告的两项直接侵权指控具体为:(1)被告在训练模型(LLaMA)过程中未经授权使用作品副本,及(2)模型本身构成侵权衍生作品。被告对第一项指控做了保留,反驳仅就第二项明显不合理的衍生作品指控展开。相比被告周密的驳斥,法官对第二项指控的反应显得更加有趣,先是直指荒谬,又在动议的口头辩论中称“原告的理论无异于将LLaMA与Silverman书籍(原告之一)并排放置,而认为两者是相似的……试图理解这一点时我脑子都要炸了”6,不认可模型本身是对权利作品的改写或改编,对该指控予以驳回。


被告回应原告指控的 “被告模型无法在没有从权利作品中提取的、且保存在模型内部的表达性信息的情况下运行”,引用“思想表达两分法”及谷歌图书馆案中“技术转换目的构成合理使用”的观点,强调本案既没有可被版权法保护的表达性要素,也没有明确指出模型——实际是神经网络的软件代码——究竟与哪一部著作权作品构成实质性近似。


由此可见,相比于Stability案中对于训练模型的指控,对于模型本身的指控法院会采取更加合理的证据认定标准。


 3. Open AI 案7

Open AI 在回应原告直接侵权指控则显得更为谨慎,在动议中仅表明会在后续程序中寻找法律解决方案。然而,Open AI虽未在驳回动议中直接驳斥指控,却在论点部分针对本案案情对著作权法的基本原则和判例观点进行了列举,包括:强调版权作为法定垄断应当作范围限制且平衡公共利益;著作权权利内容法定,不能在法律框架之外创设新法;思想表达两份法要求版权保护对思想、事实、语言做保护排除;引用谷歌图书馆案中“对一些结构化、统计学意义的词频、句法模式、主题标识进行保护排除”;版权法的根本目标还是促进文学科学的进步;实质性近似是著作权侵权的必要条件;合理使用的侵权排除;引用Oracle案中,作为开发转换性的新产品的初步步骤,(即便存在竞争)对作品的复制使用不构成侵权8。 


被告的列举从著作权法基本原则、立法目的、权利平衡等角度为后续合理使用的援用铺设通道,也一定程度上限制了原告通过对模型训练技术原理片面的理解进行侵权指控,强调应当考虑科技的变化对合理使用范围的重塑,这些均为被告后续的说理论证提供了有力的支撑。


03

间接侵权的责任认定问题

与我国对侵权责任成立的构成要件相同,美国间接侵权责任确立的关键也要求直接侵权行为的存在。此外还包含要件如间接侵权行为人对直接侵权行为具有控制、监管的权利和能力,并能从间接侵权行为中获得经济利益。而三案中,原告未能明证其对直接侵权行为的陈述中包括涉案的权利作品、侵权对象、以及二者是否构成实质性近似的内容,导致直接行为的基础要件缺失,也成为被告在反驳时的重点。


 1. Stability 案 

原告指控被告应对AIGC生成侵权图片承担间接侵权责任,借以主张的直接侵权是“模型因压缩和存储了侵犯原告著作权的训练数据副本而构成侵权衍生作品”。但被告对此进行技术侧解释,指出模型本身并不存储任何作品或作品的压缩副本,而仅仅将从第三方渠道获取的数据进行模型训练,进而明确由软件代码构成的模型(或AI产品)与图片作品之间并不存在构成实质性相似的客观基础9、直接侵权行不能成立。 


原告对此补充“模型生成图片本身亦构成侵权衍生作品”,主张另一个直接侵权行为,但该主张与其在起诉书中为回避AIGC技术原理笼统说明时自认的自认——被告AIGC生成图片不太可能与原告权利作品形成匹配10——相悖,系从结果上否认了实质性近似的可能。被告则借原告自认说明AIGC生成内容可能与任意的作品存在关联,而非仅仅与原告的作品存在实质性相似,藉此削弱了原告间接侵权的指控。同时,被告亦指出了其他间接侵权要件如因果关系要件的缺失。 


本案法院因直接侵权行为不能成立而驳回了原告的间接侵权指控。此外,在本案有关间接侵权交锋中,原告暴露了在法律论证上的不足,甚至针对被告提出的“实质性相似不足”的理由,回应称“实质性相似”并非著作权侵权的构成要件,而只是一种帮助法院识别被诉侵权作品是否使用了原告作品中独创性要素的判断方法。原告的这一立场公然质疑了著作权侵权责任构成的基本法律原则,可能会对案件的审理结果构成潜在的负面效应。


 2. Meta 案、Open AI 案

两案中原告的间接侵权指控均基于一个前提,即认为“生成内容构成了对权利作品著作权的侵犯”。被告方均对直接侵权行为的成立提出了反驳,主要观点如下:首先,关于直接侵权行为的证明,Meta案中的被告指出,原告试图通过笼统地主张LLaMA模型的输出内容是基于著作权书籍中提取的表达性信息,来绕过直接侵权行为的证明。Open AI案中的被告则强调,对于间接侵权责任的司法认定应当更为严格,原告所主张的“ChatGPT的输出内容均基于从著作权作品中提取的表达性信息,因此每一项输出内容均构成侵权衍生作品”的说法,并不足以证明直接侵权行为的成立。其次,两案中的被告都重申了著作权侵权中实质性近似的要求。例如,在Open AI案中,被告指出,根据判例法确定的普遍法律原则,即“每一个侵权主张都必须有单独对应的实质性近似比对”,原告未能提供 ChatGPT 输出内容与原始权利作品之间的具体比对,以证明其声称的每一项输出内容均构成侵权衍生作品。最后,关于因果关系的要件,两案中的原告均未能提供充分的论据,仅以断言性言辞一带而过。基于上述三点,法官全面驳回了两案中原告的间接侵权主张。 


通过三案间接侵权行为控辩及其法院裁定可知,间接侵权责任认定中直接侵权行为的存在构成了此类指控的核心争议点。在著作权法框架下,对AIGC工作原理解读是侵权分析过程中不可或缺的一环。若原告在指控时忽视或故意回避相关的技术细节,无疑将为被告方提供更为有力的辩护机会。深入了解并阐释AIGC的工作机制,将其与传统著作权侵权行为进行细致对比,对于增强其指控或抗辩的逻辑力度至关重要。


(本文分上、下两部分,上部分截止到审前程序中的“著作权侵权”认定的间接侵权责任认定问题。下部分将继续探讨审前程序中的“著作权侵权”认定有关DMCA违规行为和原告的其他指控内容。)


注:

(向下滑动查看更多)

1】 https://www.sohu.com/a/726769913_1211247

2】 Case 3:23-cv-00201-WHO; Case 3:23-cv-03417-VC; Case 3:23-cv-03223-AMO 

【3】 如《计算机软件保护条例》和《信息网络传播权保护条例》等。 

【4】 关于使用原告作品训练大模型的直接侵权指控,大多未在驳回动议中涉及,以及法院也在裁定允许原告通过修改对其该等主张进行补救,甚至Stability案中法院初步认定了原告已经充分证明了直接版权侵权行为的存在, 但主流讨论认为该裁决标准值得商榷。

【5】 https://haveibeentrained.com,专门查询图片作品是否被AI公司扫描的第三方网站。 

【6】 "would have to mean that if you put the LLaMA language model next to Sarah Silverman's book, you would say they're similar.… That makes my head explode when I try to understand that.” 

【7】 该案件与Silverman v. Open AI、Chabon v. Open AI 等合并,合称 In re Open AI Chat GPT Litigation。

【8】 本案中谷歌为了使程序员在转换性的新程序中利用其积累的经验,使用Java应用程序接口代码的行为构成合理使用。

【9】 下文Meta案中,原告也有相似指控。

10】 “[i]n general, none of the Stable Diffusion output images provided in response to a particular Text Prompt is likely to be a close match for any specific image in the training data”




版权与免责


本文章仅供业内人士参考,不应被视为任何意义上的法律意见。未经世辉律师事务所书面同意,本文章不得被用于其他目的。如需转载,请注明来源。如您对本文文章的内容有任何疑问,可联系世辉律师事务所。


作者简介


刘凡|律师

liuf@shihuilaw.com


刘凡律师专注于知识产权诉讼及非诉法律事务,在处理知识产权侵权纠纷,尤其是涉外主体参与的国内纠纷方面拥有丰富经验,涉及的行业领域包括互联网、文化娱乐、体育用品、奢侈品、食品药品、电子、医疗产品、酒店和机械制造等。


刘凡律师曾代表众多国内外知名企业处理在中国的知识产权诉讼、行政案件及其他争议解决事宜。在商标侵权、著作权侵权、不正当竞争纠纷以及上述领域的合并案由诉讼案件方面拥有极为丰富的经验,成功地为多家知名企业在知识产权维权为相关企业赢得了有利的判决、决定。她也为国内外知名企业的区域品牌保护策略、商标注册与维护、著作权登记与维权,以及专利权和其他法律权益的维护管理提供全面的法律服务。此外,她还在新兴的人工智能领域展现出特别的专长,参与了多个聚焦于人工智能生成内容相关版权和其他合规事项的研究项目。为客户在人工智能时代充分应对知识产权的复杂性提供支持。


王新锐|合伙人

wangxr@shihuilaw.com


王新锐律师毕业于清华大学法学院,执业已超过20年,曾长期在国内顶尖律师事务所工作。


王律师长期深耕网络安全和数据保护业务,其提供深度法律服务的客户包括数十家中外顶级科技公司,亦为多个中央部委和地方政府的数据立法和监管工作提供支撑。王律师作为中方专家,入选ICC(国际商会)、B20(二十国集团工商峰会)等国际组织的数字治理工作组。此外,王律师是《个人信息保护国际比较研究》《数据服务框架》两本书的主要作者,并有大量文章和译作公开发表,专业观点经常被新华社、人民网等国内外主流媒体引用。近两年,王律师作为课程讲师在北大、清华等多所著名高校讲授网络法和数据保护相关内容,并兼任对外经贸大学法学院高级研究员。

2018年以来,王律师在TMT和数据保护领域先后获得Chambers、The Legal 500、ALB、《商法》、China Law & Practice、asialaw、LEGALBAND等多个法律专业评级机构的推荐,其中包括ALB China十五佳TMT律师、The Legal 500亚太数据保护领先律师(2021-2023)、LEGALBAND中国顶级律师排行榜:网络安全和数据保护(第一梯队)(2019-2023)等个人奖项。





往期推荐

01

世辉观点 | 美国作家协会起诉OpenAI版权侵权

02

世辉观点|中美欧大语言模型信息披露要求的比较

03

世辉观点丨关于生成式人工智能在预训练阶段合规要求

04

Shihui’s Insight|Legal Considerations in AI Sector M&A 

05

咨讯丨世辉合伙人在人工智能领域担任多个专业协会职务

06

资讯|世辉合伙人卢璟律师受邀出席2024世界人工智能大会法律专场活动并发言

07

资讯丨世辉合伙人王新锐参与研发的数据审核宝重磅更新

08

资讯|世辉参与编写《可信虚拟人白皮书(2023)》


_

世辉律师事务所
世辉律师事务所汇聚了众多一线的优秀律师,致力于成为法律服务行业的引领者。我们以卓越的法律服务与商业洞见,成功服务于国内外知名企业,并得到了市场广泛认可。
 最新文章