人工智能与数字经济系列 | 全球首例AI训练数据版权侵权案——德国Laion案

企业   2024-10-30 17:36   北京  

作者:时萧楠 王怀玉
本文共计3900字,阅读需约10分钟


自2020年5月法律科技巨头汤森路透(Thomson Reuters)对ROSS Intelligence使用其旗下Westlaw中的数据用于训练AI的行为提起版权侵权诉讼[1]至今,图书、图片、音乐等版权方已基于AI训练数据的行为在全球提起几十起版权侵权诉讼,各受理法院均未对未经授权使用版权材料用于AI训练是否构成版权侵权做出实质性判决。


2024年9月27日,德国汉堡地区法院(The Hamburg Regional Court)对Laion案做出裁决[2],这是全球首例就AI训练是否构成版权侵权问题予以明确的裁决,该案中,原告的版权侵权诉讼主张因被告的行为符合德国《版权及邻接权法》(UrhG)规定的用于科学研究目的的文本和数据挖掘的例外而被法院驳回。



一、Laion案背景

原告Robert Kneschke是一名摄影师,他将拍摄的照片(涉案照片)授权给图片代理商,并通过代理商的网站对外展示、许可涉案照片。代理商网页中使用“自然语言”明确涉案照片的权利保留,即不得基于任何目的对网站上的任何内容进行下载、抓取或缓存等。

被告Laion是一个非营利性组织,其创建并免费提供文本-图像对应的数据集(以下简称为“涉案数据集”),其中文本是对图像内容的描述,该数据集可用来训练人工智能。涉案数据集来源于美国网站提供的数据集(以下简称为“原始数据集”),Laion从原始数据集中筛选高质量的文本-图像数据并创建了涉案数据集,涉案数据集中包含涉案照片。


二、Laion案法律问题分析

本案审理阶段,原被告就Laion未经许可将涉案照片用于AI训练的行为是否构成UrhG第44a条规定的临时复制[3]、UrhG第44b条[4]规定的文本和数据挖掘以及UrhG第60d条[5]用于科学研究目的的文本和数据挖掘展开争论,法院也在本案中对版权材料用于AI训练是否属于版权侵权的上述例外情况予以明确。

欧盟针对AI训练数据在著作权法(版权法)项下可以适用合理使用,主要依据《数字化单一市场版权指令》(以下称“《指令》”)第3条(以科学研究目的的文本和数据挖掘例外)、第4条(以文本和数据挖掘为目的的版权例外)。而德国由其国内法《版权及邻接权法》(UrhG)进一步执行,具体体现在UrhG第44b条规定的文本和数据挖掘,以及UrhG第60d条的用于科学研究目的的文本和数据挖掘。

本案中,法院认为Laion复制涉案照片的行为侵犯了Robert的开发权“exploitation rights”,该复制行为受到UrhG第60d条用于科学研究目的的文本和数据挖掘的限制,在法院认定Laion可以援引UrhG第60d条抗辩的前提下,法院未对Laion行为是否可以援引UrhG第44b条的文本和数据挖掘的限制做出最终决定,仅对该部分内容进行了法理分析。即在本案中,UrhG第60d条用于科学研究目的的文本和数据挖掘的法律优先UrhG第44b条文本和数据挖掘的适用。

下文将对本案中涉及的核心争议焦点进行分析:

(一)临时复制——UrhG第44a条

Robert指控Laion未经许可复制了原告版权图片,Laion独立下载照片的行为不构成UrhG第44a条规定的临时复制。Laion主张其复制行为构成临时复制,因为其在短时间内分析图像后已经立即并不可撤销的删除了用于训练AI的图像。

UrhG第44a条规定(非官方中译节选):短暂或偶然的、且构成技术过程不可或缺的重要部分的临时复制行为是允许的,但其唯一目的是:

1) 作为中介在第三方之间的网络中传输;

2) 在制作其他作品的过程中合法使用且不具有独立的经济意义。

即满足临时复制的要求必须同时具备以下三个要素:临时性/短暂性、附随性(附随于特定的技术过程)、具备1)或2)的唯一目的。

法院认为,Laion的复制行为不是短暂的也不是附随的。一方面,被告无法明确涉案照片的具体存储时间,涉案照片的删除基于人为编程实现,而非在完成特定功能后自动删除,无法证明Laion的复制行为的短暂性。另一方面,涉案照片是Laion为了后续分析而有针对性地下载的结果,下载与分析是两个独立的过程,即下载不是分析过程的不可或缺的重要组成部分,而是基于人为控制的主动行为,不满足附随性要件。基于此,法院认定Laion难以援引临时复制条款进行抗辩。

基于德国汉堡地区法院的上述判断思路,抓取版权材料用于AI训练的过程仍存在适用临时复制的狭小空间,即非永久性下载数据,将数据抓取过程与AI分析数据的训练过程合二为一,数据抓取过程作为AI分析数据的附属过程,抓取的数据以“缓存”的方式存在,待AI分析数据过程完成后,该部分“缓存”被自动删除。该过程虽然满足临时性和附随性要件,但是唯一目的要件层面仍存在阻碍,AI训练过程对抓取数据的使用难以满足“作为中介在第三方之间的网络中传输”的唯一目的,目前大多数网站中均明确了权利保留或禁止数据抓取等条款,此场景下抓取数据是否构成合法使用暂不明确。此外,若训练的AI具备商业目的也无法满足不具备独立的经济意义这一要素。基于此,在满足上述技术条件的情况下,临时复制的抗辩仅可能适用于非商业目的AI抓取并进行合法使用的场景。

(二)文本和数据挖掘——UrhG第44b条

Robert主张(1)AI数据抓取的过程使用了“智力创作的内容”并以“创造相同或类似的竞争产品”为目的,该行为被排除在UrhG第44b条的限制条款外;(2)根据欧盟DSM指令第7(2)条以及InfoSoc指令第5(5)条“文本和数据挖掘的例外和限制仅适用于某些特殊情况,这些特殊情况不得与作品或其他主题的正常利用相冲突,也不得不合理地损害权利人的合法利益”。而未经授权使用大规模版权数据训练AI的行为损害了受版权保护作品的正常利用,不应适用文本和数据挖掘的例外;(3)代理商网站上存在机器可读的禁止复制的保留条款,不满足UrhG第44b(3)的适用条件。Laion则主张代理商网站的权利保留条款机器不可读,并且未明确提及禁止文本和数据挖掘。

UrhG第44b条规定(非官方中译节选):

1) “文本和数据挖掘”是指为收集信息,特别是关于模式、趋势和相关性的信息,对单个或多个数字化作品进行自动分析。

2) 允许复制合法可获取的作品以进行文本和数据挖掘。当不再需要复制品副本来执行文本和数据挖掘时,将删除复制品副本。

3) 只有在权利持有人未保留使用权的情况下,才允许根据2)第1句进行文本和数据挖掘。对于在线提供的作品,保留使用权只有在以机器可读格式制作时才有效。

法院未对Laion是否可以援引UrhG第44b条做出最终裁决,仅进行了法理分析。法院认为Laion的复制行为满足UrhG第44b条1)中的相关性要求,即对涉案图片的下载是为了分析涉案图片与相应文字的相关性,并进一步强调不应根据复制行为的目的而直接排除UrhG第44b条的适用。在未经授权使用大规模版权数据训练AI的行为是否损害受版权保护作品的方面,法院认为AI生成的内容确实可能会与人类作品产生竞争,但创建AI训练数据集并不当然损害权利人的合法利益,不能通过未来的损害可能性禁止所有AI训练过程对UrhG第44b条的适用。在权利保留方面,法院在本案中倾向性认为权利保留条款可以由“权利持有人”声明,而非作者独有的权利;权利保留的内容无需与法律语言完全一致,进行充分、明确的表达即可;“自然语言”大概率可被认为是“机器可读”的。但法院也进一步明确以“自然语言”声明的权利保留是否以及在何种特定条件下可以被视为“机器可读”的问题,必须根据作品使用相关时间及存在的技术发展来回答。

尽管法院未对未经授权将版权材料用于AI训练是否符合UrhG第44b条的限制做出明确裁定,但可以从法院的分析中看出以下倾向性:

1) 抓取数据用于AI训练的行为可能被认定为:为收集信息对单个或多个数字化作品进行自动分析的行为,即满足UrhG第44b条1)的要件;

2) 可抓取可公开获得的材料用于AI训练,但在训练完成后,需删除抓取的材料;

3) 版权权利人可通过权利保留的方式禁止未经授权的下载、抓取等行为,尽量采用“自然语言”+“机器可读语言”的方式进行权利保留以避免各种方式的抓取行为;版权权利人需留存各版本权利保留内容存在的最早页面以作为权利保留的证据。

(三)用于科学研究目的文本和数据挖掘——UrhG第60d条

Robert承认Laion从事的是以科学研究为目的的文本和数据挖掘,但其认为Laion与以商业为目的的AI提供者(AI provider)有密切联系,具体表现为商业公司为Laion提供资金和人员从事相关研究。Laion则主张其接受过商业公司提供的计算资源,但未获得资金支持,也从未向商业公司优先提供其研究结果。

UrhG第60d条规定(部分非官方中译节选):

1) 允许根据以下规定为科学研究目的进行文本和数据挖掘(第44b条1) 和2)第1句)进行复制。

2) 研究机构有权进行复制。“研究机构”是指大学、研究机构和其他进行科学研究的机构,如果它们

a. 追求非商业目的;

b. 将全部利润再投资于科学研究;或

c. 根据国家批准的授权为公共利益行事。


第1句下的授权不适用于与私营企业合作的研究机构,该企业对研究机构施加一定程度的影响,并可以优先获得其科学研究成果。

法院支持Laion援引UrhG第60d条。法院认为Laion创建涉案数据集作为AI系统训练的基础,该行为本身就属于科学研究的范畴,且涉案数据集免费发布可供相关研究人员使用。科学研究是否具备商业目的取决于科学活动的性质,而与研究机构组织和资金无关,涉案数据集的免费公开可以印证Laion的非商业目的。Robert未充分举证证明其他商业公司对Laion的人员、资金资助对Laion的决定产生重大影响或使得其他商业公司对Laion的研究成果取得优先访问权,基于此,法院认定Laion的复制行为构成用于科学研究目的文本和数据挖掘,并驳回Robert的诉讼请求。

UrhG第60d条的适用似乎为AI训练的合法性开辟了新路径,即AI开发者可通过“建立非营利的研究机构——抓取数据构建数据集——免费向公众公开数据集”的方式规避版权侵权。但也需注意,研究机构存在被法院认定为与AI开发者进行合作进而无法援引UrhG第60d条进行抗辩的风险。


三、结语


Laion案的判决是否为最终判决目前还暂无定论,但作为全球首例AI训练数据版权侵权案的裁决仍对实践具备重要指导意义。由于UrhG第60d条第44b条是对欧盟《数字单一市场版权指令》(以下简称“DSM指令”)的第3条和第4条的转换,该裁决对其他欧盟国家文本和数据挖掘的适用将同样产生重大影响。从裁决内容看,法院倾向于为非商业目的的AI训练行为保留合法空间以促进新科技的发展,但具备商业目的的AI训练行为是否存在UrhG第44b条的适用空间仍有待相关判决予以进一步明确。


[1] Thomson Reuters Enterprise Centre GmbH v. ROSS Intelligence Inc., 1:20-cv-00613, (D. Del.)

[2] Hamburg Regional Court, Germany [2024]: Robert Kneschke v. LAION e.V., Case No. 310 O 227/23

[3] Section 44a Temporary acts of reproduction Those temporary acts of reproduction are permitted which are transient or incidental and constitute an integral and essential part of a technical process and whose sole purpose is to enable a transmission in a network between third parties by an intermediary or a lawful use of a work or other protected subject matter to be made and which have no independent economic significance.

[4] Section 44b Text and data mining (1) ʻText and data miningʼ means the automated analysis of individual or several digital or digitised works for the purpose of gathering information, in particular regarding patterns, trends and correlations. (2) It is permitted to reproduce lawfully accessible works in order to carry out text and data mining. Copies are to be deleted when they are no longer needed to carry out text and data mining. (3) Uses in accordance with subsection (2) sentence 1 are permitted only if they have not been reserved by the rightholder. A reservation of use in the case of works which are available online is effective only if it is made in a machine-readable format.

[5] Section 60d Text and data mining for scientific research purposes (1) It is permitted to make reproductions to carry out text and data mining (section 44b (1) and (2) sentence 1) for scientific research purposes in accordance with the following provisions. (2) Research organisations are authorised to make reproductions. ʻResearch organisationsʼ means universities, research institutes and other establishments conducting scientific research if they 1. pursue non-commercial purposes, 2. reinvest all their profits in scientific research or 3. act in the public interest based on a state-approved mandate. The authorisation under sentence 1 does not extend to research organisations cooperating with a private enterprise which exerts a certain degree of influence on the research organisation and has preferential access to the findings of its scientific research. (3) The following are, further, authorised to make reproductions: 1. libraries and museums, insofar as they are accessible to the public, and archives or institutions in the field of cinematic or audio heritage (cultural heritage institutions), 2. individual researchers, insofar as they pursue non-commercial purposes. (4) Those authorised in accordance with subsections (2) and (3) and pursuing noncommercial purposes may make reproductions made pursuant to subsection (1) available to the following persons: 1. a specifically delimited circle of persons for their joint scientific research and 2. individual third persons for the purpose of monitoring the quality of the scientific research. The making available to the public must be terminated as soon as the joint scientific research or the monitoring of the quality of the scientific research has been concluded. (5) Those authorized under subsections (2) and (3) no. 1 may retain reproductions made pursuant to subsection (1), thereby taking appropriate security measures to prevent unauthorised use, for as long as they are needed for the purposes of the scientific research or the monitoring of the quality of the scientific findings. (6) Rightholders are authorised to take necessary measures to prevent the security and integrity of their networks and databases being put at risk on account of reproductions made in accordance with subsection (1). S


植德人工智能与数字经济

植德人工智能与数字经济行业委员会,从人工智能产业链、法律、商业模式等多角度出发,专注于研究人工智能监管、区块链游戏、NFT、商业模式中的法律问题,为客户提供多维度的人工智能法律服务,包括投融资、IPO、知识产权、合规(数据合规、刑事合规、税务合规、知识产权合规)等法律服务。


植德人工智能与数字经济行业委员会由在不同合规专业领域具有行业、法律多重背景,且深耕多年的合伙人组成,擅长通过完整且动态的合规体系来协助人工智能企业搭建合规制度,完善产品合规性,在事前、事中和事后多个环节进行风险防范或危机处理,结合商业化思维,协助客户做好合规审查和风险防控,为客户的经营活动保驾护航。



作者介绍


合伙人  时萧楠


业务领域:知识产权、争议解决、政府监管与合规

138 1006 8795

xiaonan.shi@meritsandtree.com


王怀玉


业务领域:知识产权

010-56500900-8372

huaiyu.wang@meritsandtree.com


声明

以上所刊登的文章仅代表作者本人观点,不得视为植德律师事务所或其律师出具的正式法律意见或建议。如需转载或引用该等文章的任何内容,请注明出处。未经本所书面同意,不得转载或使用该等文章中包含的任何图片或影像。如您有意就相关议题进一步交流或探讨,欢迎与本所联系。



植德律师事务所
植德是一家“公司制、一体化”的综合性律所,我们以“精益服务,成就客户”为使命,提供全周期、立体化、一站式的法律服务。
 最新文章