德国法院作出里程碑式判决:非商业性人工智能训练数据不构成版权侵权!

学术   2024-10-17 17:29   浙江  



德国法院称非商业性人工智能训练数据符合科学研究例外情况,
不构成版权侵权


“虽然法院的判决明确了非商业人工智能研究可能符合某些例外情况,但这些例外情况的更广泛适用性,特别是对商业实体而言,仍未解决。”

德国法院德国一家法院最近作出了一项具有深远影响的里程碑式判决,该判决认为,大型人工智能开放网络(LAION)——一个提供数据集、工具和模型以解放机器学习研究的非营利组织——复制图像并不侵犯版权法。


汉堡地区法院审理的Kneschke 诉 LAION案,焦点是 LAION 为了人工智能训练目的自动下载图像,其中包括摄影师 Robert Kneschke 的版权作品。


2021 年,总部位于汉堡的 LAION 自动从互联网上下载图像,包括 Kneschke 从 Bigstock 下载的照片,以创建包含用于训练 AI 的图像文本对的数据集 (LAION 5B)。Kneschke 声称 LAION 未经许可复制了他的图像,以创建将图像与描述性文字链接在一起的数据集,侵犯了他的版权。LAION 已从获得许可的网站下载了照片,并使用其软件检查其是否与描述相符。


LAION 否认侵犯版权,辩称其行为属于德国和欧盟法律规定的三项版权例外之一。该案的重点是复制图像以创建 AI 训练数据集是否构成版权侵权,而不是 AI 模型训练或内容生成。


2024 年 9 月,汉堡地区法院第 10 民事庭(案件编号 310 O 227/23)驳回了Kneschke 对 LAION 的版权侵权索赔。该判决具有临时执行力,原告需承担法律费用。


该裁决涉及许多尚未解决的法律问题,例如人工智能数据抓取是否属于文本和数据挖掘,以及权利人如何阻止此类活动。


潜在例外


Kneschke 请求命令 LAION 停止为创建 AI 数据集而复制他的肖像,而 LAION 则援引了德国和欧盟法律下的三项潜在的版权例外:


- 德国版权法( Urheberrechtsgesetz , “UrhG”) 第 44a 条(临时复制行为)

- UrhG 第 44b 条(用于商业目的的文本和数据挖掘)

- 第 60d 条 UrhG(用于科学研究的文本和数据挖掘)


根据 2024 年 7 月第一次审理此案时的辩论,人们普遍预计此案将根据UrhG 第 44b 条中关于版权侵权的一般文本和数据挖掘 (TDM) 例外情况作出判决。然而,法院却以UrhG 第 60d条中“用于科学研究目的的文本和数据挖掘”例外情况为由驳回了 Kneschke 的诉求。


科学研究例外(UrhG 第 60d 条)


UrhG 第 60d 条(实施《数字版权指令》第 3 条)允许研究组织为 TDM 复制版权作品,用于科学研究。研究组织的定义是进行非商业研究、将利润再投资于研究或为公共利益行事的大学或研究机构。


克内施克认为,LAION 不符合研究机构的资格,因为它与商业实体有联系。他辩称,根据第 60d 条的规定,LAION 与私营企业的关系使其丧失了研究机构的资格,该条款禁止与施加影响力或优先获取研究成果的私营公司合作。


然而,法院裁定,克内施克未能提供足够的证据证明 LAION 不符合研究组织的标准。法院强调了 LAION 的透明和非商业性做法,因为其数据集在网上免费向所有研究人员开放。


“[创建数据集]……是一个基本步骤,目的是利用数据集来获取知识……

“可以肯定,本案也存在这样的目的。为此,数据集无可争议地免费发布,并提供给研究人员,尤其是人工神经网络领域的研究人员,就足够了。”


因此,LAION 的使用符合UrhG 第 60d 条的授权,因此该诉讼被驳回。


一般文本和数据挖掘例外(UrhG 第 44b 条)


UrhG 第 44b 条(实施 DSM 版权指令第 4 条)允许复制合法可访问的作品以进行文本和数据挖掘,前提是权利人未保留使用权。使用保留必须是机器可读的才能有效。


该案的一个问题是,Bigstock 使用条款中存在的以下措辞是否以机器可读格式有效地保留了权利。


“您不得 [...] 使用自动程序、小程序、机器人或类似程序以任何目的访问 Bigstock.com 网站或其上的任何内容,包括但不限于下载内容、索引、抓取或缓存网站上的任何内容。”


由于法院已裁定UrhG 第 60(d) 条下的例外适用,因此其对UrhG 第 44b 条的评论不构成其判决理由的一部分,但值得关注,因为它们表明了法院在未来案件中可能如何处理这个问题。LAION 辩称,网站条款不够充分,应该使用 robot.txt 文件。法院评论道:


“但是,有迹象表明,第 44b (2) 条 UrhG 的例外情况不适用于本案——无需最终决定——因为存在根据该条款第 3 段含义有效声明的使用保留;特别是,[Bigstock 网站] 上无可争议地声明的使用保留很可能满足第 44b (3) 条第 2 句 UrhG 含义内的机器可读性的要求。”


法院表示,机器可读性必须根据复制时的技术状态来判断。这意味着随着人工智能工具变得越来越先进,版权持有者可能不需要依赖计算机代码来阻止 TDM,因为人工智能可以解读自然语言指令。


评论


这项判决对于以非商业目的开展 TDM 的非商业实体 AI 开发者来说意义重大。该判决确认,根据UrhG 第 60d 条,出于科学研究目的的 TDM 例外适用于以 AI 训练为目的开展 TDM 的非商业研究组织。但是,不免费提供研究成果或与任何从研究中受益的营利性组织有关联的组织可能不符合例外条件。


更令人感兴趣的是法院对《UrhG》第 44b 条下的一般 TDM 例外的评论,特别是法官指出,网站使用条款中对自然语言权利的保留可能足以构成“机器可读”退出,因为人工智能系统(特别是大型语言模型 (LLM))现在已经足够先进和易于访问,可以用来阅读和解释此类文本。但法院没有解决这样一个事实,即在 2021 年,当 LAION 下载有问题的图片时,Chat GPT-3 等高级 LLM 尚未发布,法院也没有考虑 LAION 当时实际使用了哪些系统或可供使用哪些系统。因此,这仍然是一个法律不明确的领域,我们正在等待对“机器可读”退出的要求进行澄清。


法院驳回了这样一种观点,即根据版权法,人工智能内容抓取根本不应被视为 TDM,因此不应适用 TDM 例外。法院考虑了作者权利倡议组织委托进行的一项最新学术研究,该研究认为,无论是从法律意图还是从人工智能工具实际抓取的技术细节来看,人工智能抓取都不属于 TDM 例外。法官们质疑学者们的观点,指出《欧盟人工智能法案》明确考虑了 TDM 与人工智能训练的相关性(《人工智能法案》规定通用人工智能提供商必须尊重版权法,包括尊重权利人根据《DSM 版权指令》第 4 条防止 TDM 的能力)。法官们还发现,适用 TDM 例外不会违反欧盟版权法中的“三步测试”,该测试将例外限制在不与正常利用相冲突或不损害权利人合法利益的情况。


该裁决可能会受到上诉,汉萨同盟高等地区法院可能会重新审视有关 LAION 作为研究组织的地位以及人工智能抓取是否属于 TDM 例外情况的关键问题。


总结


本案探讨了人工智能、版权以及文本和数据挖掘之间的重要问题。虽然法院的判决明确了非商业性人工智能研究可能符合某些例外情况,但这些例外情况的更广泛适用性,尤其是对商业实体的适用性,仍未得到解决。此外,随着技术和法律环境的发展,人工智能在解释版权保留方面的作用可能仍将是一个争论话题。



作者 | Ronak Kalhor-Witzel

来源 | IPWatchdog

网络法实务圈
公司法务人员、法律实务人士、网络法探索者关注的网络法实务平台; 电商法、网络安全法、个人信息保护、数据合规、电子存证、网络诉讼、网络广告合规……关于网络法实务的大本营 在互联网时代,我们一起进化为网络法律人
 最新文章