原文刊载于《版权理论与实务》2024年第9期(第44-53页)、2024年第10期(第41-58页),原标题为《生成式人工智能机器学习的版权争议及应对》(上、下),转载请注明出处。文章注释从略,完整原文请见《版权理论与实务》纸质版。
【关键词】生成式人工智能;机器学习;合理使用;法定许可;多元治理
一、问题的提出
与互联网技术早期发展的历史逻辑相同,人工智能技术的发展也正经历着“非法兴起”的阶段。[1] 丰富、优质的版权作品作为促进人工智能发展的技术要素,被广泛地用于数据训练。但受制于传统的“事前授权”模式,规模化的作品使用行为意味着极高的交易成本,造成了市场失灵的困境,未经许可将版权作品用于机器学习已然成为常态。
面对技术革命引发的利益失衡格局,全球范围内已发生多起著作权人向人工智能技术研发者发起的诉讼,以期法律积极回应机器学习场景下的版权治理需求。在中国,2023年12月,四位绘画创作者向 AI 绘画软件Trik的开发运营者小红书发起诉讼,主张小红书未经许可将其作品用于 AI 模型训练并应用于商业用途,生成的图片在色调、笔触、构图等绘画风格方面与原作品构成实质性相似,该行为已经远超合理使用范畴,侵害了其所享有的合法权益。[2] 2024年6 月20日,北京互联网法院开庭审理了该案件。[3] 此外,番茄小说平台因发布了一则“AI 训练补充协议”遭到大量平台作家的抵制,迫使其再度发布了解除 AI 训练条款。[4]
与此同时,在美国,有关机器学习的版权纠纷也不断出现。截至目前,已有约 22 起诉讼正在进行。[5] 其中的诉讼主体有作家代表,比如2023年1月13日,美国三名艺术家代表其他集体诉讼成员对Stability AI,Midjourney等四名被告发起集体诉讼,指控其未经用户同意擅自爬取了数十亿张具有版权的图像用于训练模型。[6] 有大型的图片运营商,比如2023年2月3日,全球知名图片运营商Getty单独针对Stability AI提起诉讼,指控Stability AI未经许可擅自从 Getty 的图片库中复制了超过1200万张图片和元数据来训练其模型。[7] 有新闻媒体机构,比如2023年12月27日,《纽约时报》起诉微软和OpenAI,声称它们未经许可利用其创作的数百万篇文章训练 ChatGPT和Copilot。[8] 还有大型唱片公司,比如2024年6月24日,索尼音乐娱乐公司、环球音乐集团和华纳唱片公司等公司对AI生成音乐的初创公司 Suno[9] 和Udio[10] 提起诉讼,主张它们未经许可大规模使用其受版权保护的音频资料来训练 AI 模型。当前虽然已有不少的诉讼案件,但法院尚未对该类案件做出有效判决。
就司法实践情况来看,有关机器学习的版权侵权诉讼均聚焦于生成式人工智能(以下简称“GAI”)领域。造成这一现象的主要原因在于GAI技术的两面性,一方面GAI机器学习涉及对人类作品元素的表达性使用,其生成内容具有广泛的商业应用场景,存在挤占作品市场并实质损害著作权人利益的现实风险;另一方面,GAI技术开创了“机器创作”的新模式,大幅提高了“人机创作”的效率,实质降低了作品创作的门槛,具有促进作品创作、激发文化创新的潜力。
在理论界,有关GAI机器学习版权合法性的讨论主要有两种观点,分别是“合理使用说”[11] 和“法定许可说”[12]。如何定性GAI机器学习,关乎着版权保护与技术创新的互动关系,也决定了技术变革背景下作品市场的利益格局。两种不同的制度方案体现了不同的价值取向,也涉及不同的制度成本和责任分担方式。究竟孰优孰劣,本文将予以探之。
本文将首先在著作权法的视域下考察GAI机器学习的技术原理、主要类型与法律特征,其次梳理“合理使用说”和“法定许可说”的论证理由,明晰不同观点之间的主要争点,再次以“四要素测试法”为标准,判断GAI机器学习构成合理使用的可能,最后区分著作权法的内部视角和外部视角,构建解决GAI机器学习版权合法性障碍的规制框架。
二、生成式人工智能机器学习的法律特征
(一)生成式人工智能机器学习的技术原理
“法以社会现实为调整对象,所以,社会现实是第一性的,法是第二性的”。[13] 依据法的第二性原理,理解机器学习的技术原理应当以著作权的规范目标为指引,关注具有规范意义的技术特征,舍弃其他无意义的技术细节。因此,在著作权法的视域下,围绕作品的“复制”行为,机器学习的技术原理可以被简化为三个环节,分别是作品获取与输入、作品存储与分析、结果生成与输出。不同环节均具有一定的著作权侵权风险,所涉及的著作权专有权也有所不同(如图 1 所示)。
具体来说,在作品获取与输入阶段,利用网络爬虫技术获取作品的过程可能会违反爬虫协议,存在破坏技术保护措施或删除权利管理信息等违法行为,此外,将海量作品集合输入到算法模型的过程中,也会涉及对作品的复制。在作品存储与分析阶段,将作品转码为能够为计算机所理解的数据库时,需要对作品进行翻译、整理、改编、汇总等系列行为,可能侵犯复制权、改编权、汇编权等演绎权。在结果生成与输出阶段,计算机能够根据输入的指令自动学习和决策,生成能够为人类理解、在外观上与人类作品具有一致性的内容,并被广泛地用于各类商业场景,当其与现有作品构成实质性相似时,可能侵犯复制权、信息网络传播权、改编权等演绎权。
(二)生成式人工智能机器学习的主要类型
以生成结果与现有作品构成实质性相似的可能性为标准,可以将 GAI 机器学习分为通用型和特定作者型两类。
1. 通用型生成式人工智能机器学习
通用型GAI机器学习的目的是以海量的作品为训练语料库,学习、模仿人类的通用表达,从而能够根据指令生成能够为人类所理解的内容。该类人工智能的应用场景极为广泛,根据输出结果的类型差异,主要分为以下几类:一是以OpenAI的GPT系列模型、谷歌的BERT模型为代表的文本生成类;二是以Midjourney、Stable Diffusion为代表的图像生成类;三是以AIVA、Suno为代表的音频生成类;四是以Gen-2、Sora 为代表的视频生成类。随着生成式人工智能技术的发展,通用型GAI能够生成的作品类型不断增加,并在商业场景中展现出极大的潜力。
通用型GAI机器学习有如下特点:第一,从训练过程来看,通用型GAI技术的突破依赖于对海量作品的数据训练行为,可以说,训练作品的数量和质量决定了通用型GAI输出结果的表现,也意味着较高的交易成本和分散的产权。第二,从输出结果来看,通用型GAI机器学习生成的内容对作品的利用具有低密度性,即单个作品对最终生成结果的贡献是极小的,[14] 现有作品的元素以碎片化的形式呈现在最终所输出的结果之中,难以与现有作品构成“实质性相似”。[15]
2. 特定作者型生成式人工智能机器学习
特定作者型GAI机器学习以模仿并输出具有特定作者风格的内容为目的的机器学习范式。较为典型的例子便是人工智能“下一个伦勃朗”,专家们利用大数据、3D扫描和机器学习等技术使计算机首先对168263个伦勃朗过往作品的片段进行了分析,再将伦勃朗的绘画习惯和作品细节转换成数据供计算机学习,[16] 最终形成的人工智能系统能够根据指令“创作”出具有伦勃朗绘画风格,但又完全不同于伦勃朗过往任何作品的全新数字绘画作品。
特定作者型GAI机器学习有如下特点:第一,从训练过程看,特定作者型GAI仅仅将特定作者的作品作为训练语料库,所使用的作品规模较小,且权利分布较为集中;第二,从输出结果来看,特定作者型GAI机器学习所输出的结果能够高效且精准地把握特定作者的风格,与现有作品构成“实质性相似”的概率更大。
(三)生成式人工智能机器学习的行为特点
总结上述内容,立足于著作权法的规范目标,可以对 GAI 机器学习的法律特征作出如下总结。从过程来看,主要包括两个方面:第一,使用作品的规模化,规模数据将会产生“涌现”现象,即当数据量较为有限时,模型所生成结果较为随机,当数据量超过一定的阈值后,模型生成结果的准确性和处理复杂问题的能力会大幅提升。[17] 这意味着若遵循传统“事前授权”模式,分散海量的著作权将产生较高的交易成本;第二,算法黑箱的不可知性,著作权人未能以可视化的方式获知其作品用于数据训练,导致著作权侵权判断中“接触”要件的失灵,权利人在诉讼中面临举证难点,增加了权利人事后维权的成本。
从结果来看,有以下三个特征:第一,生成结果利用训练作品的低密度性。传统的作品利用行为具有低频次、高价值的特点,针对特定的作品,且单个作品对生成结果的贡献是可被识别的。与之对应,GAI机器学习对作品的利用并非针对特定的作品,单个作品对生成结果的贡献是微量的,对作品元素的碎片化利用意味着以“实质性相似”标准认定侵权的难度将大幅提升。第二,生成结果对训练作品的依附性。无论是“Getty 案”[18]、“《纽约时报》案”[19] 还是最近的“Suno 案”[20],版权人均在诉状中明确列举了 GAI 生成结果与其享有版权的作品构成实质性相似的情形,由此来推知 GAI 技术研发者未经许可将其作品用于数据训练。第三,生成结果商业应用的广泛性。随着 GAI 技术的商业模式发展趋于成熟,其生成结果被应用于商业实践的各个领域,从新闻生成到内容策划,从广告营销到文娱产业的艺术创作、游戏制作,具有商业目的的 GAI 机器学习具有“实质损害”著作权人利益的现实可能性,从而降低了认定该行为构成合理使用的可能。
三、生成式人工智能机器学习引发的著作权争议
纵观著作权法的演进史,可以发现,新技术的浪潮与著作权制度的改革有着几乎相同的步调。技术创新冲击作品市场的利益格局,从而引发权利配置的难题是著作权制度发展的历史逻辑。以 ChatGPT 为代表的生成式人工智能作为新一轮技术革命的起点,对作品市场的影响主要表现在两个方面:第一,基础模型的训练离不开海量的作品数据,机器学习对作品的规模化使用是否构成著作权法意义上的作品使用行为,需要取得著作权人的事前许可;第二,生成式人工智能破解了人类语言的密码,能够根据指令生成与人类作品在外观上具有同一性的文本、图片等内容,在内容创作等领域具有广泛的商业应用场景。面对人工智能生成物对人类创作内容的替代效应,著作权人是否具有获得救济的正当性,如果有,何种制度工具更为适宜。为应对GAI机器学习所造成的利益失衡格局,理论界提出了两种权利配置的方案:分别是“合理使用说”和“法定许可说”,以下将详细展开论述。
(一)“合理使用说”
“合理使用说”主张采用更为宽松的监管政策,为生成式人工智能技术的创新发展提供充分的“喘息空间”,基础模型的开发者在利用作品进行数据训练时无需经过著作权人的许可,也无需支付报酬。持有“合理使用说”的学者,对关于GAI机器学习是否构成作品性使用存在两种不同的看法:一方认为该行为构成作品性使用,但应当免于著作权侵权责任;另一方认为该行为属于非作品性使用,无涉“专有使用”领域。两者的差异在于规制方案的不同,前者将机器学习纳入“复制权”范畴,并通过合理使用制度免于著作权侵权责任,遵循的是著作权制度“宽进宽出”的静态构架,[21] 后者则将机器学习排除在著作权的范畴之外,视其为一种自由使用。两种方案在规制机器学习行为方面将产生相同的效果,后者所提出“非作品性使用”规则能够被广泛地适用于其他领域,而不局限于机器学习情形。[22] 以下将梳理上述观点的具体理由。
1. 作品性使用:构成侵权但免责
大部分学者认为GAI机器学习属于作品性使用,但能免于著作权侵权责任,主要有以下四点理由:其一,GAI机器学习行为构成“转换性使用”。GAI机器学习通过对海量作品进行训练,学习的是众多作者表达中的通用模板,其生成的结果属于内容转换后的新表达,[23] 通常不会与原作品构成实质性相似,因此也不会具有明显的市场替代效应,可以构成合理使用。[24] 其二,GAI机器学习将涉及规模化的作品利用,一一获得著作权人的事前许可将产生极高的交易成本。因为基于意思自治的产权交易流程冗长,会随之带来超高的谈判成本。[25] 谈判过程不仅要假设交易主体的真实意思表示,还要就作品数据获取的价格和授权使用的范围进行反复磋商。海量作品、分散产权以及作品合理定价的困难都进一步加剧了交易成本。即使产权较为集中的训练数据,也会因规模化的作品使用而许可成本过高,从而使具有创新潜力的初创企业或中小型企业力不从心。[26] 其三,从社会公共利益的角度来看,依赖于海量作品训练的人工智能模型是人工智能时代的新型数字基础设施,[27] 在技术效果上具有普惠性。[28] 一方面,对一般公众来说,GAI辅助创作实质降低了作品创作的门槛,提高了作品创作的效率,有助于满足公众的创作需求,促进表现自由的行动。此外,允许作品数据训练行为构成合理使用可以避免因数据数量与质量的不足导致的算法歧视与偏见,促进民主社会的建构。[29] 另一方面,对著作权人来说,随着人工智能技术的普及,“人工智能 +”成为越来越多产业的选择,这 一趋势也会影响着作品市场中著作权的激励结构,[30] 为著作权人带来其他市场收益,[31] 创造多元、新型的激励路径。其四,基于产业政策的视角,机器学习的合理使用有利于维持人工智能产业公平竞争的市场秩序,促进该产业的良性发展。在国内层面,“以服务换数据”是当前较为普遍的一种商业模式,大型互联网企业与用户签订协议,约定以免费的服务来换取用户生成的海量数据,以此优化其开发的人工智能产品。由于数据集是推动人工智能技术发展的关键引擎,大型互联网企业因担心丧失竞争优势而缺乏共享数据的意愿,中小型企业又因为缺少相应的用户,未能获取足量的数据用于训练,从而导致高科技领域的不公平竞争。[32]在国际层面,有关机器学习的不同规定塑造了不同的竞争环境,若世界上主要国家和地区为机器学习提供侵权豁免时,过于严苛的监管政策,会导致生成式人工智能的技术开发者向监管政策更为宽松的司法管辖区转移,[33]将阻滞我国在人工智能领域的技术发展,使得我国在该轮技术革命中处于被动境地。[34]
2. 非作品性使用:不构成侵权属于自由使用
有部分学者认为,GAI 机器学习仅涉及对作品的“非作品性使用”,不构成著作权侵权,有以下三点理由:首先,GAI 机器学习对作品的使用具有明显的“非特定性”,单个作品在被用于数据训练时难以体现其独立的价值,[35] 因此该类对作品的使用未能兼容著作权法基于单个作品所设立的激励机制,不构成需要兼具特定性和表达性的作品性使用。[36] 其次,机器学习对作品的使用本质上是将作品作为事实信息,从而提取文本、图像等表达中的“一般规律”,[37] 并非著作权法意义上的“交流性使用”(communicative act),而是技术性的使用(technical use)。[38] 最后,机器学习过程中对作品的使用具有非公开性,是一种“中间复制”,训练后作品的表达不会存储于大模型之中,也不会复制或抄袭给第三方使用。[39]
(二)“法定许可说”
相较于“合理使用说”,主张使用法定许可制度规制机器学习的学者占比较少,主要理由如下。
第一,认定 GAI 机器学习构成合理使用将会使得版权市场的利益关系严重失衡,合理使用制度沦为服务特定利益集团商业目标的工具,进一步加固了技术垄断者的市场地位,而牺牲了分散化的作者利益。[40] 具体来说,人工智能技术的开发者能够获得大量免费、优质的版权内容,不断优化其算法,提高内容生成的质量,进而从技术市场中获取更丰厚的利益。与之对应,作者虽然提供了丰富的版权内容,但却未能从中获取任何利益,甚至可能因为生成内容在作品市场具有代替效应而影响其原本所具有的收益。这不仅会对作者的原作品市场造成损害,长此以往还会进一步损害公共利益。[41]
第二,法定许可制度作为一项“折中”的制度,在简化作品获取和使用程序的同时,保证了作品权利人的经济利益,兼顾了版权保护与技术发展的双重目标。[42] 一方面,生成式人工智能能够以极低的成本生成海量的符合市场需求的作品,必然会挤压人类作者的作品市场,使得相对低效的人类作者因作品的不稀缺而获得更少的收入,损害著作权的激励机制。[43] 对艺术家来说即使人工智能生成物仅与其作品构成风格上的相似性,也会影响其艺术和个人生活。[44] 另一方面,技术创新对市场经济的积极影响是显而易见的,其不仅能够发展出新的技术市场,有力地促进经济增长,或开拓出先前没有任何版权实践的新兴市场,为公共福祉带来增益。[45]
第三,过于将政策向人工智能技术开发者倾斜,可能会引发对生成式人工智能的过度使用,“劣币驱逐良币”的效应会使作品市场充满同质、平庸的作品,[46] 从而损害文化的多样性。随着人类创作作品的进一步稀缺,可能会导致人工智能只能使用其生成的内容进行数据训练,将会造成大型语言模型的崩溃效应(model collapse),从而阻碍人工智能生成技术的创新发展。[47]
第四,GAI机器学习未能契合合理使用的价值追求,更符合法定许可制度的规范目标。合理使用制度与法定许可制度所追求的价值目标不同,前者意在追求“公平”价值,促进文化繁荣等公共利益,后者则追求“效率”价值,以实现作品的商业化利用,数据训练问题的症结在于交易成本过高,而非是某一方的不公平。[48] 况且,GAI生成内容本质上是微机方程计算的结果,与人类创作基于思想和灵感的迸发有本质的不同 [49],可以说,其生成的内容仍然受到训练语料库和算法模型的限制,是对现有素材的重新组合,难以提高自然人的知识水平,促进文化繁荣。[50]
第五,算法黑箱的不可知性使得人工智能生成结果的因果关系难以被厘清,从而使著作权人难以在事后进行有效救济,法定许可制度则是一种事前规制,要求技术研发者在收集作品时向著作权人支付报酬,能够促进技术研发者在技术开发的早期阶段就将著作权人的利益予以考虑,并督促其采取相应的技术手段,评估并减少GAI机器学习所产生的负外部性。[51]
由上可知,“合理使用说”和“法定许可说” 均有其充分的理由。由于较多的学者赞同“合理使用说”,本文在下文中将首先以“四要素测试法”为标准,检视GAI机器学习构成合理使用的可能,再评估法定许可制度的正当性和可行性,在优劣比较中选择最为适宜的规制方案。
与著作权侵权认定不同,对合理使用的考察应关注系列行为所产生的整体效果,[52]因此在判断 GAI 机器学习是否构成合理使用时,应当将数据训练过程和人工智能结果输出阶段结合起来,不能仅关注行为过程,而忽视行为所产生的后果。由于语料库和算法模型的差异,不同的GAI所输出的结果会有所不同,生成结果对作品市场的影响也就存在差异,应当在个案中结合特定事实进行因素分析,逐一认定GAI机器学习是否构成合理使用。
“四要素测试法”中的第一个因素是“使用作品的目的和性质,包括使用行为是否具有商业性质或非营利性的教育用途”。[53] 在美国的司法实践中,该因素判定尤为重要,对案件的裁判结果有着决定性的影响。[54] 具体来说,对该因素的考察可以分为以下三个层次:第一,是否构成“转换性使用”。转换性使用是指在原作品的基础上增加了新理念、新风格、新表达等,从而使得原作在使用过程中产生新价值、新特点或新功能。转换性使用为著作权领域保留了一定的“喘息空间(breathing work)”,[55] 意在考察特定作品使用行为是否具有新的或价值增值的目的,以此来增进社会公共利益,可以说,对公共利益的考察是判断转换性程度的显性指标。在技术性合理使用案件中,作品使用行为所涉及的技术环节与转换性使用的程度具有紧密的内在联系。具体来说,一项技术发展的全流程包括技术开发、技术运行和结果输出三个环节,在不同的技术环节作品使用的方式存在差异,转换性程度逐级递减。[56]
首先,一般来说,技术开发阶段对作品的使用均会涉及对作品的全面复制,具有非公开性和非感知性的特点,是服务于特定技术开发的“功能性使用”,转换性程度最高,也最有可能构成合理使用。其次,技术运行阶段的作品使用行为在某些情形下具有公开性,比如临时复制行为,需要进一步考察该作品使用行为对传统作品市场和社会公共福祉的影响,构成合理使用的可能位于光谱的中端。最后,结果输出环节的作品使用行为通常会涉及对版权作品的发行、展示或表演,容易在原作品市场产生替代效应,对著作权人造成实质损害,转换性程度最低,构成合理使用的可能性最小。
GAI机器学习对作品的使用行为贯穿于技术发展的全流程。具体来说,无论是作品输入的技术开发阶段,还是模型训练的技术运行阶段,对作品的使用均是基于海量作品分析的规律提取,属于目的转换的功能性使用。但当涉及结果输出环节时,由于训练数据和算法模型的局限性,GAI根据用户指令所输出的内容可能会与原作品构成实质性相似,难以构成转换性使用。比如在“奥特曼案”中,涉案GAI生成了与奥特曼形象高度一致的内容,被法院认定为著作权侵权。[57] 正如上文所述,合理使用的判断关注的是系列行为的整体效果,因此,结果输出环节所产生的效果对其他两个环节的行为性质有着决定性的影响,当结果输出环节的作品使用行为构成著作权侵权时,技术开发阶段和技术运行阶段的作品使用行为也不能满足合法性的要求,不构成合理使用。对此,需要根据个案的具体情形,考察GAI机器学习构成合理使用的可能。需要指出的,在 2023 年的“安妮霍尔案”中,美国最高法院对“转换性使用”规则作出阐释,该案判定认为,如果二次创作与原作具有相同或相似的目的,且具有商业目的,在缺乏其他正当理由的情况下,倾向于认定第一要素不构成合理使用。[58]该案标志着“转换性使用”的地位有所下降,将会对GAI机器学习的合理使用认定产生实质的影响,因为 GAI 机器学习所输出的结果是对原作品的表达性使用,在多数情况下与原作品的使用目的具有一定的相似性,可以预见,GAI 技术研发者在未来侵权诉讼中要证明其使用目的具有转换性的难度将会进一步上升。
第二,是否出于商业目的或非营利的教育目的。在技术性合理使用案件中,作品使用行为是否是商业性使用并非决定性的考量要素,除非与作品使用行为有关的新技术以极高或免费的价格提供给公众。[59] 事实上,大多数以研发新技术为目的而使用作品的行为均具有一定的商业性,在GAI机器学习领域,从事基础模型开发的主体也均是具有营利性的互联网企业或科技公司。依据该要素,非营利性的GAI机器学习行为因其内在的公益价值,与合理使用制度所追求的社会公益价值具有一致性,应当构成合理使用。商业性的GAI机器学习则应当结合转换性使用程度、对原作品市场所产生的影响等其他因素进行综合判断。使用作品的转换性程度越强,其他因素在合理使用认定中被予以衡量的比重就越低,即使是商业性的使用也可能构成合理使用。[60] 比如将海量论文用于训练人工智能,最终是为了利用该人工智能判断其他论文是否存在抄袭,该情形下对作品的使用便具有较强的转换性,即使利用该人工智能的服务是收费的,也构成合理使用。
第三,是否是善意使用。善意使用是指遵循作品使用的惯例而使著作权人不受损害。在GAI机器学习的情形下,技术研发者是否规避或破坏著作权人所采取的技术措施,非法获取训练数据是判定善意使用的具体内涵。正如《生成式人工智能服务管理暂行办法》第7条第1项所强调的,开展数据训练处理活动应使用具有合法来源的数据和基础模型。可以说,数据来源合法性是考察机器学习版权合法性的前提。当前利用“爬虫”技术获取互联网上的数据是获取训练数据最为主要的方式。数据抓取的过程会受到爬虫协议的限制,爬虫协议的实质是一种利用技术措施所形成的代码规制,各网站根据自身的需求采取技术措施以规范广泛的数据获取行为。[61] 爬虫协议虽然不具有法律规范的强制效力,但在互联网行业中却形成了一种普遍遵循。在著作权领域,爬虫协议虽然并不在技术上设置数据访问的防护措施,只是罗列出允许访问和禁止访问的数据清单,但在司法实践中可能被认定为控制作品访问的“有效”技术措施。[62] 因此,当开展GAI机器学习时,技术开发者在获取数据时违反爬虫协议,或规避、破坏技术保护措施或删除权利管理信息,未能满足数据获取合法性的要求,不是善意的作品使用行为,未能构成合理使用。比如,在“《纽约时报》案”中,用户因《纽约时报》所采取的技术保护措施“付费墙”而无法阅读付费文章《雪崩:隧道溪的雪崩》(Snow Fall: The Avalanche at Tunnel Creek),于是向ChatGPT发出指令以获取被“付费墙”遮挡的部分内容,ChatGPT最终以逐字复制了原作品的方式向用户提供了被“付费墙”遮挡的内容。[63] 可见,在该案中,ChatGPT的技术开发者规避或破坏了《纽约时报》所采取的技术保护措施,非法获取了相应的训练数据,具有著作权侵权风险。
(二)被使用作品的性质
对被使用作品的性质考察主要分为两个方面。一方面,被使用作品是虚构作品还是事实作品,虚构作品相较于事实作品会获得更充分的著作权保护,因此,使用该类作品构成合理使用的可能性更小。GAI机器学习所输出的结果取决于基础模型和训练语料库,其生成的内容可能会与原作品构成实质性相似。比如在“唱片公司诉Suno案”中,当向Suno发出“1950s rock and roll, jerry lee lewis, sun studio”(译作“20 世纪 50 年代摇滚乐,杰瑞·李·刘易斯,太阳工作室”)的提示词时,Suno不仅没有弹出错误信息,还生成了一首名为“You shake my nerves and you rattle my brain”的歌曲,这首由 AI Suno 生成的歌曲与 1961 年刘易斯的“Great Balls of Fire”有着相同的歌词和节奏。[64] 可见,受制于技术的有限性,当前生成式人工智能所输出的结果仍然是对现有作品表达要素的重新组合,当人工智能生成物实质性复制的作品是独创性较高的虚构作品或艺术作品时,则构成著作权侵权的风险较大,不属于合理使用。
另一方面,被使用作品是否被发表。使用已发表的作品用于数据训练更容易构成合理使用,反之,则可能侵犯著作权人的隐私权和发表权。在 GAI 机器学习的场合下,对该问题的考察可以被转化为对数据来源合法性的评估,与善意使用的认定具有同质性。当著作权人采取技术保护措施防止公众获取其作品时,技术开发者规避、破坏技术保护措施所获取的作品便是未发表的作品,利用该作品进行数据训练,难以构成合理使用。
(三)被使用部分的数量和质量
对于该要素的评估需要结合使用目的进行综合判定,即考察引用作品的比例与其所要实现的正当目的或功能是否相适应。[65] 以机器学习为例,在作品输入和模型优化阶段,使用作品的目的在于提取海量作品中语言表达的一般规律,是一种将作品数据的事实信息进行统计分析的功能性使用,基于这一目的,即使逐字复制作品仍然能够被认定合理使用。
当涉及结果输出环节时,GAI使用作品的目的是生成符合用户需求的内容。首先 GAI将根据用户的指令在训练作品语料库中搜寻关联作品,其次将用户指令和检索到的关联作品予以结合,提供上下文,最后由掌握语言规律的基础模型根据用户提问和关联作品,生成能够为人类所理解的、有意义的内容。[66] 这一过程会涉及对作品表达性要素的排列组合,属于转换性程度较低的表达性使用,引用作品的数量和质量需要适当,否则过量引用原作品或者引用原作品的核心内容都可能影响合理使用的构成。比如在“《纽约时报》案”中,当向ChatGPT输入“What did Pete Wells think of Guy Fieri’s restaurant ?”(译作:皮特·威尔斯如何评价餐厅 Guy Fieri ?)的提问时,ChatGPT直接引用了前《纽约时报》餐厅评论家皮特·威尔斯 2012 年对Guy Fier餐厅的评论,从诉讼状所显示的证据来看,ChatGPT几乎逐字引用了原文的内容。[67] 再比如在“唱 片公司诉Udio案”中,在人工智能Udio中输入“a 1983 song by an American singer and dancer, electronic, r&b, pop-rock, post-disco, funk”(译作“一首来自美国歌手和舞者的 1983 年的歌,电子,蓝调节奏,流行摇滚,后迪斯科,放克音乐”)的提示词,并摘录迈克尔·杰克逊在 1983 年发表的“Billie Jean” 里的歌词时,Udio生成了一首名为“Midnight Denial”的歌曲,该歌曲与迈克尔·杰克逊的“Billie Jean”有着相似的节奏和音高轮廓。[68]
(四)使用对原作品潜在市场或价值的影响
该要素关注作品使用的效果,是四要素考察中较为重要的考量因素之一。考察该要素的难点在于如何界定“原作品的潜在市场”,在司法实践中,著作权人总是倾向于主张,所有未经许可且导致经济损失的作品使用行为会对其潜在市场造成损害,即使该市场是尚未形成且不可预见的。[69] 为了解决这一困境,第二巡回法院在司法审判中明确指出,版权人只有在“传统的、合理的或很有可能发展”(“traditional, reasonable, or likely to be developed”)市场中享有许可他人使用作品的权利。[70]
在技术性合理使用案件中,对该要素的考察主要分为以下三个方面:第一,考察作品使用行为是否会在原作品市场产生替代效应。当以逐字复制的方式商业性地使用原作品时,该作品使用行为必然会在原作品市场产生替代效应,实质损害原作品的市场利益。[71] 技术开发和技术运行阶段的作品使用行为属于功能性使用,并不构成著作权法意义上的“潜在市场”。在结果输出环节,作品使用行为产生替代效应的风险较大,需要结合输出的形式和生成内容的使用场景进行综合判断。比如以缩略图形式输出产生替代效应的可能性较小,仍然可能构成合理使用,[72] 在GAI机器学习的场合,输出与原作品构成实质性相似的“奥特曼”图案,则可能会对原作品产生实质替代效应,构成著作权侵权。[73]
其次,衡量一项新技术对潜在作品市场所带来的积极和消极影响。由于GAI深刻地改变了作品创作的模式,对作品市场的影响是颠覆性的。在积极影响方面,生成式人工智能辅助创作将极大降低作品创作的门槛,不仅艺术家能够利用该工具提高工作效率,而且不具有绘画、编曲等艺术创作能力的公众也能利用该项技术将灵感、构思转化为现实,有利于激发文化创新的潜力。比如没有任何绘画基础的Rootport便利用生成式人工智能Midjourney,在六周的时间内完成了一部100 多页的漫画《赛博朋克:桃太郎》(Cyberpunk: Peach John),并在出版社出版发行。[74] 在消极影响方面,廉价的人工智能生成物可能会进一步挤占人类作品的市场,在作品市场中产生“寒蝉效应”,使得公众不再愿意为人类创作的作品支付更高昂的费用,[75] 损害著作权的激励机制。可见,GAI技术对作品市场而言是机遇也是挑战。规制GAI机器学习就是要把握利益平衡的理念,不仅要适度限制著作权,为技术的创新发展提供“喘息的空间”,而且要防止以过度牺牲作者利益为代价来促进技术产业的发展。在个案中判定GAI机器学习的合理使用性质时,要结合特定的事实评估GAI技术的双面性,以作出符合利益平衡理念的裁决。
最后,判断若反对作品利用行为构成合理使用,是否会对社会公共利益产生消极的影响。一方面,GAI技术的进步对社会公共利益的促进效益显而易见:一是促进公众的表达自由,互联网技术开启了全民创作的时代,作品创作已然成为人们进行交流沟通的方式,[76] 在生成式人工智能的辅助下,公众将能够以更低的成本创作形式多样的内容,丰富表达自由的形式。二是提升社会生产力,由于企业日常工作与语言密不可分,[77] 掌握人类语言奥秘的生成式人工智能将极大地提升企业的工作效率。语言任务在企业工作人员总工作时长中占比62%,其中65%的时间可以借助人员强化和自动化技术来提升生产力,所有行业中40%的工作时间都将得到GPT-4等大语言模型的协助。[78] 但另一方面,GAI 技术的过度开发也可能会实质损害著作权人的群体利益,阻碍创意产业的可持续发展,导致作品市场充斥着大量平庸、同质化的作品,从而损害文化多样性。该项技术对社会公共利益的双重影响是GAI机器学习的合理使用定性中需要重点考虑的。
经“四要素测试法”分析可得,GAI机器学习在如下情形中具有较大的侵权风险,未能构成合理使用:一是规避、破坏技术保护措施获取训练作品,不符合善意使用目的,或可能构成对未发表作品的使用;二是输出结果与原作品构成实质性相似,在未能构成转换性使用的情形下,使用作品的数量和质量都超过了适度的范围,会在原作品市场产生替代效应;三是海量输出结果涉及对原作品的表达性使用,对著作权人的潜在作品市场造成了具有现实可能性的实质损害。
综上所述,并非所有GAI机器学习都能构成合理使用,仍然需要在具体个案中结合特定事实进行综合判断,只有同时满足上述四个要件的GAI机器学习才能被认定为合理使用。可见,合理使用并非规制GAI机器学习的最优工具,因为技术研发者会因个案判定的不确定性而面临较大著作权侵权风险,不明晰的免责信号并不利于推进生成式人工智能产业的发展。那么何为规制 GAI 机器学习的最优路径呢?下文将展开详细论述。
五、规制生成式人工智能机器学习的思路
GAI 机器学习版权合法性问题的实质是版权保护与技术创新的冲突,过度保护著作权人的利益会阻碍技术产业的创新发展,反之,过度倾向于技术产业的政策也会损害作品市场中的激励机制和文化多样性。因此,规制GAI机器学习需要以利益平衡为理念,不仅内观著作权制度的治理工具,而且要向外寻找弥补著作权制度缺陷的其他措施,多元化的治理路径更利于在版权保护和技术创新这两种价值之间找到平衡的支点,促进版权产业和人工智能产业的协同发展。
对此,本文将以不同类型GAI机器学习构成合理使用的可能性光谱为指引,试图构建有层次的治理框架,以期为市场主体提供明晰的合规方案,为技术创新和投资活动的开展提供稳定的预期。
(一)完善利于开展机器学习的合理使用制度
以海量作品训练为依托的基础模型作为促进生成式人工智能技术发展的重要引擎,是堪比互联网的发明。在这一技术变革的关键节点,各国著作权法为适应机器学习对海量作品的使用需求都进行了一定程度的调整,以合理使用政策的改革居多。日本著作权法对机器学习采取了较为宽松的监管政策,[79] 被称为“机器学习的天堂”,而欧盟则对机器学习采取了较为严格的监管政策,[80] 仅允许以科学研究为目的机器学习行为,在商业性质的机器学习情形下为著作权人设置了“退出—选择”机制。美国采取的是“先产业后司法”的政策,司法实践并未及时对该类案件作出判决,而是依赖于企业自治、行业规范或政府回应等方式治理GAI机器学习。
由于我国著作权法的修改周期较长,著作权法尚未对该问题及时作出回应。2023 年7月国家互联网信息办公室等七部门联合发布的《生成式人工智能服务管理暂行办法》第7条 [81],以及《人工智能法(学者建议稿)》第23条第1款 [82] 均对机器学习的知识产权合规提出了要求,但相应的知识产权保护规则尚未予以完善。
我国的合理使用制度采取的是“一般条款 + 法定情形”的封闭立法模式,一方面,“三步检验法”是对法定情形的再限定,而不是具有扩张可能性的兜底条款;另一方面,在12种法定情形中,与机器学习关系较为密切的分别是《著作权法》第24条第1项“个人使用”、第24条第2项“适当引用”以及第24条第6项“在课堂教学和科学研究中使用”,但上述条款在使用主体、使用数量、使用范围和使用目的等方面未能有效适应GAI 机器学习行为。[83] 综上,有必要对我国的合理使用制度予以完善,以满足GAI机器学习对作品使用的需求。
首先,建议引入美国的四要素测试法,构建开放型的合理使用条款,允许法官在个案中认定 GAI 机器学习是否构成合理使用。开放性的制度构造更能满足人工智能时代的现实需求,一方面,规模化的作品训练是推动生成式人工智能技术发展的关键,当特定的作品利用行为并不会实质损害作者利益时,应当将该行为纳入合理使用的范畴;另一方面,人工智能辅助创作在权利界定、创作成本以及传播效率上都更具竞争优势,[84]利用生成式人工智能辅助创作的私人用途将会进一步扩张,由于搜寻该行为的成本较高,加之侵权主体的赔付能力有限,即使该行为生成了版权侵权内容,也不会对著作权人造成实质损害,应当构成合理使用。
其次,建议为非营利性的GAI机器学习行为创设法定的合理使用情形。合理使用制度的规范价值在于调和多元价值冲突,以增进社会公共福祉。非营利性GAI机器学习能够使公众免费利用生成式人工智能技术,享受技术进步所带来的诸多好处,而且因为该类情形在GAI机器学习中占比较少,对著作权的利益并不会造成实质性损害,能够满足“三步检验法”中对作品使用行为的限制性要求。有学者认为应当将第24条第1项中的“为个人学习、研究或欣赏”改为“为私人学习、研究或欣赏”,更好地涵摄人工智能企业的非营利科研活动,[85] 但本文认为,该改革方案虽然摆脱了对主体的限定,仍然未能充分涵摄非营利性GAI机器学习,“私人”意味着作品使用的非公开性,而非营利性则是一种面向公众的免费使用,因此本文主张应为非营利性 GAI机器学习单独构造合理使用情形。
(二)构建符合利益平衡原则的法定许可机制
与非营利性GAI机器学习构成合理使用的确定性不同,商业性GAI机器学习是否构成合理使用仍然需要在个案中结合特定事实予以判断,不明确的市场信号加之合理使用判定因素的重合性,决定了合理使用并不是在GAI机器学习场景下协调著作权人、技术开发者以及公众之间利益平衡的最佳政策工具。[86]
法定许可制度作为同样限制著作权的责任规则,[87] 在GAI机器学习场景下展现出诸多优势:一是平衡版权保护与技术进步的折中方案。法定许可制度不仅保障了著作权人的利益,以鼓励形成高质量创作的文化生态,而且促进了作品的利用,以推动生成式人工智能技术的发展。人工智能辅助创作内容在权利界定、创作成本、传播效应等方面更具竞争优势,在著作权激励机制的强化下,作品市场可能产生“劣币驱逐良币”的效应,即同质化的人工智能生成物将代替人类作品占据市场主导地位。在被称为“机器学习天堂”的日本,数千名插画师、艺术家和音乐家都在反对目前对著作权人保护不足的现状,并期望日本能够最终构建相应的法律体系,以保护创意产业和著作权人的权益。[88] 可见,虽然通用型GAI生成版权侵权内容的概率较低,不会对特定作者的利益造成实质性损害,但其对作者群体利益所造成的伤害是现实可见的。因此,若允许广泛开展GAI机器学习而不给予作者群体任何补偿,将不利于构建可持续发展的作品市场。合理使用是不经著作权人许可的免费使用,在GAI机器学习情形下不给予著作权人以适当的补偿有违著作权的基本精神。
二是简化作品许可程序,降低作品交易成本。创设 GAI 机器学习的法定许可制度,可以使技术研发者无需经过著作人的许可,只要支付法定许可费即可使用作品进行训练。该制度的落实可依托于集体管理组织的运行,在集体管理的模式下,分散的个体利益被予以集中,个体作者的谈判地位将得以提升,通过“一揽子”协议的集中授权而省去了单个作品逐一达成交易的作品搜寻、来源识别、协商谈判等成本,从而促进作品的利用和传播,[89] 也能满足机器学习场景下对规模化作品使用的需求。
三是缓解机器学习场景下日益加剧的技术垄断,赋予著作权人谈判筹码,从而促成市场中协商谈判机制的形成。法定许可制度最早诞生于“钢琴卷纸案”,[90] 最早出现在1909年的美国《版权法》,该制度的立法目的在于防止垄断。[91] 在人工智能时代,技术研发者因利用海量作品进行数据训练在市场中占据优势地位,若将GAI机器学习认定为合理使用无疑会进一步加剧技术垄断。此外,由于算法黑箱的不可知性和作品利用的碎片化,“接触 + 实质性相似”的侵权认定规则在GAI机器学习场景下失效,著作权人因无法实施侵权救济在市场中处于弱势地位,难以与技术开发者达成作品使用的许可协议。对此,法定许可制度作为政府主导型的制度措施,[92] 在机器学习市场尚未形成复杂的交易环境前予以介入,增加了著作权人的谈判筹码,从而迫使技术研发者在技术开发的前期就将著作权人的利益予以考量,从而通过自治手段将负外部性内部化,或自愿与著作权人达成协议。
然而,主张合理使用的学者对法定许可制度提出了诸多反对理由,主要包括以下三个方面:一是付酬方面,政府部门难以确立适当的作品利用付酬标准,固定的收费标准难以适应流动的市场环境,且单一的收费模式与GAI机器学习的作品利用逻辑不符。面对日新月异的技术和商业环境,立法者往往难以全面地收集信息,观测市场的真实状况并制定一个合理的费率标准。[93] 高于市场定价的许可费率会促使使用者更倾向于与著作权人进行协商谈判来确定交易价格,从而消弭法定许可制度所带来的低交易成本优势。反之若许可费率低于市场定价,版权人没有相应的筹码来提高定价,获得公平报酬的定价权。[94] 概言之,法定许可制度所确定的版税标准就是著作权人能获得的版税上限。[95] 况且,机器学习中作品使用的特点在于规模化的作品数量,单一作品的价值极为有限,因此在机器学习的场合下更为合理的补偿逻辑是针对作者利益群体的整体性补偿,难以将补偿费用基于个人权利“精准”地划分给个人,[96] 而法定许可制度是以单一作品的单次利用为收费标准,更符合低频次、高价值的作品使用情形,两者在补偿逻辑上存在差异。
二是我国尚未构建起完善的低成本的集体授权机制,[97] 运行集体管理组织将产生较高的制度成本。我国集体管理组织的发展仍然在诸多方面存在局限,一方面,规模化的作品利用意味着将涉及众多权利人和使用人,从而产生较高的交易成本,其中包括与使用者订立许可合同,收取并转付许可费,从事诉讼或仲裁等维权活动所产生的成本;[98] 另一方面,当前我国集体管理组织存在授权模式单一、转授代理等问题,部分版权人和使用者对集体管理组织缺乏信任,[99] 从而不能积极配合,构建有效率的收费和分配模式。
三是机器学习作品使用场景广泛,难以不加区分地“法定”。[100] 机器学习对作品的使用包括“公共领域”的自由使用、专有领域的合理使用、侵权使用等,并非所有的情形都能满足法定许可的规范价值。若GAI机器学习生成版权侵权内容,善意使用GAI的用户不仅要支付法定许可的费用,还要因侵权而支付赔偿费用,在此情形下的“双重给付”难言正当。[101]
可见,上述反对理由均集中于法定许可制度的可行性问题,而非其适用的正当性。事实上,法定许可制度因契合利益平衡理念,被认为是解决GAI机器学习版权合法性问题的“理想方案”。[102] 对此,下文将聚焦于法定许可制度的可行性,论证在GAI机器学习中实施法定许可制度的“现实可能性”。首先,立法者可以通过模拟协商或参照商业实践领域的现实情况来确定可供参考的付酬标准,并构建付酬标准协商机制,以保留市场自发的协调功能。关于法定许可付酬标准的制定,学界主要有两种观点:一种观点认为应当由国务院相关部门确立,且费率标准应当低于协商许可的定价,不仅可以降低协商成本,保留法定许可制度的效用,而且不会对技术研发者造成过重的负担,损害中小企业的技术创新;[103] 另一种观点认为应确定付酬协商机制,由双方当事人平等协商,协商不成的,则通过仲裁或诉讼确定使用费率。[104] 本文认为,法定许可制度是政府主导型的市场调解机制,在市场尚未能够形成复杂的交易机制之前,立法者可通过确立法定价的方式来拟制市场交易,当前多起有关GAI机器学习的诉讼的出现便反映了市场中尚未形成相对成熟的交易机制,此时立法者有必要及时介入市场,制定付酬标准,以缓解市场失灵所带来的不良影响。立法者在制定参考的付酬标准时应尽量反映客观的市场价格,为促成自发、成熟的市场交易环境提供动力。对此,立法者一方面可以通过组织有代表性的著作权人和技术研发者进行模拟谈判,以确定能够反映市场真实情况的付费标准,另一方面,可以参照市场中通过谈判达成的自愿协议来确定费率标准,比如 OpenAI通过向十余家新闻机构支付约2.5亿美元(约合人民币 18.1 亿元)的许可费用, 与其达成了达成五年的作品使用协议。[105] 随着作品交易市场逐渐成熟,有些稿费付酬标准应当予以废止,而由市场的自由协商机制来确定付费标准。
其次,需要从技术支持、制度保障两个方面完善我国的集体管理制度,从而推动法定许可制度的实施。诚然,我国集体管理制度尚不完备,但这并不意味着就要放弃GAI 机器学习情形下最优的制度方案,而是要着眼于制度症结并予以完善。在技术支持方面,区块链技术具有去中心化、透明和不可篡改的技术特征,将其应用于集体管理制度,不仅能够解决使用者和版权人的信任危机,而且能够在版权授权、版权交易、版税收发以及信息数据库构建等方面降低执行合约的成本,使集体管理组织能够实质发挥降低交易成本的功能。[106] 在制度保障方面,应当构建信息披露制度,由使用者记录并公开其用于数据训练的作品信息。欧盟《人工智能法案》第53条就为通用人工智能模型设立了信息披露义务,要求通用人工智能的开发者必须遵守版权法,按照相应的规定起草并公开用于训练通用人工智能模型的内容摘要,以便版权人根据《数字化单一市场版权指令》为其设定的“选择—退出”机制保留相应的权利。[107] 可见,该义务的设定打破了数据训练环节的黑箱状态,不仅方便集体管理组织查阅作品使用清单,及时向使用者收取费用或维护权利人的合法权益,而且能够使主管部门有效行使监督管理职能,确保机器学习的版权合规。
最后,法定许可制度所适用的范围应当被严格地限制在商业性GAI机器学习领域,换言之,只有以商业目的开发GAI的技术研发者才有义务向权利人支付作品使用的许可费用,而不是不加区分地要求所有进行作品数据训练的主体承担法定的付费义务。此外,法定许可制度的引入并不会导致“双重给付”的现实,因为支付了许可使用费的主体能在版权侵权诉讼中以法定许可提出抗辩,从而免除著作权侵权责任。事实上,正是因为法定许可制度在输入端对作品使用行为进行了规制,人工智能生成物的版权侵权诉讼将大幅减少,减轻司法审判的负担。
(三)借鉴遵循动态规制逻辑的避风港规则
若GAI机器学习所输出的结果与原作品构成实质性相似,将会在原作品市场产生替代效应,实质损害著作权人的利益。对于该类构成著作权侵权的机器学习行为,权利人往往基于赔付能力、商业策略以及举证难易程度等方面的考量,不会追究私人用户的直接侵权责任,[108] 转而向GAI服务平台主张侵权救济。
对此,应借鉴互联网治理的“避风港规则”, 为GAI服务平台设定适当的注意义务,合理地分担GAI机器学习场景下的版权侵权风险。在法理层面,注意义务的设定应当与其行为所产生的风险相适应,需结合产业和技术环境的实际情况,在兼顾版权保护的同时,将技术创新的政策纳入考量。由于人工智能辅助创作物因更符合市场需求而更能适应算法推送的技术逻辑,在作品传播效果上更为优越。[109] 因此,利用生成式人工智能进行二次创作生成版权侵权内容后更容易被广泛地传播,对著作权造成实质影响的潜在风险较大,有必要为GAI服务平台设立较高的注意义务。明晰的责任边界有助于为 GAI服务提供者提供稳定的预期,鼓励其在相应的风险防范中进行合理的投资,平衡版权保护与技术创新的双重价值。
一方面,GAI 服务提供者应采取事前阻止措施,防止使用者在使用GAI时生成侵权内容,或阻止其将生成后的侵权内容发送给用户。具体来说,一是可以采用提示词过滤的技术措施,防范侵权内容的继续生成。虽然基于自然语言的丰富性,基础模型的设计者无法锁定所有可能出现问题的“提示词”及其相关表达,但其仍有能力过滤掉明显违法的提示词,[110] 以降低生成版权侵权内容的风险。事实上,即使基础模型的训练并未刻意模仿某一作品风格,生成式人工智能也会在以下三种情形下生成版权侵权内容,分别是涉及奥特曼、米老鼠等与特定文本描述相关联的图片,训练语料库中反复出现差异较小的图片、知名度较高的作品。[111] 基于这一技术特征,GAI服务提供者可以提前过滤掉具有较高市场价值,且知名度较高的作品名称。在“奥特曼案”中,法院要求被告采取关键词过滤等措施,防范其服务继续生成与案涉奥特曼作品构成实质性相似的图片,从而达到停止侵权的效果。[112] 二是著作权人应与GAI服务提供者开展积极的合作,帮助其构建作品数据库,经由用户指令生成的内容应与作品数据库进行智能比对,直接屏蔽或过滤掉构成高度实质性相似的内容,从而避免侵权内容被持续不断地大范围传播。[113]
另一方面,GAI服务提供者还应采取事后阻止措施,即防范侵权内容再次生成或侵权内容被广泛传播。对此,GAI服务提供者应设置投诉举报机制,该机制在制度构造上类似于“通知—删除”规则,即权利人向GAI服务提供者发出侵权通知,GAI服务提供者在判定侵权成立后,应采取必要措施来停止侵权。[114] 其中,“必要措施”的外延应当结合GAI的技术特征予以明确,以保障技术上的可行性,从而避免给技术研发者的风险防范造成过重的负担。由于GAI基础模型运作遵循的是数据开发的推理模型,生成结果具有不可控性,[115] 因此难以采取针对性的阻止措施,[116] 比如在训练数据库中删除侵权内容,则意味着要对基础模型进行重新训练,将会产生极其高昂的成本,与其所造成的风险不成正比,不具有经济理性。因此,仍然可以沿用“提示词”过滤技术来阻止侵权内容的进一步生成。
(四)补充超越著作权制度的多元治理措施
从互联网到人工智能,技术的发展推动着作品大规模的数字化,颠覆了作品使用的方式。在数字世界里,全民创作的热潮叠加媒介迭代所带来的作品传播效率大幅提升,使得传统的著作权制度难以应对多元场景下的作品使用需求,作品市场由此生发出诸多基于商业实践的自治手段。因此,本文将超越著作权内部的制度工具,关注商业环境中解决GAI机器学习的版权合法性障碍的行业自治规则,以期构建多层次的GAI版权合规方案,降低相关企业的经营风险,推动人工智能产业的高质量发展。
第一,以用户协议为中介获得作品授权、分担侵权风险。在互联网环境中,用户在使用相应的产品或服务时,一般都需要签订一份用户协议,以明确用户和服务提供者之间的权利和义务,这是服务提供商开创新型商业模式、分担风险的重要手段。在GAI机器学习场景下,用户协议的功能主要体现如下方面:一是通过用户协议合法获取用户生成内容并用于数据训练。用户生成内容是人工智能数据训练的主要材料,[117] 当前大型互联网企业存在一种“以服务换授权”的商业模式,即在向用户提供服务的同时会以“用户协议”的方式获取用户在服务过程中生成的数据内容。[118] 该类协议有效解决了数据来源合法性的问题,在作品输入的前端规避了侵权风险,具有一定的经济效益。二是在用户协议中调配权利义务,将生成版权侵权内容的负外部性内部化。比如OpenAI就在服务条款中推出了“版权保护盾(copyright shield)”,意味着若用户因使用 ChatGPT 企业版和API而面临版权侵权诉讼,OpenAI将介入帮助用户应诉并承担因诉讼产生的相关费用。[119] 这一自发的举措有效地将产生版权侵权的外部风险内化为企业内部的技术合规成本,不仅能够使得用户更放心地使用相关服务,而且将推动平台不断改进模型降低侵权风险。
第二,引入知识共享协议,推动作品数据开放共享。受到“自由软件”开放源代码的启发,以创作共享、使用共享为理念,知识共享(以下简称 CC)运动应运而生。[120] CC许可协议诞生于CC运动,是著作权人向公众免费提供的作品使用许可授权的声明,即权利人可以根据CC许可条款所设定的模块自由组合,在保留部分权利的情况下使公众根据许可协议条款免费使用其作品,在“保留所有权利”和“无任何权利保留”之间开创了一条中间道路,即“保留部分权利”。[121] CC许可协议在价值理念和实践操作层面均与GAI机器学习的作品使用场景高度契合,在价值理念方面,CC许可协议以共享、平等为理念,对所有使用者一视同仁,并通过自行设定条件约束后续使用者以相同的许可方式和条件促进作品的传播和利用。[122] CC许可协议对后续利用行为的限制条件有利于推动共享生态的形成,此外,平等理念使得中小企业也能利用“版权共享池”中的作品进行数据训练,避免科技领域的不正当竞争,有助于人工智能产业的技术创新。在实践操作层面,与传统授权模式下需要与版权人协商获取授权不同,CC许可协议在版权人意愿的基础上预先设定了作品使用许可条款。使用者无需与版权人进行协商即可使用作品,降低了作品的交易成本,满足了机器学习场景下大规模作品使用的需求。
第三,发展版权保险制度,应对内生性的版权侵权风险。基础模型训练所需要的作品数据是以亿来计算的,面对海量的作品使用需求,即使通过购买数据库、使用网络爬虫技术或通过集体管理组织授权等多种方式尽可能地合法获取数据,仍然可能会有漏网之鱼。可以说,机器学习中的版权侵权风险是内生性的。为了有效应对潜在的版权侵权风险,人工智能研发企业可以通过购买版权保险,引入第三方机构来分担侵权风险,降低版权的市场交易成本。[123] 在当前的版权保险类别中,版权侵权责任保险能够有效地回应这一需求,该款保险模式以被保险人侵犯他人知识产权所应当承担的赔偿责任为保险标的,承保范围主要是被保险人因被他人提起知识产权侵权诉讼而需要支出的法律费用,包括律师费和被判承担赔偿责任时支付的损害赔偿金等费用。[124] 从我国知识产权保险开展情况来看,专利领域的保险种类较为丰富,不仅有针对使用者抵御知识产权侵权风险的知识产权侵权责任保险,还有为权利人开展知识产权维权活动的知识产权执行保险。在版权领域,目前只有为著作权人设立的版权执行保险,即在著作权人的作品遭到侵权后由保险公司向其赔偿,之后再由保险公司行使代位求偿权。[125] 未来应当大力发展版权侵权责任保险,解决人工智能企业从事机器学习活动时所面临的版权合法性障碍,激发人工智能产业的创新活力。
此外,一些人工智能研发公司也积极地探索尊重作者权利,向作者支付报酬的各种方案。比如 Adobe 创建了内容真实性倡议(Content Authenticity Initiative, CAI)的元数据系统,创作者可以使用 CAI 技术在其图像或数字文件中加入“不用于训练”的标签,指示AI训练系统将其排除在训练数据之外,由此为著作权人构建了权利保留的“选择—退出”机制。[126] 再比如 Shutterstock 在研发生成式人工智能系统时,推出了贡献者基金(Contributor Fund)来补偿艺术家,以确保内容创作者得到公平的报酬。[127]
六、结语
GAI机器学习的版权合法性问题是著作权制度迎面技术变革发出的时代之问,也是如何调和版权保护与技术进步之紧张关系的历史之问。不同于以往的技术变革,GAI机器学习会在输出端对作品进行碎片化的利用,加之其采用的是数据开放的推理模型,生成结果具有不可控性,因此,GAI机器学习对作品市场的影响具有高度不确定性。对此,合理使用的认定遵循个案判定的逻辑,未能给市场主体提供明晰的免责信号,不是规制 GAI机器学习的最优工具。以“四要素测试法”为标准分析不同场景下的GAI机器学习,可以发现,以构成合理使用的可能性为标准,GAI机器学习可以分为三类:一是非营利性GAI机器学习,构成合理使用的可能性最大;二是商业性GAI机器学习,通用型GAI 机器学习在其中占比较大,生成版权侵权内容的概率较低,构成合理使用的可能位于光谱中端;三是生成版权侵权内容GAI机器学习,以特定作者型 GAI 机器学习为主,构成合理使用的可能性最低。
为了给市场主体提供明晰的版权合规方案,本文以上述对 GAI 机器学习的类型划分为参照,结合著作权制度工具与商业实践的自治规则,试图构建多层次、体系化的 GAI 机器学习版权合规方案。具体内容如下:一是增设非营利性 GAI 机器学习的合理使用情形,以示例的方式为市场主体从事相关行为提供明确的指引。同时引入灵活、开放的“四要素测试法”突破合理使用制度的封闭性,以应对司法实践中可能出现的GAI机器学习诉讼,由法院在具体司法裁判中平衡版权保护与技术进步的利益。二是设置商业性GAI机器学习的法定许可情形,并完善集体管理制度。法定许可制度不仅能够降低交易成本,为技术研发者提供明确的市场信号,促使其在技术开发前期就将版权风险纳入考量,而且改善了著作权人在机器学习场景下的弱势地位,保障其能够获得合理的补偿,维系作品市场的利益平衡。三是借鉴互联网平台治理的“避风港规则”,结合产业和技术发展的实际情况,在动态中为GAI服务提供者设定适当的注意义务,不仅可以降低GAI生成版权侵权的风险,也能保障GAI服务提供者能够明确预期侵权风险,更好地开展风险合规、投资等商业活动。此外,在著作权制度之外,GAI服务提供者、技术研发者等市场主体也在商业实践中积极探索 GAI 机器学习版权合规的自治手段。用户许可协议、知识共享许可协议、版权保险制度等都能够有效弥补著作权制度的局限性,为市场交易活动的开展提供更灵活的解决方案,从而构建相对宽松的市场环境,有利于在保护著作权人利益的同时推动人工智能产业创新发展。
原文刊载于《版权理论与实务》2024年第9期(第44-53页)、2024年第10期(第41-58页),原标题为《生成式人工智能机器学习的版权争议及应对》(上、下),转载请注明出处。文章注释从略,完整原文请见《版权理论与实务》纸质版。
往期回顾