浙江省金华市中级人民法院法官助理 蔡 睿
目次
一、人工智能作品利用的侵权风险
二、合理使用制度:人工智能作品利用侵权风险的应对路径
三、我国合理使用制度的优化
结 语
内容摘要
生成式人工智能因自适应、大规模、数据结构化等技术原因,以致其利用作品训练极易产生侵权风险。在现行《著作权法》框架下,为推动人工智能发展,基于数据的公共性,实现数据共享,可以借助合理使用制度作为人工智能训练作品的合法性基础。在我国立法语境下,宜通过立法论路径解决人工智能作品利用行为的合法性困境。在建构适应人工智能发展的著作权合理使用制度时,应坚守“三步检验法”,细化内容转换性规则,明确商业目的的合理范围,从而设计合理使用的本土化规则。
关键词
人工智能 生成式人工智能 著作权法 合理使用
在智能时代,生成式人工智能是新质生产力形成的重要推动力量。生成式人工智能是通过对大量数据进行学习,从而能够基于原始数据创建新的关联内容的人工智能技术。生成式人工智能的学习,以作品等大量数据作为底座支撑。但是在实践中,人工智能服务提供者一般未经著作权人同意,而收集、爬取相关作品数据,又因生成内容与原作品具有关联性与相似性,从而面临着著作权侵权风险。
一、人工智能作品利用的侵权风险
2023年12月27日,美国《纽约时报》起诉OpenAI和微软,指控两家公司未经授权使用《纽约时报》的数百万篇文章训练ChatGPT、Bing Chat(Copilot)人工智能模型,侵害了《纽约时报》的版权,并构成不正当竞争。《纽约时报》主张两公司开发的人工智能在“输入”和“输出”两端都存在侵权行为,前者系在训练人工智能大模型过程中未经授权的复制行为,后者系在运行相关人工智能产品的公开展示行为。该诉争聚焦于生成式人工智能对作品的非传统意义“使用”是否构成侵权。此外,国外近几年已经陆续发生了多起人工智能相关的侵权诉讼,例如相关领域作者群体向OpenAI、Stability等人工智能开发企业提起集体诉讼,且有愈演愈烈之势。相关诉争的产生,存在多种原因。
生成式人工智能的技术原理是讨论著作权侵权问题、解决著作权侵权争议的前提。以ChatGPT为例,其运行原理主要分为三步:收集示范数据,训练监督策略模型;收集对比数据,训练奖励模型;基于近端策略优化算法,对奖励模型进行优化策略调整。通过第二步和第三步的连续迭代、不断重复,生成更高水平的模型。在训练大语言模型时,标注人员需要根据收集到的用户真实需求撰写高质量样本,向机器作“标准答案”的示范,提供大量“输入—输出”样例用于学习,然后在不断尝试中确定能够重现这些样例的权重,进而生成令人满意的答案。在上述运作模式下,生成式人工智能生成了三大核心技术特征,共同引发了人工智能作品侵权风险。
一是自适应。“自适应”是指人工智能系统在没有人工干预的情况下,通过自我学习和优化,不断提高自身的性能和效率,以适应多种不同的用户需求和语言场景。生成式人工智能从前述第三步开始,通过“人工智能训练人工智能”的方式,不断更新和优化答复策略。自适应技术的应用,不仅提高了人工智能系统的智能化程度,还大大降低了人工成本。在实际应用中,人工智能可以根据用户的需求和反馈,自动调整和优化答复策略,使得对话更加流畅、自然。在构建针对人工智能促进或抑制创新的法律环境时,必须关注自适应算法的运用及其决策过程中的“黑箱”问题,预防由此引发的人工智能侵权问题。
二是大规模。生成式人工智能的性能提升,依赖大量的训练,需要海量的样本。人工智能服务提供者需要向人工智能“投喂”包括数字化作品在内的海量数据,通过技术手段,实现短时间内获取并积累大量素材,从而可以满足人工智能机器学习和训练的需要。以ChatGPT为例,GPT-1在深度学习模型Transformer架构上,使用了内含几十亿个文本文档的超大规模语言资料库进行训练,参数量为1.17亿;GPT-2的模型参数达到15亿,且训练模型的数据库也更大;GPT-3的规模更是GPT-2的百倍以上,达到了1750亿。只有通过足够大量、足够高质量的数据训练,才能保证人工智能大模型实现公平性、稳健性、丰富性。而且,随着大规模的输入,人工智能可以快速、大量生成相关产品,足以让越来越多的著作权人产生危机感,觉得自己的作品市场被侵占、挤压,从而产生了越来越多的侵权争议。
三是数据结构化。除了海量的信息、素材储备作为前提条件,数据结构化对于生成式人工智能来说是另一个重要的基础,它有助于提高模型的性能、生成内容的质量和可解释性。生成式人工智能的训练需要将非结构化数据转换为结构化数据,以便于进一步地处理和分析。人工智能训练是为了确立一个正确模型,以便更好地模拟、还原现实世界事物之间的关系。这个建模的过程就是人工智能的学习过程,把图片、音频、文本等信息的特征进行整理和优化,把非结构化的数据结构化。在数据结构化处理的过程中,可能涉及复制、转换等步骤,需要在著作权法的框架下进行考察。
人工智能训练的技术特征导致人工智能运作模式的特殊性,会引发生成式人工智能在“输入端”的侵权风险。
一是,自适应、数据结构化导致人为干预困难,从数据输入到结果输出的过程,存在一般人无法理解的“黑箱”问题,导致权利人无法知悉与控制“输出端”侵权。因此,权利人往往更加关注人工智能在输入端的行为,即人工智能学习过程中不可避免的复制行为。但是人工智能的自适应、数据结构化等特性使其学习行为与人类学习行为有一定相似性。从行为目的出发,人工智能的复制行为服务于人工智能的学习行为。无论是通过人工收集还是自动挖掘,复制行为都是启动人工智能深度学习的一个必经过程,该行为可以类比自然人为了提炼、创作而进行大量阅读的行为。即使人工智能的学习行为有自适应性、规模性的特征,其仍与自然人阅读行为的人工性、有限性有相当大的差异。由此,人工智能学习与人类阅读行为的类似性,并不能直接赋予其合法性。在此背景下,人工智能的学习本身“是否一开始就处于复制专有权所控范围之外”这一前置问题,有待进一步明确。
二是大规模导致个别磋商困难,人工智能服务提供者难以获得完整的授权。在实践中,以下两种情形不存在侵权争议。一是被使用的数据属于公有领域,或者不受著作权法保护,“输入”该类数据的行为理所应当无侵权风险。二是经过正式的市场交易流程,通过签订许可协议的方式获得了训练数据的合法使用权。例如美国《华尔街日报》公开表示,任何主体使用《华尔街日报》记者撰写的作品训练人工智能,都应当事先获得授权,即通过建立双方合意规避侵权风险。此外,网络服务提供者多通过用户服务协议来获取用户的许可。这种协议本质上是“以个人信息支付”“以个人作品支付”作为接受平台服务的对价。从外观上来看,网络服务提供者以格式合同形式和专业法律用语的协议为要约,用户点击同意或使用平台的简单行为构成承诺,合同成立。而就公平性而言,需要衡量用户提供的信息和平台提供的服务是否价值相当,尚无法形成定论。但是网络服务提供者从用户作品中获得诸多增值作用,存在不公平剥夺权利人著作权利益之嫌。由此,人工智能使用相关数据训练仍存在侵权风险。
三是数据结构化导致输入与输出之间存在一定关联,会对著作权人利益造成实质性损害。在现实生活中,存储的大量数据属于非结构化数据,如论文、图片、标准文档、专利文档、项目文档、网页文章、博客、微博、H5页面、视频等,不能直接运用于数据分析处理,要先转化为结构化数据。数据结构化之后,便可以根据分析目的对数据进行分析、构建模型。模型形成之后,人工智能就能够自动地从非结构数据中按照一定规则和主题提取有价值的数据,加快非结构化数据的结构化。这就导致了人工智能利用数据后创作的结果并不是对在先非结构化数据简单的复制、粘贴,而是能够学其精髓、习其风格的“创作”,这导致输出的结果与输入的数据具有类型性与替代性,进而损害著作权人实质利益。在某些市场场景中,人工智能以其高效的创作效率,抢占了相关主体的市场份额。
《生成式人工智能服务管理暂行办法》规定,在进行数据训练处理活动时,应当遵守“涉及知识产权的,不得侵害他人依法享有的知识产权”的规定。该规定仅是原则性规定,对“侵害他人依法享有的知识产权”的具体情形未作详细阐述,对实践操作缺乏参考价值。现行《著作权法》存在授权许可使用、法定许可以及合理使用三种手段以应对潜在的著作权侵权行为,但都不足以赋予人工智能利用作品训练的合法性。
授权许可是指著作权人授权他人以特定方式使用其作品。他人使用作品既要征得权利人同意又要支付相应报酬,并通过与著作权人合意确定许可的范围、期限、使用方式等。在人工智能训练场景中,人工智能本身具有“学习”能力,意味着服务提供者也不知道“投喂”何种内容能够提高训练质效,只能“多多益善”。在协商过程中,著作权人在定价机制上的话语权较大,增加人工智能训练成本,把经济实力较差的企业排除在市场之外。受训练数据规模性的影响,前置协商程序很可能导致错失研发关键期,造成产业的整体落后。此外,授权许可在公益组织的推动下,产生了“共享协议”分支,即鼓励著作权人放弃一部分作品权益,许可他人自由使用。但是其本身的非强制性、灵活性导致共享协议依然无法应对作品使用的复杂情形。
法定许可制度,是指著作权法规定,使用他人已经发表的作品,无须经过许可,但须支付合理报酬的制度。基于法定许可制度,人工智能服务提供者不需要承担协商的成本,而著作权人可以获得相应的费用。虽然授权的意思由法律直接规定,但是“合理报酬”的数额、支付方式和支付时间等仍旧需要双方“意定”。这意味着人工智能服务提供者需要在“自适应”算法中识别使用的他人作品,并一一再协商、再付费,会极大地增加协商成本。此外,法定许可中的著作权人在定价机制上话语权较小,而且受算法“黑箱”的影响,著作权人更缺乏技术手段识别自己的作品能否被使用,难以实现自我权益保护。
合理使用制度作为著作权法衡平精神之所在,是法律理性、公平正义的体现。合理使用并不是单纯的著作权人权利的让渡,而是要实现“经济合理性”,同时有利于作者和使用者。不同于授权许可和法定许可,合理使用的制度功能更加宽泛,完全覆盖了人工智能作品利用的相关问题,即在权利界定和分配上划分“专有区域”和“自由区域”。但是现有关于合理使用制度的法律条款,还无法解决人工智能作品利用的合法性困境。人工智能相关行为的法律定性尚存争议,极可能产生“外部的不经济”。与任意排放污染给他人带来净化水质的额外费用相类同,著作权作品的利用中也有“污染”的情形,即使用者为了追求自身效益的最大化,可能超越合理的界限,或是因合理界限不明而行为失范,或是有意规避制度而行为非法,擅自扩大自由使用的范围,增加无偿使用的方式,这就使得合理使用制度实施的成本加大。例如,人工智能在文学艺术创作的领域,虽然并没有实际证据能够证明人工智能对人类创作产生了价值替代,但是确实产生了“混淆”效果,影响了著作权人的利益。
二、合理使用制度:人工智能作品利用侵权风险的应对路径
虽然合理使用制度在现有立法上存在相应问题,但是相对于法定许可、许可授权等不可克服的困境而言,该制度可以通过制度优化,为人工智能使用作品训练提供合法性基础。
为实现更大的人类福祉,我们必须致力于研发更高水平的人工智能技术,并推动算法技术的稳健发展。然而,近期人工智能的“智障”行为已经屡见不鲜。这主要是因为现有人工智能技术尚存缺陷,容易被不真实、不可靠的数据影响,从而产生“臆想”。这是算法偏见的一种反映。算法偏见“存在于算法设计和运行的每一个环节”。在市场逐利性的推动下,为迎合特定群体的需求,这种算法偏见便被进一步放大。在人工智能发展的关键时刻,算法偏见已然成为一个政治和社会问题。尽管算法偏见难以彻底消除,但确保数据质量无疑是减轻其影响的有效途径之一。“投喂”的数据量越大,数据质量越好,训练得到的算法准确率越高。然而,若没有相应的著作权权能的限制性规定,则会促使人工智能使用获取限制低但带有偏见的数据,增加了恶劣数据的输入。版权的发展史是一部对“技术发展作出立法反应的历史”。数据开放正如建立并完善学术作品开放存取制度的呼吁一样,开放存取作为信息自由与公平的应有之义,彰显了公共产品的本质属性,是公共利益体现与实现的内在需求,是建设包容性信息社会的必然选择,也是知识经济持续发展的现实需要。
三、我国合理使用制度的优化
美国法院在评估是否构成合理使用时,一般会综合考虑“合理使用四要素”,即使用的目的和性质、被使用作品的性质、被使用部分的数量和质量、使用对作品潜在市场或价值的影响。随着“转换性使用”标准的引入,进一步增加了“合理使用四要素”判断的灵活性。自“转换性使用”概念引入后的25年里,美国法院在涉及合理使用的案件中,大约有90%的案例需对“转换性使用”进行审查与评估,其中约94%的案例认定被诉侵权行为构成合理使用。从美国近期案例来看,法院更倾向于用一种更加具有前瞻性、公益性的方式来解释合理使用制度,认为更多的受保护作品可以作为人工智能的训练数据,而且应当相对分散地、有选择地获取,以减少集中输入会造成的偏差风险。“合理使用四要素”标准为合理使用判断提供了相对灵活的框架,为技术发展所带来的不确定性提供了充足的适用空间,因此,美国法院仍能在法条“覆盖”范围内审理新兴技术的争议。
不同于美国等判例法国家,我国作为成文法国家,需要在立法层面建立一个更为明确和客观的评估标准,以确保合理使用制度的恰当应用,从而更好地引导法律实践,维护社会秩序和公共利益。如前所述,在不遵循先例的成文法体系中,我国法院无论是借助“合理使用四要件”“转换性使用”等概念解释法律,还是通过“综合考虑”引出论述来创设新情形,均会导致更严重的不确定性。因此,我国必须通过成文规定,进一步细化合理使用的情形,从而为司法审判提供更加正当、充分的依据。从最新修法结果来看,立法论路径是合理使用制度发展的取向。我国作为《伯尔尼公约》的成员国,受到公约的规制,对复制权设置限制与例外,引入并遵循“三步检验法”是应有之义。因此,我国遵循“三步检验法”来提炼正确的判断标准,而不是简单地借用域外规则。而且,与“合理使用四要素”原则相比,“三步检验法”在确定性、法律依据和降低违法风险等方面都具有相对优越性,可以作为我国合理使用制度优化的路径选择。
我国著作权法在融入“三步检验法”认定标准的前提下,增设了合理使用的兜底条款。我国其他法律或行政法规对著作权的限制类型有明确规定的话,在符合“三步检验法”认定标准的情况下,《著作权法》予以相同的认定。这样的做法既弥补了原条款规定的合理使用类型过少的问题,又防止了原则性规定的过度“开放”导致司法审判不确定的情形。就目前来看,现有的其他法律或行政法规并没有合理使用情形的相关规定,因此该兜底条款的实际价值未得到发挥,在实际效果上仍等同于“封闭立法”。
从立法成本考量,现行《著作权法》施行不久,规定一般条款或者再进行修法并不现实。现阶段的当务之急,应该是用好《著作权法》第24条的兜底条款,通过制定生成式人工智能法律或行政法规的形式为人工智能自动性、规模性的作品利用行为提供合理使用的制度空间。因此,有学者提出,自新修订的著作权法正式实施后,《著作权法实施条例》等相关配套法规正在修订中,应当抓住该契机,重点解决人工智能的作品利用问题。但是需要注意的是,应当保护著作权法的统筹地位,确保合理使用制度不会被滥用,确保与现行著作权法的价值趋向保持一致,平衡好社会公共利益、著作权人利益、科学技术创新、产业竞争力发展等,实现预期效果。
对人工智能作品利用的规则设计,应当跳出人工智能训练本身,置于“新的知识和信息的创造”这一更高远的视角上。建构适应人工智能发展的合理使用规则,可以从主体要件、使用目的、使用方式,使用行为的限制方面进行完善。
第一,主体要件应突破科学研究机构的限定,拓展为以技术开发为目的的实体。人工智能作品利用所产生的成果和效益,可以远远超出著作权领域作品保护所产生的效益。因为人工智能技术应用广泛,不仅服务于科研,还渗透至医疗、交通、制造业等多个领域,从人的生命健康安全到国家安全、国家竞争力,都与它息息相关。而且,人工智能被视为我国新质生产力发展的“引擎”和“主阵地”,为新质生产力的发展提供了巨大动能,是引领全球新一轮科技革命和产业变革的关键技术,具有战略性的重要意义。以开源大模型为例,其本身是人工智能发展的重要推动力,但是又极度依赖于利用海量作品进行学习,一旦否定其作品利用模式,将会对其发展造成极大影响。出于人工智能发展的公益性、战略性考量,应当在主体要件上进行突破,让服务于先进生产力、服务于技术发展创新、服务于人工智能发展的主体成为合理使用制度的适用主体。
第二,明确使用目的是“非表达性使用目的或为创造新的知识和信息”。非表达性使用,是指使用作品的目的不是使终端用户能够享受、欣赏或者将复制件视为一种表达的使用方式。人工智能自动地、大规模地使用他人作品,并不是为了“抄袭”作品中受著作权法保护的独创性表达,而是为了挖掘他人作品中的思想、事实、方法和原则等,以便于总结规律、理解客观世界,而挖掘的对象并不是著作权法保护的部分。因为现有技术的限制,复制行为成为人工智能训练不可避免的前置行为,为了提炼不受保护的部分而产生了侵权外观。在使用目的上,“为创造新的知识和信息”可以在一定程度上吸纳“商业目的”。在数字时代,人工智能语境下的作品,具备公共产品的特性。信息流通是社会知识与财富累积不可或缺的要素,是社会繁荣与技术进步的基石。因此,保障信息的自由流动,将极大地促进信息流通的广泛性和公正性。除了作品权利人本身的贡献,人工智能服务提供者之间的共享、开放,也可以促进科研进步、技术升级和市场多元化。
第三,使用方式限定在“复制、汇编、提取转码等复制性的权利”,不能及于传播行为。复制行为存在一定必要性,但是若对传播行为不加以约束,极有可能会造成人工智能服务提供者的权利滥用,从而不合理地损害著作权人的合法权益。数字时代的到来使复制权的内涵和外延不断扩展,而且复制行为往往伴随着传播行为出现,成为绝大多数传播行为的基础。传播指的是“向公众传播”,与人工智能技术迭代并无必要关系,也意味着会产生更多不可预计的后果。关于如何规避传播行为,笔者认为人工智能服务提供者应当自行承担相关成本,适当地采取技术措施予以加密保护。
第四,使用行为的限制应当为“不与该作品的正常利用相冲突”,即合理使用的行为不得与著作权人可期待利益之间形成竞争关系而导致后者遭受重大损失。关于竞争关系的认定方面,可以借鉴美国法院对“内容转换性”的认定标准,即只有当新生成的内容赋予了原作品新的表达、意义或信息时,便构成内容转换性。就目前来看,生成式人工智能输出的内容并不符合转换性要求。因为输出的结果具有极其真实的著作权外观,而且与原作品对比来看,较大可能并未超出原作品著作权人可以演绎的范围。通过对转换性标准的借鉴,可以实现以拔高“该生成什么的‘作品’”的要求来倒逼人工智能作品利用行为的规范,从而减少对原著作权人利益的损害。关于重大损失的衡量,要充分发挥“三步检验法”中第三步“不会不合理损害作者的合法权益”辅助性判断的功能,即在个案的合理使用判定中,对著作权人的预期利益和利用作品主体的预期利益进行比较,从而辅助判断前两步的认定是否合理,然后对合理使用规则的适用范围进行微调。另外,考虑到人工智能的技术研发和产业发展的现实需求,应当将“商业目的”纳入其中,将焦点集中在实际盈利状况和商业实施细节等核心要素,而不应仅凭商业背景或模糊的商业目的就草率地认定其与现有作品的商业利益存在冲突,而将其排除在合理使用适用范围之外。如此可以保护创作者在数字环境中的合法权益,同时确保不会阻碍新技术的创新与发展。
此外,还要对著作权保护平衡机制进行完善。生成式人工智能的作品利用行为被纳入合理使用有充分的正当性和必要性。一旦规则得到确立,当事人无权自创知识产权对象、权利与义务。在合理使用的语境下,著作权人无法通过自主意愿排除合理使用制度的适用。但是,不可否认,著作权人的相关权益会受到损害,需要重视对其合法利益的维护。在必要场景下,应当要求人工智能开发商在遵循技术和产业发展规律的条件下,尽到合理注意义务。如要求人工智能服务提供者不能自由使用未发表作品;如果使用特定作品库或特定少数作品,如用特定画家的作品训练来模仿其画风,应当标明作品数据源自特定画家。
结 语
人工智能运行的自适应、规模性等特性,导致人工智能利用作品陷入侵权困境。著作权法中授权许可使用制度和法定许可使用制度难以克服上述困境,而合理使用制度存在较多的利益衡量空间,且能够克服高交易成本、产品发展高成本等问题,可以作为人工智能学习的合法性依据。《著作权法》合理使用制度具有立法上的开放性。对此,修订《著作权法实施条例》等配套法律法规,能够最大程度地节约立法成本。在对人工智能作品利用的规则设计方面,必须主动融入全球知识、信息创造,关注我国国际竞争力。在此基础上,还要进一步进行本土化规则的构建,对主体要件、使用目的、使用方式,使用行为的限制方面完善规则构成要件,从而更好地平衡创作者权益的保护与新技术的推广利用。
往
期
推
荐
点击左下角“阅读原文”跳转到《荆楚法学》杂志网上投审稿平台,可以在线投稿!