孔祥俊 魏奕荧 | 产业和公共利益维度下的生成式人工智能版权问题研究

学术   2024-11-22 19:01   上海  

本文刊登在《中国编辑》2024年第9期

文/ 孔祥俊  上海交通大学凯原法学院、知识产权与竞争法研究院院长,上海交通大学讲席教授、博士生导师

     魏奕荧  上海交通大学凯原法学院、上海交通大学博士研究生


摘要


在人的创作因素更少的生成式人工智能背景下,生成物可版权性问题更需要基于产业利益和公共利益考量。在生成端,生成物具有不可避免的财产化倾向。可版权性问题并非纯粹的理论问题,需基于公共利益进行反思,并以实践的真实需求为最终取舍标准。不同赋权方案下,投资原则的适用应回归激励创作的版权目标,创作原则的质疑可以通过产业激励解决。在输入端,人工智能机器训练构成合理使用主要以产业利益为推手,但仍存在充分的公共利益正外部性。技术发展下产业利益和公共利益更多表现出一致性,公共利益的实现依托于前沿技术的突破,以产业发展为媒介而间接得到满足。在来源端,模型训练核心在于高质量数据,更涉及产业利益上的争夺,成为竞争法上的数据权益问题,需要构建版权与数据权益衔接的利益体系。整体上应明确版权的功能和局限,非依赖于单一的版权框架解决全部问题。


关键词:生成式人工智能 版权 产业利益 公共利益 生成端 输入端 来源端


生成式人工智能版权问题涉及大模型开发公司、版权人以及社会公众(潜在用户)三方利益诉求,分别代表不同的产业利益和公共利益。现行学界理论多从法教义学的角度探讨人工智能生成物的可版权性问题以及训练数据的合理使用问题,但实践中的利益衡量是法律概念和规则背后的深层诱因。理论为实践提供体系性解释和优化方案,但不应成为实践的阻碍。本文拟从产业和公共利益维度,从生成端、输入端、来源端三个角度,探讨版权法在生成式人工智能问题上的功能和定位,为生成式人工智能版权问题的争论提供一种整体视角和解决思路。


一、生成端:赋权逻辑背后的利益分析


(一)可版权性的利益驱动和教义框架


近年来,生成式人工智能突飞猛进,从文生文、文生图到文生视频,人工智能一路高歌猛进。人工智能已展现了无限的技术远景,但其产业化还只是初露端倪。人工智能正在对知识产权形成冲击,生成式人工智能生成物的可版权性就是其中的一个热点问题。我国学界对于人工智能生成物的可版权性进行了热烈讨论,对于人工智能能否享有主体资格和成为作者,以及人工智能生成物的可版权性,形成了肯定说、否定说和折中说等不同见解。其多集中在人工智能生成物是否符合独创性要求,并进一步聚焦于人类中心主义的伦理反思。但理论桎梏从来不是法律发展的障碍,其背后还是利益取舍的结果。例如互联网兴起后避风港规则、红旗标准等新的制度设计显然不是由已有法理推论而来,不是法理的产物,而是利益相关方利益博弈和折中妥协的产物,法律规则无非是以法律语言对于利益博弈结果的技术性表达。人工智能生成物可版权性的利益分析延续了“独占权—社会福利”二分结构,产业利益和公共利益交织而非完全对立。


1. 生成物价值的财产化倾向


出现是否赋权的讨论并非因为人工智能生成物本身无比契合当下版权框架,而是逐利的需要总是会将其财产化。“当技术的变革增加了某项资源的价值时,财产权便随之出现了”[1]。但理性文明社会下的赋权要求正当性,这就产生了人工智能生成物是否满足赋权条件的讨论,而不是相反。根据洛克的劳动价值论,个人就原初共有物(orginal common)付出了努力和劳动,从而使它有所增益,脱离了共有状态,就应当对之享有财产权[2]。形成原始财产划拨的同时,人类总体福利上升。不同的财产权均要求劳动,所不同的是获得财产权需要的劳动类型和程度。


独创性表达是获得版权所需的劳动属性,但这一标准的解释并非纯粹法律理论问题,而具有利益导向。这从各国迥异实践上可见一斑,不存在具有压倒性说服力的标准。目前美国版权局的裁决多认为人类需要“充分控制”生成物,才能认定可版权性[3]。反驳观点认为独创性是针对人的贡献的绝对量判断,不需要衡量人类和机器的贡献比重从而要求人类对结果的控制力[4]。日本亦持谨慎态度,认为只有将人工智能作为工具而创作的作品才具有可版权性,这取决于“创造意图”(creative intention)和“创造贡献”(creative contribution)两个方面因素,与美国主流观点异曲同工[5]。而我国司法较为开放,认为只要具有“一定的智力投入”即体现了人类的创作印记,可能获得保护[6]。英国对人工智能生成物的保护则持更积极的态度,早在2022年英国知识产权办公室发布的关于人工智能和知识产权的问询结果中,大部分观点均认为可以通过现行版权框架对不存在人类作者的计算机生成作品(Computer-generated works,CGWs)进行保护,并且没有证据证明此种保护是有害的[7]。欧盟曾提出单独为人工智能生成物设立独创性标准以顺应保护需求的观点[8], 但随后态度又发生巨大转变,在肯定知识产权框架仍能适用的前提下,采取了和美国、日本如出一辙的“人工智能工具论”路径[9]。一般认为,传统大陆法系将版权视为作者人格的延伸,英美法系则更注重作品的财产性质。但就生成物可版权问题各法系内部产生巨大分歧且反复无常,足以说明可解释空间巨大,结论更多取决于符合各国国情而非概念解析。


从理论角度看,上述实践疑虑源于独创性理论以及“思想—表达二分法”原理中蕴含的“人类中心主义”的观念与人工智能生成物性质的抵触[10]。但理论争议并没有阻止生成物财产化的倾向,即使存在否认可版权性的先例,确认生成物版权的请求仍源源不断,使用者企图从生成物中获得经济回报。这与现代知识产权的商品化趋势密切相关,版权财产权存在许可、转让等多种实现方式,利益丰厚[11]。更有观点认为,由于人工智能创作成果与其“作者”之间并无不可切断的、自然存在的精神联系,著作权法对人工智能创作成果的制度安排仅是纯粹的经济利益的分配[12]。因此,人工智能生成物的财产化倾向或许不可避免(即使不是版权,也可能产生其他权利),需要未雨绸缪的更多不是能否赋权,而是为何以及如何赋权。


2. 公共利益功能性解释下的反思


对于人工智能生成物的财产化趋势,需要冷静看待,从公共利益出发进行反思。从版权的诞生到客体、保护方式、期限的不断扩张,产业利益始终是塑造版权制度的核心力量[13]。产业利益的主导者往往是科技巨头,但版权法的最终目标不是服从于利益集团的私益,而是实现激励创新和科技发展的公共利益。划分权利边界最终要回归至版权法的目的[14],满足产业利益的需求仅是实现社会效益最大化的手段。


出于公共利益考虑,生成物可版权性问题呈现正反两种观点。警惕生成物赋权的理由主要在于,防止打着产业创新的旗号,侵蚀公共领域,过度私有化超出创造力边界的精神财富,从而损害社会福利。具体包括三个角度:一是鉴于生成式人工智能降低了创作成本,创作物的泛滥会导致公共空间大大缩小。二是人工智能可能威胁人类创作者生存。三是对生成物版权权能有效性的质疑,除非技术发展到能够排除基于不同提示词生成类似内容的可能。这些情形都将抑制创新。但同样出于激励创新的考虑,却可以得出截然相反的结论。有观点指出,认可人工智能生成物可版权性可以让具有稀缺性的用户创造力得以释放,激励的对象是用户,而不是人工智能产业[15]。由此可见,一种法律工具或策略并非非黑即白地支持或抑制某种利益需求,从不同角度推理可能得出不同的结论。赋权和谨慎赋权的观点均可以以激励创作、维护公共利益作为论据。这一悖论的根源在于对生成式人工智能创作成本和难度的事实问题的认知不同,这就需要实证研究分析,明确社会效应,而不仅仅是理论推理。


此外,生成物可版权性问题上各执一词的场景可以类比于先前的体育赛事直播画面和短视频。尽管后者曾受到的是独创性程度上的非难,而生成物可版权性的论证难点在于独创性主体,但二者的可版权性均因有别于传统的独创性要求而被质疑。何况对人工智能独创性主体的要求,最终还是通过“人类中心主义”的概念涵射到了人类独创性程度之上。对于独创性程度的争论,有学者提出著作权法的“宽进宽出”结构,并声明其目的并非“盲目降低著作权门槛”或是“一味宽容受控行为”,而是“解决创新利益分配难题”的方式[16]。事实上,实践也最终证明了体育赛事直播画面和短视频不能因为独创性高度低而被排除出版权客体范围。生成物的可版权性同样应借鉴采取此种功能性的解释视野,仅仅在法教义学的框架内讨论可版权性不足以证成其正当性,应当明晰各方诉求以及不同发展阶段下产业和公共利益的平衡点。


(二)不同赋权方案下利益分配原则的合理性


1. 人工智能生成物的可能赋权方案


若实践最终承认人工智能生成物的可版权性,则需进一步讨论权利主体。人工智能生成过程涉及多方主体,可以归为人工智能设计者、人工智能开发者、人工智能使用者三大类[17]。目前主流的赋权方案包括基于投资的人工智能开发者权利、基于创作的用户权利和基于劳动贡献的分权模式。基于投资的人工智能开发者权利主要以“类职务说”“类法人说”为理论依据,是实践中版权最可能的归属。基于创作的用户权利认为用户对生成物内容作出了独创性安排,将人工智能作为用户的创作工具。但该观点最大的问题在于用户提示词与生成物的对应关系,有鉴于此,更为大胆的观点提出用户对提示词而非生成物享有版权[18]。基于劳动贡献的分权模式提出参与人工智能生成过程的人均平等地获得相应份额的权利,份额大小基于劳动贡献确定。该模式较权利单一归属模式更为公允但实践可操作性存疑,很难评估数据提供者、数据分类者、模型提供者以及提示词设计者的贡献大小及对应的权利范围,并且技术上难以溯源特定生成物的对应贡献者,也可能引发劳动分工上的歧视问题。


2. 投资原则与生成式人工智能属性的抵触


用户权利模式体现了著作权法最基本的以创作者为作者的理念,此时人工智能被视为创作的工具。与之相对的,人工智能开发者权利模式则体现了对投资要素的保护。在版权发展史上,电影作品以制片人为作者、职务作品以为创作提供物质技术条件的单位为作者(拟制作者),均体现了这一原则[19]。实际上,不论是直接创作抑或是间接创作(提供创作条件或资源),均未脱离版权保护创造性劳动的底层逻辑。二者均为智力成果的诞生付出了努力,只不过以不同的形式呈现。但版权法之所以在特定作品类型中越过直接创作者,将投资人视为作者,体现了日益复杂的作品属性下激励文化市场投资的意图。


例如,一部电影作品需要经历剧本创作、前期准备(镜头设计、选角)、拍摄过程、后期调整(剪辑、配乐)、发行等多个阶段,因此相较于编剧、导演、摄影、作词、作曲等作者,制作者提供的资金、设备支持才是完成优质电影作品的保障。再如职务作品中提供物质技术条件的单位亦是创作环境的提供者,虽未直接作用于作品,但对作品的完成不可或缺。此时,创作者的激励仍然可以通过合同等债权形式实现,不会产生创作者回报不足而抑制创新的负面影响。以投资者为作者的思路,抛开创作的理论禁锢,反而更契合版权现实,更高效地激励产业发展和创新。事实上,从版权法诞生之初,《安娜女王法令》就展现出对投资者的某种重视和偏袒。此时产业利益和版权法目标极为精确地吻合,版权法为了实现激励创作的目标将权利配置给特定产业下实力雄厚的投资者。


无独有偶,目前以人工智能开发者为生成物版权人的观点以类推法人作品、职务作品理论的形式出现,正是秉承了版权法历史上逐渐形塑和一以贯之的产业利益和投资理念,希望能助力人工智能产业的蓬勃发展,借助科技创造出更多优秀成果。但遗憾的是,人工智能产业并非文娱产业,其发展实际上无须版权激励,甚至会带来一系列问题。精巧的理念和现实自变量存在出入,立法预设的产业利益和现实中的产业利益及法律效果存在壁垒。现实中,人工智能开发者的盈利主要通过付费用户订阅、产品增值服务嵌套、程序出售等途径实现,利润可观,完全不依赖于版权收入。相反,其收入额度更仰仗用户规模,这就促使其将放弃版权并分配给用户,从而吸引更大规模的使用者来牟利。目前国外大部分生成式人工智能厂商均采用该种模式。


因此,投资原则在传统版权法下的激励作用无法嫁接于生成式人工智能的商业形态,法律应当承认市场自发形成的高效资源配置方案,不能机械适用投资原则,而应回归其激励创作的公共利益目标。


3. 创作原则对生成式人工智能的适用可能


投资原则的难以适用并不意味着创作原则的当然适用,在生成式人工智能背景下同样需要重新检视创作原则的法律效果。此时需要区分高度依赖版权的专业创作者和不需要受到激励的普通用户,后者不在版权法的考虑范围之内。对于前者,是否根据创作原则进行赋权取决于立法政策是否希望鼓励其利用生成式人工智能进行创作。鼓励与否的标准又在于哪种情形更利于产出高质量作品,促进文化市场繁荣。对此,支持利用生成式人工智能进行创作的观点认为,以人工智能为工具的用户创作能力仍然是稀缺的,需要通过版权来激励,因此根据创作原则进行赋权是合理的。反对观点认为赋予生成物版权可能降低自主创作高质量作品的积极性,不应当进行赋权。这也导致生成式人工智能在后续研发和改进过程中面临严重的训练数据稀缺问题,进而降低人工智能模型的质量。


后者的逻辑漏洞在于未能应技术发展转变创作观念,并忽视了专业创作市场的调节机制。一方面,从“人人都是创作者”的后互联网时代开始,创作早已不再是“闭门造车”的过程,而是在海量作品基础上的再创作。事实证明,创作门槛的降低未导致作品质量的下滑,反而碰撞出了作品灵感。可以认为,生成式人工智能是创作形式的又一次历史转变。此时需要改变原有观念,技术和人类更加深度融合,二者不再是孤立系统,而是相互促进的。因此,生成式人工智能仅提高了创作效率而非扼杀创意的火苗,赋权用户并不会阻碍高质量作品的产出。“著作权法保护并激励用户从事艺术创作,并没有抑制用户利用各种工具寻求艺术极致的动力。”[20] 


另一方面,专业创作者的行业激励能够有效防止使用生成式人工智能导致的创作惰性。创作行业盈利的方式取决于消费者,理性的消费者仅会被作品中值得付费的部分买单,若作品是利用人工智能唾手可得的内容,谁又愿意付费从第三方购买。在此意义上,创意永远是稀缺资源,不会因为工具的变革而消退。即使利用了人工智能完成了初步检索总结,为了获得具有市场流通价值的作品,创作者仍会尽可能调整结果,融入个性化表达。因此,利益为导向的商业模式会不断激励专业创作者独辟蹊径吸引消费者注意力,而非单纯依赖于生成式人工智能。生成式人工智能代替的仅是重复性工作,而无法取代创造性工作。


创作原则在生成式人工智能背景下仍具有适用空间,赋予用户版权不失为可行的赋权方案。看似与公共利益对立的产业激励却能防止创作原则的失效,公共利益和产业利益此时呈现一致性。


(三)赋权问题上产业利益和公共利益的互动


版权成为保护人工智能生成物的首选法律工具,不仅仅是因为版权在经验逻辑上最可及,更因为相较于民法上的物权和债权模式,通过版权更容易找到各方利益平衡的支点。这是知识产权的特性决定的自然优势。作品日益强化的财产属性使之成为产业资本角逐的焦点,版权通过保护条件、保护期限、权利限制等方式避免知识垄断,在赋予一定排他性权利的同时,为公共利益留有空间。


首先,在可版权性问题上,产业利益和公共利益往往表现出对立状态,但并没有绝对的优先序位,取决于各国政策目标和发展阶段。例如,目前我国司法出于产业目标对生成物赋权持较宽松的态度,而欧盟更关注内部一体化进程和保障消费者权益,故持谨慎态度。政策偏好的差异将直接影响各国最佳监管决策的选择。对于人工智能生成物的可版权性进行前瞻性研究很有必要,人工智能虽然貌似来势迅猛,但毕竟是刚刚展开,其技术和产业前景还不明朗,技术和产业都远没有达到成熟和稳定的程度。在此种背景下,法院作出肯定或者否定的判决,采取这种或者那种裁判理由,均可以理解,均是有益的尝试。


从版权发展历史看,每一次较大的传播和制作技术的进步,通常都会引起特定创作物或者特定客体的可版权性争议,照相机、复印机、计算机软件、互联网等技术的发展过程中均曾如此。人工智能只是更多地参与了创作,但其毕竟是人类的创作工具,即便其深度参与甚至完成创作,也并不绝对必须否定其生成物的可版权性。是否承认其可版权性,归根结底取决于相关利益的取舍和利弊分析,适于继续纳入版权框架调整的,既有的版权概念和规则都不应成为障碍;不适宜纳入版权调整的,可以赋予像邻接权那样的单独权利;不给予任何保护更为有益的,也可以不予保护。所有这些问题都不是纯粹的理论问题,都有待于实践检验,以实践的真实需求为最终取舍标准。


其次,若选择赋予版权,则应进一步思考产业利益和公共利益的平衡问题。承前所述,基于投资的人工智能开发者权利和基于创作的用户权利分别对应传统版权主体设置上的投资原则和创作原则。面对生成式人工智能的新特征,投资原则不具备适用的前提,应当回归激励创作的版权目标;而创作原则在此背景下受到的质疑却可以通过创作行业的产业激励解决。可见,对于产业利益的维护和公共利益的激励并非完全对立。若把生成式人工智能视为一种创作工具,产业利益和公共利益更多表现出一致性,投资原则和创作原则在二者的互动中共同辅助新问题的解决。


需要注意的是,目前产业界和法律界的讨论相对割裂,版权确实具有平衡利益的优势,但不应夸大其作用,能否完成该任务又是另一个需要考察的议题。正如产业界关注投资利益的最大化,但人工智能开发公司的收入来源并非和生成物捆绑,赋予版权并不契合其商业模式。此外,还需要避免被产业利益裹挟。普遍的担忧会是,“引人注目的人工智能开发仅仅服务于巨额投资和收购报价的炒作周期这一商业模式,这项技术可能成为其背后公司的赚钱工具,且或许以牺牲用户为代价”[21]。但避免裹挟并非拒绝产业利益在版权法的一席之地,版权客体的历史拓展大多源于产业利益的需求,且在智能时代产业利益和公共利益愈加呈现交织态势。正解应当是,明确版权法的功能和局限,什么是版权法应当考虑的,什么更适合留待反不正当竞争和反垄断法等行为导向的规范进行解决,强行套用版权体系解决所有问题得不偿失。这也是对版权是否是规制人工智能生成物的适合的政策工具相关反思出现的原因[22]


二、  输入端:机器训练合理使用的利益射程


(一)合理使用制度中公共利益的传统内涵


生成式人工智能机器训练所需大量数据涉及文本和数据挖掘行为,可能侵犯版权。目前学界大部分主张依转换性使用、技术性使用、非作品性使用等方式将其列入合理使用。现有研究普遍认为合理使用的正当性来源于版权法外部,包括交易成本过高的市场失灵和正外部性的市场失灵两大原因[23-24]。尽管“文本与数据挖掘”在获取有效数据上面临着内容供给不足与许可效率低下的问题[25], 但交易成本过高的市场失灵可以通过技术发展解决[26]。文本和数据挖掘例外的规范基础主要在于公共利益的考虑,也就是经济学上正外部性的市场失灵。但公共利益的概念射程是不清晰的,尤其是否包含产业利益。


在不同法律关系中,公共利益的外延是有差异的。如前所述,著作权限制是一种外在限制,因此公共利益也不必局限于著作权法所追求的激励创作目标。国际条约没有对各国具体的公共利益进行限制,WTO相关专家组曾在具体个案中拒绝对国内法的具体公共政策目的进行审查。但《世界知识产权组织版权条约》(World Intellectual Property Organization Copyright Treaty,WCT)和《世界知识产权组织表演和录音制品条约》(WIPO Performances and Phonograms Treaty,WPPT)中存在相关注释,列举了最主要的三类公共利益:教育、研究和获取信息。


从各国立法和司法实践看,我国封闭式合理使用中列举的情形均限于研究、教育、表达和获取信息自由等情形。即使是采取开放模式的美国,在对“使用目的和性质”进行考察时,具有非营利性教育目的较商业性使用目的更有可能构成合理使用。目前欧盟《数字化单一市场版权指令》合理使用的情形也主要体现在科研机构和文化遗产机构上,对商业性机构的合理使用行为作了严格的限制。由此可见,合理使用制度中公共利益的传统内涵较为保守,倾向于排斥产业利益的介入。


(二)机器训练合理使用以产业利益为推手


和传统的合理使用情形基于纯粹公共利益的考量不同,目前版权作品用于人工智能训练构成合理使用的立法进程为商业实践推动的结果,更多从产业竞争角度考虑问题,而非传统合理使用理论维度,这些都附加了浓厚的产业利益色彩。


从生成式人工智能的商业模式看,科研与市场呈现交叉融合趋势,生成式人工智能的发展自始的出发点就不是传统公益目的。目前生成式人工智能的发展主要由商业科技巨头引领,大量投资涌入该领域,用户订阅激增,获利颇丰。第三方市场分析平台Sensor Tower公布的数据显示,2024年5月ChatGPT的全球下载量为1100万次,订阅收入为1700万美元[27]。尽管2023年的人工智能民间投资整体有所下降,但涌向生成式人工智能的资金比2022年增加了近八倍,达到了252亿美元[28]。投资的目的是回报,生成式人工智能背后蕴藏的巨大商业价值昭然若揭。


与生成式人工智能产业的蓬勃发展相匹配,合理使用的立法进程与产业主导有关。以欧盟为例,《数字化单一市场版权指令》允许有限度的商业性文本和数据挖掘,从相关表述看主要是出于欧盟产业竞争地位考虑,防止法律的不确定性影响科技发展。《数字化单一市场版权指令》在序言第十条中明确指出,随着研究越来越多地在数字技术的帮助下进行,除非采取措施解决文本和数据挖掘方面的法律不确定性,否则欧盟作为研究领域的竞争地位有可能受到影响。同时,第十一条鼓励非营利性大学和研究机构与私营部门合作,此时依然受到文本和数据挖掘例外的保护,变相承认了产业逐渐侵入合理使用环节的现实。


对于产业利益入侵传统上服务于公共利益的合理使用制度的现象,也不乏理论和实践反思。允许人工智能训练的合理使用可能会导致“本处于资本优势地位的公司享有法律上的优势地位,促进了‘霸权’的扩张,使合理使用制度演变成为公司服务的工具”[29]。版权人亦奋起对抗,美国作者协会和8000多名作者曾公开致信OpenAI、Alphabet、Meta、Stability AI、IBM和Microsoft,呼吁在人工智能训练时使用受版权保护的材料应征得作者同意、获得授权许可并给予公平补偿。这都体现了对于合理使用扩张至产业利益的疑虑。


尽管存在生成式人工智能的高度商业性与合理使用制度相悖的担忧,目前主流观点仍呈现对合理使用的偏好,主张人机创作模式下扩大合理使用范围的必要性。这一趋势并非毫无根据,基于合理使用制度的目的论特征,可以认为只要商业性使用背后的公共利益足够重要,就足以淡化对商业目的的评价。美国法院自Campbell案后,整体司法也逐渐宽容商业性使用行为,在其能明显增进社会效益时认可合理使用,典型如“谷歌数字图书馆”案。同样,在人工智能环境下,尽管商业性使用受到合理使用庇护的可能性小于非营利性使用,但不意味着合理使用绝对排斥商业属性。商业性使用并非判断合理使用的决定因素,而需综合判断。尽管我国立法坚守封闭式判断,但司法实践中早已有法院引入了四要素分析法[30], 相关呼声在学界也日益高涨。进一步的理论分析对于深化认识有益无害,需要进一步考察生成式人工智能文本和数据挖掘背后的公共利益是否能单独证成合理使用。


(三)合理使用下的公共利益与产业利益的交融


生成式人工智能通过合理使用海量数据能够产生巨大的社会正外部性,这是单一保护版权所不能实现的[31]。在科学研究方面,人工智能提高了劳动者的生产力并带来了更高质量的成果,加速了科学发现。从决策式人工智能到生成式人工智能,从利用概率分布学习优化决策到直接进行知识重组和生产,信息的接触成本降低,生产效率大大提高。这也是为何合理使用最没有争议的领域为科学研究。文本和数据挖掘技术除了在科学研究中具有重要意义外,还被私人和公共实体广泛用于分析生活中不同领域的大量数据,包括用于政府服务、复杂的商业决策和新应用或技术的开发等各种目的[32]。人工智能的发展逐渐从基础模型的轻量级展示,转向以消费端为导向解决人类问题的阶段,研究成果逐渐融入产品、平台和工作流程中[33]。此外,表达自由这一宪法自由权在版权法中的映射即为合理使用制度,合理使用为解决版权与表达自由之冲突、保障表达自由发挥着重要的规范作用[34]。面对新技术,表达自由得到了保障还是限制,仁者见仁,但技术便利确使网络用户充分借助他人作品进行自由表达的期望获得了理论上的支撑[35]


可见,在技术信息时代,由于公共利益的实现往往需要依托于前沿技术的突破,产业利益和公共利益越来越表现出一致性,公共利益更多以产业发展为媒介而间接得到满足。因此,并非是产业利益本身推导出了合理使用的结果,而是产业背后潜藏的公共利益前景证成了合理使用。当然,这样一种交融的形态不可避免地伴随着产业垄断、算法权力、技术偏见以及人的异化等更普遍意义上的人类危机。“代码”的核心问题之一就是代码究竟是赋予了个体更多自由权利,还是助长了国家或者技术巨头的权力控制[36]。算法权力的扩张可能导致人类创作主体地位的效率危机,在大数据发展下形成一种算法权力歧视创作者主体意志的过程[37]。好莱坞罢工正是出于生成式人工智能对作者地位取代的忧虑[38]。在选择使用人工智能的过程中,我们也不知不觉作出了许多文化选择。生成式人工智能不仅是输出,更是对概念的重新定义[39]。要避免的或许是价值观的单一化:放弃多元价值判断,转而以进步和效率作为唯一的评价标准,这与韦伯所提出的技术官僚体系下人的异化一脉相承。但公共空间的负面影响非能为版权功能所全部辐射,不能单纯以此否定生成式人工智能在版权合理使用上的正当性,需要联合反垄断法、反不正当竞争法、数据法等一系列法律部门,辅之以哲学、伦理学的反思,以一种更综合的视角看待和思考,而不仅仅执着于版权领域一劳永逸的解决方案。


三、来源端:版权与数据权益衔接的利益体系


(一)作品、数据与大模型的关系


算法、算力和数据,是大模型发展三大要素。生成式人工智能发展的关键是数据,而非模型本身。斯坦福《2024年度人工智能指数报告》指出更好的人工智能意味着更好的数据[40]。模型训练核心在于高质量数据,而这部分数据往往涉及版权作品。但是作品并非直接作用于模型,而是转化为数据后再用于模型训练。虽然二者存在实质内容上的一致性,但作品数据化的过程伴随着权利主体的流转、权利属性的变化等,因此合规和避免版权侵权纠纷的关键在于厘清版权与数据权益的关系。厘清这一关系的前提在于明晰数据权益本身的结构,但实际上其保护方式和权利归属判断目前尚不清晰,产权登记工作的成效也有待追踪,讨论该问题又是另一套叙事。故在此仅提出此种思路,探析背后的利益链条,而非给出确定的结论。


(二)以数据为核心的产业利益竞争


尽管生成式人工智能领域出现了生成物侵犯版权的诉讼,但鉴于存在证明责任、诉讼成本等困难,事后维护版权毕竟是少数,事前的数据来源才是利益凸显的端口。目前,国内生成式人工智能公司训练所用数据来源主要为各类公共数据、用户服务协议强制许可以及委托数据服务提供商获取。由于不同模型涉及不同应用场景,需要不同类型的训练数据,在版权人与生成式人工智能公司之间大概率存在数据服务提供者这一中介。


数据来源的多样并不意味着数据质量的保障,喂养模型所需的高质量数据具有稀缺性。根据Epoch AI 的估算,书籍、科研论文等高质量语言数据集可能会在2024年前耗尽[41]。尽管存在利用模型或算法,批量生成合成数据的新发展,但这一演进的前景和对输出结果的影响尚不明朗,目前原始数据仍占主导。高质量数据需要向专业的数据提供者获取,呈现出大公司垄断的态势。最先进的人工智能模型的训练成本已经上涨到前所未有的水平。例如,OpenAI 已经花费数亿美元从新闻出版商、股票媒体库等获取许可内容,以训练其人工智能模型。尽管存在非营利的人工智能开发机构的尝试,但只要数据仍是一种竞争性数据,小公司就完全无法与大公司匹敌。


产业利益在数据资源上的争夺和垄断可能随着技术演进更加激烈。“检索增强生成”(Retrieval Augmented Generation,简称RAG)技术是向通用人工智能演进的新方向。RAG技术下,人工智能外接数据库(如维基百科、专业文献库等),根据用户提示检索后再生成内容,而非直接将数据喂给模型[42]。此时更加涉及产业利益上的争夺,而非单个创作者的智力成果保护。例如谷歌宣布利用人工智能生成摘要,能有效减少链接到外部网站,由于损害了依赖搜索引擎流量获取收入的内容创作者和出版商的利益遭到反对[43]。这更多成为竞争法上的数据权益的问题。此时协调各方利益的关键就在于数据权益的构建及其与传统版权的协调,而不仅仅局限于版权领域。构建或接入数据库时均获得必要授权,以及避免跨越技术措施直接抓取数据,亦是保护版权的另一个侧面。以数据为核心的产业利益竞争,使生成式人工智能版权问题的商业属性更加浓厚。


四、结   语    


生成式人工智能生成端、输入端和来源端均对现有版权制度提出了挑战,问题层出不穷,观点也眼花缭乱。但不管是生成端人工智能生成物是否赋权以及赋权方案,输入端机器训练使用版权作品是否构成合理使用及其范围,还是来源端训练数据的来源所涉及的数据权益,相较于以往版权争议,均更多地掺杂了产业利益的色彩,这和版权发展过程是一致的。整个版权史,主要是产业和资本运作史。从《安娜女王法令》时的出版商,此后版权变革中的产业身影,再到以Sony案为代表互联网时代的产业利益,版权规则是呈现行业利益和公共利益的跳板,按利益诉求及平衡进行塑造。这或许是技术发展过程中不可避免的,技术的进步时常依赖于商业利益的驱动。


尽管产业利益更多介入生成式人工智能版权问题,但产业利益和公共利益在新技术环境下并非完全对立,呈现交融特征,公共利益可能通过产业利益这一媒介实现。理论不应当成为实践的阻碍,传统版权法下根据投资原则和创作原则的赋权方案,合理使用的传统公共利益射程,以及数据权益和版权法的关系,均可以在厘清内涵的基础上适应新的发展,重新完成利益平衡。生成式人工智能的颠覆性创新可能与传统的法律和社会逻辑存在冲突,必然会引发一系列反抗,对此需要坚持版权的功能视野,明确其解决问题的领域和局限,而不是企图在版权法框架下解决所有问题。本文提供的是一种解决生成式人工智能版权问题的思路和在此思路下的可行分析路径,最后的落脚点还是要分析参与各方的利益需求,联合相应法律部门,从更广泛和综合的视角考察。


注释

[1] 班纳.财产故事.陈贤凯,许可,译.北京:中国政法大学出版社,2017:445.

[2] 莫杰思.知识产权正当性解释.金海军,史兆欢,寇海侠,译.北京:商务出版社,2019:66.[3] 吴汉东. 论人工智能生成内容的可版权性:实务、法理与制度. 中国法律评论,2024(3):113-129.

[4] 蒋舸. 论人工智能生成内容的可版权性:以用户的独创性表达为视角. 知识产权,2024(1):36-67.

[5] General understanding on AI and copyright in Japan. (2024-05-01). https://www.bunka.go.jp/english/policy/copyright/pdf/94055801_01.pdf.

[6] 北京菲林律师事务所与北京百度网讯科技有限公司著作权权属、侵权纠纷案,北京知识产权法院(2019)京73民终2030号民事判决书;深圳市腾讯计算机系统有限公司与上海盈讯科技有限公司著作权权属、侵权纠纷、商业贿赂不正当竞争纠纷民事判决书,广东省深圳市南山区人民法院(2019)粤0305民初14010号民事判决书;李某与刘某侵害著作权纠纷案,北京互联网法院(2023)京0491民初11279号民事判决书。

[7] Artificial intelligence and intellectual property:copyright and patents:government response to consultation. (2022-06-28). https://www.gov.uk/government/consultations/artificial-intelligence-and-ip-copyright-and-patents/outcome/artificial-intelligence-and-intellectual-property-copyright-and-patents-government-response-to-consultation.

[8] Report with recommendations to the commission on civil law rules on roboties[2015/2103(INL)]. (2017-01-27). https://www.europarl.europa.eu/doceo/document/A-8-2017-0005_EN.html.

[9] European parliament resolution of 20 october 2020 on intellectual property rights for the development of artificial intelligence technologies [2020/2015(INI)]. (2020-10-20). https://www.europarl.europa.eu/doceo/document/TA-9-2020-0277_EN.html.

[10] 关于独创性理论是“人类中心主义”的产物相关论述,参见吴汉东. 论人工智能生成内容的可版权性:实务、法理与制度. 中国法律评论,2024(3):113-129。关于“思想-表达二分法”与人工智能生成物抵触的相关论述,参见LEMLEY MA. How generative AI turns copyright upside down. Science & Technology Law Review,2024(25):21-44.

[11] 黄云平. 人工智能生成内容的可版权性问题辨析. 浙江大学学报(人文社会科学版),2024(2):75-90.

[12] 王尚飞.人工智能生成物的权属基础与保护制度构建.(2023-12-07). https://mp.weixin.qq.com/s/DKQE8DqP9Cfd146EbIRglA.

[13] 孔祥俊. 著作权立法与司法的产业利益之维. [14] 曲三强. 论人工智能与知识产权. 知识产权,2023(8):30-52.

[15] 蒋舸. 论人工智能生成内容的可版权性:以用户的独创性表达为视角. 知识产权,2024(1):36-67.

[16] 蒋舸. 论著作权法的“宽进宽出”结构. 中外法学,2021(2):327-345.

[17] 丛立先. 人工智能生成内容的可版权性与版权归属. 中国出版,2019(1):11-14.

[18] LEMLEY MA. How generative AI turns copyright upside down. Science & Technology Law Review,2024(25):21-44.

[19] 姚志伟,沈.. 论人工智能创造物的著作权归属. 湘潭大学学报(哲学社会科学版),2018(3):29-33.

[20] 朱阁,崔国斌,王迁,等. 人工智能生成的内容(AIGC)受著作权法保护吗. 中国法律评论,2024(3):1-28.

[21] KLEIN E. The imminent danger of A.I. is one we’re not talking about. (2023-02-26). https://www.nytimes.com/2023/02/26/opinion/microsoft-bing-sydney-artificial-intelligence.html.

[22] MANTEGNA M. ARTificial:why copyright is not the right policy tool to deal with generative AI. The Yale Law Journal Forum,2024(133):1126-1174.

[23] 朱理. 著作权的边界——信息社会著作权的限制与例外研究. 北京:北京大学出版社,2011:22-26.

[24] 熊琦. 著作权法中的私人自治原理. 北京:法律出版社,2021:132-135.

[25] 姚叶. 论“文本与数据挖掘”的合理使用规则建构.科技与法律(中英文),2024(1):32-42.

[26] MERGES RP. intellectual property and the costs of commercial exchange:a review essay. Michigan Law Review,1995(6):1570-1615.

[27] Download volume and income of ChatGPT. (2024-06-11). https://app.sensortower-china.com/overview/6448311069?country=US.

[28] Artificial intelligence index 2024. (2024-04-17). https://aiindex.stanford.edu/wp-content/uploads/2024/04/HAI_2024_AI-Index-Report.pdf.

[29] 高阳,胡丹阳. 机器学习对著作权合理使用制度的挑战与应对. 电子知识产权,2020(10):13-25.

[30] 宋海燕.娱乐法. 2版. 北京:商务印书馆,2018:101-102.

[31] 潘香军. 论机器学习训练集的著作权风险化解机制// 上海市法学会. 《上海法学研究》集刊2023年第6卷——2023年世界人工智能大会青年论坛论文集. 香港大学法律学院,2023:12.

[32] Directive (EU) 2019/790 of the European parliament and of the council of 17 April 2019 on copyright and related rights in the digital single market and amending directives 96/9/EC and 2001/29/EC,Recital 18. (2019-05-17). https://eur-lex.europa.eu/legal-content/EN/TXT/PDF/?uri=CELEX:32019L0790.

[33] Generative AI’s act two. (2024-06-11). https://www.sequoiacap.com/article/generative-ai-act-two/.

[34] 宋慧献. 版权保护与表达自由. 北京:知识产权出版社,2011:4.

[35] 熊琦. “二次创作”行为著作权合理使用认定的经济分析范式. 当代法学,2024(1):108-120.

[36] 沈伟伟. 如何理解网络规制中的“代码”?——兼评莱斯格《代码2.0》. 地方立法研究,2023(6):62-74.

[37] 关于“算法权力”的定义参见郑戈. 算法的法律与法律的算法. 中国法律评论,2018(2):66-85.

[38] SANKARAN V. Hollywood AI backlash:what striking writers and actors,fear about tech replacing role. (2023-07-17). https://www.independent.co.uk/artsentertainment/films/news/hollywood-ai-writers-strike-tech-b2376457.html.

[38] CRAWFORD K,PAGLEN T. Excavating AI:the politics of images in machine learning training sets. (2019-09-19). https://www.excavating.ai.

[40] Artificial intelligence index 2024. (2024-04-17). https://aiindex.stanford.edu/wp-content/uploads/2024/04/HAI_2024_AI-Index-Report.pdf.

[41] 大模型训练白皮书. (2024-05-24). https://mp.weixin.qq.com/s/rIInP5jc7K9ae4bFuIebUw.

[42] LEE L. 一文读懂Retrieval Augmented Generation(检索增强生成). (2024-05-10). https://www.talkwithtrend.com/Article/270141.

[43] 数字竞争法通讯. 域外动态|谷歌在搜索中引入人工智能生成摘要面临强烈反对. (2024-05-20). https://mp.weixin.qq.com/s/1q2QO48NDpEvAeOveAczWA.




(本文为授权发布,仅表作者观点,未经许可不得转载)


“星标”、“转发”、“在看”,给小编加鸡腿哦!
投稿请联系shipa@shipa.org

近期活动

知识产权那点事
传递知识产权资讯,开展知识产权调研,搭建业界交流平台,与你一路前行!投稿请至shipa@shipa.org。感谢您的关注!
 最新文章