张新宝 卞 龙:生成式人工智能训练语料的著作权保护

文摘   文化   2024-10-25 12:56   湖北  

中国人民大学法学院教授 张新宝

中国人民大学法学院博士研究生 卞 龙


目次


 


一、著作权保护与产业发展之间的矛盾


二、著作权风险化解的路径选择


三、构成合理使用的理论与实践分析


四、排除适用合理使用的情形


五、著作权人合法权益的实现与保障


内容摘要


生成式人工智能训练语料的著作权保护应秉持支持和鼓励技术创新的基本立场,构建“以合理使用为原则,以授权许可为补充”的著作权保护模式。通常情况下,生成式人工智能训练对作品的使用具有典型的非表达性、高度的转换性,不会影响作品的正常使用。虽然可能损害著作权人在数据市场的经济利益,但是不会损害其在传统作品市场的经济利益,整体上不会不合理地损害著作权人的合法权益,可以构成合理使用。但是在输出可以影响原作品阅读市场的内容、严重损害著作权人数据财产权益等特殊情况,使用相应作品作为训练语料无法构成合理使用。商业性服务提供者同样可以适用合理使用,但是应提供低价或免费的基础服务,弥补著作权人在数据市场上的可能损失。服务提供者应严格尽到过滤等义务,避免输出构成实质性相似等能够影响原作品传统阅读市场的内容,否则应承担侵权等责任。


关键词


生成式人工智能 训练语料 合理使用 著作权保护


引   言

目前,生成式人工智能研发对作品的使用面临着困境。服务提供者需要收集海量作品作为训练数据,但是难以完全依法取得著作权人的许可并支付报酬;生成式人工智能若无法学习充足的作品,其功能无法满足预期和客观需求。服务提供者不得不擅自使用作品进行训练,存在较高的侵权风险。“知识产权问题是企业对于使用生成式人工智能的首要担忧。”去年以来,我国先后发布了《生成式人工智能服务管理暂行办法》等文件,指出生成式人工智能训练不得侵害他人依法享有的知识产权,但是没有对如何解决上述困境作出针对性的回答。本文将从实践中面临的问题出发,探讨为何以及如何借助合理使用制度来解决训练语料的著作权问题。

一、著作权保护与产业发展之间的矛盾

生成式人工智能研发需要以大规模的高质量训练语料作为支撑,确保模型回答的准确性和客观性。作品往往经过了作者的反复思考和打磨,接受了社会公众的评价和检验,代表了人类逻辑思考和情感表达的较高水平,所以是更理想和可靠的训练语料。目前,中文语料库的开源情况不如英文普遍,面临着高质量训练语料尤其是中文语料短缺的局面。如果能够充分利用已有的作品资源,可以在一定程度上缓解高质量训练语料不足对生成式人工智能研发的掣肘。


(一)训练语料的著作权侵权风险


生成式人工智能的研发存在着较高的著作权侵权风险。域外方面,OpenAI、Stability AI、Meta、微软等公司面临着诸多诉讼,被指控未经许可使用受到著作权保护的作品。比较有代表性的是纽约时报诉微软和OpenAI案,纽约时报指控微软和OpenAI未经许可使用其近一个世纪的数百万篇文章训练生成式人工智能模型,但是没有支付相应的费用。国内方面,小红书旗下的Trik未经授权使用了画师的原创作品作为训练数据,并且可以生成与原作高度相似的图片,因此被画师们告上法庭,2024年6月20日,案件已经在北京互联网法院开庭审理。此外,目前已经有企业因为未经许可使用作品作为训练语料而受到行政处罚。

因为生成式人工智能训练不属于我国《著作权法》第24条规定的合理使用的情形,而且不属于法定许可的特定情形,服务提供者只有取得著作权人的授权许可才能使用作品。然而,作品使用的授权许可无法在生成式人工智能训练的场景下有效运作。传统的“事前授权、使用付费”的交易模式难以满足生成式人工智能海量学习的需求,容易导致交易效率的低下和交易成本的增加。原因在于,生成式人工智能训练对于作品的使用具有突出的规模化特征,目前训练语料处在欠缺状态,意味着服务提供者对于高质量训练数据(包括作品)的需求可能没有上限,叠加起来的许可费可能是“天文数字”。生成式人工智能训练使用作品的范围极其广泛, 不限于某个特定作品类型,而且作品的著作权比较分散,必定会带来相当大的交易成本,导致服务提供者难以严格依法取得著作权人的许可。未经许可的作品使用行为则存在较高的侵权风险,可能侵害著作权人的复制权、信息网络传播权等。


(二)著作权保护应以促进技术创新为前提


我国高度重视通过有效的治理充分发挥人工智能在促进经济发展和人类文明进步方面的重要作用。2023年10月18日,我国发布《全球人工智能治理倡议》,提出构建开放、公正、有效的治理机制,促进人工智能技术造福于人类。2024年7月4日,我国发布《人工智能全球治理上海宣言》,表达了对充分发挥人工智能潜力、增进人类福祉的期待。无论是在宏观的国家和社会层面还是在微观的个人层面,生成式人工智能技术都将产生深远的积极影响。进行制度设计的时候,应当将生成式人工智能创新的因素摆在更加突出的位置,同时兼顾著作权的保护。

生成式人工智能关系到国家的安全和发展全局,并且最终落脚为人民群众的利益。首先,生成式人工智能有助于维护国家安全。当前全球不断升级人工智能战略,已经成为科技创新的关键领域。科技强国的建成离不开生成式人工智能技术的突破,拥有独立自主的高水平生成式人工智能对于维护网络安全和数据主权至关重要。其次,生成式人工智能可以促进经济发展。发展新质生产力是推动高质量发展的内在要求和重要着力点,而生成式人工智能是发展新质生产力的重要引擎。新质生产力的本质是创新驱动,其关键在于关键性技术和颠覆性技术的突破。生成式人工智能作为一种革命性技术,可以对生产力的发展产生“幂数效应”,并且促成新型的生产体系。最后,生成式人工智能正在并且会不断地融入和影响个人的工作和生活。简单来说,日常使用的智能设备、学习工作中使用的辅助工具,或许都会被生成式人工智能技术重新定义。医疗、教育等诸多领域可能会因为生成式人工智能技术而取得实质性甚至是革命性的进步,社会公众无疑会从技术的发展中受益。

二、著作权风险化解的路径选择

(一)训练端与使用端的统筹考量


1.机器学习与人类学习的对比

机器学习与人类学习相似,本身不会对著作权人造成负面影响。“生成式人工智能遵循着类似于人类的‘学习观察—创建规则—产出创作’的结构模式。”模型的输出通常不是简单地对语料进行复制或者重新组合,而是通过学习获得相应的功能,然后凭借功能进行创造。可见,机器学习过程与人类学习过程本质上都是将学习对象中的具体内容提炼、抽象、转化为自身能力的过程。

生成式人工智能训练的著作权侵权风险主要来自于使用端。机器学习过程具有极高的隐蔽性,因此与《著作权法》第24条第1项规定的个人研究、欣赏、学习几乎没有区别,不应当也没有必要予以限制。但是,输出原作品中的内容会对著作权产生较大的负面影响。输出原作品类似于人类在学习之后的抄袭行为,但是不能因为学习之后可能会抄袭就否认学习行为的合法性。基于同样的逻辑,不能因为生成式人工智能可能会出现“抄袭”就否认机器学习行为的正当性与合理性。

2.风险化解应以使用端为重心

侵权风险的主要来源和著作权保护的重心在使用端,而非训练端。一方面,应当强调在使用端对著作权进行保护,生成式人工智能不得输出可能损害著作权人合法权益的内容;另一方面,应当在训练端给予一定程度的著作权豁免,允许相关主体直接使用作品作为训练语料,构建一个有利于技术创新的制度环境。如此一来,可以兼顾和协调著作权的保护与生成式人工智能技术的发展。

传统的授权许可模式难以满足作品的规模化使用需求,若不在训练端设置一定的著作权豁免,不仅可能无法达到预期的权利保护效果,而且可能会成为技术创新的阻碍。如果想要获得充足的作品语料,服务提供者需要与众多的著作权人进行磋商以获得许可,可能会导致两种结果:第一,高度分散的著作权、高昂的许可费导致服务提供者无法获取充足的作品来训练生成式人工智能,造成技术发展的迟滞。第二,授权许可模式的交易成本过高,难以真正落实。由于用作训练语料具有极高的隐蔽性,服务提供者可能会选择以违法方式使用作品。


(二)训练端著作权豁免的合理性与必要性


1.平衡作品的保护与使用

“平衡精神的弘扬是著作权法价值二元取向的内在要求,包括公共利益与个人利益的平衡和创作者利益与使用者利益的平衡。”著作权法不仅需要保护著作权人对作品享有的利益,而且需要满足社会公众接触和使用作品的需求,对于著作权的保护应当维持在一个适当的水平。作品创作建立在已有作品的基础之上,著作权的保护水平过高会提高获取作品的成本,影响社会公众的后续创作;保护水平过低则会导致对著作权人的激励不足,影响著作权人的创作动力。如果作品的获取和使用在特定场景下出现了不合理的困难,说明既有制度与该特定场景可能出现了一定程度的不适配。生成式人工智能训练对作品的使用需求难以在授权许可模式下得到满足,意味着授权许可模式并不完全适用于语料获取场景,应考虑设置一定程度的豁免。

著作权法立法目标的实现不仅需要依靠对著作权的保护,而且需要借助对作品的充分使用。首先,作品本质上是信息交流的媒介,作品的价值只有在使用的过程中才能得到充分释放,社会才能从中受益。信息具有非竞争性,其价值不会在重复利用的过程中减损,反而有利于社会整体的知识增值。因此,信息不应受到绝对的支配,控制与流通的平衡可以最大程度地取得个人与产业、社会、国家之间的利益共识。其次,著作权人不可能使作品的价值得到充分挖掘和利用,因此不应独占与作品有关的所有利益。部分利益分配给使用者,可以使作品的价值得到最大程度的利用,更有利于社会福利的增加和作品市场的发展。再次,促进信息和知识的交流、推动文化和科学的创新是作品的社会功能,著作权法承担着推动技术创新的使命。著作权法不仅受到技术发展的影响,而且可以反过来影响技术的发展。著作权法若不能灵活、及时地回应生成式人工智能技术研发对作品的使用需求,可能成为技术创新的阻碍。最后,生成式人工智能对作品的使用是一种数据化的方式,作品在此过程中承担着新型生产要素的角色,强化作品的数据化利用是激活数据价值的内在要求。

2.实现“创作—使用—再创作”的循环

生成式人工智能辅助创作的工具性价值正在逐渐显现,作者不仅可以借以直接生成受到著作权法保护的作品,而且可以用来寻找素材和灵感,或者用于优化作品。例如,ChapGPT可以在完善学术写作、提升同行评审、优化编辑反馈的过程中发挥作用。生成式人工智能只有充分地学习既有作品,才能获得更理想的功能。否则,生成的内容可能会缺乏足够的创意、美感、逻辑、真实性等,不足以达到辅助人类创作的性能需求。出于此种考虑,给予生成式人工智能训练一定的著作权豁免具有合理性和必要性。作者提供作品用于创作工具的研发,然后借助创作工具产出更多的新作品,可以实现“创作—使用—再创作”的良性循环。

社会普遍担忧生成式人工智能可能会损害作者的利益,导致失去创作的动力,甚至造成职业替代。但是根据目前的发展速度来看,实现通用人工智能任重而道远,人类特有的逻辑、理性、经验、情感等,机器或许永远都不会具备。生成式人工智能虽然可以高效地回答人类的提问,但是不具备最为重要的提出问题的能力。相较于职业替代,更可能出现的是人类与机器的合作。此外,训练数据的著作权例外并不会降低对作者的创作激励,甚至会有所增加。虽然生成式人工智能的出现加剧了作品市场的竞争,改变了作品市场的竞争模式,使得作者不得不去思考如何面对其带来的挑战和机遇。但是良性的竞争可以为作者提供更充分的激励,促使作者逐渐由传统的创作模式转变为数据驱动的新型创作模式,并且提高其创作效率。

3.国际竞争的客观需要

生成式人工智能是科技竞争的重要领域,设置训练语料的著作权例外有助于形成国际竞争的优势。2024年2月12日,美国白宫科技政策办公室(OSTP)发布了更新后的《关键和新兴技术清单》,人工智能位列其中。目前,许多发达国家和地区都对作品数据化利用的著作权豁免,作出了针对性规定或者预留了解释空间。如果我国拒绝规定训练语料的著作权例外,可能会使我国生成式人工智能技术的发展陷入被动,影响我国在国际技术竞争中的话语权。

美国的合理使用制度采用的是一般条款模式,规定了判断合理使用需要考虑的四个要素,并且对常见的合理使用情形进行了不完全列举。美国对合理使用的规定方式最具解释弹性,可以灵活应对生成式人工智能技术发展对作品的利用需求。欧盟《数字单一市场版权指令》规定了文本与数据挖掘的著作权例外。其中,第3条将实施文本与数据挖掘的目的限制为科学研究,第4条虽然没有作此限制,但是要求作品必须是合法获取、作品的使用未被权利人以适当方式明确保留。英国《著作权、设计和专利法案(1988)》第29A(1)条规定了非商业研究场景下文本与数据挖掘的著作权例外,允许为了计算机分析而复制合法取得的作品。但是英国政府曾经表示决定引入新的著作权例外,允许文本与数据挖掘用于任何目的,将在适当的时候进行必要的修改。严格来说,生成式人工智能训练对作品的使用不同于文本与数据挖掘。文本与数据挖掘的目的在于得出趋势、相关性等信息,不涉及对作品内容的直接利用。然而,生成式人工智能可以输出与原作品实质性相似甚至完全相同的内容,因此可能涉及对作品内容的直接利用。但是仅就机器学习过程而言,其风险和文本与数据挖掘接近。此外,欧盟《人工智能法案》第53(1)(c)条规定服务提供者应当遵守根据《数字单一市场版权指令》第4(3)条作出的权利保留,似乎包含着人工智能可以适用文本与数据挖掘著作权例外的意思。因此,欧盟与英国对文本与数据挖掘的著作权例外规定,同样可以在一定程度上解决训练数据的著作权保护问题。日本方面,文化厅发布了《关于AI与著作权相关问题的意见》,分析了《著作权法》第30条之4和第47条之5等合理使用柔性条款对生成式人工智能训练行为的适用可能性。其中,第30条之4规定,如果对于作品的使用不涉及作品表达的思想或者感情,则应当得到允许;第47条之5接近于欧盟关于文本与数据挖掘例外的规定。

综上,美国、欧盟、英国、日本等国家和地区的相关规定都可以在一定程度上应对生成式人工智能训练对作品的使用问题。我国在著作权制度供给上的不足,可能会导致在国际技术竞争中处于不利地位。因此,应当“加大制度供给,为人工智能产业发展营造更加宽松的环境”。


(三)合理使用方案的比较优势


1.排除保护方案的局限

主张排除保护的观点认为,生成式人工智能训练过程对作品的使用具有非特定性和非作品性,不应受到著作权法的调整。另有论者对表达型和非表达型的机器学习进行了区分讨论,认为非表达型机器学习构成非作品性使用,不应受到著作权法的规制。诚然,若生成式人工智能训练对作品的使用可以被排除在著作权法的调整之外,更加有利于技术的发展。但是此种路径存在如下问题:第一,限缩著作权法的调整范围,稍有不慎可能会破坏当前著作权法体系的内部逻辑,是否需要以及如何限缩调整范围应当在分析和总结更多场景的基础之上得出结论。第二,直接排除保护可能会造成著作权保护的失衡。使用作品训练人工智能可能会在特殊情况下不当地损害著作权人的合法权益,不能“一刀切”地认定其不受著作权法的调整。第三,使用方式的非作品并不能当然地证成该复制行为不受著作权法调整。非作品性使用意味着对著作权人的影响轻微,但是同样可以作为构成合理使用的理由。

信息技术的发展使得作品的复制等使用方式变得便捷,愈来愈多的作品使用行为对著作权人利益的影响轻微,但是对使用者而言具有重要价值。排除保护方案要求对作品使用行为进行甄别,并设置进入著作权法评价视野的合适门槛,以保护正当的作品使用行为。因此,尝试重新界定著作权法的调整范围,试图将“非作品性使用”排除在著作权法规制之外的努力,具有重要的理论和实践价值。但是另有学者主张“宽进宽出”的著作权法结构,认为应当把非典型的作品使用方式纳入著作权法的调整,同时借助合理使用制度使其免于承担责任,充分发挥著作权法分析框架的优势。可见,主张限缩著作权法调整范围的进路并不容易实现,因为它不仅涉及生成式人工智能训练的问题,而且对于整个著作权法的逻辑和模式都会产生影响,需要作出更全面和深入的论证。相关理论难以在短时间内转化为具体的法律文本以指导产业实践。相对而言,合理使用制度可以更直接和高效地解决目前的语料获取难题。

2.法定许可与集中许可方案的不足

支持集中许可的观点认为,可以通过集中授权的方式解决人工智能训练数据的合规难题,推动构建更加健全和可持续的知识产权良性保护生态。集中许可方案意味着仍然需要向众多的著作权人支付许可费,叠加起来可能使服务提供者不堪重负。即使针对性地作出调整,如何确定合理的报酬,不仅能使著作权人愿意授权,而且能让服务提供者可以承受,可谓是艰难的任务。如果数额过低,著作权人对生成式人工智能的担忧所造成的“排斥”,可能远远超过少量许可费带来的吸引力,导致不愿意授权;如果数额足够吸引著作权人,恐怕又会让服务提供者难以负担。此外,我国著作权集体管理组织的发展尚不完善,没有覆盖所有的作品类型,而且管理的作品数量有限,无法完全满足生成式人工智能训练的客观需求。因此,仅仅依靠集中许可能否顺利解决训练语料的获取难题,存在较大疑问。

法定许可虽然可以彻底解决难以取得授权的问题,相比之下优于集中许可,但是仍非解决训练语料获取困境的理想方案。支持法定许可的观点认为,相较于合理使用制度,法定许可能够更好地兼顾各方利益。法定许可介于集中许可与合理使用之间,虽然认为不需要取得授权,但是认为需要给予著作权人相应的报酬方能达致公平。可见,法定许可存在着与集中许可同样的问题——如何避免让高昂的许可费成为创新的阻碍。本文认为,著作权人利益的保障不需要通过支付报酬或者经济补偿的方式来实现。而且,法定许可制度所面临的许可费难以落实的困境至今未能有效解决。后续配套措施的落实仍存在相当的难度,短时间内难以成为有效的解决方案。因此,借助法定许可制度来解决训练语料的著作权保护问题,虽然具有理论上的意义,但是难以付诸实践,可能无法满足紧迫的现实需求。

3.合理使用方案的可行性

根据市场失灵理论,合理使用应当以克服市场失灵为目标。只有在出现市场失灵的情况下,才能将机器学习对作品的使用认定为合理使用。基于授权许可获取作品面临着极高的交易成本,而且收益具有不确定性,甚至可能低于交易成本,所以确实可能存在市场失灵。但是本文认为,即使没有出现市场失灵,或者处于不确定的状态,仍然可以引入合理使用制度。虽然市场失灵理论从经济的角度解释了合理使用制度的合理性,但是出现市场失灵不是适用合理使用的必要前提,并非只有在市场失灵的情况下才能适用合理使用;反过来,市场失灵也不能作为适用合理使用的充分理由,并非只要出现市场失灵就应当引入合理使用制度。

本文倾向于从平衡著作权人利益与使用者利益(一定程度上代表着公共利益)的角度分析引入合理使用的可行性与正当性。合理使用制度体现出著作权法试图在保护著作权人利益与促进知识传播之间取得平衡,并且反映出著作权法对公共利益的关注。归根结底,合理使用的制度目的在于实现著作权人利益与使用者利益的平衡,完成著作权法平衡作品保护与使用的使命。训练语料的著作权难题本质上就是作品的保护与使用在生成式人工智能训练场景下出现了不协调,所以引入合理使用是最为合适的解决路径。顾名思义,合理使用意味着作品的使用具有合理性,不应当受到著作权的限制。问题在于,合理性来源于什么?应当看到,合理使用制度体现了著作权法在其诸多价值目标发生冲突时的一种解决路径,并且肯定了公共利益价值在一定条件下的优先地位。一方面,合理性来源于对著作权人利益的减损显著轻微;另一方面,来源于使用者的利益和广大使用者所代表的公共利益的增加。换言之,若某种作品使用行为对著作权人利益的影响轻微但有益于广大使用者和社会,则应当认为这是合理的使用行为而非侵权行为。基于使用者利益和公共利益的考量而对著作权进行一定程度的限制具有正当性,因为著作权法的直接目标虽然是激励作者进行创作,但根本目标是促进社会整体的知识增值。而且,并不是把所有的经济利益都分配给著作权人才能够达到激励创作的目标,如果部分与作品有关的价值赋予使用者对于社会整体而言更有利,合理使用制度即有发挥功能的空间。总之,著作权合理使用制度作为平衡使用者、权利人及社会公众之间利益的法律机制,应当在制度的弹性范围内将生成式人工智能训练行为容纳进去,以促进技术的创新和发展。

三、构成合理使用的理论与实践分析

根据《著作权法》第24条的规定,构成合理使用需要满足三个条件:第一,符合明确列举的具体情形或者属于法律、行政法规规定的其他情形;第二,不得影响该作品的正常使用;第三,不得不合理地损害著作权人的合法权益。所列举的各项情形一般情况下已经满足“不得影响该作品的正常使用、不得不合理地损害著作权人的合法权益”的条件,并且可以显著增加使用者利益和公共利益。若能够满足第二个和第三个条件并且有助于使用者利益和公共利益的增加,则具备被列入合理使用具体情形的正当性和合理性。此外,即便已经被列入《著作权法》第24条,仍然需要受到上述条件的限制。因此,判断生成式人工智能训练是否可以被确定为合理使用的一种具体情形,关键就在于是否在一般情况下满足“不得影响该作品的正常使用、不得不合理地损害著作权人的合法权益”的条件、是否有助于使用者利益和公共利益的增加。其中,生成式人工智能研发对使用者利益和公共利益的重要价值已经在上文释明,下文将着重分析此种使用方式对著作权人的影响。


(一)不会影响作品的正常使用


1.使用方式具有典型的非表达性

非表达性使用(非作品性使用)是指没有利用作品独创性表达的使用方式,使用者的目的不是直接使用作品的表达,而是利用作品中的信息实现某种功能性目标。非表达性使用区别于传统的表达性使用方式,使用者拓展了作品的使用范围,不会对作品原来的使用场景产生干扰,因此不会影响作品的正常使用。表达是作品的主要价值所在,构成了作品的形式和具体内容,著作权人的利益即是通过保护作品的表达来实现。使用者若没有利用作品的表达,意味着没有从作品的独创性表达中直接受益,而是挖掘了与作品表达无关的潜在价值。因此,允许服务提供者在未经授权的情况下非表达性地使用作品,完全符合著作权法的基本结构。

生成式人工智能训练对作品的使用,符合非表达性使用的特征。数据挖掘、机器学习对作品的使用,完全不同于作品的传统使用方式,没有直接利用作品的表达。例如,使用作品进行数据挖掘是为了找出其中的相关性、趋势等信息,而这些信息原本无法从作品中直接表现出来。生成式人工智能训练同样如此,使用作品作为训练语料是为了让模型通过对海量数据的学习,理解和掌握人类进行表达的规律和方式,获得回答人类提问的能力,所以并不是为了欣赏原作品的独创性表达,更不是为了再现原作品的内容。生成式人工智能输出的内容通常和语料中的原作品无关,所以服务提供者并没有直接“分享”原作品的价值,而是在原作品的基础之上创造了新的价值,不会对原作品的正常使用产生影响。

2.使用方式具有高度的转换性

转换性使用理论诞生于“四要素检验法”的基础之上,已经成为美国合理使用判断的重要方法。转换性使用是指在使用原作品的过程中添加了新的表达、意义、信息而改变了原作品,并且具有不同于原作品的目的和特征。虽然使用的转换性并不是构成合理使用的必要条件,但是具有转换性的使用方式更容易被认定构成合理使用。原因在于,如果使用者只是将原作品作为素材,创造了新的信息、美感、观察、理解,添加了原创性的价值,此种有利于社会的使用方式应当受到保护。所以,作品使用的转换性程度越高,意味着对原作品的影响越弱,越可能创造出有利于社会公共利益的价值,构成合理使用的可能性就越大。可见,转换性使用的目的不在于利用作品的原本价值,不会影响作品的正常使用。

根据转换性使用理论,构成合理使用的关键在于使用方式的创造性程度,使用作品的比例、是否出于商业性目的都不是重要的考虑因素。转换性使用是将原作品作为实现新目的或者新功能的素材,通过具有转换性的、创新性的利用,实现知识和技术的创新,符合著作权法鼓励创作的立法目标,并且有利于公共利益的实现。换言之,转换性使用通过颠覆性地改进现有知识或技术,显著增进了社会福利,并且原作品在使用行为所产生的社会福利中贡献占比较低。转换性使用理论对于使用的比例、是否出于商业性目的没有绝对的要求。例如,美国法院认为即便是对作品进行全文复制,只要具备转换性就可以构成合理使用。而且,使用方式的转换性越强,是否出于商业性目的等其他因素的重要性就越弱。

生成式人工智能训练对于作品的使用具有高度的转换性,具有完全不同于原作品的目的和功能,创造了新的信息和价值。生成式人工智能训练过程将原作品作为学习素材,使用方式具有间接性,获取的是作品中的特征和规律,不是为了欣赏、传播、利用原作品的内容和价值,目的是让模型获得更好的学习效果、具备生成高质量内容的功能,输出过程不是对语料中作品的直接抄袭或者拼凑,而是在获得功能之后的再创作,因此具有使用目的上的转换性。生成式人工智能研发的创造性程度和原创性价值已经无需赘言,保护此种使用方式完全符合著作权法的初衷和目标。另外,服务提供者虽然可能会使用作品的全部内容,但是这种使用行为对于实现生成式人工智能的功能而言具有必要性,应当得到允许。


(二)不会不合理地损害著作权人的合法权益


判断是否会“不合理地损害著作权人的合法权益”是在确定作品使用行为不与作者正常商业化利用产生直接竞争关系的前提之下,讨论对著作权人经济利益影响的程度。作品的市场由两个部分构成,首先是以阅读作品为核心,以作品的文学、艺术、科学价值为基础的传统市场,其次是将作品作为数据要素建立起的市场。传统的作品市场以阅读和欣赏作品为核心而构建,而生成式人工智能训练的过程具有非公开性。因此,用作训练语料不会与原作品在传统市场展开竞争,更不会对原作品产生市场替代,著作权人在传统作品市场中的商业化利用和可得的市场利益不会受到影响。

问题在于,是否会影响著作权人在数据市场的经济利益。反面的观点认为,著作权人独占的市场应当是以作品本身的文学、艺术、科学价值为对象的市场,潜在市场的发现不是作者在创作之初基于著作权法的诸项权利所合理预见的市场利益,不应当归属于著作权人。但是数据作为新型生产要素已经受到重视,数据之上的财产价值也应当得到保护。作品在数据市场的价值虽然由使用者创造性地开发和利用,但是归根结底是来自于作品,著作权人作为“数据来源者”是否应当享有相应的利益?此问题有待深入的研究和讨论。但是即便著作权人应享有数据利益,其价值也远低于在传统阅读市场的文学、艺术、科学价值,因为数据的价值往往表现在数据集合之上,少量数据的价值极其有限。所以,即便用作训练语料会对著作权人在数据市场上的利益产生影响,相较于其在传统作品市场上可获得的利益而言,此种影响也不应被认为“不合理”。此外,影响著作权人合法权益的合理性应当对比使用行为增加的公共利益进行判断,如果增加的公共利益明显高于对著作权人利益的影响,应当认为具有合理性。用作训练语料虽然可能会损害著作权人在数据市场上的利益,但是可以为生成式人工智能等新型技术的研发提供较大的价值。两相衡量,著作权人作为“数据来源者”的利益应当劣后于技术创新的公共利益。


(三)具体的制度设计和暂时的解决方案


1.可以适用于商业性主体
至此可以得出结论,使用作品训练生成式人工智能可以构成合理使用。但是,合理使用的适用范围应否限制为非商业性主体?支持的观点认为,只有非商业性主体能够适用合理使用。但是本文认为,商业性主体同样可以借助合理使用得到豁免。判断的关键在于商业性主体开展的训练活动是否满足合理使用的本质要求:是否有助于公共利益的增加,以及是否对著作权人的影响轻微。生成式人工智能训练对作品的使用具有非表达性和高度的转换性,不会影响著作权人的正常使用,该结论不会因为是否为商业性主体而存在差别。而且,无论最终是否将模型用于商业性用途,著作权人经济利益受到影响的程度不会发生改变。因此,判断的重点在于商业性主体开展的生成式人工智能研发活动是否有利于公共利益的增加。无论主体是民营企业还是公共科研机构,其对于技术创新的推动作用不会因主体性质的不同而存在差异,最终仍取决于创新的程度。无论是国内还是国外,互联网企业都是促进生成式人工智能技术创新的主要主体。如果限制为非商业性主体,可能会对技术发展造成阻碍。
公众可能认为,互联网企业未经许可或补偿就将权利人的数据用于商业目的,缺乏道德上的公平性。主张通过法定许可、集中许可等方式来解决训练语料的著作权授权难题的观点,以及认为可以通过税收实现再分配的观点,即是认为需要给予著作权人相应的报酬或者经济补偿,以实现制度公平。本文认为,没有必要给予著作权人经济补偿,理由如下:第一,互联网企业虽然可能从生成式人工智能的研发活动中获得经济利益,但是这些价值并不是直接来自于被使用的作品,而是来自其创造性的挖掘,服务提供者获得的经济利益本质上是对科技创新的回报。第二,商业性服务提供者确实从“免费”使用作品的过程中节约了一定成本,但是其开展的技术研发活动也创造了难以估量的公共价值,包括原作品著作权人在内的社会公众最终都会从中受益。第三,生成式人工智能训练对于作品的使用具有突出的大规模性,往往还有非接触性,单个作品的使用价值较低而且难以衡量,难以公平、合理、高效地进行经济补偿。另外,构建和运行相应的经济补偿机制也需要消耗一定的社会成本,没有必要大费周章进行经济补偿。第四,著作权人可能无法从经济补偿中获得实益。企业的最终目的是获取利润,要求服务提供者支付一定的经济补偿,或是通过税收等方式实现再分配,服务提供者额外支出的成本最终都会反映为生成式人工智能产品或服务的价格。未来,以生成式人工智能为辅助工具的创作或许会成为重要的形式,作者和著作权人会逐渐成为生成式人工智能的重要用户群体。如果要求进行经济补偿,服务提供者很容易将这部分成本转移回作者和著作权人。
2.暂时的解决方案
鉴于国内已经存在相关诉讼,通过制定或修改法律法规的方式无法及时应对已经出现的纠纷。法院可以采取宽松解释《著作权法》第24条的方式来解决。如果无法将其容纳进可能的文义之内,可以通过灵活运用“三项检验法”与“四要素检验法”进行应对,适当突破《著作权法》第24条的列举。
最高人民法院在2011年发布了《关于充分发挥知识产权审判职能作用 推动社会主义文化大发展大繁荣和促进经济自主协调发展若干问题的意见》,根据其中第8条的意见,法院可以在促进技术创新和商业发展所必要的情况下,结合“四要素检验法”和“三项检验法”突破《著作权法》第24条的列举。实践中以美国著作权法上的“四要素检验法”解释甚至替换我国著作权合理使用条款的现象时常出现。北京市高级人民法院曾经在判决中表示,考虑到人民法院已经在司法实践中认定《著作权法》第24条规定之外的特殊情形也可以构成合理使用,因此可以综合考量使用作品的目的和性质等因素,从严判断《著作权法》第24条规定之外的情形是否可以构成合理使用。此外,上海知识产权法院曾经在判决中借助转换性使用来认定合理使用。目前我国《著作权法》和其他的法律、行政法规没有将生成式人工智能训练规定为合理使用的情形,仍有必要突破《著作权法》第24条的列举,回应实践中的客观需求。

四、排除适用合理使用的情形

用作训练语料可能会在特殊情况下影响原作品的正常使用,或者不合理地损害著作权人的合法权益,无法构成合理使用。未来应将生成式人工智能训练规定为合理使用的一种情形,同时借助《著作权法》第24条规定的限制条件将可能影响原作品正常使用或者不合理地损害著作权人合法权益的特殊情形排除。


(一)生成可以影响原作品传统阅读市场的内容


生成式人工智能不仅可能输出与原作品实质性相似甚至完全相同的内容,而且可能生成不构成实质性相似但是可以影响原作品传统阅读市场的内容。例如,对于原作品的总结、分析等。原作品的潜在读者可能不再需要阅读原文,便可以借助生成式人工智能得到其希望通过阅读得到的内容。如果生成的内容会对原作品在阅读市场上产生竞争甚至替代,虽然不会直接侵害著作权,但是会严重损害著作权人的市场利益,因此无法在训练端构成合理使用,应当取得著作权人的授权许可。

对于某些作品类型而言,读者期待和享受的是阅读原文的过程,即使阅读了对某个作品的分析,仍然希望再去阅读原文,甚至在阅读了总结和分析之后会提高阅读原文的欲望,所以不会对原作品的阅读市场造成损害,例如文学作品。然而对于有些作品而言,读者只是希望通过阅读获得某种结论,此时,生成式人工智能输出的内容可能会产生竞争甚至替代效果,导致读者不需要再阅读原作品,例如科学作品。一般而言,得出一个科学问题的结论需要阅读至少数十篇文章,但是如果生成式人工智能可以直接作出分析总结,可能便不再需要去阅读原文。生成式人工智能若充分学习了相关作品,读者只需要借助模型对该问题进行分析,可能会使部分潜在读者放弃购买原作品。随着模型可解释性和可信度的提高,生成式人工智能会成为获取结论性内容的“完美”工具,某些类型作品的阅读市场或许会被完全取代。另外,潜在读者放弃购买原作品,意味着出版商、数据库等主体都难以再从阅读市场中获得收益。总之,若输出的内容能够影响原作品的阅读市场,应当排除合理使用的适用。


(二)严重损害著作权人在数据市场上的经济利益


如果生成式人工智能训练对作品的使用严重损害著作权人在数据市场上的经济利益,应排除合理使用的适用。主要包括两种情形:第一,著作权比较集中——某个著作权人享有较多作品的著作权,可以在数据市场上形成较高价值的数据集合;第二,作品本身包含了海量的数据,已经成为具备较高价值的数据集合。

著作权比较集中的情况是指某个著作权人享有较多作品的著作权。以报刊、期刊为例,期刊和报刊在取得著作权转让或者构成法人作品、职务作品等情况下享有著作权,所以可能会享有较大规模作品的著作权,可以在数据市场上形成数据集合,并且具有较高的财产价值。未经许可使用会不合理地损害著作权人的经济利益,所以无法构成合理使用。经营大型报刊、期刊的主体数量有限,服务提供者可以取得联系并进行交易。而且,报刊、期刊的作品多数为科学作品,承担着学术交流的任务,相较于文学、艺术作品的著作权人,报刊、期刊更愿意进行授权,所以不构成合理使用并不会导致服务提供者无法获得充足的报刊、期刊作品。

数据库作为数据集合,具有较高的市场价值,所有者可以通过授权许可获得经济利益,法律应当对其财产权益进行保护。未经许可使用作品数据库作为训练语料会严重损害所有者的经济利益,所以服务提供者必须取得所有者的授权。数据库的使用主要是一个市场行为,通过数据财产权保护相对更合理,但是目前相应制度尚未建立。而具备独创性的数据库本身属于汇编作品,可以先通过著作权保护数据库上的财产权益。知网等作品数据库比较全面地收录了期刊、报刊的文章,可以为生成式人工智能训练提供大量的高质量语料,而且使作品语料的获取更便捷和高效。服务提供者应积极与作品数据库所有者进行协商,取得其授权许可。


(三)训练模仿特定著作权人的生成式人工智能


理想的生成式人工智能应是具备强大理解和创作能力的工具,具备较高的公共价值。但是如果训练目的是为了与特定的著作权人展开竞争,可能会对著作权人的合法权益造成不合理的损害,应当排除合理使用的适用。

目前而言,服务提供者开发的几乎都是具有基础工具性质的大模型,具有较强的泛化能力,可以通过微调应用于各行各业。但是域外出现了一些专门模仿特定作者的生成式人工智能模型。如果被模仿作者的作品仍在著作权保护期之内,生成的内容可能会与原作品在市场上进行竞争,甚至产生替代效果,因此会对著作权人的经济利益造成较为严重的损害。此种模型可以生成与原作品风格高度相似、水平接近,但是并不存在实质性相似的内容,由于风格并不受法律的保护,因此可能无法从使用端进行规制。但是,训练此类生成式人工智能模型的目的是让其获得生成可以“伪装”成特定作者所作内容的功能。不仅在使用目的上不具有转换性,而且可能对著作权人的经济利益产生较大的负面影响,进而无法被认定为合理使用。此外,回到问题的最初,设置著作权例外的原因是授权许可模式的失效,但是训练模仿特定作者的生成式人工智能模型不存在这种情况,所以更应当取得著作权人的许可。

五、著作权人合法权益的实现与保障

(一)以低价服务作为补偿


技术的创新不能以忽视甚至牺牲公众的利益作为代价。商业性服务提供者虽然无需给予原作品著作权人经济补偿,但是需要保障著作权人在内的社会公众能够接受免费或低价的基础服务,补偿著作权人在数据市场受到的利益损失。以低价甚至免费的产品或服务作为补偿,不仅相对容易实现,而且能够实现著作权人与服务提供者之间的利益平衡。不同于以往的商业化使用场景,生成式人工智能训练并非纯粹的利用作品价值的过程,社会公众会从技术创新的成果中受益,而且可能远远超过其作品对于训练过程的边际价值。所以,虽然著作权人在数据市场的利益受到了损害,但是会在后续使用生成式人工智能工具的过程中获得充分的补偿。服务提供者在合理使用的庇护下“免费”使用作品,意味着研发成本降低,通过充分的市场竞争,最终会反应为更低的市场定价。可见,相较于少量的经济补偿,以低价甚至免费的服务作为补偿,对于著作权人和服务提供者都更加有利。

服务提供者应尽可能降低基础服务的价格,作为“免费”使用作品训练生成式人工智能的对价,保障著作权人可以低价甚至免费使用模型进行创作。如果服务提供者不能提供低价或免费的基础服务,可能会在使用端造成利益失衡,影响合理使用的成立。服务提供者“免费”使用作品训练模型,但是却反过来向著作权人收取高价使用费,难免有失公平。借助合理使用制度解决训练语料的著作权问题是在一定程度上优先考虑技术创新的公共利益价值所得到的结论,服务提供者应确保研发成果更大程度地增加公共福利。对于著作权人而言,无法取得经济补偿但需要支付高价使用费,可能会成为其使用模型的心理和经济阻碍,继续创作的激励会受到削弱。因此,给予生成式人工智能训练著作权豁免的理由或许就不再充分。所以,服务提供者应尽可能降低基础服务的价格,弥补可能在训练端对著作权人造成的损失。生成式人工智能企业可以通过很多方式获得收益,免费或低价的服务不会让其难以为继,应尽可能通过其他方式填平成本、获取利润,例如提供相对高价的增值服务。


(二)避免输出可以影响原作品传统阅读市场的内容


输出构成实质性相似甚至完全相同的内容是对原作品的表达性使用,直接构成对著作权的侵害。虽然根据机器学习的基本原理,除非出现意外记忆等情况,生成式人工智能一般不会输出训练语料的内容,但是仍可能由于算法不够完善等原因,导致侵权内容的生成。例如,纽约时报诉微软和OpenAI案中,纽约时报指控ChatGPT可以输出几乎相同的内容,可以实质上替代纽约时报。根据《著作权法》第52条和第53条的规定,如果生成式人工智能模型未经著作权人许可,意外地甚至故意地输出侵害著作权的内容,存在过错的服务提供者应当承担侵权责任,而且不排除承担行政责任和刑事责任的可能。著作权人可以请求服务提供者承担侵权责任,并采取有效措施避免继续输出以停止侵害。但是著作权人无权直接请求停止将其作品用作训练语料,服务提供者可以选择采取过滤等其他方式实现停止侵害,若无法通过其他方式实现,应停止将该作品用作训练语料。此外,模型在未经著作权人许可的情况下输出其他可以影响原作品传统阅读市场的内容,同样可能构成侵权。由于输出的内容和原作品不构成实质性相似,并非直接使用原作品的行为,因此不直接构成侵权。但是若未经著作权人许可,训练端的作品使用行为可能构成侵权。

服务提供者有义务避免模型输出与原作品构成实质性相似等可以影响原作品传统阅读市场的内容,但是考虑到技术发展处在起步阶段,受到技术能力的客观限制,服务提供者即使严格尽到注意义务,可能仍不能避免输出特定的内容。因此,服务提供者只要在当前的技术水平下充分采取了措施,便不存在过错。具体而言,应当尽到的义务主要包括:第一,采取过滤等措施避免生成构成实质性相似等可以影响原作品传统市场的内容。定期对模型进行评估,及时发现问题并予以优化。第二,规范其用户的行为,拒绝回答可能侵害他人著作权的引导性问题。《生成式人工智能服务安全基本要求》第7(g)条指出,应当采取关键词、分类模型等方式对使用者输入信息进行检测,使用者连续三次或一天内累计五次输入违法不良信息或明显诱导生成违法不良信息的,应依法依约采取暂停提供服务等处置措施;对于明显偏激以及明显诱导生成违法不良信息的问题,应拒绝回答。第三,采取有效措施抵御外部攻击。服务提供者应持续监测可能存在的风险并及时填补漏洞,避免因受到攻击而输出原作品的内容。第四,对于作品的使用以必要为限。应当在保障模型能够取得目标功能的前提下尽可能减少对作品的使用,降低在使用端侵害著作权的风险。

服务提供者若希望其模型具备更加全面的功能,使用户可以借助其产品和服务阅读特定作品的内容,需要取得著作权人的授权许可。如果出现需要大范围取得授权的情况,可以借助著作权集体管理组织或者作品数据库。我国应重视和加强集体管理组织的建设和完善,随着信息技术的发展,作品的规模化、数据化使用的场景会越来越丰富,应当确保集体管理组织可以在必要时担起重任。

 END

(责任编辑:黄绍坤)

●章志远 王雅欣:行政撤销的司法审查


●郭世杰:新形势下分裂国家罪、煽动分裂国家罪的理解与适用


●段 磊:追究“台独”顽固分子刑事责任制度安排的法理阐释


孙浩天:设立中公司发起人的信义义务



点击左下角“阅读原文”跳转到《荆楚法学》杂志网上投审稿平台,可以在线投稿!

湖北省法学会 荆楚法学
您好,欢迎关注“荆楚法学”,我们有最及时的法治新闻,最前沿的法治观点,最有温度的法治故事!
 最新文章