文/ 王迁 华东政法大学教授 博士生导师
褚楚 华东政法大学硕士研究生
摘要
在人工智能生成与在先作品相似的内容导致的侵权问题上,需要遵循思想表达两分法。在算法设计合理的情况下,人工智能生成内容完全可能与任何受著作权法保护的现有作品不存在表达相似,只存在思想相似,因此人工智能研发者不构成侵权。对于部分表达相似内容,也可能认定其生成源于纯粹技术意义上的巧合,从而否定人工智能研发者的侵权责任。在训练人工智能时使用作品导致的侵权问题上,如果训练时对作品的利用仅涉及“临时复制”,不应认定人工智能研发者侵犯复制权。这是基于国际谈判历史、立法史和正当性解释,“临时复制”在我国并非复制权所控制的行为。此外,也不应规定类似“阅读权”的“机器学习权”。
关键词:人工智能生成内容 人工智能训练 临时复制 阅读权
以ChatGPT的诞生为标志,近两年生成式人工智能(下文简称人工智能)不仅在技术上得到了突飞猛进的发展,而且也迅速实现了商业化。人工智能根据用户的提示词所生成的各种内容,包括文字、图片、音乐和视频在形式上和人创作的作品已经高度接近,甚至已经引发了许多创作者对工作前景的担忧,也由此引发了两个涉及著作权侵权的问题。
第一个问题与人工智能输出内容有关。人工智能接受训练后,根据用户输入的提示词生成的内容如果与他人在先作品相似,那么其研发者可能被在先作品著作权人起诉侵犯著作权。如在美国发生的《纽约时报》诉OpenAI公司案中,《纽约时报》指称ChatGPT根据提示词生成了与《纽约时报》享有版权的文章相同的内容,因此侵犯其版权。第二个问题与对人工智能的训练有关。要让人工智能生成高质量的内容,研发者必须先要使用海量作品对其进行训练,也就是业界所称的数据“投喂”。目前,大多数训练人工智能时对作品的使用都没有经过作品著作权人的许可,从而引发了是否侵犯著作权的问题,并已经在国外引发了一系列著作权侵权诉讼。如在美国发生的安德森诉Stability AI公司案中,原告认为,被告在训练人工智能大模型的过程中,将原告的作品作为“压缩副本”存储到人工智能模型中,使人工智能模型成为侵权衍生作品,因此被告构成对其版权的直接侵权行为。
这两类与人工智能有关的著作权侵权问题虽有共性,但存在本质区别,不能等同视之。两者的共性在于认定著作权侵权的前提是相同的。我国《著作权法》规定了复制权、表演权和信息网络传播权等一系列专有权利,其作用在于规制他人以复制、公开表演和交互式网络传播等方式利用其作品的行为。只有某种利用作品的行为受《著作权法》规定的某项专有权利规制时,未经许可实施该行为才可能构成对著作权的直接侵权。例如,故意购买盗版书阅读并不会构成著作权侵权,因为《著作权法》中没有所谓的“购买权”和“阅读权”,著作权人不能规制他人购买盗版书阅读的行为。因此无论对于人工智能生成内容引发的侵权问题,还是训练人工智能时使用作品引发的侵权问题,都需要判断相关行为是否落入复制权等专有权利规制的范围。然而,认定这两类侵权行为的重点考虑因素是不同的,下文将予以详述。
一、人工智能生成与在先作品相似的内容导致的侵权问题
对于人工智能生成与在先作品相似的内容导致的侵权问题,即人工智能是否生成了侵权内容的问题,首先需要将该内容与权利人的作品进行比对,判断其是思想相似,还是表达相似。世界贸易组织《与贸易有关的知识产权协定》(简称TRIPs协定)第九条第二款规定,版权保护应延及表达,而不延及思想、程序、操作方法或数学概念之类(统称为广义意义上的“思想”)。可见著作权法不保护思想,只保护以特定符号化体系对思想的表达。这被称为“思想表达两分法”。因此,如果甲撰写了一篇学术论文,提出了一个独到的学术见解,而乙用完全不同的文字组合、遣词造句重述了甲的学术见解,但未注明出处,那么乙的行为未构成著作权侵权,而是可能违反学术规范,甚至构成学术不端。同样道理,如果人工智能生成的绘画与一位知名画家已有画作的鲜明风格极为接近,但在由色彩和线条等因素构成的艺术造型(即“表达”)方面相去甚远,则该人工智能生成的绘画并不能被认定为是侵犯该画家著作权的侵权内容,对该内容的后续利用也不可能侵犯画家的著作权。如果判断结果是两者的相似之处不仅在于思想,还在于表达,才可能有侵犯著作权的问题。
需要指出的是,在算法设计合理的情况下,人工智能生成的内容完全可能与任何受著作权法保护的现有作品只存在思想相似。在技术原理上,可以利用算法使人工智能大模型将训练素材向量化后映射到频率空间,通过权重的调节反应元素出现的概率。最终,人工智能学到的是一种反应元素权重的统计模式。例如,当出现“月”这个字时,模型能预测到“海”“天”等相关字。著作权保护的范围并未扩展到词频、句法模式、主题标记等统计信息,因为这会阻碍思想的自由传播。实际上,统计信息在中国自古以来就已广泛存在。在声韵上,我国早有“清对浊,苦对咸,一启对三缄。烟蓑对雨笠,月榜对风帆”(《声律启蒙·下卷·十五咸》),“樵子采薪,荒径入林山寂寂。渔翁垂钓,小桥接岸水滺滺”(《正音捃言·二十一鸠·其一》)。在辞书上,《现代汉语词典》由“人”字延伸出“人才”“人困马乏”“人文主义”等一百多个可用的搭配。这种统计当然不是对诗词、文章、书籍的著作权人的侵权。更可以说,人工智能从训练素材中学习的是高频出现的共通模版,这理应置于公有领域[1]。例如,当人工智能发现“金”和“发光”出现在成千上万的句子中后,它会建立起两个词之间的联系。但是,对人工智能而言,托尔金隽永的句子“真金未必发光”相较“金子在光的照射下会闪闪发光”这样表现性欠佳的句子,却未必能影响更多的权重。在卡德雷诉Meta公司案中,法院认为,模型本身构成侵权衍生作品的观点是毫无道理的,从而驳回了原告的诉请。
与此同时,合理的算法设计完全可以使人工智能大模型不从训练素材中复制作品或通过访问数据库提取作品。因此,人工智能的输出内容可以做到不与其接受训练时所使用的作品实质性相似,而且训练素材的规模越大、越多样化,越难以生成近似输出[2]。在安德森诉Stability AI公司案中,证据显示被告模型输出的图像与原告作品仅存在风格层面的相似。更有实验证明,即便重复训练图像(即在训练数据集中多次出现的相同图像)比非重复训练图像更容易被人工智能感知,在1.75亿个由人工智能基于重复训练图像训练而生成的图像中,也只有109个近似于训练图像的生成图像。实际上,在算法本身设计合理的情况下,人工智能如果生成了与对其进行训练时使用的美术作品、摄影作品等作品实质性相似的少数图片,也可能是技术意义上巧合的结果。著作权法容忍巧合,即双方基于巧合各自对独立完成的高度近似乃至极端情况下相同的内容享有著作权,且互不侵犯对方的著作权。人工智能在仅保留用于训练的作品的思想的情况下输出海量的内容,总有可能基于巧合输出相似的表达。例如,可能某人一生都找不到长相相似的人,但如果将对比时间放宽到几万年,也是很有可能找到长相相似的人的。当然,从技术意义上说,人工智能生成与其接受训练时使用的作品实质性相似的内容,是“接触”作品在先,生成相似内容在后。究竟是认定相似内容的生成源于纯粹技术意义上的巧合,从而否定人工智能研发者的侵权责任,还是认定相似内容的生成源于人工智能对在先作品的调用,需要结合算法设计的合理性进行技术上的判断。
二、训练人工智能时使用作品导致的侵权问题
即便人工智能生成的内容只与在先作品存在思想相似,从而不能被认定为侵权内容,也不能必然得出训练人工智能时使用作品的行为不侵犯著作权的结论。因为这两个侵权问题并不相同,且相互独立。对于训练人工智能时使用作品引发的侵权问题而言,由于训练的目的是让人工智能系统地学习如何生成符合人类需要的内容,必然会将海量的作品原样“投喂”给人工智能。此种行为当然是技术意义上对作品的使用,但是否落入了著作权法中复制权的规制范围,必须结合训练的技术特征进行分析。
(一)复制权与复制行为
将作品“投喂”给人工智能以进行训练,会涉及复制权这一专有权利。我国《著作权法》将复制权定义为“以印刷、复印、拓印、录音、录像、翻录、翻拍、数字化等方式将作品制作一份或者多份的权利”[3],但没有具体规定复制行为的构成要件。总结各国著作权立法例和相关学说,可以发现,要构成著作权法上的复制,该行为应当使作品被相对稳定地固定在物质载体之上形成作品的有形复制件。可以说,复制行为与复制件是形影不离的孪生兄弟,复制行为必然产生复制件,复制件也必然是复制行为的结果。例如,在一幅画前面摆放一面镜子以让镜面映出这幅画的全貌,并不是对美术作品的“复制”,因为镜子只是暂时照出了这幅画,而没有真正地把这幅画“固定”在镜子之上,一旦将这幅画拿开,“镜中花”也就消失了。而若工匠把这幅画刻在镜面上,则这面镜子就“固定”了作品,镜子就成了美术作品的物质载体,刻有画作的镜子也就成为美术作品的复制件。该工匠的雕刻行为就构成著作权法意义上的复制行为。同样,电视台对演唱会的现场直播虽然也使音乐作品通过电视机得以再现,但被演唱的音乐作品只是通过电视机扬声器被即时地播放,并没有被“固定”在电视机中。只要歌手在现场停止演唱,电视机中也不会有音乐传出了,因此该现场直播不属于对音乐作品的复制行为。与之形成对比的是,如果电视机前的观众通过录音或录像设备对现场演唱会的直播进行录音或录像,将导致音乐作品在物质载体(录音带、录像带、硬盘等)中被稳定地固定,形成音乐作品的复制件,因此该录制行为构成复制。
由此可见,若人工智能的研发者利用作品训练人工智能的方式,是利用爬虫等技术从互联网中收集海量作品并建立作品数据库,将其存储在硬盘等物质载体上,借此对人工智能进行训练,则该行为无疑形成了诸多作品的复制件,属于受复制权规制的复制行为。
当然,未经许可实施受专有权利规制的行为未必就构成对著作权的侵犯,因为还要继续分析该行为是否落入了《著作权法》规定的权利限制范围内。例如,依《著作权法》第二十四条第一款第一项的规定,为个人学习而扫描从图书馆借入的图书的一个章节属于合理使用。如果一种受专有权利规制的、未经许可实施的行为尚未被纳入权利限制,而为了促进技术发展和维系利益平衡,有必要允许不经著作权人许可实施此类行为,就需要在《著作权法》或其他法律中,或者根据《著作权法》的授权在行政法规中增加相应的权利限制类型。目前,对于以上述方式复制作品以训练人工智能的行为,我国《著作权法》尚未规定相应的权利限制。今后是否有必要作出规定则是另一个需要研究的问题。
(二)复制行为与“临时复制”
在训练人工智能时对作品的利用,还可能存在另一种方式。那就是并不建立海量作品的数据库并保存在硬盘等物质载体上供人工智能学习,而是仅利用作品对人工智能进行实时训练。换言之,研发者只让人工智能实时将作品调入计算机内存或者硬盘划出的临时缓存区,依照预先设定的算法进行分析与归纳。这一过程的特点在于,不会将作品在物质载体上进行存储,如果终止训练并关闭计算机,则内存或缓存中的所有数据将被清空,无法再一次被调用。这一过程,非常类似于用户欣赏置于互联网中传播的数字化作品(如阅读电子书、观赏图片、观看电影)时的临时复制。在此过程中,构成数字化作品的数据会被用户的计算机、手机等信息处理设备源源不断地自动调入内存或硬盘中的缓存区,形成持续时间极为短暂的临时复制件。在20世纪90年代,由通过网络欣赏作品引发的“临时复制”问题的定性引起了争议,核心在于能否将此类“临时复制”认定为著作权法上的复制行为。回顾这场争议,会对训练人工智能过程中对作品“临时复制”的定性具有参考意义。
1.我国在参与国际谈判和制定国内法时不支持将“临时复制”定为复制行为
1996年,世界知识产权组织在其日内瓦总部召开外交会议,目标是通过旨在网络环境中保护著作权与邻接权的两个新条约,即《世界知识产权组织版权条约》和《世界知识产权组织表演和录音制品条约》。在外交会议上,美国和欧共体代表团希望对著作权提供更高水平的保护,因此要求两个条约将“临时复制”也纳入复制权的规制范围[4]。包括中国在内的许多国家并不希望将复制权的范围拓展到持续时间如此之短且仅附随于欣赏作品行为的技术现象,因此提出了反对意见。中国代表团提案要求在两个条约中将复制权的范围限于“永久复制”[5]。由于各方意见分歧严重,美国代表团提出了一项措辞模糊的关于复制权范围的议定声明(Agreed Statement)作为折中方案:伯尔尼公约第九条规定的复制权以及经允许的例外,在数字环境下完全适用,特别是适用于数字形式作品的使用。受保护作品以数字形式在电子介质中存储构成伯尔尼公约第九条意义上的复制[6]。由于担心该条中的“在电子介质中存储”可能被解释为包含“临时复制”,中国代表团团长、时任国家版权局专职副局长的沈仁干在讨论该议定声明时提出,如果第二句中的“构成”前加入“可以”(may),即受保护作品以数字形式在电子介质中存储可以构成伯尔尼公约第九条意义上的复制,则中国代表团将支持该议定声明[7]。由于各方对该议定声明无法达成共识,不得不对其进行投票。在投票前的讨论中,诸多国家代表团和时任世界知识产权组织助理总干事的米哈依·菲彻尔均表示,“存储”一词可以由各国作不同的解释。最终,在几十个国家的代表团已经离场的情况下,该句经历了两轮投票,在存在诸多弃权票和反对票的情况下得以通过,而中国代表团对该句投了反对票[8]。根据《维也纳条约法公约》第三十一条第二款的规定,只有“全体”当事国间因缔结条约所订与条约有关之任何协定(Agreement)才有解释条约的法律效力。若未达成共识,自不必受其约束[9]。同时,该议定声明中的“存储”是否包含“临时复制”并不明确,投票之前的讨论也充分说明各方完全可以自行对“存储”做出解释。由此可见,国际上对于“临时复制”是否属于复制权所规制的行为并未达成一致,而我国政府并不赞同将复制权的范围扩大至“临时复制”。
在我国《信息网络传播权保护条例》起草过程中,“临时复制”的法律定位曾是焦点问题之一。《信息网络传播权保护条例》的一个草案曾经出现过承认“临时复制”为复制行为,受复制权控制的条款。该草案第三条规定:著作权法……规定的复制权,适用于以任何方法或者形式对作品、表演或者录音录像制品进行的永久或者暂时的、全部或者部分的复制[10]。该规定实际上承认了“临时复制”为受复制权规制的行为,但最终未被立法者采纳。国务院法制办公室教科文卫法制司的条例起草参与者指出:“国际上对禁止临时复制有很大争议,在互联网条约制定过程中,包括我国在内的发展中国家明确反对禁止临时复制”,同时“在著作权法未对临时复制作出规定的情况下,条例也不宜规定禁止临时复制”[11]。由此可见,在我国现行法中没有将“临时复制”纳入复制权规制范围的法律依据。
2.不认定“临时复制”为复制行为具备正当性
“临时复制”是一种附带发生的客观技术现象。通过网络欣赏作品虽然在客观上可导致在内存中对作品的短暂再现,但它只是计算机运行中的附带步骤。它不会产生一个具有可流通性、可利用性的,具有独立经济价值的复制件。因为作为在线欣赏作品等行为的附带性后果,作品或其片段会被临时保存在内存或缓存中,但这只是作品在被利用过程中的技术现象。在计算机对作品的任何一部分的调用结束时,该部分的“临时复制”也随即消失,不能为下一次操作所用。因此,“临时复制”完全依附于计算机对作品的其他操作行为,它产生于该操作的开始,结束于该操作的结束。被临时复制的作品或其片段只于在线欣赏作品等行为过程中产生和存在,不可能脱离该行为而被独立利用,不具有被独立利用的经济价值。
可能会有观点认为,只要人们一直开着计算机,那么临时复制件就不会消失,由此否定临时复制的无独立经济价值属性。若按此逻辑,则人通过镜子看书也会构成侵权,因为只要人有足够的耐心举着镜子,那么镜中的作品映像亦非转瞬即逝[12]。又如,当使用带有LCD屏幕的数码照相机指向一幅油画时,油画的画面先进入了相机内存后才被传送到LCD屏幕上。这期间存在对作品的“临时复制”。当人观察屏幕时,人的视网膜上也会对作品进行“临时复制”。而法律显然不会将仅通过数码相机LCD屏幕看油画,甚至通过眼睛看油画的行为认定为受复制权规制的复制行为。
正是因为“临时复制”并未被纳入我国著作权法中复制权的规制范围,我国司法实践不认可将临时复制纳入复制权范畴。最高人民法院要求各法院参考人民法院案例库的类似案件作出裁判,而该库收录了易查网案。审理易查网案的法院认为,对网页的转码行为是否构成著作权侵权需要视具体情况而定,需要考察其中的复制是否短暂及临时、是否转码技术所必须、是否具备独立的经济价值等因素[13]。审理该案法院实际上就是在通过各种因素衡量被告行为是否构成“临时复制”。审理该案法官明言,“临时复制”不受复制权控制,否则会违背著作权法促进社会主义科学事业的发展与繁荣的宗旨[14]。
(三)“临时复制”与使用作品训练人工智能
如上文所述,在使用作品训练人工智能时,有可能并未将海量作品以数据库的形式为日后训练等用途进行存储,而只在内存或缓存中发生了“临时复制”。这将导致在内存或缓存中被临时保存、调用的作品只在训练过程中存在,无法脱离该过程被单独利用。在训练结束时,这部分作品随即消失,无法稳定保存于内存或缓存中为下次所用,从而不具有独立的经济价值。
可能会有质疑称,对人工智能进行训练的整体时间很长,不再是“临时”的,因此在内存或缓存对作品的保存仍然应当评价为复制行为。但“临时复制”不被认定为复制行为的关键不在于时间的绝对长短(否则如上文所述,一直举着镜子看书也成了复制行为),以及是否具有某些价值,而是在于其是否有被单独利用、传播的独立价值。“临时复制”的价值体现在,是完成其他行为(比如在线欣赏作品或让人工智能进行学习)的必要技术过程。但脱离了这一过程,就无法对曾经被临时保存的作品或其片段进行单独利用、传播。欧盟法院指出:只要对作品的保存没有超出为完成相关自动技术过程所需要的时间,且被保存的作品在技术过程完成后即被自动删除,而无需人工介入,这种保存就符合对临时性的要求。
具体到训练人工智能这一过程而言,其核心在于让人工智能通过“阅读”作品进行学习。这与人通过阅读作品进行学习具有可比性,本身并不违法,也具有促进技术进步的社会功能。人工智能与人“阅读”互联网中的作品,都会在内存或缓存中形成“临时复制”,这与人直接手捧书本进行阅读,而在视网膜上映出作品,在功能上没有本质区别,只是赖以实现的手段不同。这些“临时复制”都是为了进行阅读、欣赏与学习而产生的附带技术现象,其临时保存的内容无法供公众消费,更谈不上在此基础上的进一步利用、传播,因此没有产生合法使用作品之外的利益,不具有独立经济价值。需要指出,美国固然将临时复制纳入复制权范畴,但是美国法院在相关案件中,也释明了此种“复制”与合理使用的关系。如果被告的人工智能仅学习原告作品中的语言模式来生成司法意见摘要,那么训练过程中的复制就能够构成合理使用,不侵犯版权。虽然该观点是以“临时复制”属于受复制权规制的行为为出发点的,但最终结论仍然是不侵权。因此,美国法院判断的核心依旧落脚于人工智能是否存储了用以对其进行训练的作品。即便立法范式不同,但基本原理相通,可谓殊途同归。
由此可见,“临时复制”在我国并非复制权所控制的行为。而训练人工智能时如果对作品的利用仅涉及“临时复制”,不应认定侵犯复制权。
三、是否需要创设“机器学习权”
前文已述,著作权法中没有所谓“阅读权”,因此故意阅读盗版书的行为并不侵权,与此同时,如果使用作品训练人工智能仅涉及“临时复制”,并不会构成复制权侵权。如果希望将此类训练行为纳入著作权人的控制范围,就需要修改目前《著作权法》的规定了。有观点就认为,应当创设“机器学习权”用于规制训练人工智能时对作品的利用[15]。如果新增了此项权利,那么即使训练时只涉及对作品的“临时复制”,也应当经过著作权人对“机器学习权”的许可。否则,该训练行为即便不会侵犯复制权,也会侵犯“机器学习权”。
著作权法中的权利内容,当然是随着技术的进步而不断扩张的。如信息网络传播权就是为了应对作品通过互联网迅速传播的技术现实而规定的。但是,在著作权法中增加新的专有权利必须具备充分的正当性,而规定类似“阅读权”的“机器学习权”并不具备这样的正当性。
首先,“机器学习权”的本质就是“阅读权”,只是前者规制人工智能研发者经由机器的阅读,而后者规制更大范围的人的阅读,两者具有本质上的同一性。如果“阅读权”不具有正当性,那么作为特别规定的机器学习权也难言正当。如果现实中确实有一项名为“阅读权”的权利,那它的性质也不是与复制权、表演权和信息网络传播权并列的,用于规制他人未经许可阅读作品行为的专有权利,而是一项基本人权。联合国教科文组织在《图书宪章》第一条开宗明义:“人人都有阅读的权利。社会有义务保证每个人都有享受阅读的机会。”而《中华人民共和国宪法》第四十七条与《世界人权宣言》第二十七条均把公众进行文化活动的自由置于著作权法的正当性来源条款之前。
其次,从比较法的视角来看,没有任何国家在著作权法中规定了“机器学习权”,也没有规定作为其基础的“阅读权”。英国最高法院在2013年的一项判决中曾指出,一个人阅读受保护作品的盗版,或者是观赏伪造的受保护的油画,并不构成侵权,虽然向此人销售该盗版或伪造油画的人可能实施了侵权行为。这是否定“阅读权”存在的典型表述。
最后,人工智能对作品的“阅读”(或者从另一个角度观察,即训练人工智能时涉及的“临时复制”)对权利人的影响有限。这是因为训练人工智能本身不会导致作品被公众获取。而且训练旨在让人工智能对作品中包含的各类信息进行概率统计,学习作品中的风格,这一目的本身合法且具有社会效益。如上文所述,只要算法设计合理,人工智能生成与在先作品实质性相似内容的概率并不大。即便生成了侵权内容,也可以依著作权法的相关规定予以解决,与训练人工智能时使用作品是完全不同的问题,不能混为一谈。类比而言,未经许可复制电影构成侵权也不影响未经许可观看电影、借鉴学习的合法性。
四、结 语
自2022年ChatGPT推出以来的短短两年内,人工智能已迭代多次,让人不禁诧异于它的日新月异。技术的发展可能一日千里,但法律的基本原理和逻辑却能在相当长的时间内保持稳定,因为新的技术现象并不一定总能带来足以颠覆现有规则的新问题。要解决与人工智能有关的诸多著作权侵权争议,有的可能需要立法者在慎重考虑后修改法律,而有的则只需要适用现有的规则或基本法理。但无论如何,这都是在立法、司法和学术研究中需要认真对待的课题。
(本文为授权发布,仅代表作者观点,未经许可不得转载)
近期活动