上政学报 | 小亨利·H. 佩里特著,刘铭鑫、江 东译:机器人如海盗

文摘   2024-12-10 19:30   上海  

点击蓝字

关注我们


经典译介


机器人如海盗


本文刊登于《上海政法学院学报》2024年第6期

摘  要

生成式人工智能在文学和图形领域的潜力令人振奋,因为它可以创造新作品。通过分析庞大数据库(公开可用和资料开源)中既有材料元素之间的关系,作为生成式人工智能基础的机器学习技术得以运行。这些算法“学习”预测不同类型表达中“接下来是什么”来进行创作。因此,一个完整的人工智能系统可以熟练地撰写事实性总结、文章、虚构的故事以及生成图像。生成式人工智能引擎会使用一些原始材料,这些原始材料的作者主张机器学习过程中侵犯了他们的版权。对实际和可能的主张进行谨慎评估,可以发现,声称侵权的原告在证明复制、发行、展示以及制作演绎作品方面将面临困难,因此在既定的法律原则下,不太可能构成版权侵权。然而,对未经补偿的使用行为的担忧,可能会促使围绕原创内容增设更多付费屏障,并催生更多的集体许可。


关键词

人工智能责任;版权侵权;版权管理信息;版权集体管理


作  者

作者:小亨利·H. 佩里特(Henry H. Perritt,Jr.),芝加哥大学肯特法学院教授。

译者:刘铭鑫,西南政法大学经济法学院博士研究生;江东,西南政法大学法学院博士研究生。

刘铭鑫

江东

引用格式

小亨利·H. 佩里特著,刘铭鑫、江 东译:《机器人如海盗》,《上海政法学院学报》(法治论丛)2024年第6期。


目  次

一、引 言

(一)人工智能生成的两个故事

(二)对故事的批判性分析

(三)文章的范围

二、技 术

(一)机器学习

(二)模式匹配

(三)学习数据库

(四)创建

(五)硬件

(六)特定引擎

三、侵权法

(一)第106条规定的有限垄断

(二)专有权利

(三)特定作品的识别

(四)仅限于受保护的表达形式

(五)间接侵权

(六)合理使用:四个因素

(七)转换性

(八)原告举证难点

四、删除《数字千年版权法》数字版权管理信息

五、版权目的的考量

六、结 语



一、引 言
(一)人工智能生成的两个故事
1.Philander 的文学杰作
笔者要求ChatGPT3.5:“告诉我一个关于生成式人工智能(以下简称AI)如何侵犯Philander版权的故事——Philander写的一篇文章被生成式AI程序所学习。”以下是回答:
从前,有一位名叫Philander的作家,他写了一篇在文学界被认为是杰作的文章。他的文章广为人知并受到赞赏,并被世界范围内的院校所讲授。Philander自豪于他的作品,却未曾料到,有朝一日它会成为与生成式AI程序之间版权纠纷的焦点。
根据设计,这一AI程序从包括Philander文章在内的大量文本数据库中学习。它被从输入数据中学到的模式和结构所训练,并基于此生成新内容。该程序非常成功,能够生成几乎与人类写作无法区分的高质量作品。然而,此处存在一个问题。AI程序从Philander的文章中学了太多,以至于无意中复制了原作中的一些关键语句和创意。这并非有意,而是程序训练方式的结果。当Philander得知此事后,理所当然地,他感到了不安。他花费了多年心血撰写这篇文章,现在一台机器未经许可就复制了他的作品。他决定对AI程序的开发人员采取法律行动,诉称他们侵犯了他的版权。法院审理了该案件,经过深思熟虑,法官裁定Philander胜诉。AI程序开发人员被判令向Philander支付一大笔损害赔偿金,并且被要求删除所有使用Philander 文章所生成的内容。
这一事件引出了AI程序生成内容所有权的重要问题。虽然开发人员辩称AI是一个独立的主体,他们无法控制其生成的内容,但法院最终认定开发人员应对其开发的AI程序所导致的任何侵权行为负责。
最终,这个案例为任何使用生成式AI的人提供了警示。此案强调了开发者需要关注版权法,并确保他们的程序不会无意中侵犯他人的权利。同时,对于像Philander这样的作家来说,此案表明,即使在AI时代,原创作品的价值怎么强调都不为过。
2.Debbie关于AI的文章
笔者要求ChatGPT 3.5:“告诉我一个关于生成式AI如何侵犯Debbie版权的故事——Debbie写的一篇文章被生成式AI程序所学习。”以下是回答:
从前,有一位名叫Debbie的女性,她写了一篇关于人工智能主题的精彩论文。她的文章研究透彻、构思巧妙、措辞专业。Debbie自豪于自己的工作,并在网上分享,供其他人阅读和学习。
Debbie不知道的是,一家公司开发了一个功能强大的生成式AI程序,经过设计,该程序旨在从现存的作品内容中学习知识,并在此基础上生成新文本。该程序经过数百万份文件的训练,其中包括Debbie的论文——这篇文章已经被该程序细致地剖析了。
该程序非常精巧复杂,能够创作出完全新颖且听起来宛如人类撰写的文章。拥有该程序的公司已对其技术申请了专利,并为各种目的使用该程序创建原创内容,包括营销活动和新闻文章。
某日,Debbie偶然发现了一篇听起来与她的论文高度相似的文章。仔细阅读,她才发现文章中的很多内容都直接照搬她的作品。这让她感到既震惊又沮丧,她辛辛苦苦写的文章在未经她同意的情况下被盗用了。
Debbie决定对使用她的论文来训练生成式AI程序的公司采取法律行动。她诉称该公司侵犯了她的版权,她有权就未经授权使用她作品的侵权行为获得赔偿。
该公司辩称,他们设计程序的目的并不是为了完全复制现有作品,而是在深入理解这些作品语言和风格的基础上生成新的内容。他们主张,由于该程序创造了新的文本,他们没有侵犯Debbie的版权。
法院审理了此案,法官最终作出了有利于Debbie的判决。法官认同Debbie的观点,即生成式AI程序确实使用Debbie的论文,以此为基础创建新内容,因而侵犯了Debbie的版权。因为该公司未经授权而擅自使用他人作品的行为,法院判令该公司向Debbie支付一大笔赔偿金。
Debbie的故事提供了一个警示,告诉我们生成式AI技术的潜在隐患。虽然这些程序有可能创造出令人惊叹的新内容,但必须负责任地使用它们,并尊重像Debbie 这样的创作者的权利。
(二)对故事的批判性分析
这些故事与每天在报纸、杂志、博客、广播和电视报道中以及在联邦地区法院提起的至少两起诉讼中讲述的故事相似。公众对生成式AI的兴趣已然急剧攀升。
记者和评论员急切地报道:生成式AI可以作曲,编写计算机编程代码,撰写体育故事,报道财经新闻,写诗,在法学院和商学院的考试中写出及格答案,写历史论文,生成动画电影,并解释深奥的工程概念。但是,关于该技术如何侵犯版权的恐怖故事也在媒体报道中随处可见,而技术本身可能并不能成为享有版权的主体。此外,批评者声称,生成式AI加剧了“有害”(harmful)内容的传播,促进了“错误信息”(misinformation)的扩散,使操纵成为可能,诽谤无辜的受害者,威胁到既有的工作岗位,并普遍地侵蚀了社会联络。
有关上述问题,本文讨论其中之一:一种侵权的可能性——机器人生成的内容可能侵犯了作品数据库中作者的版权,这些数据库是机器人学习的材料来源。本文得出的结论是:版权人很难追究版权侵权行为人的责任,因为版权人很难证明他们特定作品中受保护的元素被复制、改编、公开发行、公开展示或公开演出。即使他们能够证明这一点,要素合理使用这一抗辩也会让法官倾向于免除生成内容的机器人的侵权责任,因为它极具创新性。
生成式AI程序及其用户不太可能因版权侵权而承担责任,这符合宪法中专利和版权条款以及版权法案的政策。让生成式AI作者有喘息的空间,有助于激发创造力。法院、立法者以及监管机构应审慎对待将版权责任扩大至这一新技术的提议。
文章开篇提及的两个由机器人生成和编写的故事,对于引入生成式AI系统输出可能涉及的版权侵权责任问题具有重要作用。第一,尽管提示词几乎一致,但两个故事之间的差异展示了AI开发者所说的系统输出的多样性,并印证这一观点:即系统并不是简单地检索其所学数据库中的既有作品。第二,ChatGPT机器人为一个故事选择了一篇技术性论文,为另一个故事选择了文学作品,这就为我们评估输出内容的性质是否可能在侵权索赔中产生影响奠定了基础。第三,两个不同故事中使用的特定词汇和短语凸显了法律分析中重要的构成要件。
就像大多数记者报道一样,关于Philander的机器人生成故事同样需要经过批判性分析,以确定其法律结论是否合理。故事中嵌入的四个短语是法律分析的切入点:“复制了一些关键短语和创意”,“无意中”和“并非有意”,“它从输入数据中学到的模式和结构”,以及“AI是一个独立的主体,他们无法控制其生成的内容”。
第一个短语描述的是逐字复制,如果复制的内容是受法律保护的,那么这就构成了侵权。第二个短语似乎在进行辩解,但缺乏侵权主观故意并不构成抗辩。然而,如果版权所有人主张的侵权责任成立,这可能会影响赔偿。
在Feist Publications, Inc. v. Rural Telephone Service Co. 一案中,“模式和结构”,即第三个短语,被解释为,即使构成这些模式和结构的原始事实本身不受版权保护,但对这些事实的选择和编排排方式却可能构成受版权保护的作品。
第四个短语中的“独立主体”,可就此讨论替代责任。
围绕Debbie故事中的三个短语展开法律分析:“很多内容都直接照搬她的作品”;“他们主张,由于该程序创造了新的文本,他们没有侵犯Debbie 的版权”;“使用她的论文,以此为基础创建新内容”。
第一个短语描述的是逐字复制。如果复制的内容受法律保护,那确属侵权。如果机器人只复制了一个想法或仅仅复制了事实,那么版权保护并不能延伸至此类情形。
第二个短语似乎构建了一种辩护框架,但重点聚焦于“新”和“创造”这两个词。的确,如果系统独立地创建了与Debbie相同的新文本,而没有复制她的文本,那么就不存在侵权。
第三个短语是对法律的错误表述。使用受保护的表达方式作为创作新内容的基础并不构成侵权,除非侵犯了作者的专有权。大多数作品都是站在既有作品的肩膀上。
(三)文章的范围
除了以两个机器人编写的故事作初始分析之外,本文还评估了两起真实的诉讼案件,这两起案件的诉请都是生成式AI程序的输出侵犯了其学习数据库中受版权保护材料的权利人的权利。GitHub诉讼一案中,微软的Copilot和Codex产品以及产品分销商GitHub通过删除开源许可证所要求的通知声明,侵犯了已存开源软件代码作者享有的权利。大多数许可证都要求注明作者并声明其版权。
Stability AI诉讼一案中,Stability AI的产品Stable Diffusion,“未经版权许可,便获取了数十亿张受版权保护的图像的副本”,并将其用作训练图像。当Stability生成新图像时,诉讼指控:“这些新图像完全基于训练库中的图像,是训练库图像的演绎作品。”
本文解释了生成式AI的技术,重点介绍了它如何运用构成其学习数据库的现有材料。然后,本文回顾了版权侵权法,包括合理使用,以及干扰版权保护机制的法律规范。这些部分探讨了法院如何界定受保护的表达和不受保护的思想和事实。下一部分强调了原告面临的具有挑战性的证明障碍,并认为版权法的宪法目的——促进创造力——最好通过轻微限制侵权法来实现。然而,仅仅对版权的侵权提起诉讼——这一威胁就可能抑制创新和创造力,为深度学习数据库中的作品开发新的许可制度,可能是减轻诉讼威胁的最佳方式。
本文是关于生成式AI法律问题五篇系列文章中的第二篇。第一篇文章《机器人的版权?》思考了生成式AI程序的输出是否有资格获得版权保护的问题。三部曲中的第三篇文章探讨了生成式AI程序传播有害内容(如诽谤、侵犯隐私、故意造成精神痛苦或窃取商业秘密)的责任问题。文章分析了《通信规范法案》(Communications Decency Act)第230条在保护AI系统免于承担此类责任方面所起的作用。第四篇文章质疑了监管AI的急迫性,并对监管替代方案进行了分类。第五篇文章的结论是:生成式AI对经济工作中岗位总数的影响不大,甚至具有积极作用。
二、技 术
生成式AI系统利用数据分析、大计算能力以及现存材料的大数据库,学习如何创造新内容,这些内容既与大数据库中的表达类似,又对其进行了填充和扩展。这些系统能够编写并解释计算机程序代码,讲述故事,撰写有关历史或技术的论文,编曲,以及创造静态照片和长篇动态视频。为了实现这一点,它们从数据库中包含的数以百万、有时是数十亿的既有作品样本中,合成语言、视频描述、音乐或其他主题的特征。这种合成过程被称为“机器学习”(machine learning)。然后,系统使用复杂而精巧的“模式匹配”(pattern matching),将所学的语义概念与用户提供的提示关联起来,最终生成出具有创造性的材料。
底层的数学模型和统计算法已有50-100年的历史,但得益于计算能力、低成本存储以及宽带通信链接的巨大进步,底层数学模型和统计算法的能力得到了前所未有的提升;软件的发展,包括技术的革新、新模型以及开源工具箱,也起到了推动作用;再加上大数据的完善——即互联网革命,使得世界上大部分信息只需点击电脑鼠标就能以数字形式获得。
(一)机器学习
“机器学习是(计算机)无需被明确编程即可学习的能力。”“深度学习则利用神经网络从数据中提取模式。”生成式AI使用深度学习,开发出一套非常精细的表达元素粒度工具箱,然后能够根据用户的指令,重新组合成连贯的输出内容。在所有情况下,机器学习的作品都来自庞大的训练样本数据库。它使用相关的统计技术和数学方程式将数据解构为定量特征,并预测这些特征如何相互关联。
所有深度学习都涉及多层级的特征提取。例如:在面部识别中,最低层机制会识别并提取代表边缘和线条的大约半打像素群;稍高一层的机制将角落和曲线组合起来予以识别;更高一层的中间层机制识别颜色、阴影和纹理;再高层级则可以辨别眼睛、鼻子、耳朵、角落、颜色、阴影和纹理;最高层级识别面部结构c。每一个逐渐升高的层级都把较低层级的特征与图片的语义方面联系起来,随着层级向上逐渐增加,其通用性也在逐渐增加。
只要为学习数据库提供足够多主题必要的多样性图像,该系统就可以学会如何以数字方式呈现各类图片的特定细节。它还可以学会如何将这些细节和特征组合起来,创造出全新的、有意义的图像:一张脸、一架直升机或一场野火。这项技术的先进性是建立在更专业的图像处理技术基础之上,例如与计算机辅助断层扫描、视频游戏自动动画、人脸识别和物体识别相关的技术。图像处理、语言处理和音乐处理的深度学习系统彼此相似,因为它们都是从其主题内容的最细粒度元素开始工作,并使用统计技术构建一个语义树,从而可以从中生成新的图像、语言或音乐制品。
然而,用以学习的数据库的内容是完全不同的,语义表达也是如此。数据库的内容和所使用的特定技术因主题而异。人脸识别程序使用人脸数据库;放牧程序使用牛的图像;音乐程序使用音乐作品数据库;计算机编码程序使用计算机代码的片段;图形图像创建程序使用数百万张图像;文本生成程序使用数百万个故事、文章和信息表。
对于某些类型的数据,机器只需学会预测特定信息元素之后应该出现什么,这就足够了。给定程序的名称,计算机编码程序可以预测执行该程序应遵循的代码行。在给定调号和和弦进行的指示后,一个音乐作曲程序可以通过预测主音和弦后面的一系列和弦序列来编写一首歌曲的基调。告诉拍号并指示切分音,它就会知道不要在小节的第一拍开始一个音符。
系统通过最小化其“损失函数”(loss function)——即通过对接续内容的错误予以计算来进行学习。例如,在图像识别系统中,一些样本包含目标图像,而其他样本则包含其他内容。因此,通过呈现成千上万张不同种类动物的图像,可以训练一个机器人牛仔只标记那些代表奶牛、公牛、阉牛和小牛的图像,以此来让机器人牛仔识别出牛这一物种。计算机系统通过神经网络实现的统计分析,来评估哪些图像与标记的样本相匹配。损失函数定量地算出系统将蛇标记为奶牛和将兔子标记为公牛的次数。通过重新计算各个层级中的数值,模型最小化其损失函数并汇合于代表牛的一组定量模板。机器学习技术可以应对在不同方向、不同光照条件和不同背景下识别目标图像的挑战。机器人牛仔系统中的多层级识别可以让机器人了解:什么是牛;学习如何调整图像的方向,以便更容易地将图像与其他图像进行比较;了解特定动物的独特特征。它还能改进算法和模板,以便将这些步骤应用于生产系统中的任意一组图像。
一般来说,图像识别技术的工作原理是扫描图像的线条,就像激光打印机或办公扫描仪一样,寻找亮度和颜色的不连续性。从这些不连续性的位置开始,就可以构建出图像的模型。然后,通过神经网络中复杂的层级结构,采用统计算法,比较图像之间不同类型不连续性的位置,从而识别出最相似的图像,并逐层进行分析。相似性指标是最高层级的特定特征,可区分牛与狼,或一头公牛与另一头公牛。
“机器学习”这一标签适用于识别具有统计显著性意义的区别特征。这种分析并没有什么神奇之处:它就是因子分析,这种方法已经作为社会科学的方法论使用了100多年。统计预测信息工件中的后续内容也非新事。这是诸如MP3音频、JPEG照片和MPEG全动态视频等压缩算法的基本原理。变化的是计算能力、数字存储的可用性、廉价的数码相机以及大量数字化人脸图像库存。
在人脸匹配中,过程是相同的,只是基础层会检查大量人脸图像(训练数据库),以学习什么是人脸。
对于人脸识别程序来说,最重要的测量值是两眼之间的距离、鼻孔的宽度、鼻子的长度、颧骨的高度和形状、下巴的宽度、前额的高度以及其他参数。然后,将获得的数据与数据库中的数据进行比较,如果参数一致,则可识别出该人。
特征测量值可以表示为“特征向量”(feature vector)或“脸谱”(faceprint),它代表了一张特定的脸。
当感兴趣的领域是自然语言而非图像时,机器学习也能发挥类似的作用。文本程序解析数据库中的文本,将单词、短语和句子相互关联,并与语义概念的层次结构相联系。然后,程序根据从样本中学习到的语法规则,在触发特定语义概念的提示下,组合适当的单词和短语,输出连贯的故事和文章。
这是一个自下而上的学习过程:首先,区分单个词语,然后评估词语在短语中一起出现的频率,再将短语与概念关联,最终构建一个概念层次结构——即语义树——这与传统的词典无异。损失函数量化了系统预测的准确性。复杂精巧的网络会反馈其结果,并与实际数据进行比较,从而计算并改进损失函数。
最近一项关于生成式AI的专利,详细解释了生成式AI文本系统在技术层面的工作原理。这份长达51页的专利详细说明了如何使用机器学习来训练一个系统,使其以“像我一样说话”的风格生成自然语言的输出内容。在基本层面上,自然语言分析器和生成器使用同一个本体网络:一个复杂的计算机化词典,这一词典将语言概念分类,并根据语言概念之间的相互关联关系进行组合。这样的结果是一个特定语言的语义框架被搭建起来。特定词语被插入与其适配的本体类别中,从而成为用以组织整个语言的词汇。
系统将训练文本解析为句子,使用模式匹配来分类每个句子中表达的概念,然后相应地分配语义标记。通过使用锚定词构建指示性上下文,这些词表明周围的句法单元应作为教学示例处理。例如,指示比较的锚定词包括“增加、缩小、减少、下降、上升、下跌、提高、降低”。每个语义概念都指定了锚定词。一个完整的系统可能会使用数十种独立的专利方法。
该专利中描述的系统,使用自然语言处理流程中的元数据来识别概念表达,并最终将其表示为与Transformer 模型( 即一种基于 自注意力机制的深度学习模型,以下简称Transformer)结构兼容的注释模板形式。通过纳入锚定词可以对概念加以识别:这些锚定词是某一特定概念所独有的单词或复合词。该专利提供了23个表示“变化”概念的锚定词示例。该专利提供了10个表示“比较”(compare)概念的锚定词示例,以“更多”(more)和“更少”(less)开头。该专利总结了以下流程:
1. 将文档拆分为句子。
2. 对于每个句子:
(1)预处理依存关系和句子成分标准,以进行实体识别的命名;
(2)利用系统本体中有影响力的用户数据来识别和标记已知资源(实体和属性)。
3. 对于每个经过预处理的句子:
(1)针对每个概念,通过单独的模式匹配器处理句子;
(2)针对每个模板提取器,应用一组启发式方法,从被解析的句子中提取相关子树,并将句子参数化为与Transformer兼容的形式。
通过从锚定词向上移动到包含锚定词的完整子句来实现子树提取。
最先进的机器学习系统使用Transformer,即ChatGPT 中的“T”。Transformer是一种神经网络架构,能够“记住”序列中的前文内容(可能很靠前),无论这些内容是单词、想法、声音还是图像。从而使其比常见的递归神经网络更好、更有效地预测下一步内容。Transformer使用卷积神经网络和注意力模型。
在音乐领域,学习过程包括将音乐录音或乐谱解析为其最基本的成分,包括音高、时长、音量、顺序以及音符的同时性。然后,逐步上升到更高层级,它学习如何将这些成分的模块关联到节奏模式、拍号和调性。再往更高的层级,它学习涉及重复音乐曲段模式的短语和句子,例如奏鸣曲的呈示部、展开部和再现部,或者摇滚歌曲的主歌- 副歌-主歌-副歌-桥段结构。除了预测数据库中特定音乐片段接下来可能出现的概率之外,像MuseNet这样的生成式AI系统还在不同作品和多位作曲家之间(例如Green Day和帕赫贝尔或披头士和贝多芬之间)基于统计建立关系。
图像和文本生成程序需要相较于单纯预测所要求的复杂处理能力更高的复杂性。图像程序使用扩散和插值的组合来表示数据库中的图像,然后根据用户提示重新组合这些图像的小片段。对数据进行一定程度的人为标记后,这个过程才能有效运行。
深度学习模型使用神经网络Transformer架构,从海量数据中学习主题特征。例如,MuseNet使用Sparse Transformerd的重新计算和优化内核,训练一个具有24个注意力头的72层网络,并能够对4 096个标记的上下文中实现充分注意和全神贯注。“这种长上下文可能是它能够记住作品中长结构的原因之一……”
(二)模式匹配
AI系统在多个层级上使用模式匹配技术。在学习阶段的底层,AI系统使用这种技术来检测相关信息的原始特征,例如图像中的边缘、文本中的空格或标点符号等分隔符。在处理的最高层级上使用模式匹配技术分析被插入语义树位置中定位信息,AI系统可以利用这一信息。语义模式匹配涉及确定两个单元是否具有相同的意义。这些单元可以是句子,可以是音乐片段,也可以是图像。模式匹配系统将上述单元编码为向量,其变量对应于系统通过机器学习技术从大型数据库中学习到的内容。这些变量反映了高级语义树中的条目。然后,它运用统计相似性度量来确定它们是否具有相同的意义。
面部匹配程序在最高层级上执行模式匹配,以选择与提示面孔最接近的匹配项。语义可能性是来自系统注册数据库的实际面孔。然而,其他生成式AI应用程序并不会从数据库中选择整个作品——即使是面部匹配程序也不会学习数据库中的图像。相反,它们会将从单个学习数据库条目中推断出来的属性予以聚合。然后,基于将这些属性与用户提示进行匹配,它们组合构建出新的创作。当然,有人可能会构建一个生成式AI程序,盗用特定输入并呈现在其输出内容中,但这并不是该技术的常规运作模式。
一位作者给出了一个用Python语言编写的语义搜索引擎的示例。该程序的基本技术被用于处理一些信息,这些信息来源于大型学习数据库,生成与数据库信息相关的问题,并为学生提供对话式计算机辅导员。基于模式匹配的搜索理念——这一基本思想已经应用了10年或更长时间,以改进自由文本的检索过程。Westlaw和Lexis都具备自然语言搜索功能。基于文本的系统,它的进步使得检索概念(语义类别)得以可能,而不像之前那样仅仅是对文本的字面字符串的检索。
(三)学习数据库
大语言模型从诸如CC-100g或Pileh这样的海量文本数据库中学习。通过爬虫爬网构建这一数据库,其来源包括FreeLaw和PubMed等专业来源、Reddit等在线讨论组、古登堡书籍收藏和维基百科。
NVIDIA使用的来源包括:
1. 网页,包括文章、博客和新闻报道。
2. 书籍,包括小说、非虚构作品和学术著作。
3. 来自各个领域的科学论文,包括物理学、生物学、化学等。
4. 来自Twitter、Facebook和Instagram等平台的社交媒体文本数据
5. 来自各种来源的新闻文章,涵盖当前事件和趋势。
6. 聊天记录和客户服务互动,以更好地理解自然语言并提高对话能力。
用于编写计算机编程代码的模型可以从公开可用的数据库中学习。GitHu允许开源开发者通过将其开源代码放入GitHub的互联网访问服务器上的公共存储库中,使全球其他开发者可以免费或低成本地获得和使用这些代码。关于用于训练被指控的生成式AI系统的计算机程序代码的来源,GitHub起诉书中语焉不详。诉讼文书中提到:“GitHub和OpenAI对于用于训练和运行Copilot的代码或其他数据的来源和数量提供了不一致的说法。”在其他方面,诉讼文书提及:“虽然被告一直讳莫如深,不知道使用了哪些数据来训练AI,但他们承认训练数据包括大量可公开访问的存储库中的数据。”起诉书简要解释了生成AI软件的工作原理:“Codex 和Copilot是向软件编程人员提供的基于人工智能的辅助系统。这些AI系统分别在大量可公开访问的软件代码和其他材料(包括所有已经获得许可的材料)的语料库中进行训练。”
图像模型使用数10万张不同来源的图像构建起学习数据库,其中有些图像还带有标记。StabilityAI诉称,网站上搜索的50多亿张图片构成了Stable Diffusion的训练数据库。
总部位于德国汉堡的LAION(“大规模人工智能开放网络”)拥有一个名为LAION-400M的数据集,其中包含4亿张带有文字说明的训练图片。eLAION-400M 中的训练图像及其文字说明都是从网页或其他来源复制或抓取得到的,而未经图像所有者或网站运营商的同意。LAION-400M经过扩展之后发展出了LAION-5B,后者是一个包含58.5亿张训练图像的新数据集。fTelus International等供应商提供数据收集、边界框、语义分割、地标和关键点注释以及图像分类和归类服务。Open AI的Muse Neth可从数以千计的音乐作品数据库中学习,例如,包含以下来源
1.ClassicalArchives
2.BitMidi
3. 爵士乐,流行音乐,非洲、印度和阿拉伯风格的在线收藏
4.MAESTRO数据集
OpenAI表示:“MuseNet程序并非通过我们对音乐的理解进行精确化编程的程序,而是通过学习预测成千上万MIDI文件中的下一个标记,来发现和声、节奏和风格的规律。”其他更专业的机器学习系统则使用从驾驶员视角拍摄的道路视频数据库,来创建自动驾驶汽车程序和带有驾驶员的自动驾驶辅助系统程序。
(四)创建
当生成式AI系统进行创作时,它从其最高层开始,使用模式匹配将用户提示与其语义树顶层所包含的概念关联起来。然后,它依据其检索目的从上到下逐层处理,提取越来越细致的语言、音乐或图像片段。当系统通过Transformer层级序列向下工作时,它并不会简单遵循学习时所使用的由下到上的相同路径,理解这一点相当重要。相反,系统是学习过程中所确定的统计值来选择段落、句子和单词(或在音乐或图像中的同等替代物),来预测下一步内容。它极不可能沿着之前的学习路径回到学习数据库中进行逐字内容的分析。
(五)硬件
普通的计算机内存和CPU芯片无法以接近可接受的速度处理机器学习所需的所有计算。因此,深度学习系统使用了数百个最初为视频游戏开发设计的专用芯片。2020年,市场领导者NVIDIA享有80%的市场份额。英特尔和超威半导体公司正积极赶超,而新进入者如Cerebras Systems声称其新芯片在性能上已经超越NVIDIA。
Cerebras表示,其WSE-2(晶圆级引擎)是有史以来制造的最大芯片。它拥有“2.6万亿个晶体管,40GB的高性能晶圆内存,以及85万个AI工作优化核心,以加速AI工作”。dWSE-2是“独立可编程的,并且针对稀疏张量操作进行了优化,这些操作是深度学习推理和神经网络训练的基础”。该芯片的规模使得编程团队可以构建大模型,而无需处理GPU 集群所需的分布式编程。
NVIDIA芯片则拥有“763亿个晶体管和18 432个CUDA核心,能够以超过2.5 GHz的时钟频率运行,同时保持450W TGP的电力消耗”。其架构被开发用于计算诸如典型视频游戏中的光照效果,这需要每像素进行多次重追踪操作,在NVIDIA最新芯片的RT超频模式中,这一数值高达600。最先进的深度学习引擎使用数百或数千个这样的芯片。这会同时影响成本和功耗。
(六)特定引擎
2023年,世界上超大规模大语言模型包括:北京智源人工智能研究院的悟道2.0,有1.75万亿个参数;NVIDIA和微软合作开发的MT-NLG,有5 300亿个参数;Open AI的GPT-3,有1 750亿个参数;Google的LaMDA,有1 370亿个参数;Meta AI的ESM Fold,有150亿个参数。这些模型对文本的下一步内容进行统计预测。他们的参数数量量化了他们在作出预测和生成输出时考虑的因素的数量。每个参数都使用一个变量,模型在学习过程中可以改变该变量的值。顶级图像生成引擎是Open AI 的DALL-E 2、Midjourney以及Stability AI的Dream Studio和Stable Diffusiond。
顶级音乐创作者Magenta和MuseNet可以通过简短MIDI文件形式的提示生成新音乐;而MusicLM则可根据文本提示生成音乐。结果令人略微满意,但缺乏结构、惊喜和分辨率。这些模型通常由其开发人员进行昂贵的数据库和计算密集型基础训练,然后由客户自行进行更简单地微调,调整为一种小得多的数据库。
三、侵权法
演绎作品并非新鲜事物。
约翰·塞巴斯蒂安·巴赫(Johann Sebastian Bach)约在1730年对安东尼奥·维瓦尔第(AntonioVivaldi)的《四小提琴协奏曲》进行了重新编排。巴赫将原曲的调性从B小调转换为A小调,并将独奏乐器从小提琴更换为大键琴。此外,巴赫在维瓦尔第原作的基础上,丰富了其旋律、增强了其和声。巴赫与其子首次在莱比锡的齐默尔曼咖啡屋共同演出了这部改编作品。尽管巴赫与咖啡屋的老板齐默尔曼均未对此次演出收费,但因咖啡屋观众增多而使咖啡销量得以上升。维瓦尔第的原始协奏曲与巴赫的改编版本至今仍然频繁上演。虽然巴赫改编版的流行可能一定程度上负面影响了维瓦尔第原作的市场接受度,但因与声誉卓著的音乐家巴赫的作品产生关联,同样可能提升维瓦尔第作品的市场价值。
当巴赫进行改编并演出的时候,德国还没有制定版权法。若是在今天的美国,巴赫的行为几乎无疑是盗版行为,在法律上肯定会被认定违反了《版权法》。
(一)第106条规定的有限垄断
版权法赋予版权人专有权可:
1. 复制受版权保护的作品
2. 制作演绎作品
3. 向公众发行复制品
4. 公开表演受版权保护的作品
5. 公开展示受版权保护的作品
6. 以数字音频传输方式公开表演受版权保护的作品
该法所规定的专有权权利内容并不包括对受版权法保护的作品进行使用、阅读、观看、收听或以其他方式欣赏作品。
Stable Diffusion的诉讼指控侵犯了除最后一项外的所有专有权。在机器人生成的Debbie的故事中,法官发现AI系统“使用她的论文作为创作新内容的基础”,以此为基础,作出了支持Debbie的判决。Debbie故事中的第三句是对法律的错误表述。将受版权保护的表达用作新内容创作的基础并不构成侵权,除非侵犯了作者的专有权。大多数作品都是“站在前人作品的肩膀上”创作的。
(二)专有权利
1. 复制
版权人拥有专有权可“以复制品或录音制品的形式复制受版权保护的作品”。
为了在版权侵权诉讼中胜诉,原告必须证明:(1)他或她享有被侵权作品的版权;(2)被告复制了受版权保护作品中的受保护元素。版权原告可以用间接证据而非直接证据来证明复制行为。“在没有直接证据证明复制的情况下,这两份证据可以证明侵权:被告有机会‘接触’原告的作品,且两件作品‘实质上相似’。”
侵权故意不是构成侵权行为的必要条件。在机器人生成的Philander故事中,他诉请侵权的AI系统“无意中”复制了他的表达方式。故事中的第二句似乎在提供一种辩解策略,但没有侵权故意本身并不构成有效抗辩。尽管如此,缺乏侵权故意可以使被告免于承担间接侵权责任。此外,如果版权人主张的版权侵权责任得以成立,缺乏侵权故意也可能影响损害赔偿。
鉴于任何计算机系统来回移动数字信息的本质,即将其从存储器复制到RAM和处理器芯片,然后再复制回RAM和存储器,因此,在大多数机器人生成的表达中,都存在侵犯复制权的事实。然而,原告必须证明这些复制行为是针对其特定的受版权保护的作品进行的,这一点在本文第三部分第(八)节中详细阐述。
Stability AI公司诉称被告直接侵犯了其复制权、作品演绎权、表演权和展览权。诉状称,被告使用数据库中受版权保护的图像来生成图像,“这些图像完全源于训练图像,且没有添加任何新内容”。
(1)复制品
由于机器学习的工作原理,版权侵权诉讼的原告将无法证明原告所拥有的受版权保护的输入与程序产生的特定输出之间存在逐字逐句的复制。然而,在机器学习过程的早期阶段,当学习数据库的内容被处理时,可能会存在临时副本。
在Rimini Street, Inc. v. Oracle International Corp. 案中,地区法院引用了MAI Systems Corporation v.Peak Computer, Inc. 案,法院认定将计算机代码复制到随机存取存储器(RAM)中构成复制权范围内的复制行为,尽管这些副本是临时的,但每次程序运行时,都会创建一个新的副本。然而,在近期一些案件中,MAI案的裁决已经受到了质疑。共识是:RAM中的数据复制必须具有固定性,而非仅是瞬时性的,才能属于复制权中的复制。
在机器人生成的Debbie故事中,“他们(侵权被告人)抗辩称,由于程序创造了新的文本,他们没有侵犯Debbie 的版权”h。故事的第二句话似乎欲提供一种辩护框架,但重点聚焦于“新”和“创造”这两个词。的确,如果系统在没有复制她文本的情况下独立创作了与Debbie 相同的文本,那么就不存在侵权。
(2)直接证据
在Rogers v. Koons案中,涉及一尊从一群小狗照片复制而来的雕塑。上诉法院确认了一项永久禁令,禁止对侵权雕塑的继续展示或持有。上诉法院发现了复制行为的直接证据。
在本案中,初审法院裁定被告复制了受版权保护作品中创意表达的原创性元素,并且复制行为如此明显,以至于不需要审理查明。凡是理性的陪审团都会认为本案中存在复制行为,我们支持这一观点。首先,本案中罕见地存在证明复制的直接证据。Koons承认他给了意大利工匠一份照片的副本,并明确指示其复制该作品。此外,在雕塑创作全过程中,Koons强调要注重照片副本中体现出的原告原创贡献的每处细节——姿势、阴影、表情。他始终要求必须“根据照片”设计创作。这一无可争议的证明复制行为的直接证据,足以支持地区法院适用简易判决。
在机器人生成Debbie的故事中,她指控AI系统侵权,称AI系统“直接从她的作品中照搬了大量的文本”。故事中的第一句话描述了逐字复制。这确实构成侵权,但前提是复制的内容必须是受版权保护的内容。如果机器人只复制了一个思想或仅仅只复制了一个事实,版权保护的外延并不涉及于此。
GitHub诉称,存在支持直接侵权主张的事实:“Copilot经常简单地复制可以追溯到开源存储库或开源许可证持有者的代码。”GitHub承认,Copilot逐字复制了代码片段。起诉书声称,输出内容可能包含超过150个字符的代码片段,这些片段与训练数据中的代码相匹配。尽管如此,GitHub的原告并未提起版权侵权诉讼,可能是因为他们的代码虽然是版权作品,但却是开源的。
(3)接触
接触受版权保护的作品是间接证明复制行为的逻辑要素,因为人不能凭空复制其所未接触到的事物。因此,即使被侵权的原告证明了受版权保护的作品与被诉作品之间的相似性,其也必须证明“接触”这一要件。在生成式AI的背景下,这将涉及证明受版权保护的作品被包含在机器人学习所用的数据库中。如果被告没有接触的可能性,就不可能进行复制。如果被诉作品和原作品不相似,那么作品之间就不存在复制。
(4)相似性
被诉作品与原作品之间的相似性可以证明复制行为和复制权侵权。在Rogers v. Koons案中,上诉法院确认了一份永久禁令,以禁止继续展示或持有由小狗照片复制而来的雕塑。
即使没有证明复制的直接证据,地区法院的判决在本案中仍应予维持,因为被告Koons对接触版权作品的事实已予以承认,并且被诉作品与版权作品的实质相似性如此之大,以至于理性的陪审团成员在这一问题上不可能存在分歧。
实质相似并不要求对每个细节进行字面上的完全复制。这种相似性是通过普通公众观察者测试来确定的。调查的问题是:“一个普通的非专业观察者是否会认为,所谓的复制品是从版权作品中剽窃而来的。”
换句话说,问题是:“除非刻意去发现差异,否则一个普通观察者是否倾向于忽视作品间的差异,并认为两个作品具有同等的美学吸引力。”
Koontz案法院进一步阐明:
我们认识到,诸如思想、概念等在公共领域中的发现是所有人的遗产。受保护的是作者表达这些思想、概念、原则或过程的原创或独特的方式。因此,在审视这两部艺术作品以确定它们是否实质相似时,重点必须放在思想或事实表达的相似性上,而不是事实、思想或概念本身的相似性。
法院将这一基本原则应用于案件事实审理:
因此,受保护的不是一个想法:一对夫妇和八只小狗坐在长椅上,而是Rogers对这一想法的表达——正如在构图、特定光线和主体表情中所捕捉到的——赋予了照片迷人而独有的特征。也就是说,这些使作品具有原创性和可受版权保护的特性。
是故,如果上诉人仅仅使用了照片所呈现的想法,复制行为就不构成侵权。但在本案中,Koons使用了与Rogers思想创作相同的表达方式,构图、姿势和表情都被融入雕塑中,以至于根据普通观察者测试,我们得出结论:没有一个合理的陪审团会在实质相似性问题上有分歧。因此,地区法院认定Koons“复制”了原作的判决正确。
即便存在不同之处,也并不意味着被告作品就能免于侵权指控:
此外,任何抄袭者都不可以通过明示其未抄袭的部分来为抄袭行为辩护。因此,当抄袭作品被发现存在实质相似时,抄袭者拆东补西的微小改动于事无补。只有在差异性大于相似性,并且相似性之处与原始作品相比在数量上或性质上都不重要时,才适合作出不构成侵权的裁断。本案并非如此。考虑到抄袭作品与原作受保护表达之间存在极大相似性的情况下,即使Koons在抄袭作品中添加了诸如夫妇头发中的花和小狗的球形鼻子,这也不足以让抄袭作品存在实质性相似的事实存有重大争议。
由于Koons大量使用了与Rogers思想创作相同的表达方式,因此认定他“复制”了原作受保护特征的判决是恰当的。判决认为实质性相似事实不存在重大争议;基于复制行为的直接证据或基于接触和实质相似性的证据,这些都可以证明“小狗串”是从“小狗”照片复制而来。鉴于此,对这个问题适用简易判决是恰当的。
Lucille Ponte认为,实质相似性的概念对于数字采样音乐案件来说并不适用,因为在这些案件中很少有版权作品被字面意义上取用并重新组合成新作品,而且抄袭作品往往会对声音的某些方面进行电子处理。学习数据库中作品的版权人将很难证明计算机程序使用了任何特定的版权作品来生成任何特定的输出。证明复制将会更难。要直接证明复制,需要深入了解AI程序所使用算法的复杂性,以及在运行时使用这些算法访问一个或多个特定版权作品的日志。
在无法直接证明侵犯复制权的情况下,他将通过证明接触和实质相似性来实现间接证明。证明接触不足以成为困难。他只需要证明他的版权作品被包含在被指控程序使用的学习数据库中。实质相似性证明则是一个更大的障碍。被指控作品不太可能在整体上与学习数据库中的任何特定作品相似,即使相似,相似性可能只涉及版权作品不受保护的方面。
图像生成系统更有可能因侵犯复制权而承担责任,因为它们比文本、音乐或计算机编码系统更有可能从训练数据库中提取整个图像,并将它们作为其输出的一部分呈现。例如,作者要求DALL-E2为作者的一部小说封面生成一张DC-3飞机在土质跑道上降落的图片。程序展示了一张DC-3飞机在土质飞机场上的照片。不用仔细观察就可以明显发现飞机绘图是一张真实的照片,而非基于DC-3模型语义特征的再创作。可以推测,这些照片存储于DALL-E2学习数据库中的某个位置。
在作品演绎权的司法裁决中,同样存在实质相似性的争议。
(5)机器学习中附带的复制
机器学习的工作方式意味着,作为版权被侵权人的原告无法证明程序的特定输出逐字复制了原告拥有版权的输入内容。不过,在机器学习过程的早期阶段,当学习数据库的内容被处理时,可能会出现临时副本。
2. 制作演绎作品
版权人拥有“根据受版权保护的作品制作演绎作品”的专有权。c 作品演绎权是复制权的补充,或仅是版权发展历史中的一种反常现象,评论家和法院莫衷一是。
事实上,生成式AI的输出内容是从系统学习数据库中衍生出来的。但“演绎作品”是《版权法》的专业术语。在某种意义上,所有作品都是从之前的作品中演绎出来的;艺术家“站在前人的肩膀上”,“通过使用现有作品内容创造原创内容并非新鲜事”。因此,要主张侵犯作品演绎权,就必须证明侵权作品是从版权作品的受保护要素中衍生出来的。为此,原告必须证明高度相似性,这是证明复制行为的间接证据标准。
Twin Peaks Productions, Inc. v. Publications International, Ltd一案中,第二巡回法院引用了Nimmer的话:“当原告能够证明侵权人侵犯了其他专有权,如复制权或表演权时,制作演绎作品的权利是‘完全多余的’。”尽管如此,第二巡回法院还是维持了地区法院有关演绎作品的判决。
Gervais教授认为,作品演绎权应该从复制权中脱离出来:“复制与演绎的区别在于,与单纯被复制相比,原作品中受保护的表达方式的某些部分被转移到演绎作品中使用,并在演绎使用的作品中发生转变。”
换句话说,两者实务上的司法调查通常是不同的;从规范上讲,它们几乎总是不同的。有关复制行为的性质部分的司法调查主要关注被挪用内容的形式,而演绎的司法调查则更深入地关注挪用,即是否取走了使原创作品值得版权保护的创造性创意。
Gervais教授以《哈利·波特词典》为例,认为这侵犯了作品演绎权,而非复制权。
作品演绎过程中会将原有元素转换,作品的合理使用也涉及作品转换,这两者之间会发生混淆从而导致作品演绎权不能独立地行使。根据这种逻辑,如果一个作品具有转换性,它就是演绎作品。同样,因为属于合理使用,它具有免受版权侵权指控的特权。反之,如果它不属于合理使用,它就不是演绎作品。在Clean Flicks v. Soderbergh案中,地区法院对原告电影研究机构针对被告的侵权诉讼作出了简易判决,被告删除了含有性、亵渎和暴力内容的电影镜头,并将其重新制作成 DVD发行。法院判定,被指控的DVD不是演绎作品,因为它们没有转换性,并且“在合理使用抗辩中也存在同样的问题”。“毫无疑问,编辑内容只占所复制电影大部分内容的一小部分,且这种使用显然是为了商业利益。编辑后的副本并未体现出任何转换性。”
Anthony Reese批判性地评价了Clean Flicks v. Soderbergh案,并探讨了涉及转换性和演绎作品的其他案件事实。在其中一些案件中,被告仅从原告作品中摘取片段,并将其融入被告自己的更宏大作品中。
尽管Gervais教授努力为作品演绎权赋予新的生命力,并试图将其与复制权区分开来,但是让沉睡的狗继续躺着也未尝不是好事。相较过去,21世纪的人们更为狭义地理解复制权的概念,作品演绎权逐渐发展起来。如果复制权仅限于文字复制或极其接近的复制方式,那么版权将被不当地限制,因此,作品演绎权应运而生,以涵盖当时可能不符合复制权侵犯的其他形式如出一辙地挪用。现在,复制权被解释得相当广泛,远远超出了文字复制。法院——以及Gervais本人——都在努力诠释作品演绎权以使其获得一个与复制权不同的法律定位,同时也不显著削弱合理使用原则。
最好的解决方案是避免智力杂技游戏,并承认作品演绎权实际上并没有区别于复制权而拥有独立的内容。然而,Kellman v. Coca-Cola Co.案解释了为什么可能有单独主张作品演绎权的空间。在该案中,被指控的作品是一个三维帽子,而现有的版权作品是纯装饰性的二维图像。这些帽子是演绎作品,“可能会有单独主张演绎作品的需求”,因为原创的版权人可能某天会看到自己的作品被利用。由于两者在形式上的差异,无法认定其侵犯了复制权、展览权或发行权,因此只能认定其侵犯了作品演绎权。
Warner Bros. Entertainment Inc. v. RDR Books一案中,法院认定被告足量的复制行为侵犯了复制权,但并未支持原告关于词典侵犯了作品演绎权的主张:
首先,考虑到词典对情节元素的使用远非“详尽叙述”,并且没有遵循《哈利·波特》小说的相同情节结构,原告认为词典的这些部分是“未经授权的缩写本”的说法缺乏说服力。其次,更为关键的是,尽管词典包含了来自《哈利·波特》作品的大量材料,但这些材料并不仅仅是从一种媒介转换到另一种媒介,如Twin Peaks案中那样的情况。通过将现有材料压缩、综合并重新组织成A至Z的参考指南,词典并没有在另一种媒介中通过重塑材料来重述《哈利·波特》的故事,而是赋予了版权材料另一种用途。这一用途是使读者能够迅速理解《哈利·波特》这个复杂世界中来源多样、不尽相同的各个元素。因此,词典不再代表作者的原创作品。在这些情况下,并且因为词典不属于法规中列出的任何演绎作品的示例,原告未能证明词典是演绎作品。
此外,法院还发现,对四个因素的评估未能支持合理使用抗辩,本文第三部分第(六)节中讨论了部分判决书。
Penguin Random House LLC v. Colting案中,法院作出了区别于《哈利·波特》案的判决:
在末尾(增加)额外的原作材料,特别是几页简短的“分析”“测验问题”以及有关作者的信息,(并未改变)它们主要致力于重述原告故事(的结论)。两页的分析并不能将指南的总体——主要由“故事摘要”组成——转变为不再“代表作者原创作品”的东西。就像翻译、戏剧或电影改编(国会明确列为演绎作品的三个类别)。
在另一起案件中,法院告诫道,仅有相似性并不等于演绎:
Best Brands公司关于Squeezamals是演绎作品的结论性断言反映出其对版权法的模糊理解。仅仅因为Squeezamals通常是基于“日本的热门趋势”而设计,就像Best Brands公司那样主张认为其是演绎作品,这样的论证是站不住脚的。同样,据称比弗利山庄“希望设计师创造像BC Mini和Silly Squishy这样的产品”或者指导设计师以这些产品为灵感而主张他们侵犯了作品演绎权,这种论证也是不够的。除了毛绒玩具世界中不受版权保护的要素,如场景等——即“在处理特定主题时实际上不可或缺或至少是标准的”元素,这些事实并没有表明比弗利山庄的设计依据了除此之外的其他要素材料。这些必不可少的元素属于公共领域。
法院在侵权诉讼中驳回了将案件转交给版权登记处的请求。
“思想实质相似性”测试比较的不是故事的基本情节构思,而是构成整个故事序列和主要角色之间关系的具体的实际的元素。思想相似性的外在测试不止关注笼统、抽象的一般情节概念,而是“专注于……作品的客观细节……外在测试要求比较情节、主题、对话、情绪、背景、节奏和顺序”。
阿舍·米切尔(Asher Mitchell)回顾了作品演绎权的历史,并认为其应用抑制了民间音乐的创造力。他主张慎重使用普通观察者测试法,以检测实质相似性。在Micro Star v. Formgen Inc. 案中,第九巡回法院推翻了地区法院的判决,认定被诉作品是一部侵权的演绎作品,无权合理使用。法院认定:“当玩家选择N/I级别时,此时呈现的视听内容完全源自D/N-3D的源艺术库。”
Micro Star进一步辩称,MAP文件不是演绎作品,因为它们实际上并没有包含任何D/N-3D中受版权保护的表达。Micro Star尤其强调了一个事实,即N/I MAP文件引用了源艺术库,但本身并没有包含任何艺术文件。因此,它声称,MAP文件中没有复制任何D/N 3D的内容。在提出这一论点时,Micro Star误解了受保护的作品。Micro Star侵犯的作品是D/N-3D故事本身——一个名叫Duke的肌肉发达的突击队员,在末日后的洛杉矶徘徊,用枪射击Pig Cops,投掷手榴弹,寻找医疗包和类固醇,使用喷气背包跃过障碍,引爆汽油,避开放射性污泥。版权人拥有创作续集的权利,N/I MAP文件中讲述的故事肯定是续集,其讲述了Duke 精彩冒险的新(虽然有些重复)故事。即使没有图片,一本关于Duke Nukem的书也会因同样的原因构成侵权。
视频游戏中玩家会创建虚拟角色,丹·伯克(Dan Burke)在这一背景下评价Micro Star案。他解释了为什么作品演绎权的适用并不容易。
尽管游戏中显示或听到的游戏元素来自游戏设计师提供的元素,但可能的元素组合数量是巨大的。在控制游戏玩法时,玩家会作出大量选择,包括穿越哪些地图、执行何种角色动作、获取哪些对象并与之互动、与哪些非玩家角色(NPCs)互动,以及向其他玩家发表何种评论。在电子竞技比赛这种常见的游戏类型中,设计师不太可能预见到所有或甚至大部分可能的玩法组合。
他建议,最佳解决方案是将用户创建的作品视为演绎作品,该作品的创作已得到视频游戏设计师的授权。
伯克的解决方案对于大多数生成式AI系统来说并不适用,因为学习数据库的内容并非由系统设计者提供,而是由其他原创作者作出的原创贡献,这些原创作者通过某种方式使他们的内容在互联网上或其他地方可以被实际使用。在某些情况下,原创作者同意其内容被生成式AI系统使用。在大多数情况下,他们并没有明确表示同意。
如果学习数据库中使用样本的所有版权人联合起来,基于他们的作品演绎权提起侵权诉讼,他们的主张可能会更有趣。虽然他们无法证明任何特定的输出是任何特定输入的演绎作品,但他们可以证明它是集体输入的演绎作品。
假设有人从同一作者的两个短篇小说中提取内容,并交替插入这两个既有作品中的句子来创建一个新作品。由此产生的选择和排列可能比较怪异且令人无法欣赏,但它很可能会满足Feist案中原创性测试的条件。它似乎也侵犯了两个既有作品作者的作品演绎权。演绎作品是以已有作品为基础的作品,而本文上述假设的混杂作品肯定也是以两部作品的语言为基础所构成的。
现在,假设既有作品版权不归属于单一作者,而是由多个作者共同拥有。后来者像以前一样,系统地从每个既有作品中交替摘取句子进行插入。此时,我们不禁要问,为什么引入多位作者的多个既有作品,会使后来者的创作失去了演绎作品的特征?
Video Pipeline, Inc. v. Buena Vista Home Entertainment, Inc.一案中,地区法院判定,从受版权保护的电影预告片中截取片段,进行数字化处理并在互联网网站上展示,这侵犯了版权人的作品演绎权。因为每个预览片段和预告片都是版权电影的演绎作品,这些片段的集合也是演绎作品,因此构成侵权。然而,“若仅使用版权电影的静态照片,这一论点将使其更有说服力”。
Rogers v. Koons案涉及一个从一组小狗照片复制的雕塑。上诉法院确认了禁止侵权雕塑继续展示或持有的永久禁令。上诉法院查明了证明抄袭的直接证据和间接证据。
上诉人给工匠们提供了Rogers的一张便笺,并指示工匠们进行复制。但为了指导根据二维照片创作三维雕塑作品的过程,Koons与德梅茨工作室进行了广泛的沟通。在工人雕刻作品的期间,他每周都会去工作室一次,并向他们提供书面指导。在“制作笔记”中,Koons强调他希望雕塑能完全复制小狗形象。例如,他告诉工匠们:“作品必须与照片保持一致,照片的特征必须被反映出来。”之后,他写道:“小狗需要毛发的细节。细节——就像照片一样!”其他笔记指示工匠们“保持男人在照片中的角度——轻微地向一侧倾斜并轻微向前——女人也一样”,“保持女人的微笑”,并“保证雕塑非常、非常逼真”。其他笔记指出:“女孩的鼻子太小了。请按照照片放大。”另一个笔记提醒工匠们:“小狗的毛发必须像照片中那样有变化——不仅仅是大面积的油漆——毛发的变化必须按照照片来。”(强调部分为原文提供)。
为了绘制彩绘木雕“一串小狗”雕塑,Koons提供了一张图表,中间附有放大的小狗照片复印件;在边缘注明了绘画指导,并用箭头指向照片中的各个区域。图表上注明:“小狗,用蓝色调绘制。根据照片,体现从浅到暗的变化。按照照片绘制得逼真,但是要用蓝色。”“男人的头发,根据黑白照片,白色带有灰色的阴影!”(强调部分为原文提供)
本案中,地区法院的最初判决将被诉雕塑定性为演绎作品,并将原告的主张定性为侵犯作品演绎权。修订后的地区法院意见或上诉法院意见均未对此定性提出异议。
生成式AI系统在更广泛的范围内进行这种演绎,但它们的操作方式不同,这种差异可能会削弱论证AI作品为演绎作品的论点。生成式AI系统并不是将学习数据库中的作品片段逐字逐句地拼接在一起;它们从这些作品中提取特征,并将这些特征重新组合成新的作品。这更像是有人拿着一部小说或剧本,批判性地剖析情节、人物和环境的一般特征,然后编写了一个剧本。
Hand法官的抽象测试法可以判断从原创作品中提取的特征是否属于受保护的表达,从而裁定将这些特征整合到新作品中的行为是否构成侵权。在实际情况中应用抽象测试法测试生成式AI系统,需要将学习数据库中特定作品的特征与AI系统输出中的类似特征进行具体比较。
但是,生成式AI系统与像Video Pipeline这样的案件事实之间存在另一个差异。在VideoPipeline案中,被诉图像可以与既有图像一一对应。生成式AI机器学习则不然。生成式AI系统通过综合数百万输入作品并从该综合特征中创造新作品来进行学习。这种计算机化的过程类似于一个音乐家或作者吸收整个流派的特点,然后创作该流派的新作品。
原告诉请侵犯作品演绎权将会面临困难。如果演绎作品的范围足够广泛,以至于涵盖了生成式AI程序高度转化之后的输出,那么转化程度很可能构成合理使用抗辩的有力依据。在极少数情况下,如果AI程序只是简单地从学习数据库中输出或多或少完整的原创内容,此时,被侵权的原告不仅可以轻易反驳被告的合理使用抗辩,而且还有充分的理由证明被告侵犯了复制权和作品演绎权。
3. 发行
版权所有人享有专有权利“以销售或其他转让所有权的方式,或者以出租、租赁或出借的方式向公众发行版权作品的复制品或录音制品”。机器人创作时,每当通过互联网提供输出时,就涉及发行权。
4. 表演
版权所有人享有文学、音乐、戏剧或舞蹈作品、哑剧、电影以及其他音像作品的专有权利以“公开表演版权作品”。公开展示和公开发行是指在网站上或其他可通过互联网访问的来源上发布材料的行为,因此,无法证明复制权或作品演绎权侵权的原告可能更容易证明展览权和发行权的侵权。但为此,原告必须详细地鉴别原创作品和被诉作品,建立两者之间的实质相似性,并阻却合理使用抗辩,正如原告在证成复制权和作品演绎权中所做的那样。
对于文学作品来说,其不太可能构成表演权侵权,音乐、摄影和视频作品则相反。但只有对公众进行了表演才会侵犯表演权。正如本文第三部分第(八)节所指出的那样,原告必须证明特定受版权保护的作品或受保护的元素是由生成式AI系统表演的。这种情况很可能会发生在计算机生成的音乐或视听作品中。
5. 展览展示
文学、音乐、戏剧或舞蹈作品、哑剧或绘画、图形或雕塑作品,包括电影或其他音像作品中单个图像的版权所有人享有“公开展出该版权作品”的专有权利。
Perfect 10, Inc. v. Amazon.com, Inc.案中,第九巡回法院曾审理过一项诉讼请求,即一家互联网搜索引擎通过展示图像缩略图,侵犯了裸体图像版权人的展览权和发行权。
计算机中存储的图像是版权法意义上的作品的“复制品”……当计算机所有者使用计算机将存储在该计算机上的照片图像显示在计算机屏幕上,或将存储的图像以电子方式传输到他人的计算机上时,计算机所有者就“通过……设备或程序”展示了该复制品。总之,根据法规的明文规定,一个人通过使用计算机将存储在计算机内存中的摄影图像副本显示到计算机屏幕上,从而展示摄影图像。毫无疑问,Google的计算机存储了Perfect 10版权图片的缩略图,并将这些缩略图的副本发送给Google用户。因此,Perfect 10已经初步证明,Google传输其存储的缩略图图像直接侵犯了Perfect 10的展览权。
Perfect 10, Inc. v. Amazon.com, Inc.案中,因为Google没有传输全尺寸图像的复制品,而只是提供了html代码使用户能够找到图像,因此Google并未侵犯全尺寸图像的展览权或发行权。
机器人生成的信息如何被传输和呈现,决定了是否构成展览权侵权。如果这些信息只是呈现在一个用户的计算机屏幕上或一份硬拷贝上,就没有满足“向公众”这一法定构成要件。另一方面,如果它被放在网站上或通过各种视频娱乐渠道提供可用链接,这就属于公开展示。正如本文第三部分第(八)节所指出的,原告必须证明其特定作品或其作品受保护的元素已被展示。
(三)特定作品的识别
无论主张何种类型的侵权,侵权主张必须首先特定化地识别出受版权保护的作品。这必须在确定版权归属之前完成,而确定版权归属通常被视为版权侵权分析的第一步。如果原告声称有人抄袭了其作品,其就必须确定被抄袭的作品是什么。如果原告声称有人在未经其许可的情况下制作了演绎作品,其必须明确被诉作品派生自其哪部作品。如果原告主张表演权受到侵犯,其必须展示被表演的内容。同样,如果其主张展览权或发行权受到侵犯,其必须展示她的哪些特定作品被展示或发行。
ADR International Limited v. Institute for Supply Management Inc.案中,法院引用了过往判例,认定版权侵权原告未能足够具体地指明侵权作品,并将其独立出来。Warner Bros. Entertainment Inc. v.RDR Books一案涉及一本关于哈利·波特小说的百科全书(一个“词典”)。法院描述了被诉词典与受版权保护的哈利·波特小说间的关系:
词典的条目汇集了在《哈利·波特》作品中出现的每一个物品清单和人物,无论其在故事中扮演的角色重要与否。条目涵盖了在《哈利·波特》作品中出现的内容,包括每一个咒语(如Expecto Patronum、Expelliarmus和Incendio)、药水(如爱情、情魔药、福来福喜和生死水)、魔法物品或装置(如死亡圣器、魂器、隐形斗篷)、魔法形式(如心语术、封闭术和黑魔法)、生物(如炸尾螺、摄魂怪和吸血巨妖)、角色(如哈利·波特、海格和伏地魔)、团体或部队(如傲罗、邓布利多军团、食死徒)、虚构的游戏(如魁地奇)以及虚构地点(如霍格沃茨魔法学校、对角巷和魔法部)。词典还包含了《哈利·波特》作品中没有明确命名,但已经由范德·阿克(Vander Ark)识别的项目,例如医疗魔法、蜡烛魔法、巫师空间、巫师服装和“悔恨”。一些条目描述了在现实世界中存在但在《哈利·波特》作品中也有提及的地方或事物,例如荒野、希腊和康沃尔。
在《哈利·波特》小说、配套书籍、《每日预言家》通讯、著名巫师卡片以及已发布的罗琳采访中,除了最短的条目外,每个条目都收集并综合了与其主题相关的信息片段。条目中包含的信息类型包括主题属性的描述、故事角色、与其他角色或事件的关系,以及涉及该主题的事件。作为此类信息的存储库,条目力求尽可能完整地描绘哈利·波特世界中的每个物品清单或角色,其中许多内容仅在《哈利·波特》系列或各种来源不同的材料中偶尔出现。
条目中的信息片段后通常附带用括号括起来的引用,以表明它们在《哈利·波特》作品集中的出处。然而,词典引用完整性并不一致,有些条目对提供的材料数量引用的很少。当词典引用《哈利·波特》七部小说之一时,引用仅提供书籍和章节编号。范德·阿克解释为何不引用页码的原因,是由于《哈利·波特》书籍的不同版本有不同的分页,但章节编号保持了一致。词典既没有给每个版本分配一个字母,也没有指定一个标准版本,同时提供了一个供其他版本使用的转换表,原告专家杰里·约翰逊(Jeri Johnson)证明这是参考书指南的常见做法。
虽然不是其主要目的,但词典偶尔会介绍来自外部知识的评论和背景信息。例如,
词典偶尔包含词源参考、将《哈利·波特》世界之外的角色如梅林进行类比,以及罗琳对其他文学作品的暗示,如莎士比亚《麦克白》中的“怪姐妹”。词典还指出了《哈利·波特》系列中极少数时候出现的“火石”,或者故事连贯性的错误。
在对两部作品的细节进行进一步分析后,法院做出如下阐述:
尽管很难量化词典中有多少语句直接取自《哈利·波特》小说和配套书籍,但词典确实包含了直接引用或接近罗琳原创语句的释义量,这一现实极易受到质疑。词典偶尔使用引号来标记罗琳的语句,但更多时候,原创语句在没有援引的情况下被复制,这常常使人难以分辨哪些词由罗琳创作,哪些由范德·阿克创作。
法院裁定复制行为足以构成侵权。其分析阐明受保护作品和被诉作品的要素分析细节。
(四)仅限于受保护的表达形式
1. 不包括思想和事实
《版权法》明确将事实和思想排除在版权保护之外。第102(b)条规定:“版权保护在任何情况下都不适用于原创作品的任何思想、过程、程序、系统、操作方法、概念、原理或发现,无论作品以何种形式对其加以描述、解释、说明或体现。” Feist Publications,Inc. v. Rural TelephoneService Co.案明确指出,事实不受版权保护。
在机器人生成的Philander故事中,他指控AI系统“复制了部分关键短语和思想”。第一个句描述的是逐字复制。确实,如果复制了受保护的内容,那么这将构成侵权。但如果机器人复制的仅仅是一个思想或单纯的事实,则版权保护的范围就不会扩展至此。
2. 必要场景、抽象和过滤
将思想和事实排除在版权保护之外,这进一步强调了只有“原创性”的表达才能获得版权保护的原则,这是宪法规定的另一项法定要求。不受保护的思想通常被称为“必要场景”。
这种思想/表达的二分法在Nichols v. Universal Pictures Corp.案中受到了法官Learned Hand的关注。该案涉及的一位剧作者声称一部电影侵犯了他剧本的版权。Hand法官在判决中首先指出,即使没有证明文字上的抄袭,也可以证明侵权。他指出:“否则,剽窃者将通过无关紧要的改动逃脱侵权责任。”
但是当剽窃者……剽窃了整个作品的摘要,裁决变得更为棘手。对于任何作品,特别是戏剧,随着越来越多的情节被省略,大量越来越泛化的模式都将与之匹配。最终可能只剩下对剧本内容的最一般性陈述,有时甚至可能只是其标题。但在这一系列抽象化的过程中,有一个临界点,超出这个临界点,这些抽象内容就不再受保护,否则剧作家就可以阻止他人使用其“思想”,而除了作家的表达方式外,他的权利从未扩展至这些思想本身。
版权以及相应的侵权行为可能扩展到情节或角色,但“角色发挥的空间越小,它们能获得的版权保护就越少”。因此,候选作品的特定性是可受版权保护的关键试金石。
Nash v. CBS案中,Easterbrook法官将Hand法官的公式描述为“抽象测试法”,他认为,这是版权法领域的主要方法。
这完全取决于法院构想的版权利益保护的抽象层次。如果法院选择一个低层次抽象水平(比如说,只有第一位作者使用的词汇才受保护),那么抄袭者可能窃取情节、叙述和其他所有原始材料,即使这些可能是第一位作者最重要的贡献之处。从实际意义上讲,尽管法规只赋予了原作者制作“演绎作品”的权利,但最低层次的保护意味着任何人都可以在不补偿原创作者的情况下,在新媒介中制作这部作品。另一方面,如果法院选择一个高层次抽象水平,第一位作者可能会声称对整个类型的作品主张版权(“浪漫小说”或者更狭义一点,即任何涉及交战家族间年轻恋人的不幸故事,以至于《罗密欧与朱丽叶》的版权也会涵盖《西区故事》)。即使抽象程度较低,也存在对“思想”进行版权保护的风险,尽管法律法规只保护“表达”。
区分思想与表达,不仅在传统的文学和戏剧语境下是必要的,在音乐和计算机软件领域同样也是必要的。
Feist Publications, Inc. v. Rural Telephone Service Co.一案中,思想与表达的二分法原则被赋予了宪法意义。Feist案法院认为,版权以及专利保护所代表的垄断的宪法正当性,是基于对发明家和作者活动提供经济激励的需求。除非有人为已有事物增添新的价值,否则他没有资格获得激励。事实和原始思想是公共领域信息的一部分,不享有版权保护。根据宪法的版权和专利条款,宪法未赋予国会将保护范围扩展到这类公共领域信息的权力。
此外,除非编纂者的贡献是“原创作品”,否则不受法律保护。如果编纂者在编纂事实的选择或编排中没有体现出创造性,那么其作品就不具有原创性。在Feist 案中,最高法院裁决,电话簿的字母顺序排列以及其元素的选择——姓名、地址和电话号码——是由其性质决定的,因此既不构成原创性编排,也不构成原创性选择。
由机器人生成的Philander故事中,原告指控的侵权AI系统使用了“从输入数据中学到的模式和结构”。根据Feist 案,即使基础事实不受保护,“模式和结构”,作为故事中的第三个关键短语,也可能构成对事实的选择和编排,这种选择和编排是受版权保护的。
Lexmark International, Inc. v. Static Control Components, Inc.案中,第六巡回法院在针对激光打印机墨盒接口侵权主张的案件中探讨了“必要场景”原则。判决书首先翻译了这个法语短语,并解释了它对文学作品的意义:
当外部因素限制了表达方式的选择时,“必要场景”原则——换言之,“必须存在的场景”——不受版权保护。在文学语境下,该原则意味着某些标准、陈词滥调……或必然由共同主题或背景引出的常用特定短语可能无法获得版权保护。
法院继续解释,这一原则扩展到了涉及计算机技术的作品:
在计算机软件领域,该原则意味着那些由实际现实所决定的程序元素——例如,由硬件标准和机械规格、软件标准和兼容性要求、计算机制造者设计标准、目标行业实践以及标准计算机编程实践所决定的元素——可能无法获得保护。作为“全行业范围的目标”,编程的效率构成了影响计算机程序版权性的一个重要外部制约因素。
Shaw v. Lindheim案中,地区法院在上诉后重新审理,作出了有利于被告的判决,认定被诉作品与受版权保护的基础作品之间的相似性元素属于“思想、概念和其他不受保护的元素”。音乐领域的类似问题在美国纽约州地区法院审理的Ed Sheeran与Marvin Gaye之间的版权侵权案中进入了诉讼程序。
思想与表达的二分法和“必要场景”原则是生成式AI系统功能的核心。这些系统的工作方式不是从它们的学习数据库中逐字复制短语、图像或声音,而是综合这些基础作品中的语义概念。将深度学习系统描述为“必要场景”的提取者或“思想”的归档者,并不为过。
这样的描述显然指向了一个结论,即这些系统不应承担版权侵权的责任,因为它们没有复制(或展示、表演或发行)受保护的表达。这不排除它们在训练数据库中使用受版权保护的材料可能被视为制作演绎作品的可能性,但即使对演绎作品概念作最宽泛的理解,演绎作品也会构成对任何不受保护表达的侵权。
当然,可能存在一种可能性,即原告在特定案件中可能会证明,系统不仅仅剽窃了其的思想和“必要场景”。如果其能够证明系统的特定输出从特定作品中挪用了特定的受保护表达,其就已经构建起了侵权的初步证明。
(五)间接侵权
对中介有控制权的个人或实体可能会因中介机构侵权而承担共同责任或间接责任。这一可能性在关于机器人生成Philander的故事中得到了某种暗示,其中提道:“AI是一个独立的主体,他们无法控制其生成的内容。”
最高法院在Metro-Goldwyn-Mayer Studios Inc. v. Grokster, Ltd.案的裁决中解释道,版权侵权的次要责任由两个分支构成:共同侵权与间接侵权。当版权人能够证明中间机构具有直接侵权的故意时,就构成了共同侵权。当版权人能够证明被告从他明知涉及直接侵权的中间行为中获利时,就构成了间接侵权。
机器人生成的Philander故事中,原告否定了被告对其机器人行为没有控制权的辩解。这并不一定足以避免次要责任。若要追究共同侵权责任,虚构的Philander 将有责任提出证据,证明生成式AI系统的运营商有意使其侵犯版权。
若要追究间接侵权的责任,Philander必须证明,系统用户知道该系统可能侵犯如Philander这等作者的版权,并且用户从使用该系统中获利。
根据Sony Corporation v. Universal City Studios, Inc.案,“像其他商品一样,复制设备的出售并不构成共同侵权,如果该产品被广泛用于合法、无可指责的目的。实际上,它只需要证明该设备被大量用于非侵权用途,则不构成侵权”。Sony 一案的法院在认定间接责任时适用了该标准。
因此,生成式AI系统的用户可以通过证明中间机构具有非侵权用途来规避间接责任。然而,在Grokster案中,最高法院判定这些非侵权用途必须具有举足轻重的地位,并且被告不能有侵权故意。Grokster案辩护理由不成立,因为证据表明它积极推广计算机系统以侵犯版权和音乐制品,而这正是该系统主要的用途。
Grokster案的法院理解Sony案的立场,当一个系统“除了侵权之外别无他用”时,可以推断其用户有侵权故意。另一方面,“该原则排除了一种模棱两可的物品出售行为,该物品出售行为兼具合法与非法意图,同时,该原则要求更严重的主观过错以限制责任追究,而不仅仅只要求被告了解自己的某些产品会被滥用”。“因此,当证据能证明被告明知产品特性或知道它可能被用于侵权用途,并且有促进侵权的声明或行为时,Sony案的通用物规则不能使其免责。”法院发现Grokster案本身的记录确立了“非法目标必须明确无误”的规则。如果使用生成式AI系统的用户从中获利,并知道它侵犯了如Philander这等作者的版权,那么根据Grokster 案,该用户将承担间接侵权责任。但是Sony案指出,如果该系统具有实质性的非侵权用途,并且没有侵权故意,就不会产生间接责任。
可以想象,一个生成式AI系统被设计成从其学习数据库中提取受保护的表达,并将其重新组合以作为自己的作品呈现。证明这种设计的证据在间接责任案件中将非常有力,因为这些证据似乎排除了被告非侵权用途抗辩的可能性,并暗示了该系统被设计之处即带有侵权的意图。
但这并不是大多数生成式AI系统的运作方式,大多数时候,这些系统生成非侵权表达的频率远远高于生成侵权表达的频率,这一特点将使被告可以使用Sony 案为之抗辩,并使其免于间接责任——除非有证据证明用户有侵权意图。Grokster案清楚地表明,仅仅意识到可能被用于侵权之外,还需要有侵权故意。“当证据足以证明产品特性或知道它可能被用于侵权用途,并且有促进侵权的声明或行为时,Sony案的通用物规则不能使其免责。”
Stability AI诉讼含有一项关于版权间接侵权的主张。该案原告声称,被告设计的被诉系统“包含对特定艺术家名称的提示作出响应的功能,被告明知或轻率地无视了这项功能可能被轻易用于制造伪作的事实,并在这一情况下赋予了该系统这样的功能”。原告指控,被告“直接和间接地从抄袭者的侵权行为中获利”。因此,这一指控触及了Grokster案所要求的基础要件。
(六)合理使用:四个因素
即使版权被侵权人能够证明被告侵犯了其根据第106条规定所享有的任何一项专有权,被告仍然可能通过证明其行为属于合理使用以免除责任。该法规明确了合理使用的权利,并规定了必须考虑的四个因素
第一,使用的目的和性质,包括该使用是否具有商业性质,或是为了非营利的教育目的;
第二,该版权作品的性质;
第三,所使用部分的质与量与版权作品作为一个整体的关系;
第四,作品使用对潜在市场或版权作品价值的影响。
第107条的立法历史及其颁布后的司法解释都明确指出,合理使用的四个因素既未穷尽所有因素,也非相互排斥。被诉作品与版权作品的性质影响市场效应。同样,被诉作品使用的原创作品材料的数量也影响市场效应。在Warner Bros. Entertainment Inc. v. RDR Books案中,法院裁定,《哈利·波特词典》的合理使用抗辩未满足四个因素的评估结果。
Google LLC v. Oracle America, Inc.案中,对于Google复制了甲骨文Java SE编程平台的版权代码行,最高法院认定Google的行为属于合理使用。这种复制是必要的,以便让Google用户能够在Google的Android手机操作系统中熟练使用Java时调用。
最高法院总结其裁决如下:“当Google……只取所需,以使用户能够在经过转化之后的新程序中运用其之前学到的使用技能,Google复制Sun Java API的行为符合法律规定的合理使用。”
1. 使用的目的、性质及转换性
生成式AI程序的输出在内容和目的上都具有很高的转换性,因此生成式AI的输出能够符合第一个因素。生成式AI程序的输出已经被用来赚取收入和获利。尽管是商业用途而非私人使用,但这并不足以否定合理使用抗辩。
判例法支持这一结论。合理使用四个因素中的第一个是使用的目的和性质,在Google案中,法院认定Google的复制行为具有转换性:
本案中,Google旨在使用Sun Java API创造新产品。它意图扩大Android智能手机的使用度和实用性。其新产品为程序员提供了一个具有高度创新性和革新性的工具,将之用于智能手机环境。Google使用Sun Java API创建能够被程序员快速使用的一个全新平台,在这一使用程度上,其使用行为符合创造性“进步”这一基本宪法目标,这一宪法目标也是版权自身的基础。
上述事实及与之相关的其他事实表明,Google复制行为的“目的和特征”具有转换性——这一因素极为有力地支持其构成合理使用。
Fox News Network, LLC v. TVEyes, Inc.案中,地区法院裁定,新闻聚合器对版权新闻故事的抓取和整合满足合理使用要件。被告承认逐字复制了原告享有版权的内容。
法院将本案与Associated Press v. Meltwater U.S. Holdings, Inc.案相区分:
TVEyes以其数据库之不同性质使自身区分于那些数据库的案例。印刷品的形式是固定的,并且可以定期从出版来源和档案中获得这些印刷品。TVEyes提供的服务不仅仅是新闻文章和专栏剪报服务,它所提供的服务与内容提供者自身可能提供的服务本质相同。然而,TVEyes并不针对印刷品提供剪报服务。TVEyes的搜索结果展示了视觉图像与文字在媒体中的结合,使评论员发布的内容具有了新闻特质。例如,某些节目和脱口秀对奥巴马总统最近高尔夫球假期的关注度,与对一名美国记者被斩首的报道相当。电视上展现的实际图像和声音与新闻信息本身同等重要——声音的语调、眉毛的挑动或嘴角的上扬都可以为整个故事着色,有力地改变叙事内容。TVEyes提供的服务,通过索引、收集视觉和音频图像,不仅允许订阅者对关键词对应的内容进行分类,而且对“信息”进行分类。“这些信息对订阅者来说可能和内容一样有价值,因为演讲者的态度、语调和节奏往往能比陈旧的文字记录或摘要更能阐明他或她的真实想法。”与新闻文章的索引和摘录不同,无论在哪个论坛或媒介中查看印刷文字都传达相同的意思,TVEyes提供的服务具有转换性。通过索引和摘录每天每小时、每周、每月、每年的所有电视内容,TVEyes提供了内容提供者未提供的一项服务。TVEyes的订阅者不仅可以获取新闻呈现的内容,还可以获取评论员着色、加工和批评的新闻呈现,以及新闻广播剪辑、修改和扩展后的版本。
还存在第二个与之相关的区别之处,这种区别使得Meltwater 案中地区法院法官意见无助于本案判决的处理。Meltwater聚合了已被个人用户获取的内容,这些个人用户愿意在互联网上充分搜索并对检索结果进行充分筛选。Meltwater所提供的服务只是简单地爬取互联网,收集现有内容。然而,TVEyes创建了一个其他方式无法获得的内容数据库。TVEyes提供了独一无二的服务,它创建了一个收录电视频道全天候播放节目内容的数据库。互联网既不能也无法检索到所有上述内容,因为诸如Fox News这样的媒体不会将其所有新闻内容在互联网上公开。
因此,除了TVEyes,无法以其他方式收集和搜索这些信息。这本身就使TVEyes的目的具有转换性。与Meltwater不同,后者只是简单地整合了互联网上现存的内容,而这些内容可以由一个专注的研究者通过足够的时间、努力和互联网搜索拼凑在一起。这些差异进一步降低了Meltwater案地区法院意见对本案的说服力。
正如本文第三部分第(七)节所指出的,生成式AI系统在内容和目的上都具有高度的转换性。它们远不止于作为搜索和检索工具,简单地指向特定的内容产品。2022年,最先进的生成式AI应用才刚刚开始上市。在热潮退去、价格趋于稳定之后,如何使用它们,以及它们的市场将如何发展,目前还言之尚早。
不过,从研究和讨论最激烈的问题焦点来看,AI系统很可能会被用来生成常规文本材料,如根据体育赛事的实际数据和公司财务报表来生成体育和财经新闻。流行的新闻聚合网站也可能使用它们来综合其他类型的新闻报道。计算机程序员可以利用它们为某些程序编写计算机代码初稿,音乐家可以利用它们构思新的音乐作品。
功能更强大的生成式AI系统的出现也极有可能加速视频制作自动化的趋势,特别是在动画和特效方面。
以上所有例子中,技术使此前需要大量人力的活动成为可能。这本身就具有转换性,并且可能涉及或不涉及获得版权保护所需的独创性表达。
因此,在几乎所有被诉侵犯版权的创意机器人案例中,其辩护者都将有力论证其机器人具有转换性特征,这种论证会影响机器人作品演绎权的适用,并极大影响合理使用抗辩的可行性。
2. 版权作品的性质
关于第二个因素,即基础作品的性质,法院在Perfect 10, Inc. v. Amazon.com, Inc.案中阐明:“一旦Perfect 10将其图像在互联网上公开提供给付费订阅者使用,利用了首次发表的商业价值权利,Perfect 10就不再享有与未发表作品同样强度的法律保护。”
生成式AI系统学习数据库中的版权作品的性质,可能会以多种方式影响合理使用分析。如果版权作品是分析自然现象、思想或事实的非虚构作品,根据最高法院在Feist案中的裁决,此类作品应给予薄弱的保护。非虚构作品用于教授生成式AI系统,多涉及从版权作品中提取不受保护之事实或思想,故不构成侵权,且这一论证与思想/表达二分法的联系在合理使用分析中亦会产生类似影响。另一方面,虚构作品的版权可能获得强度更高的保护,对可保护元素的挪用以及对市场的不利影响都可能构成侵权。
在本文开篇机器人生成故事中,Debbie的作品被描述为关于人工智能技术的“论文”。这表明该作品是一篇解释和综合事实、数学方程和算法的技术论文,因此它只享有相对较低程度的保护。
此外,机器人生成的故事并没有明确说明Debbie是否期望从其文章中获得收益。若其并无此意,那么因该论文被用于生成式AI系统学习数据库所导致的任何市场不利影响都会减弱。
3. 使用的数量和性质
第三个因素,即使用的数量和性质,生成式AI的机器学习过程只获取学习数据库中数百万已有作品的离散部分。因此,生成式AI系统的获取行为符合第三个因素,合理使用能够成立。
在Google案中,法院裁定,所使用部分的数量和性质作为第三个因素,这一因素对Google有利:
如果单独考虑声明代码,Google复制的数量是相当大的。Google复制了Sun Java API中的37个包的声明代码,总计大约11 500行代码。这些代码行几乎是调用数百个不同任务所需的全部声明代码。另一方面,如果考虑Sun Java API中整个软件的材料集合,那么复制的数量就很小了。Sun Java API计算机代码的完整集合,包括实现代码,总计为286万行,其中复制的11 500行仅占0.4%。
关于第三个因素,即使用基础作品的数量,纽约地区法院在Fox News Network案中指出:“如果复制整个作品是实现转换性功能或目的所必需的,正如本案中的第二个因素一样,其他因素都要劣后于第一个因素,第一个因素即转换性使用的要求具有重要性和优先性。”在大多数生成式AI系统中,从版权作品中提取的材料数量和性质都很小;系统通过从数据库中提取数百万不同作品的少量内容进行学习。因此,除非学习算法或学习数据库的设计不同寻常,否则这一因素将极大支持生成式AI系统合理使用的抗辩主张。
4. 市场影响
法院在审理Google 案后分析了市场效应:
第四个法定因素关注的是复制行为对“版权作品的市场或价值”的“影响”。至少在计算机程序问题上,对这个因素的考虑可能比最初看起来更为复杂。它可能需要法院考虑版权人可能损失的金额。正如法院在Campbell案中指出,“出于商业目的完整地逐字复制原作”,很可能会产生作者原创的市场替代品。将作者的书拍成电影也可能意味着版权所有人的潜在损失或假定损失。这些损失通常与版权的基本目标相冲突:这一目标是为作者提供专有权利,以激励创造性表达。
但潜在的收入损失并非问题的全部。在这里本文不仅必须考虑损失的数量,还需考虑损失的来源。正如法院在Campbell案中指出,“极具讽刺意味的作品,就像尖锐的戏剧评论一样”,可能会“扼杀对原作的需求”。然而,即使这种损害直接换算为经济损失,也不属于“版权法认可的损害范围”。
此外,我们必须评估复制行为可能带来的公共利益。这些利益是否与版权关注创造新的表达有关?与可能损失的美元金额(同时考虑损失的来源性质)相比,这些利益是否更为重要,或者相对不重要?
就可能损失的金额而言,陪审团可能认为Android并没有损害Java SE的实际或潜在市场。同时,陪审团还可能认为,无论Google是否复制了Sun Java SE的一部分API,Sun Java SE本身(现为甲骨文公司)都无法成功进入这些市场。
考虑到这些重要差异,Google的经济专家告诉陪审团,Android并非Java软件的市场替代品。他解释说,“这两种产品应用于完全不同的设备上”,Android平台提供了“完整的移动操作系统栈”,是一种“类型截然不同的产品”,与Java SE不同,后者“只是一个应用程序编程框架”。
最后,考虑到程序员在学习Sun Java API过程中的花销投入,如果允许Oracle在本案中受到版权保护,将会对公众造成风险。鉴于开发具有类似吸引力的API替代产品的成本和困难,如果允许原告主张的这种执行,将使Sun Java API的声明代码成为限制未来新程序创造力的一把锁,而Oracle将独享钥匙。结果可能会给Oracle(或其他持有计算机接口版权的公司)带来巨大利润。然而,这些利润可能源于用户在学习使用该接口后开发的创造性改进、新应用和新用途。就此而言,这把锁定会干扰而不是促进版权激发基本创造力的目标。……毕竟,“版权提供了创造和传播思想的经济激励”,而重新实现用户接口使新的计算机代码更容易进入市场。
Authors Guild v. Google, Inc.一案中,上诉法院维持了对Google的简易判决,认定Google展示受版权保护书籍的文本摘录属于合理使用。法院认为,原告诉称的侵权行为具有转换性,并且Google的商业目的并未凌驾于其行为的转换性特征之上;Google的抗辩也一定程度上符合第二个因素;在第三个因素下,Google复制整部作品的行为并未抵触合理使用的要求,因为它并未向公众提供完整的副本。第四个因素同样支持合理使用抗辩:
鉴于相对于获取随机分散的任意片段所需的人力成本,一本书的正常购买价格较低,法院认为,原创作品的片段功能并未使搜索者能够据其获得与原创作品有效竞争的替代产品。片段视图充其量是在投入大量人力之后产生的不连续的微小片段,总计不超过一本书篇幅的16%。这并未显著损害权利人的版权价值或减少其版权收入。
Perfect 10, Inc一案,即第九巡回法院初步认定侵犯展览权的案件。然而,法院裁定,Google展示和发行缩略图的行为构成合理使用,这一行为具有高度转换性:
法院认定,Google搜索引擎具有高度转换性,尤其鉴于本案中,Google对公共利益的贡献超过了其对缩略图的替代性和商业使用。在得出这一结论时,法院强调,在新情况下灵活分析合理使用的重要性。法院坚持最高法院的指导意见,即“新作品的转换性越强,其他因素(如商业性)的重要性就越低,而这些其他因素可能会阻碍合理使用的认定”。
总之:
Google将Perfect 10的缩略图(以及数百万其他缩略图)用于与Perfect 10原本意图完全不同的用途。如此操作下,Google为公众带来了显著利益。权衡这一重要的转换性使用与用于手机下载的Google缩略图未经证实的用途,并考虑到其他合理使用因素,所有这些都符合版权目的,我们得出结论,Google对Perfect 10缩略图的使用构成合理使用。
关于第四个因素,即对受版权保护作品市场的影响,Fox News Network 案的审理法院表示:
关键在于,该因素“仅关注版权所有人受到的一种经济损害,即因二次使用原作替代品所导致的损害”。因此,任何由转换性使用所引起的经济损害不在此分析范围内,“因为这种使用本质上并非用于替代原作”。该因素还要求“权衡允许使用时公众将获得的利益和拒绝使用时版权人将获得的个人收益”。
任何理性的陪审员都不会认为,人们会使用TVEyes而非电视上观看Fox News播放的节目,前者并非后者的替代品。实践中也未曾发生过这种情况,“被告进行的那种不受限制的普遍性行为”也不会产生实际危险,从而对收看电视的整体市场造成任何潜在损害。
大多数情况下,生成式AI系统的高度转换性意味着其输出内容的市场与作为其学习数据库基础的版权作品的市场截然不同。在某些特殊情境下这一情况可能发生改变,但原告有责任提出有力的论据来证明其先前作品和生成式AI系统生成的内容属于同一市场。在有些案件中可以证成这一论点,例如“新闻聚合案”或者“机器人生成音乐的案”,后者要求新创音乐作品和先前作品属于同一流派。
(七)转换性
Reese教授对两种类型的转换性进行了有益的区分。第一种转换性是内容转换性,此类转换性修改了原作品的内容,但旨在服务于相同的目的。第二种转换性是目的转换性,此类转换性可能涉及与原始内容完全相同或非常相似的内容,但经过整合、格式化和传播,以服务于不同的市场和目的。在Clean Flicks v. Soderbergh案中,对迪士尼电影进行的清理并未改变其内容。而在Perfect 10案中,Google传播缩略图的行为则具有转换性目的。
生成式AI程序的输出内容同时具有两种转换性。通过从数百万基础作品中合成内容,基础作品的内容已被大量修改。此外,转换性AI程序输出内容的用途可能与基础作品作者所预期的用途大不相同。
要么是因为输出内容与原作完全不同,故不侵犯任何专有权,要么是因为输出内容构成合理使用,这两种高度转换性都可以避免对系统的输出内容科以侵权责任。究竟通过何种路径产生免责判决并不重要。
(八)原告举证难点
欲于版权侵权索赔中获得赔偿,索赔人必须证明:
1. 其作品存在于学习数据库中;
2. 学习算法参考了其作品;
3. 算法复制或以其他方式操作了其作品的哪些部分;
4. 这些部分是如何被纳入被诉作品的。
基于上述要求,侵权测试案例更多涉及图像和程序代码也就不足为奇了。在生成式AI应用中,与ChatGPT等基于文本系统相关的证据难点较少。机器学习图像的过程比从海量文本中学习的过程更容易理解,因此原告提供必要证据以使其侵权诉请得以成立的任务更为简单。
在计算机编码应用中,生成式AI系统很可能生成与原告版权所涵盖的代码句子和段落完全相同或非常接近的内容。当然,原告面临的问题是必要场景:排序算法的编码方式只有有限的几种。
在针对生成式AI程序的两件备受瞩目的版权侵权诉讼中,法院裁决结果隐晦地表明,任何关于程序学习方式构成版权侵权的主张都存在弱点。Open AI的原告完全没有主张版权侵权。
Stable Diffusion的原告承认:“对特定文本提示进行响应而生成的任何Stable Diffusion输出图像,都不太可能与训练数据库中的任何特定图像高度匹配。”因此,他们起诉复制事实之外,或者在此基础上,提出了更具想象力的理论。
GitHub的索赔人根本没有提出版权侵权指控。他们诉称:
* 违反《数字千年版权法》;
* 违反许可进而构成普通法违约行为;
* 对合同关系的侵权干涉;
* 普通法上的欺诈;
* 违反《美国法典》第15篇第1125条的虚假原产地名称/虚假假冒行为;
* 不当得利;
* 不正当竞争;
* 违反GitHub 隐私政策和服务条款所构成的违约;
* 违反《加州消费者隐私法》;
* 处理个人数据时过失责任;
* 民事共同侵权。
除版权直接侵权外,Stability Al 公司诉称:
* 版权间接侵犯;
* 违反《数字千年版权法》;
* 侵犯法定的公开权;
* 侵犯普通法规定的公开权;
* 不正当竞争;
* 合同违约。
四、删除《数字千年版权法》数字版权管理信息
《数字千年版权法》(DMCA)禁止规避版权保护的技术措施:“未经版权人或法律授权,任何人不得——(1)故意移除或更改任何版权管理信息……。” GitHub 和Stability Al的起诉都声称被告侵犯了DMCA规定的技术保护权利。
原告主张被告违反DMCA的技术保护条款,这就避免了必须证明复制或演绎作品的麻烦。此类主张的成功取决于一点,即原告证明已从版权作品中移除与版权保护或版权声明相关的元数据。但是,原告要证明这种主张,仍然必须明确指出哪一特定作品的技术保护信息已被删除,而鉴于学习数据库输入内容被混入大量不同的特征,原告很可能无法承担证明责任。
深度学习系统确实会移除或至少忽视学习数据库条目中的版权保护元数据,但随后它们只是处理内容,而不会逐字复制、发布、发行或逐字展示这些内容,同时去除版权保护。因此,受版权保护的作品从未以剥离其版权管理信息的形式存在于学习数据库中;深度学习系统只是在学习时查看其部分内容。
Murphy v. Millennium Radio Group LLC案中,第三巡回法院裁定,DMCA的保护范围不仅包括自动复制保护系统,还包括将摄影师姓名作为图片署名的情况。原告摄影师诉称,被告广播站在其网站上发布了一张受版权保护的照片,但没有署名;该作品的版权管理信息已被删除,这违反了第1202条(b)(3)款的规定。
O’Neal v. Sideshow, Inc.案中,地区法院驳回了原告主张违反DMCA版权管理信息规定的诉请。法院在引用其他案例时裁定,除非被诉作品与被移除版权信息的版权作品完全相同,否则不构成DMCA侵权。此外,法院认定,原告未能主张构成侵权所需的故意要件。“事实上,O’Neal并没有确证这一事实,即有关Sideshow和Anzalone知道移除或更改O’Neal的版权管理信息可能导致侵权的事实。”
在O’Neal案审理法院引用的Kirk Kara Corp. v. Western Stone and Metal Corps.案中,地区法院驳回了原告的DMCA诉请,但拒绝了基于实质相似性的版权侵权索赔的驳回请求。
被告认为,由于展示主题设计的图像和展示主题产品的图像并非完全相同,原告的诉请应该被驳回。法院支持这一主张。通过审查诉讼中包含的并排图像,法院可以确定,尽管这些作品可能具有实质相似性,但被告没有完全复制原告作品并移除版权管理信息。在这种情况下,即使基础作品彼此相似,法院也会判定若作品并不完全相同,则不构成DMCA侵权。
然而,在ADR International Limited v. Institute for Supply Management Inc.案中,地区法院采纳了地方法官的建议,对驳回DMCA主张的诉请不予支持,地区法院裁定版权信息被移除的被诉作品不必与先前版权作品完全相同。法院认定Kirk Kara案的判决没有说服力。
另一方面,版权保护信息被移除的演绎作品将不在DMCA第1202条的保护范围之内。“从版权保护作品中‘移除’版权管理信息,与未在不同版本或受保护作品的演绎作品中添加版权管理信息,是两码事。”
对于主张违反DMCA版权保护信息权的原告来说,最大的障碍是要求不受保护的被诉作品必须与基础作品完全相同。然而,在这个问题上,判例法见仁见智,因此原告主张仍具有获得法院支持的一线希望。
五、版权目的的考量
波斯纳法官指出,版权保护在塑造创造性表达方面是把双刃剑。
从激发创造力的角度来看,延长版权保护期限是一把双刃剑,因为这样会缩小公共领域范围,从而削弱后续作者创作演绎作品(例如,创造像福尔摩斯和华生这样受欢迎的虚构角色的新版本)的动力。版权保护期越长,公共领域的材料就越少,因此创作成本就会越高,因为作者将不得不为获得更多材料而申请版权人的许可——正如本案中遗产管理人要求Pegasus支付许可费所表明的那样。
大多数版权作品都往往包含大量的公共领域材料——单词、短语、数据、完整句子、引用材料等。公共领域范围越小,创作新作品所需工作量就越大。被告提出的规则可能会鼓励作者围绕旧角色创作故事以延长版权保护期,而非鼓励他们缔造新角色,创作新故事。其效果将会抑制创造力。
波斯纳法官关于延长版权保护期的见解,同样适用于扩大版权保护范围的讨论。正如最高法院所言:“艺术保护越受青睐,技术创新可能就越受抑制;版权法的实施是这一实践折中的权衡。”查尔斯·克罗宁(Charles Cronin)如此论述:
今天流行的歌曲就像乐高积木或Tinker Toy组装,其构成部分可能比它们的组合具有更大的创造性。或者,它们就像蹒跚学步幼儿的手指画,溺爱他的父母——如音乐编曲者、音频工程师和视频制作者——通过使用创作者所不知道的巧妙构图和呈现技术,将手指画转变为吸引人的作品。然而,不管这些创作的潜在吸引力或市场价值如何,它们作者身份越模糊,法院就应该越谨慎地审查侵权主张的合法性。
克罗宁先生认为,法律应该“通过有限的从宽认定涉及实质性音乐表现形式复制(基本上是复制整部作品)以外的侵权纠纷,使人们对复制音乐表现形式持有更宽容的态度,以防止这些复制品在市场上取代原作”。合理使用分析,特别是第四个因素即市场影响因素,为务实的法律和经济分析提供了法律框架,以正确地设定激励的门槛,平衡创作激励与可能的创作障碍。
当生成式AI输出内容市场与构成AI系统学习数据库的版权作品市场是同一个市场时,认定侵权的情况将发生变化。任何寻求反驳合理使用抗辩的被侵权人原告,都应该承担证明市场相似性的责任,并解释生成式AI输出内容如何削弱了基础作品的市场。
正如本文分析中提及的法规、案例法和评论部分所明确指出的那样,包含在生成式AI系统学习数据库中的版权作品作者将难以证明侵权并反驳合理使用抗辩。没有人可以过分曲解法律以使这些侵权主张更容易成立。
需要平衡版权的激励效应与其产生的障碍作用,这意味着法院和立法者应该认真考虑将生成式AI创新者暴露于版权侵权责任的影响,因为他们的机器学习系统在开发过程中可能咨询了数以百万计的版权作品。如果一个机器人企业家面临大量的版权侵权诉讼,他将很难吸引投资,而且一旦陷入诉讼,就很少有时间用于产品开发和创业。
反之,既有权利的权利人也在主张,法院不应剥夺他们获得合理报酬的权利,这一报酬来自以沉没成本为代表的创造性投资。合理的政策要求版权人应承担重大责任,准确证明特定生成式AI系统的可用性,以及其使用如何干扰原告对版权作品的投资回报预期。
政策发展不太可能使生成式AI系统获得太多版权侵权责任豁免条件。相反,欧洲和美国的政府机构似乎在竞相明晰如何对人工智能采取监管措施。这隐含着在可预见的未来,生成式AI创新者将面临责任追究的风险。解决这个问题的一种方法是开发集体许可计划,这是在模仿一种之前存在的模式,该模式产生于早期录制音乐时代主要版权集体以及此后50年的早期互联网数字音乐时代。
受版权保护或可能受版权保护的文学、音乐、摄影和视频作品的作者将同意新的集体许可,允许他们的作品被收录于生成式AI系统的大规模学习数据库中。AI系统开发商将与这些新的集体签订合同,以获得数据库中所有材料的使用许可。如果对许可协议的条款进行适当的设置,在AI系统从数据库中学习并基于该学习输出内容时,生成式AI系统开发商将免于版权侵权责任。
在开源系统下,大量计算机代码和图像集合已经使用了标准许可。这些标准许可可以修改,以涵盖在生成式AI训练数据库中使用许可作品的情况。这种方法不需要创建新的版权集体,这也许是在瞬息万变的AI利用现实世界中制定许可细节的一个有益起点。
六、结 语
版权人很难主张对大多数生成式AI系统科以版权侵权责任,因为很难证明其作品中特有的受保护元素被复制、转换为演绎作品、向公众发行、向公众展示或为公众表演。即使他们论证了初步侵权行为,AI系统的辩护者很可能会以合理使用进行抗辩,从而免除机器人生成行为的责任,因为其生成材料具有很高的转换性。
机器人企业家面临源源不断的版权侵权诉讼威胁,这将抑制创新。即便是敢于冒险的企业家也会面临吸引投资的困难。即使他们获得了资金,一旦诉讼开始,其产品开发计划将受到阻碍。
欧洲和美国的立法者正竞相监管人工智能,这加剧了AI开发者的法律威胁。
为了摆脱法律不确定性的阴云,私人AI部门可能会开发用于训练数据库的集体内容许可机制,以保护生成式AI引擎免于版权侵权责任。


往期目录



关于本刊


《上海政法学院学报》创刊于1986年,原名《法治论丛》(2003年更名为《上海政法学院学报》)。《上海政法学院学报》是我国最早以“法治”命名的法学专业学术期刊之一。

我们立足一流期刊建设目标,坚持 “高质量”“特色化”“专题化”办刊思路,在法学期刊建设上努力探索,学术影响力稳步提升。据中国知网年报显示,《上海政法学院学报》(法治论丛)“复合影响因子”从2022年的3.19提高到2023年的5.26,“综合影响因子”从2022年的1.50提高到2023年的2.97,CI指数排名也从2022年的第33位提升到2023年的30位。此外,据中南财经政法大学2023年信息检索报告统计,《上海政法学院学报》共有42篇次(2022年31篇次)被《新华文摘》《中国社会科学文摘》《高等学校文科学术文摘》《社会科学文摘》和“人大复印资料”等二次文献全文转载或论点摘编,在全国法律类院校学报排名第4位(2022年排第7位)。

我们以“问题意识”为导向,以做好选题策划为根本,在持续推进“党内法规”“数字经济法治”“国家安全法治”等特色栏目建设的基础上,继续追踪学术前沿热点,新增设了“新兴权利法律问题研究”“经典译介”和“初创学者佳作”等专栏。2024年,本刊将新开设“交叉学科研究”“涉外法治研究”专栏及“民法典合同编解释”“新公司法解读”专题,持续对相关领域重大问题进行深入探讨。

我们将以开放姿态拥抱新技术。全面升级网站建设,完善投审稿系统,实现全流程数字化出版;提升微信公众号运营策略,同步推出作者音频视频解读,开通视频号;积极完善网络首发,同步上传作者音频视频,增强学术出版。

我们诚挚地欢迎广大海内外科研工作者关注和支持上政学报并惠赐大作,也欢迎各界朋友积极建言献策、批评指正,以期共同办好《上海政法学院学报》(法治论丛)。来稿请通过《上海政法学院学报》编辑部网站(http://www.shupl.edu.cn/xbbjb/)投审稿系统进行投稿。本刊对来稿严格遵守三审(二审外审)定稿制度,以确保稿件选用公开公平公正。


编 辑:汤仙月

审 核:康敬奎


以法为基,寻社会治理之策

以文为器,求兴国安邦之道


投稿邮箱:xuebao@shupl.edu.cn

微信公众号:law-review1986

网址:http://www.shupl.edu.cn/html/xbbjb

电话:021-39227617  39227619



更多内容请点击下方“阅读原文”进入学报官网查看

 最新文章