网络首发 | 生成式人工智能训练数据的著作权法因应：确需设置合理使用规则吗？

文摘 2024-05-18 12:06 湖北

网络首发时间

2024-05-15

网络首发地址

https://link.cnki.net/urlid/42.1085.G2.20240515.1112.002

引用本文

魏远山．生成式人工智能训练数据的著作权法因应：确需设置合理使用规则吗？[J/OL]．图书情报知识(2024-05-15).

https://link.cnki.net/urlid/42.1085.G2.20240515.1112.002

Photo by Unsplash+ in collaboration with Denisse Díaz on Unsplash.

魏远山

广东外语外贸大学法学院，广州，510006

目的 \| 意义		生成式人工智能（GenAI）训练数据包含大量尚处保护期的作品，明确是否应为机器学习设置合理使用规则，有助于化解GenAI训练数据的著作权法争议。
研究设计 \| 方法		以类型化视角审视表达型和非表达型机器学习，以是否符合“未经许可利用作品训练GenAI构成侵权→遵循授权使用规则阻碍技术进步→其他简化授权机制无法适用”的逻辑来确定是否设置合理使用规则。
结论 \| 发现		作为非表达型机器学习的输入和训练阶段是“非作品性使用”，因不构成侵权自然无为其设置合理使用规则的必要；作为表达型机器学习的输出阶段是“ 作品性使用”，但因GenAI向公众开放前后所处场景有异，应作类型化分析。在未向公众开放时，GenAI输出结果主要用于验证模型训练情况，可被定性为合理使用；在向公众开放后，若输出结果对作品表达改动幅度超越改编行为范畴则属正当使用，反之则构成侵权。因输出阶段构成侵权不会阻碍GenAI技术发展，故无需为其设置合理使用规则。
创新 \| 价值		与既有研究不同的分析方法和研究结论，对AI从业者和法律工作者探讨GenAI训练数据的著作权法问题具有启示作用，也对丰富和深化现有研究有益。
关键词		生成式人工智能；机器学习；训练数据；著作权；合理使用；作品性使用

引言

我国2023年颁布的《生成式人工智能服务管理暂行办法》第7条规定，生成式人工智能（GenAI）服务提供者在训练模型（机器学习）时不仅要保证训练数据来源合法，还要求不得侵害他人依法享有的知识产权。2024年2月29日发布的《生成式人工智能服务安全基本要求（TC260-003）》“ 5.2 语料内容安全要求”规定服务提供者应重点注意语料的知识产权侵权问题，不应使用存在知识产权侵权风险的语料。按现行《中华人民共和国著作权法》（简称《著作权法》）的要求，GenAI服务提供者要消除训练数据的著作权侵权风险，除非只使用公共领域数据，否则须事前获得训练数据所包含作品的权利人许可。在当前环境下，诸如文字、音乐或视听等作品通常比公共领域数据质量更高，更符合GenAI的训练需求。鉴于机器学习需以海量数据为基础，要求服务提供者在机器学习前取得训练数据中作品的权利人的许可并不现实。如Nvidia训练NeMo模型的训练数据集（The Pile）约有108GB，其中名为“Books3”的训练数据集由近196,640本书组成。若坚持以“先许可，后使用”的规则，GenAI服务提供者获得许可的成本过高，最终使机器学习因著作权制度而被迫停止。正是机器学习对海量作品的需求与作品许可使用成本间的冲突，导致机器学习著作权纠纷频发。如Andersen等艺术家和图片巨头Getty Images起诉Stability AI、DeviantArt、 Midjourney等未经许可用其作品训练GenAI模型；美国作家协会与17位作者，《纽约时报》，以及包括The Intercept、Raw Story和AlterNet等在内的数字新闻媒体，分别状告OpenAI和微软未经许可使用其作品训练GenAI模型。在我国，某GenAI服务提供者因其提供的GenAI软件在用户键入指令后生成了侵害他人著作权的奥特曼图片而被认定构成侵权。2024年3月20日，谷歌未经许可使用新闻机构的新闻报道训练其聊天机器人Gemini，被法国市场监管机构处以2.5亿欧元罚款。这一系列案件都将GenAI训练数据的著作权法问题呈现在人们眼前。

面对日益严峻的GenAI训练数据著作权法争议，部分学者主张可考虑引入法定许可制度来为GenAI服务提供者减负，但更多学者或主张借鉴欧盟《数字化单一市场版权指令》第3条确立的文本与数据挖掘例外规则，或效仿2018年《日本著作权法》第30-4（ii）条在我国增设“提供新的知识和信息 ”或“计算机信息分析 ”等合理使用规则，甚至以美国的“转换性使用”为GenAI训练数据开辟合理使用的空间。尽管本文亦认为著作权制度应适时为GenAI发展提供必要空间，但《著作权法》于2020年刚刚完成修订，在短期内以修改《著作权法》的方式将机器学习纳入合理使用的可能性较小。虽也可在“人工智能法”中增设GenAI训练数据合理使用规则，但“人工智能法”并未在全国人大的年度立法计划内，难在短期内通过此方案解决GenAI训练数据的著作权争议。更何况，训练GenAI的过程不仅可被拆解为多个涉著作权法问题的步骤，而且所涉及的训练数据体量极大。若简单划一地将整个过程视为合理使用，确实易引发潜在作者群体的抵触情绪，徒增通过修改《中华人民共和国著作权法实施条例》（简称《著作权法实施条例》）来扩充《著作权法》第24条第1款第13项合理使用兜底条款的难度，甚至最终挫伤潜在作者群体的创作积极性，反而无益于著作权制度初衷的实现。因此，有必要在剖析GenAI机器学习原理的基础上结合合理使用制度的理念，厘清到底哪些行为与著作权法相冲突，进而再考虑是否应为训练GenAI设置合理使用规则，才能更具针对性地为GenAI训练者提供训练数据版权合规建议，甚至为完善相关立法提供参考。

机器学习的工作原理解析及类型化

利用海量数据训练GenAI其实就是机器学习的过程，只不过此过程较为复杂。当训练数据包含尚处著作权保护期限的作品时，可将机器学习分解为多个涉作品的行为。为清晰辨明机器学习中的哪些行为涉嫌侵害著作权、哪些行为与著作权法无关，就有必要剖析机器学习原理。

2.1 机器学习原理解析

单从技术的角度看，学界普遍提到的“文本与数据挖掘”应是“数据挖掘”，毕竟文本只是数据的一种类型。数据挖掘与机器学习颇像，差异是前者重在从大量数据中找到答案，难点是如何获得海量数据；后者注重从数据中找到答案的过程，强调学习的过程（如何使算法更准确）。尽管机器学习和数据挖掘有区别，但二者仍需以大量数据作为基础支撑。GenAI的训练本质上是机器学习（从海量数据中学习解决某类问题的方案），即以大量数据使模型能更好地响应用户所键入的指令，虽强调学习的过程但高度依赖训练数据的质和量。故本文不严格区分GenAI语境下的机器学习和数据挖掘，混合使用模型和算法。

本文以最近备受瞩目的Sora模型为例，来剖析机器学习原理。Sora综合了大语言模型和扩散模型的双重优势，本质上是一个具有灵活采样尺寸的Diffusion Transformer（DiT）模型，主要包括3个部分：（1）通过Variational Auto-Encoders（VAE）编码器将用于训练的原始视频转换为低维空间的时空图像块（Spacetime Patches）；（2）DiT处理被添加了随机高斯噪声的Patches，并结合提示词（Prompts）输出去噪的Patches（此过程中，算法将学习训练数据中Patches间的特征、结构和关系并优化算法参数，以更好响应用户指令）；（3）使用ChatGPT等大语言模型将用户键入的指令扩写为符合DiT理解需要的更长提示词后，利用文本和图像对齐模型（CLIP）生成文本与图像对（<text, image>），引导DiT模型生成符合提示词相应风格或主题的低维空间Patches，最后通过VAE解码器将生成的Patches恢复成像素级的视频数据。在Sora训练过程中，抛开人才因素，最重要的就是有足够的训练数据，其次才是DiT模型和网络架构。足量的原始视频数据直接决定了DiT模型是否能高效准确响应用户所键入的指令。

可将Sora的整个过程大致分为数据收集、数据预处理、模型训练和输出结果几个步骤（如图1所示）。其中，数据收集是要获取足量的用于模型训练的原始数据。如Midjourney的训练数据至少包含33万张图片和250万条字幕；JourneyDB的训练者收集了 4,692,751张图像、1,730,639条提示词，并按照20∶1的比例将收集到的数据划分为训练数据和验证数据集。数据预处理主要是数据清洗和标注数据。数据清洗的原因是训练数据可能因存在重复、错误现象而出现无效值或缺失值，要通过清洗消除训练数据的有害成分并保证数据的一致性。标注数据主要出现在（半）监督机器学习情况中，通过人工标注部分或全部训练数据，为训练模型提供必要的指导。如在JourneyDB训练过程中，工程师就对近420万张图片和138万条提示词进行了标注。模型训练是基于训练数据使DiT模型能更好生成符合用户指令的视频内容，主要使DiT模型通过分析基于训练数据得到的低维度时空Patches间的特征、结构和关系等优化自身参数，并生成符合“文本与图像对”的视频内容。输出结果是Sora利用DiT模型结合CLIP模型生成与扩写后的提示词相匹配的内容，并在用户界面予以展示。在AI技术行业内，一般将数据收集、数据预处理归为输入阶段，模型训练称为训练阶段，输出结果归于输出阶段。


	图1 Sora架构概览

此外，有必要阐明的是，GenAI的目标并非是复制，而是将用户输入的指令转化为相应输出的模型。GenAI在训练过程中需要将训练数据转换为最小单元（Token），如在大语言模型（LLM）中则是“文本中的最小单元（或词元）”，在Sora场景下则是Patches（图像块）。GenAI基于大量数据进行学习的核心，并非是在接收到指令后重新排列或组合Token以输出结果，而是学习训练数据中Token间的关系或参数等，从而基于模型“重新生成”符合指令的内容。尽管“生成式的本质就是按照指令生成新内容，复制直接违反了生成式技术的核心设定”，但在理论上和现实中均存在GenAI输出结果与已有作品相同的情形（GenAI的输出结果构成对已有作品的复制）。鉴于现实纠纷中确实已出现GenAI输出结果构成复制的情况，故后文将分析此种“程序错误”的著作权法问题。

2.2 机器学习的类型化

因本文主要分析GenAI训练数据的著作权法问题，故不以计算机科学领域普遍遵循的机器学习分类方法，而是更多从涉及作品使用的情形考虑如何对机器学习进行类型化。在分析机器学习著作权法问题时，有学者将机器学习分为“表达型”和“非表达型”两种。这种类型化的方法主要着眼于机器学习是否基于受著作权法保护的作品输出表达性内容，即是否可能向公众展示作品的表达（包括作品的原表达和改编后的表达）。因在训练GenAI过程中确实不可避免地使用到一些尚处著作权法保护期限的作品，但非所有的步骤或阶段均会展示训练数据中所包含作品的表达。因此，本文认为“表达型”和“非表达型”机器学习的分类，可为分析GenAI训练数据的著作权法问题提供有用且可行的视角。

在Sora等GenAI机器学习过程中，训练阶段和输出阶段到底属于表达型还是非表达型机器学习，比输入阶段更容易判断。训练阶段只是在机器内部进行，甚至无监督机器学习的训练过程都不存在人力参与，属于典型的非表达型机器学习。输出阶段是Sora凭借DiT模型生成符合用户指令的视频内容，自然需向用户展示所生成的视频内容。因而，诸如“文生文”“文生图”“文生音频”和“文生视频”等GenAI的输出阶段属于表达型机器学习。反而是输入阶段涉及复制、汇总、标注训练数据，看似涉及到训练数据中所包含作品的原始表达，但因这一阶段只是将可能包含尚处著作权保护期限的作品的训练数据进行汇集，去除缺失值和无效值，并将训练数据转换为机器可读格式的语料，并不直接展示或使用作品的表达。因此，本文将输入阶段也划定为非表达型机器学习。

综上，在GenAI机器学习过程中，输入和训练阶段是非表达型机器学习，输出阶段是表达型机器学习。

设置机器学习合理使用规则的逻辑

面对机器学习的著作权法困境，学者主要借鉴域外立法及司法经验，主张在我国《著作权法》或《著作权法实施条例》中引入机器学习合理使用规则。这种简单分析的过程却忽视了合理使用制度的原理，反而容易引发潜在作者群体的抵制情绪，影响机器学习合理使用规则的构建。因此，有必要首先厘清设置合理使用规则的逻辑前提，从而为应否和如何将机器学习纳入合理使用情形提供指引。

3.1 前提一：未经许可利用作品训练GenAI侵害著作权

学界对合理使用制度的性质仍有争议。但不论是将合理使用定性为对著作权的权利限制，还是将其视为侵权阻却事由抑或使用者权，在考虑为某一类作品使用行为设置合理使用规则时都有共同的前提性基础，即此类作品使用行为落入著作权专有权控制范畴。质言之，合理使用所豁免的某种未经著作权人许可的作品使用行为本是侵害他人著作权的，但因合理使用的存在该行为人不承担著作权侵权责任（侵权阻却事由说），或在该类作品使用场景下使用者有自由使用的权利（使用者权说）或作品权利人的著作权被限制（权利限制说）。但因著作权乃至知识产权并非自然权利，其排他性不像有体物财产权那般可凭借占有得以彰显，只能依靠法律规定确立。这意味着对著作权而言，只有某作品使用行为落入著作权专有权的控制范围才可能被认定为侵权，未落入专有权控制范围的行为根本无被定性为侵权行为的可能。如在我国，著作权法并未规定除计算机软件和视听作品以外的作品上存在出租权，某人将其合法购买的纸质书籍出租给他人并不落入文字作品著作权专有权的控制范围，因不构成侵权自然也就无讨论应否为此行为设置合理使用规则的必要。

目前，学者们借鉴商标领域的“商标性使用”和“非商标性使用”理念，试图在著作权法领域区分“作品性使用”和“非作品性使用”。其中，“作品性使用”等价于“功能性使用”，属于著作权法意义上的作品使用。这种作品使用行为通常会干扰著作权人对作品的正常使用，即“作品使用者以权利人通常从特定权利中获取经济价值的方式进入版权市场与权利人竞争，从而剥夺权利人重大或有形商业收益”，属于著作权专有权控制的行为类型（如改编、表演等）。“非作品性使用”则等价于“技术性使用”，是指作品被作为工具或数据使用以便获得相关信息。在此种作品使用场景下，作品的独创性表达或表达性特征并未被使用，公众也未直接欣赏到作品所展现的文学、科学或艺术之美，更未产生可能与作品具有竞争性的替代性内容，也就不会影响作品的正常使用或有损著作权人的合法权益。但“非作品性使用”并不同于合理使用。原因是后者本质上仍属于作品性使用，只是出于特定目的将此种作品性使用行为不作为侵权行为处理，或认为此种情形下著作权人的权利被限制；而“非作品性使用”根本未将作品作为作品使用，本就不属于著作权专有权控制的范围，根本无成立合理使用的可能。因而，“非作品性使用”通常不落入著作权专有权控制的范围，也就不涉及是否侵权的问题。如新闻媒体为报道新闻，不可避免地再现或引用他人已经发表的作品。此时虽也是对作品的使用，但这是为更好地说明某事而必需，并非旨在向公众传播作品。故此类作品使用行为根本就不属于著作权可控制的情形，自然也不应存在是否要为其设置合理使用规则的问题。我国《著作权法》将此种行为规定为合理使用，更多是为了强调此行为的正当性，并为社会公众和司法裁判者提供指引。

这种“作品性使用”和“非作品性使用”相区分的理念，将区分“作品上的使用”（Use on Work）和“作品的使用”（Use of Work），对分析GenAI训练数据的著作权问题具有重要借鉴意义。正如有学者所言，如果可将基于作品的机器学习过程定性为“非作品性使用”，意味着此行为不属于著作权专有权控制的范围，也无讨论应否设置合理使用规则的必要。但遗憾的是，基于作品的GenAI机器学习过程并不必然都属于非作品性使用，如某“文生图”GenAI响应用户指令输出了一系列与他人美术作品相同或基本相同的内容，昭示着机器学习确实存在作品性使用行为。因此，讨论是否应为GenAI机器学习设置合理使用规则，须首先确定机器学习中的哪些涉作品行为属于著作权专有权控制的范围，哪些行为与著作权法无涉。其中，与著作权法无涉的行为自无构成侵权的可能，也就无讨论合理使用问题的必要；只有落入著作权专有权控制的作品使用行为才有可能构成著作权侵权，方有讨论应否将其纳入合理使用情形的逻辑前提。

3.2 前提二：遵循授权使用规则将制约GenAI技术发展

著作权制度是平衡的艺术，核心是平衡著作权人私人利益（对作品的保护）和社会公众的公共利益（公众获取和使用作品中思想和表达的能及程度）。良好的著作权制度应实现二者的平衡。倘若对作品的保护力度已经明显限制了公众接触作品的可能，就必须使用一种机制来重塑平衡，而这正是诸如合理使用等制度存在的基础。因此，考虑是否应为某类作品使用行为设置合理使用规则，就必须审视在遵循授权使用规则的情况下，对作品的保护是否已经限制公众接触作品。如为个人学习、研究或欣赏目的使用他人已发表的作品，须先向作品权利人获得许可并支付报酬，其后果必然是作品权利人的私人利益严重限制了此种情况下大众使用作品的公共利益。正因如此，我国《著作权法》为平衡此种情况下的公共利益和私人利益，才在第24条第1款第1项规定“个人学习、研究或欣赏”的合理使用情形。

对GenAI的训练来说，因需以海量数据为基础，且这些训练数据中不可避免会包含尚处著作权保护期限的作品。因现行《著作权法》并无契合机器学习的合理使用或法定许可规则，理应遵循“先许可+付费，后使用”的授权使用规则。此时，确需考虑在授权使用规则下，著作权是否已经限制了机器学习或GenAI技术的发展。若著作权确实限制了GenAI技术的发展，则有讨论是否应为其设置合理使用规则的前提；反之，则应遵循授权使用规则，而无讨论合理使用制度的必要。

3.3 前提三：其他简化授权机制无法较好平衡各方利益

在著作权制度中，按是否须经许可和付费，可细化出三种作品使用规则：既须许可又须付费的授权使用机制（常态化机制）、无需许可但须付费的法定许可制度（包括默示许可机制）、无需许可也无需付费的合理使用制度。因相较于法定许可等简化作品使用授权机制，合理使用对著作权人的限制更大。因此，为避免对著作权人的合法权益造成过多限制或出于比例原则的考虑，只有在其他简化作品使用授权机制难以实现 “公众接近作品的可能和程度应与著作权保护范围和程度相匹配”的目标时，方有动用合理使用制度的正当性。同理，在考虑是否应为利用作品训练GenAI设置合理使用规则时，也必须要先予确定诸如法定许可等简化作品使用授权机制能否适用。若采取对著作权人合法权益限制较小的机制足以化解训练数据的著作权合规问题，自无动用合理使用制度的必要。

综上，在讨论是否有必要为利用作品训练GenAI设置合理使用规则时，上述三个前提层层递进，缺失任一环节均不足以证明应在我国《著作权法》或《著作权实施条例》中增设机器学习合理使用情形。具体而言，只有满足第一个前提（未经许可使用作品训练 GenAI属于著作权侵权行为），才有讨论第二个前提（遵循授权使用规则是否阻碍GenAI技术的发展）的必要；若不满足第二个前提，也就无需考虑第三个前提（是否有必要动用合理使用规则）。因此，后文将遵循此分析思路，分别审视非表达型和表达型两种机器学习是否符合设置合理使用规则的前提条件。

非表达型机器学习：不满足前提一

在利用尚处著作权保护期限的作品训练GenAI的过程中，尽管非表达型机器学习并不基于受著作权法保护的作品输出表达性内容，但也有多个步骤涉及到对作品进行处理或使用，是否属于侵权行为仍需作细致分析。

4.1 机械判断：涉嫌版权侵权

非表达型机器学习分为输入阶段和训练阶段。第一，输入阶段主要是获得训练数据并进行数据清洗。首先，在获取训练数据的过程中可能会复制大量尚处著作权法保护期限的作品，并将其汇总成训练数据集，复制和汇集行为可能涉嫌侵害复制权和汇编权。其次，在数据清洗时，因需删除重复数据、纠正存在的错误，甚至要对数据进行标注。这不可避免地会对作品进行删减、汇编和改动，可能涉嫌侵害修改权、保护作品完整权、改编权、翻译权或汇编权等。第二，训练阶段主要将清洗好的训练数据输入模型，模型依照一定的规则将训练数据进行汇集、拆分、合并等，以更好发现训练数据间的关系或提取知识。如训练人脸识别算法时会扫描、拆解包含人脸信息的摄影作品，来优化算法模型。此过程可能涉嫌侵害作品权利人的汇编权、保护作品完整权等。

尽管从表面看，GenAI训练的输入和训练阶段可能涉嫌侵害著作权，但其中有些行为与著作权具体规制的场景仍有不符。数据预处理和模型训练可能涉及对作品进行改动，看似涉及修改权、保护作品完整权，但数据清洗更多是去除缺失值和无效值，模型训练只是在机器内部对数据进行拆分和重组，不会出现清洗后的“内容能够让使用人意识到修改后的内容是与原作品连结的，能够与原作人的性格、精神产生关联”，意味着并不触及修改权和保护作品完整权。诸如汇编权和改编权等演绎权控制的是将作品或作品的片段汇集或改编成新作品的行为，但对训练数据的收集和汇总更多是将作品进行归集，此过程难以体现工程师的独创性选择或编排，更遑论得到新作品，也就不会侵害改编权和汇编权。此外，对训练数据的标注或清洗有时需将作品转化为机器可读的形式，看似与翻译权相抵触，但因将特定形式作品转化为机器可读形式存在特定的转换关系难谓有创作空间，故而与翻译权无涉，反而与复制权相关。因此，确实值得关注的是，在获取训练数据时不可避免地要复制作品的行为，因导致作品复制件数量增加，在机械判断情形下确有侵害复制权的可能。

4.2 实质判断：并非侵权行为

在机械判断理念下，GenAI训练数据的输入和训练阶段可能侵害复制权，但因非表达型机器学习属于非作品性使用，复制训练数据或把训练数据转换为机器可读形式，实质上并不侵害复制权，具体理由如下。在传统作品使用场景下，对作品的使用有时确实旨在向公众展示作者的独创性表达（作品性使用），但也存在只为新闻报道而不可避免再现他人已发表作品的使用情形（非作品性使用）。学者普遍认为“作品性使用”是把作品作为作品使用，是构成对作品的消费性使用，理应被著作权专有权控制；“非作品性使用”虽也是使用作品，但因并非发挥作品著作权法意义上的功能，而被认为不应成为著作权专有权控制的情形。随着与作品相关技术的发展，以“谷歌图书馆案”为契机，学者们就对人类阅读作品和机器阅读作品进行比较，并就机器或计算机阅读作品是否应被定性为著作权侵权行为进行了广泛探讨。学者们多认为著作权仅供人类使用，当作品被转化为机器可读的数据并被用于各种自动化处理的过程时，因机器不可像人类一般理解作品的文学、艺术和科学之美，机器阅读应与人类阅读区别对待，应被定性为作品的“非表达性阅读”“非表达性使用（Non-expressive Uses）”或“非展示性使用（Non-Display Uses）”，进而不落入著作权专有权控制的范围。因机器学习必须以训练数据为基础，尽管训练数据可能包含尚处保护期的作品，但复制或转换训练数据并非旨在向人类展示作品的原始表达，而是将作品作为数据用以训练模型，应属非作品性使用。当复制或转换训练数据构成非作品性使用时，就不应落入著作权专有权控制的范围，自然也不属侵权行为。

此外，部分学者主张将获取训练数据的行为定性为临时复制，进而主张临时复制不属于我国著作权法复制权控制的行为，或认为临时复制属于合理使用情形，以为获取训练数据提供合法空间。但本文以为，当前GenAI模型的训练不仅要获得海量的训练数据，而且通常会对所获取的数据进行清洗和标注，此过程其实难以被认定为“临时复制”。更何况我国著作权法并未对临时复制的性质作出确定的安排，到底是侵权行为还是属于合理使用尚无定论。因此，本文认为不宜将获取训练数据的行为定性为临时复制。

也有学者主张将利用尚处著作权保护期限的作品训练GenAI的行为定性为转换性使用。本文亦认为此种情形下使用作品的目的已经超越了作品通常使用目的或场景，可成立转换性使用。但转换性使用毕竟是美国版权法中的产物，并非我国《著作权法》中的制度。在遵循我国《著作权法》现行规定的情况下，或许可将转换性使用解释入第24条第1款第2项中的“介绍、评论或说明”项下，从而为自然人使用作品场景辩护；但在GenAI机器学习语境下，即使认定使用作品的行为属于转换性使用，也难以援引第24条第1款第2项为机器学习正名。此处只是从现行法角度分析机器学习有无成立合理使用的可能，无意评价诸如“主张我国应将转换性使用纳入合理使用情形，并以此解决机器学习训练数据著作权合规问题”的观点。

综上，非表达型机器学习看似涉嫌侵害著作权，但要么根本不满足侵害著作权专有权的构成要件，要么属于非作品性使用，实质上并非侵权行为，也就不满足前提一，自然无需为其设置合理使用规则。但前述分析仅限于获取作品以训练GenAI，若在获取后将作品用于非机器学习场景，是否构成侵权则需另行判定。

表达型机器学习：不符合前提二

作为表达型机器学习的输出阶段，GenAI是在学习训练数据基础上根据接收到的指令生成并输出内容。输出结果可能与训练数据中所包含作品的表达相同或不同，因而表达型机器学习对作品的使用应属于 “作品性使用”，理应落入著作权专有权的控制范围，但是否构成侵权仍需进一步分析。具体来说，因输出阶段所处场景在GenAI向公众开放前后有异，应分类讨论。在GenAI向公众开放前，此时的输出更多是在研发阶段，输出结果被用以验证模型是否达到训练要求，相关受众是研发技术人员且数量有限，对作品的正常使用或著作权人合法权益的影响甚微。因此，可依据我国《著作权法》第24条第1款第1项中的“为个人研究目的使用他人已发表作品”情形，将验证阶段的输出视为合理使用。但在GenAI向公众开放后，由于此时受众是不特定的人，输出结果是否构成侵权仍需进一步分析。因此，本部分主要讨论GenAI向公众开放后的输出结果是否侵害他人著作权。

5.1 表达型机器学习确有可能侵害著作权

我国著作权有人身权和财产权两大体系。其中，著作人身权有署名权、发表权、修改权和保护作品完整权四类，且修改权与“改动”有关，保护作品完整权与 “歪曲和篡改”相关。著作财产权可分为“复制权”“发行权和出租权”“传播权”“演绎权”四个亚系，分别对应“复制”“转让作品原件或复制件的所有权或占有”“传播”“演绎（改动）”四类行为。但因以下原因本文重点分析表达型机器学习输出结果的“传播方式”“改动幅度”和“有无歪曲和篡改”三个指标：第一，是否侵害署名权极易判断；第二，发表权一次用尽，且GenAI训练数据多是已发表的作品，通常不涉及发表权；第三，利用作品训练GenAI通常与发行权和出租权无关；第四，从某种角度来说，可通过“输出结果对训练数据中作品原表达的改动幅度”（改动幅度）将复制、演绎和修改三类行为联系起来；第五，因在著作权法上存在同时侵害保护作品完整权和修改权/改编权的情形，需考虑机器学习输出结果是否存在歪曲或篡改作品的可能。

首先，就输出结果的传播方式而言，依据是否可按个人选定的时间和地点接收表达型机器学习的输出结果分为交互式和非交互式传播，进而分别涉嫌侵害信息网络传播权和广播权。其次，就输出结果的改动幅度而言，表达型机器学习输出结果对作品原表达的改动有四种可能：未改动、改动未达到改编行为的高度、改动就是改编行为、改动超出改编行为范围。前三种情形分别侵害复制权、修改权和改编权，后一种行为因属正当使用而不构成侵权。尽管从GenAI技术原理角度看，直接输出训练数据中所包含作品的表达的情形本就是“error”。但从当前技术效果看，在“文生图”类GenAI应用场景下出现与现有作品完全相同的输出结果并非不可能，故仍需讨论此情况。最后，输出结果是否对作品进行歪曲或篡改，只存在有和无两种情况。综上，表达型机器学习是否涉嫌侵权，如表1所示。

表1 表达型机器学习可能侵害的权能类型

但需补充说明的情况有二：一是在改动幅度为0时，根本不存在对作品歪曲或篡改的可能，自然也就与保护作品完整权无关。二是当改动幅度超过改编行为的范畴（即GenAI只是利用了作品中的思想或事实）时，自然不会构成对保护作品完整权的侵害。典型场景如GenAI训练者以特定作者作品进行训练，训练后的模型可生成与训练使用作品的表达不同（表达不构成实质性相似），但与训练作品作者风格相同或相近的内容。此时只要输出结果对训练使用作品的改动幅度超过改编行为的范畴，则不宜认定为著作权侵权，原因是此时GenAI只是利用了作品中不被著作权法保护的思想或事实部分，并未展示训练作品的表达。例如，某自然人专门研究某位画家画风，随后可创作出与该画家画风相似但表达不相似的美术作品，当然不构成侵权。至少在当前似乎并无充分理由在著作权法上，将专研某作者风格并可“创作”出与该特定作者风格相同或相近但表达不同的自然人与GenAI区别对待。不过，此种情形下GenAI的训练者虽不侵害著作权，但是否应承担其他法律责任仍有讨论空间，却已非本文所要讨论的问题。

此外，诸如国外出现的AI模仿Drake和The Weeknd声音演唱AI生成的歌曲“Heart on My Sleeve” 事件，以及国内出现的AI孙燕姿事件。因AI只是模仿Drake和The Weeknd或孙燕姿的声音而未演奏其歌曲，也就不侵害Drake等人的著作权，但可能侵害所翻唱音乐作品著作权人的著作权。Drake等能否以侵害人格权为由状告AI公司涉及人格权（声纹等利益）侵权纠纷，已与著作权法无关。正因此种行为无法被纳入版权法调整范围，美国田纳西州才出台Ensuring Likeness Voice and Image Security（ELVIS）法案，来保护音乐家的声音和形象。

5.2 遵循授权使用规则不会阻碍技术发展

如前所述，GenAI的技术设置是通过学习训练数据中Token间的特征、结构、关系等属性（思想或事实），并基于模型重新生成符合指令的内容，而非简单复制训练数据。这意味着两个推论：第一，表达型机器学习本质上是学习训练数据的事实或思想内容，并不直接呈现训练数据中包含作品的表达。也即表达型机器学习输出的结果若对训练数据中所包含作品的改动幅度超过了改编行为范畴，并不构成侵权，自然也就无需讨论是否应为此种情况引入合理使用规则。第二， GenAI不是简单的复制和重组，故其输出结果理应是不同于训练数据中所含作品的表达，或至少不能与用于训练的作品的表达相同。因此，若GenAI输出结果与已有作品相同，理应构成著作权侵权，且GenAI服务提供者已有能力和办法防止生成与已有作品完全相同的输出。如OpenAI旗下的DALL·E-3模型就无法生成诸如米老鼠和唐老鸭等形象；我国某AI公司在被诉后采取相应措施，其GenAI已不能生成戴拿奥特曼图像。

不过，在输出结果对作品改动幅度超过复制行为要求但未超过改编行为范畴时，确有构成侵害著作权的可能，此时需考虑著作权法是否会制约GenAI技术的发展。唯有著作权确实有制约GenAI技术发展的倾向时，才有必要讨论是否应为其设置合理使用规则。

但技术研发和技术应用，不可同日而语。训练GenAI和向公众提供GenAI服务有异，前者是研发，后者是应用。从前文分析可知，利用尚处著作权保护期限的作品训练GenAI可认为是非作品性使用，不落入著作权专有权控制范围，也就意味着著作权并不会阻碍GenAI技术的发展。但将训练好的GenAI投入市场供公众使用是技术应用阶段，已非“训练模型”可囊括。因而在技术应用环节， GenAI向公众提供包含他人作品基本表达的内容，理应构成侵权。因为即使在自然人创作语境下，若某人创作出的表达包含了他人作品的基本表达，按照“接触+实质性相似”规则，发表或利用该表达也构成侵权。若要将GenAI生成物包含他人作品基本表达的情形不视为侵权，有过度向GenAI服务提供者倾斜保护的嫌疑，会损害作者群体的合法利益，挫伤潜在创作群体的创作积极性。因此，GenAI在技术应用阶段，欲寻求著作权合规，确实应先向作品权利人获得许可。

潜在的问题是，要求服务提供者在上线GenAI前广泛获得作品权利人许可，确实难度过大且成本过高。但这已超过GenAI训练数据著作权法问题的范畴。解决此问题的核心是平衡GenAI服务提供者和作者群体的利益，可欲的方案似乎不应是合理使用制度，因为此方案过度向服务提供者倾斜，未能合理保护著作权人的合法利益；反而是诸如法定许可或著作权集体管理等既能简化作品许可使用又可保证作者群体经济利益的方式更为可取，甚至是通过诸如“GenAIGC版权税”的方式将一定利益从服务提供者处转移至作者群体，也不失为一种值得探讨的方案。

综上，在GenAI向公众开放前，输出结果的目的是为验证模型训练效果，且受众范围有限，故可援引我国《著作权法》第24条第1款第1项的合理使用规则为其辩护。当GenAI向公众开放后，输出结果只是利用了训练数据中作品的思想或事实时，并不构成侵权；但若输出结果与训练数据包含的作品表达相同，或虽与作品表达不同但未超过改编行为高度，则构成侵权。只不过，因GenAI训练和应用不同，应用阶段构成侵权并不影响训练阶段（不满足前提二），故没有必要为应用阶段设置合理使用规则（无需考虑前提三）。

结论

某作品使用行为是著作权侵权行为，是为此行为设置合理使用规则的前提之一。讨论是否应为利用作品训练GenAI设置合理使用规则，应首先明确此行为是否属于著作权侵权行为。鉴于训练GenAI的过程本质上是机器学习，文章分解机器学习过程后发现：（1）输入阶段和训练阶段是非表达型机器学习，即使使用尚处著作权保护期限的作品训练GenAI，因属“非作品性使用”而不落入著作权专有权控制范围，也就不是著作权侵权行为，更无为其设置合理使用规则的必要。（2）输出阶段虽是表达型机器学习，基于作品输出结果属于“作品性使用”，但因GenAI在向公众开放前后存在差异，应分情形讨论：①在向公众开放前，输出结果主要是验证模型训练效果，接触输出结果的受众范围较小，且不会影响作品正常使用或著作权人的合法权益，可被认为属于我国《著作权法》第24条第1 款第 1 项之合理使用情形。②在向公众开放后，则要考虑输出结果对训练数据中作品表达的改动幅度。若输出结果仅是利用了作品的思想或事实（改动行为超过改编行为要求），属于正当使用；否则，构成侵权。但向公众开放GenAI服务已非训练GenAI，此时即使构成著作权侵权，也不会影响技术发展，故缺乏为此阶段设置合理使用规则的正当性和必要性。

当然，GenAI训练数据的著作权法争议在全球范围内并未形成共识，是否侵权因司法辖区而异。诸如日本和英国为利用作品训练GenAI设置了明确的合理使用规则，美国和韩国借助“四要素法”也基本可将利用作品训练GenAI的行为纳入合理使用，而欧盟有条件地将文本与数据挖掘例外适用于GenAI训练场景也为从业者提供了合理预期。因我国现行《著作权法》对此缺乏明确的回应，故有必要适时通过制修《著作权实施条例》或相关司法解释的方式，参考本文的分析思路明确表达型和非表达型机器学习是否构成侵权，从而为我国GenAI从业者提供更明确的规则指引。

*参考文献略，请详见原文。

END

版式设计

陆澜

制版编辑

王淳洋

关注公众知识状态 / 引领学科发展潮流

Focusing on the State of

Public Knowledge

Leading the Development Trends of

the Discipline

网络首发 | 中国人工智能话语权提升路径研究

网络首发 | 文化记忆：从后现代到后数字时代

网络首发 | 信息资源管理学科视角下的数据要素研究

网络首发 | 有所作为：将信息研究转化为实践、政策和行动——2023年ASIS&T年会综述

网络首发 | 生成式人工智能(GAI)背景下的新型数字鸿沟识别框架研究

http://mp.weixin.qq.com/s?__biz=Mzg3MTAxNTQ2OQ==&mid=2247503325&idx=1&sn=e24e8eeaa18208d128f473412f6de009

图书情报知识

教育部主管，武汉大学主办，武汉大学信息管理学院和信息资源研究中心承办的“图书馆、情报与档案管理”综合性专业学术期刊。系全国中文核心期刊、CSSCI来源期刊、中国图书馆学优秀期刊、人大复印报刊资料重要转载来源期刊、国家社科基金资助期刊等。