聚焦 | 为什么中国首例人工智能文生图案应当再审？

企业 2024-11-02 11:30 北京

作者 | 寿步

来源 | 知产前沿

一、基础知识

1. 符号主义和连接主义的可解释性

2.GenAI和AIGC的区别

二、自然人创作作品和AIGC的可版权性问题

1. 自然人创作作品的创意/表达两分法和可预测性、确定性、可解释性

2. 不同AI技术路线的创意/表达两分法和可预测性、确定性、可解释性

3. AIGC不具有可版权性

三、结论

引言

当今人工智能（Artificial Intelligence，AI）的发展日新月异，通过应用生成式人工智能（Generative AI，GenAI）技术所得到的人工智能生成内容（AI Generated Content，AIGC）带来的法律问题层出不穷。中国首例“AI文生图”案是指2023年北京互联网法院审理的原告李某诉被告刘某涉及AI生成图片《春风送来了温柔》的著作权纠纷案。本文聚焦该案涉及的AIGC可版权性问题，针对中国首例“AI文生图”案得出结论。

一

基础知识

符号主义和连接主义的可解释性

AI发展历程涉及两种主要技术路线即符号主义（symbolicism）和连接主义（connectionism）。前者主张用公理和逻辑体系搭建AI系统；后者主张模仿人类的神经元，用神经网络的连接机制实现AI。这两种技术路线的可解释性方面有显著不同。AI模型的可解释性（interpretability或explainability）用人指类可理解的方式来解释AI模型的行为的能力。因为符号主义AI是基于数理逻辑的，所以它具有可解释性。这里的可解释性侧重于模型设计时就具备的可解释性。连接主义AI的神经网络模型学习具有不可解释性。这里的可解释性侧重于对黑箱模型的解释能力。

符号主义AI是经典的图灵计算，以图灵模型定义了什么过程是计算。它有很多限制条件：第一，所有输入的信息必须是现成的，计算之前必须告诉它要输入什么；第二，计算过程中与输入源不能交互；第三，机器必须按照有限的确定性规则运行，在有限的时间内结束等。图灵计算是严格计算机科学意义下的计算，输入输出都是确定的。在不同的机器上计算结果都一样，今天计算与明天计算的结果也一样，所以它解决问题的能力是恒定的。但是，今天的连接主义AI的神经网络在计算过程中则是与外界交互的。因此，一方面它的输入和/或输出是不确定的，另一方面它的计算能力在到达饱和之前是与日俱增的。神经网络不是按照确定的算法实现图灵计算，它的主要功能是“猜测加验证”。猜测和计算是两个不同的概念，基于神经网络的机器更应该称为“猜测机”而不是“计算机”。大语言模型（Large Language Model，LLM）的本质是基于概率统计的不确定计算，它解决复杂问题的效率大大高于图灵模型。^[1]这样就解释了采用符号主义的符号系统为什么具有可解释性，也解释了采用连接主义的神经系统和既包含符号主义AI也包含连接主义AI的混合系统为什么具有不可解释性。

GenAI和AIGC的区别

在中文表述中，应该区分GenAI与AIGC。GenAI是指一种AI技术；AIGC是指应用这种技术所得到的结果。二者不应混淆。

GenAI是一种AI技术，可以生成各种类型的内容，包括文本、图像、音频、视频和合成数据。这里的合成数据是指由算法创建的而不是由真实世界的事件产生的信息。从AI领域到LLM的用户接口之间的层次包含关系依次如下：AI领域包含机器学习，机器学习领域包含深度学习，深度学习领域包含GenAI，GenAI包含基础模型,基础模型包含LLM，LLM包含LLM用户接口（如ChatGPT等）。这里合计有七层的层次包含关系。因为深度学习属于连接主义AI，所以GenAI也属于连接主义AI。

AIGC（人工智能生成内容）是PGC（专业生成内容）和 UGC（用户生成内容）的进阶，通俗地讲是指使用GenAI技术生成的内容，它可以在短时间内自动创建大量内容，而不是由人类作者创建内容；从技术上讲是指给定有助于教授和指导模型完成任务的人工指令、利用GenAI算法生成满足指令的内容。这样的生成过程通常包括两个步骤：从人类指令中提取意图信息，然后根据提取的意图生成内容。AI内容生成器多种形式。以OpenAI的产品为例，ChatGPT是用于构建会话式AI系统，该系统可以以有意义的方式有效地理解和响应人类的语言输入；DALL-E能在几分钟内从文本描述中创建独特且高质量的图像；Sora是最先进的文本转视频生成模型，代表了AI在视频内容创作领域的一次重大突破，它能根据用户输入的文本描述，生成长达60秒的高质量视频，这些视频不仅视觉质量高，而且与用户的文本提示高度一致。

二

自然人创作作品和AIGC的可版权性问题

自然人创作作品的创意/表达两分法和可预测性、确定性、可解释性

作品创作完成，版权自动产生，不需要履行任何手续。尽管获得版权非常容易，但它只适用于可版权的（copyrightable）作品。可版权性（copyrightability）即受版权保护性，是作品获得版权保护所需具备的要件。这是在自然人作者意义下的可版权性。AIGC是否具有可版权性则是中国首例“AI文生图”案涉及的问题。

创意/表达两分法（idea/expression dichotomy）是指版权保护创意的表达但是不保护创意本身。该原则本来适用于自然人作者的情形。

笔者在多年前曾经给出如图1所示的创意/表达两分法原则示意图。

图1 自然人创作作品的创意/表达两分法示意图

图1的图例中的A和B代表某个范畴。在图1中，实际包含版权理论中的六个范畴（作者、创意、表达、作品、内容、形式），可以用两句话阐释这六个范畴之间的内在联系：“作者的创意的表达是作品，作品是其内容和形式的有机统一。”^[2]

创意/表达两分法的成立是自然人创作作品的可版权性成立的前提条件。

为讨论中国首例“AI文生图”案涉及的可版权性问题，下面在版权理论中引入可预测性、确定性、可解释性三个概念，给出关于创意/表达两分法的可预测性、确定性、可解释性的定义，对创意/表达两分法进行阐释，进而探讨在不同AI技术路线之下的创意/表达两分法和可预测性、确定性、可解释性情况。

自然人的作品创作过程中从创意到表达的可预测性（predictability）可定义为在作品创作过程中作者根据自己的创意在某种范围内对自己将要给出的表达进行估计、分析、推断的特性。既然作品是作者的创意的表达，那么，已经有创意的作者对其将要给出的（不论是何种形式的）表达事先就存在可预测性；创意/表达两分法体现了自然人从创意指向表达的可预测性；作者的创意与创意的表达之间的关系是可预测的。

自然人的作品创作过程中创意与表达之间的确定性（certainty）可定义为作者能确定某种创意在未来产生的表达，或者作者能确定创意产生各种表达的可能性大小。显然，在自然人的创意与表达之间只有确定性而没有不确定性。

自然人作品创作过程中从表达到创意的可解释性（explainability）可定义为用给出的表达来解释初始的创意的能力，其中包括四项要素：（1）解释——对表达提供或包含随附的证据或理由以解释创意；（2）有意义——关于创意的解释对表达的预期受众来说是可以理解的；（3）解释准确度——解释正确反映产生表达的创意；（4）知识限度——从关于创意的解释可以识别出创意的限度。既然作品是作者的创意的表达，那么，已经得到表达的作者对其本来的创意在事后当然存在可解释性；创意/表达两分法体现了自然人从表达指向创意的可解释性；作者的表达与创意之间的关系是可解释的。

在自然人的作品创作过程中，可预测性是用于事前的、从创意指向表达的、从因到果的、正向的；确定性是用于事中的、在创意与表达之间的、因果之间的、双向的；可解释性是用于事后的、从表达指向创意的、从果到因的、反向的。如图2所示。

图2 自然人的创意/表达与可预测性、确定性、可解释性

作品创作过程中的可预测性、确定性、可解释性三者之间具有一致关系，即可预测性、确定性、可解释性三者是同时成立的。

不同AI技术路线的创意/表达两分法和可预测性、确定性、可解释性

AI是设计agent（应译为“行为体”）^[3]的科学。行为体是指任何通过传感器感知环境并通过执行器作用于该环境的事物^[4]。

AI技术路线的可解释性对应于AI行为体运行结果的可预测性；AI技术路线的不可解释性对应于AI行为体运行结果的不可预测性。因此，符号主义AI具有可解释性，对应于符号系统行为体运行结果的可预测性；连接主义AI具有不可解释性，对应于神经系统行为体或混合系统行为体的运行结果的不可预测性。

（1）符号系统情形的创意/表达两分法和可预测性、确定性、可解释性

符号系统情形的创意/表达两分法可用图3表示。

图3 符号系统情形的创意/表达两分法示意图

图3的图例中的A和B代表某个范畴。在图3中，原来的自然人创作作品的创意/表达两分法示意图（即图1）中的自然人作者被“符号系统的操作者”替代，作者的创意被“操作者输入（创意）”替代，创意的表达被“符号系统输出（表达）”替代。作品、内容、形式三个范畴没有变化。这里的重要变化在于，在自然人创作作品时自然人自己从创意到表达的过程变更为自然人作为符号系统的操作者进行（代表操作者创意的）输入、然后经过符号系统行为体的处理、得到符号系统的输出（这是对应于输入的创意的表达）。

符号主义AI的可解释性对应于符号系统行为体运行结果的可预测性。

从作品创作过程看，符号系统中的创意/表达的可预测性、确定性、可解释性如图4所示。当然，图4中的创意是由人类给出，表达则是由符号系统行为体给出。

图4 符号系统的创意/表达与可预测性、确定性、可解释性

以四色定理的证明为例。

四色猜想于1852年提出，在此后的一百多年时间内，人类并未证明这一猜想。直到1976年，美国伊利诺斯州立大学的两位数学家K.艾珀和W.哈肯利用当时的高速电子计算机，用了1200个小时，作了100亿个判断，终于证明四色猜想，从而得到四色定理。据估计，如果这一过程用人工计算，大概需要几十万年。当时发表该研究成果的相关数学杂志的审稿人进行审查时也是通过计算机完成的。

注意到，四色猜想的证明过程和四色定理的审查过程都是通过符号主义的计算机程序实现的。这是符号主义AI的可解释性也就是符号系统行为体生成内容的可预测性的一个典型例子。正因为符号主义AI的运行具有可解释性和可预测性，所以，在四色猜想的证明过程中，我们可以将计算机的证明过程看作是根据人类事先确定的算法进行逻辑推理的过程。只是因为这样的推理过程需要花费太多的人力、太长的时间，所以计算机的处理是在可预测、可解释的情况下完成了全部的证明过程。因此，四色猜想的证明是归功于这两位数学家，他们也就成为证明四色猜想的相关作品的版权人^[5]。美国数学学会出版的刊载四色定理证明论文的《EVERY PLANAR MAP IS FOUR COLORABLE》（任何平面地图都能用四色染色）一书的署名作者就是K.艾珀和W.哈肯。^[6]

（2）神经系统和混合系统情形的创意/表达两分法和不可预测性、不确定性、不可解释性

神经系统和混合系统情形的创意/表达两分法可用图5表示。

图5 神经系统或混合系统情形的创意/表达两分法示意图

图5的图例中的A和B代表某个范畴。在图5中，原来的自然人创作作品的创意/表达两分法示意图（即图1）中的自然人作者被“神经系统或混合系统的操作者”替代，作者的创意被“操作者输入（创意）”替代，创意的表达被“神经系统或混合系统输出（表达）”替代。作品、内容、形式三个范畴没有变化。这里的重要变化在于，在自然人创作作品时自然人自己从创意到表达的过程变更为自然人作为神经系统或混合系统的操作者进行（代表操作者创意的）输入、然后经过神经系统行为体或混合系统行为体的处理、得到神经系统或混合系统的输出（这是对应于输入的创意的表达）。

连接主义AI的不可解释性对应于神经系统行为体运行结果的不可预测性，也就是说，这时的运行结果具有概率性。对于同一个问题，LLM可能给出不同回答。以“世界上最棒的美食是什么？”这个问题为例。如果我们间隔一分钟，对同一个人就此提问，这个人两次给出的回答应该是相同的；但如果我们分两次问LLM同样的问题，它给出的答案可能会发生变化。如果它认为越南菜最好吃的概率为70%，意大利菜最好吃的概率为30%，那么它相应地会有70%的概率回答越南菜，30%的概率回答意大利菜。这种概率性使LLM在创造性任务中大放异彩。因为创造力就是超越常规可能、跳出思维框架的能力。但是这种概率性也会导致不一致（inconsistency）和幻觉（hallucination）问题。对于依赖事实的任务而言，这就是致命的问题。就本文主题而言，这就导致创意/表达两分法不能适用。

虽然单独的符号主义AI（符号系统）具有可预测性、确定性、可解释性，但是因为混合系统中包含的连接主义AI（神经系统）具有不可预测性、不确定性、不可解释性，所以混合系统整体也具有不可预测性、不确定性、不可解释性。

从作品创作过程看，神经系统或混合系统中的创意/表达的不可预测性、不确定性、不可解释性如图6所示。

图6 神经系统或混合系统的创意/表达与不可预测性、不确定性、不可解释性

当然，图6中的创意是由人类给出，表达则是由神经系统行为体或混合系统行为体给出。

AIGC不具有可版权性

过去所称的“人工智能生成物”，通常是指在符号主义AI技术路线下的生成物。现在如果用“人工智能生成物”来统称两种技术路线下的生成物，则需要进一步分为符号主义AI生成物和连接主义AI生成物两种情况进行讨论。这两种不同技术路线下的生成物不能混淆。

在符号主义AI的技术路线下，从符号系统操作者的输入到符号系统行为体的输出，创意/表达两分法中的可预测性、确定性、可解释性都具备，创意/表达两分法是成立的，所以符号系统行为体的输出具有可版权性，人类（操作者）可以成为符号系统行为体的输出的版权人。

在连接主义AI的技术路线下，对于应用GenAI技术得到的AIGC，从人类给出的创意（即多模态输入）到神经系统行为体或混合系统行为体给出的表达（即多模态输出），创意/表达关系都具有不可预测性、不确定性、不可解释性，无法体现本来适用于自然人的创意/表达两分法的可预测性、确定性、可解释性，因此，本来适用于自然人的创意/表达两分法在AIGC情况下并不成立。以文本生成文本或图像或音频或视频或合成数据的AIGC为例。人类通过LLM的用户接口操作运行LLM，就是人类（以输入提示词、选择各种风格等方式）输入创意但却无法预测输出的表达的过程。在已经得到第一次的输出表达的基础上，如果第二次输入创意的微调、得到第二次的输出表达，则仍然是人类输入创意但却无法预测输出的表达；这个微调过程可以持续、不断细化。在这个持续过程中，输出表达与输入创意之间的可预测性、确定性、可解释性关系，在第一次得到输出表达时就已经不成立；在第二次对上一次得到的输出表达进行输入创意的微调时仍然不成立；从第三次到第N次，总是对上一次得到的输出表达进行输入创意的微调，如此持续进行微调，每一次都还是不成立。

下面采用数学形式对提示词微调的情况进行精确描述。从神经系统或混合系统操作者的输入到神经系统或混合系统行为体的输出，AIGC对应的是一个由（对应于无穷多种“表达”可能性的）无穷多个元素组成的、其中元素是可数的“特定集合”。这是一种可数无穷集（countable infinite set），集合中的每个元素都能与自然数集的每个元素之间建立一一对应关系的无穷集合。‌自然数集是由所有非负整数组成的集合，通常用符号N表示。该“特定集合”的“特定性”是由操作者所给出的提示词限定的。

这里介绍集合的“势”概念。集合的势是用来衡量集合元素数量的一个概念，‌它基于集合元素之间的一一对应关系来定义两个集合是否等势。‌如果存在从集合A到集合B的双射（bijection，‌即一一对应）‌，‌则称集合A与集合B等势，‌记为A∼B。‌这一概念不仅适用于有限集合，‌也适用于无限集合。‌它提供了一种比较集合大小的方法。‌‌集合的等势关系意味着集合A和B中的元素可以形成一一对应的关系，‌这是判断两个集合是否“一样大”的标准。例如，‌自然数集N（‌包含所有非负整数）‌和偶数集N2（‌包含所有非负偶数）‌之间存在双射关系，‌即每个非负整数可以映射到其两倍的偶数，‌反之亦然，‌因此N和N2是等势的。这个例子的数学表示是：‌集合N={0，1，2…}，N2={0，2，4…}。定义映射f：N→N2，f(n)=2n，f是从N到 N2的双射，因此N和N2 等势。

使用GenAI技术的神经系统或混合系统的操作者对提示词的每一次微调，所对应的AIGC都是一个（对应于无穷多种“表达”可能性的）可数无穷集。

设S₀ 是初次给出提示词时所得到的所有可能“表达”所对应的特定集合，则这时该集合中含有从第0个到+∞（正无穷大）个这么多的元素，是可数无穷集；

设S₁是提示词第一次微调时所得到的所有可能“表达”所对应的特定集合，并设此刻与S₀相比少了一亿（10⁸）种可能的表达，则这时该集合中含有从第10⁸个到+∞个这么多个元素，仍然是可数无穷集；

设S₂是提示词第二次微调时所得到的所有可能“表达”所对应的特定集合，并设此刻与S₀相比少了十亿（10⁹）种可能的表达，则这时该集合中含有从第10⁹个到+∞个这么多个元素，仍然是可数无穷集；

设S₃是提示词第三次微调时所得到的所有可能“表达”所对应的特定集合，并设此刻与S₀相比少了一百亿（10¹⁰）种可能的表达，则这时该集合中含有从第10¹⁰个到+∞个这么多个元素，仍然是可数无穷集；

同理，设S_x是提示词第x次微调时所得到的所有可能“表达”所对应的特定集合，并设此刻与S₀相比少了“有限种”可能的表达，则这时该集合中含有从前述“有限种”所对应的那个“有限数字”开始到+∞个这么多个元素，仍然是可数无穷集。

以N表示自然数集，则上述过程的数学表示是：S₀∼S₁∼S₂∼S₃∼S_x∼N。

可用图7表示上述过程。图7中所示从外层到内层依次是四个集合S₀、S₁、S₂、S₃。仅从图7的左半部看，从S₀、到S₁、到S₂、到S₃，似乎是集合变得越来越小；但是，图7的右侧都是不封闭的，这表示是它们都是无穷集。任何一个可数无穷集减去有限个元素之后仍然是可数无穷集。因此，从S₀、到S₁、到S₂、到S₃都是“一样大”的可数无穷集。也就是说，提示词的每一次微调所得到的所有可能“表达”所对应的特定集合都是与自然数集等势的可数无穷集。

图7 神经系统或混合系统操作者的提示词微调对应的输出是可数无穷集的示意图

AIGC所对应的并不是该“特定集合”中（对应于某种具体“表达”的）某个特定元素。即使操作者进行提示词的x次微调，AIGC每一次所对应的都是一个（对应于无穷多种“表达”可能性的）可数无穷集，而不是该可数无穷集中（对应于某种具体“表达”的）某个特定元素。但是，适用于自然人创作作品的创意/表达两分法原则本来应该是由创意对应于“特定集合”中的具体某个元素。

创意/表达两分法的成立是可版权性成立的前提条件。但在AIGC情况下，创意/表达两分法中的可预测性、确定性、可解释性都不具备，即创意/表达两分法并不成立，所以，神经系统或混合系统行为体的输出即AIGC并不具有可版权性，人类对其通过LLM用户接口进行操作（即给出创意）后运行所得的结果（即所得的表达）就不能享有版权。

下面看第一个例子。2024年4月3日，OpenAI 在其官方账号发布了一支完全由其人工智能视频生成器Sora构思生成的 MV（音乐视频）——《Worldweight》。这个视频伴随着August Kamp的曲目《Worldweight》，展示了Sora将文本提示翻译成一系列引人注目的多镜头视频片段的独特能力。Kamp说：“我仍记得两年前，那些音符是如何从我的指尖流淌，跃入合成器的键盘。当时外面正下着雨，我感到无比幸运，能够将所有的情感倾注到这首歌中。”“我心中的Worldweight，终于有了具象的视觉效果。”^[7]实际上，Kamp事先不可能确定地预测或者表达她心目中的（由现在这个视频所展示的）具象效果。现在这个视频的视觉效果只是事后获她认可的“无数种”可能的表达“之一”。

再看第二个例子——写高考作文。高考语文试卷的作文题通常都有提示语，提示语的长短不一。试题中的提示语作为表达体现了出题者的创意；每一位考生根据提示语的要求先形成自己的创意，再写出文章作为表达来体现考生的创意。显然，千千万万考生撰写的高考作文的版权归属于每一位考生自己，而不可能归属于作文题的出题者/出题机构。在AIGC的情形，神经系统或混合系统的操作者的创意以输入的提示语作为操作者创意的表达。应用GenAI得到结果即AIGC的过程，相当于考生按照作文题提示语的要求撰写作文的过程。在主题不变的前提下，高考作文提示语的每一次调整，类似于AIGC提示词的每一次微调，其所对应的都是一个由（对应于无穷多种“表达”可能性的）无穷多个元素组成的可数无穷集。

如果AI行为体具有版权主体资格，AIGC的版权就自然归属于AI行为体；只是因为AI行为体尚无版权主体资格，所以AIGC的版权无法归属于AI行为体。但是，如同考生作文的版权不可能归属于出题者/出题机构一样，AIGC的版权无论如何也不应该归属于神经系统或混合系统的操作者。

三

结论

在中国首例“AI文生图”案中，法院经审理认为，原告是涉案图片的作者，享有涉案图片的著作权。法院认定，被告侵害原告就涉案图片享有的信息网络传播权和署名权，应当承担侵权责任。基于前述分析，笔者认为：该案原告并不享有涉案图片的著作权。该案裁判思路有误，应当提起再审。

注释（上下滑动阅览）

【1】李国杰.大力出奇迹的背后是什么？[J].中国计算机学会通讯，2024，20(4) :44-47.

【2】图1和相关文字引自寿步.计算机软件著作权保护[M].北京:清华大学出版社，1997:20。

【3】寿步.人工智能中agent的中译正名及其法律意义[J].科技与法律（中英文）, 2022, (3):1-13. 寿步.人工智能术语agent的精准译解及其哲学意义[J].哲学分析, 2023,14 (3):130-143.

【4】RUSSELL S, NORVIG P. Artificial Intelligence: A Modern Approach[M]. Upper Saddle River, NJ. : Prentice Hall,4th Ed. 2021.

【5】APPEL K, HAKEN W. Every Planar Map Is Four Colorable. https://www.ams.org/journals/bull/1976-82-05/S0002-9904-1976-14122-5/S0002-9904-1976-14122-5.pdf

【6】https://bookstore.ams.org/conm-98

【7】MORRISON R. OpenAI just released a Sora generated music video— and it’s like something out of a fever dream[EB/OL]. https://www.tomsguide.com/ai/chatgpt/openai-just-released-a-sora-generated-music-video-and-its-like-something-out-of-a-fever-dream

往期回顾

头条 | 单价上浮100%！优爱腾下场、长视频开始卷“短剧”了？

案例 | 利用软件爬取视频网站视频资源，构成不正当竞争！

聚焦 | 检察机关依法监督纠正知识产权恶意诉讼服务保障创新驱动发展战略实施

http://mp.weixin.qq.com/s?__biz=MjM5MjYwOTg1NA==&mid=2649599839&idx=2&sn=109449650927dac9f3f0da455b2feae8

版话

版话运营主体中视瑞德，多年服务于国家级广播电台电视台、互联网公司、融媒体机构、新媒体行业，通过版话自媒体与您分享文化传媒行业内的热点、动态、原创文章。