新文速递|张湖月&杨颂: 生成式人工智能版权问题的动态分析
学术
Education
2024-02-19 11:25
中国香港
点击上方蓝字HKUCCL关注我们~
Generative AI and Copyright:
A Dynamic Perspective
2023年11月,北京互联网法院针对中国首例“人工智能文生图”版权侵权案做出具有里程碑意义的判决。法院明确指出,利用生成式人工智能大模型生成的图片属于“作品”,受到版权法保护,且版权归属于用户。这一判决迅速掀起巨大波澜,引发了全球关注和激烈辩论。同期,在太平洋彼岸,即使有用户深度参与创作并获得艺术大奖,人工智能生成的图片仍然被美国版权局和地方法院拒绝赋予版权。与此同时,中国各界正在热烈探讨人工智能公司使用受版权保护的作品训练人工智能模型是否存在合法性。其中,最核心的争议点在于生成式人工智能模型训练是否构成合理使用。若不构成,人工智能公司则可能需要向版权所有者获取单独授权,并支付约定费用。在中国版权法下,合理使用的适用范围非常狭窄。因此,许多行业专家呼吁对其进行扩大解释,或者引入例外条款,以保障人工智能产业的健康发展。同样的问题在欧美也引起了关注。在欧洲,人工智能模型训练受特殊例外条款的保护,但版权所有者有权将其作品从训练数据中移除;欧盟正在起草的《人工智能法案》要求人工智能提供者进行版权信息披露,以便版权所有者行使其退出权。在美国,尽管合理使用的适用范围颇为宽泛,但已经有数十例诉讼围绕生成式人工智能的合理使用问题展开,其中备受关注的案例包括纽约时报指控Open AI和微软侵犯其版权,并索要数十亿美元的赔偿。
张湖月 黄乾亨中国法研究中心主任 | 杨颂
伦敦商学院管理学教授 |
迄今为止,学界对于生成式人工智能合理使用和可版权性这两大问题的讨论,主要集中在现有版权法的教义和原则领域内。然而,关于不同政策和法律设计之间的利弊权衡和经济影响分析却鲜有关注,而这恰恰是许多业界人士关心的焦点。譬如在合理使用问题上,有人担忧,如果人工智能公司在获取训练数据时,必须逐一取得版权所有人的授权并支付补偿,这会显著增加数据获取成本,进而阻碍人工智能产业的整体发展。然而,如果内容创作者完全得不到补偿,这又可能导致创意产业的衰落。在可版权性问题上,以中国“人工智能文生图”第一案为例,主审法官认为,对人工智能生成内容给予版权保护,可以激励人们更多地使用人工智能,从而带动投资并促进产业发展。但这种做法也可能打击人类自主创作作品的积极性,导致人类生成的训练数据短缺。现有诸多研究表明,人工智能模型质量的持续提升依赖于人类生成的高质量数据内容。如果仅向大模型投喂人工智能生成的数据或作品,模型的表现只会趋于下降。最终,这将降低人工智能模型的质量并阻碍人工智能的长远发展。本文是首个通过经济建模的方法对生成式人工智能背景下版权监管设计进行分析的研究。作者以生成式人工智能的合理使用和可版权性两大核心争议为主线,深入探究了以下三个问题:第一,针对合理使用和可版权性的不同监管制度设计,将如何影响人工智能公司和内容创作者的行为及盈利空间?其对整体社会福利的影响又是什么?第二,合理使用和可版权性之间如何相互作用?这种互动对政策的制定有何影响?第三,以上作用如何受到各种商业与技术因素的影响?为解答这些问题,作者建立了一个动态分析模型,涵盖监管者、内容创作者和生成式人工智能公司这三大主体。通过研究监管政策对创作者生产内容的模式和人工智能公司模型改进的影响,文章呈现了诸多创新性的发现。具体概括如下:【点击文末“阅读原文”可在SSRN免费下载论文】
第一,关于合理使用的制度设计。在生成式人工智能的新兴领域,当现有的训练数据还相当丰富,监管本身并不直接影响人工智能公司以后能够获取多少训练数据。此时,如果将人工智能模型训练视为合理使用,人工智能公司在获取训练数据时,就不需要考虑授权与补偿的问题。这有利于人工智能公司提高模型的质量,从而增加公司和内容创作者的利润,最终提高消费者的整体福利。然而,在人工智能技术较为成熟,训练数据已经变得稀缺的场景,人工智能模型的持续改进将非常依赖后续生成的新内容。例如,OpenAI公司目前高度依赖不断更新的新闻来改进ChatGPT。在这种情况下,如果将人工智能模型训练视为合理使用,那么在受版权保护的作品被用于模型训练时,人类创作者将无法获得任何补偿。这种做法将削弱人类继续创作新内容的动力,从而导致人工智能训练数据的短缺。在竞争激烈的市场环境中,由于对新的人工智能训练数据需求量更大,训练数据的短缺问题将尤为严重。此外,随着人工智能模型质量的不断提升,创作者可能愈发依赖人工智能生成内容,进一步加剧训练数据的短缺危机。第二,关于可版权性的制度设计。在人工智能训练数据丰富的情况下,通过版权保护人工智能生成内容,短期内将激励人们更多地使用人工智能进行创作,吸引更多人成为创作者,并提升创作效率。这样一来,人工智能公司的利润和内容创作者的总收入都将得到提升。然而,由于人工智能生成的内容被赋予排他性权利,过度的版权保护最终可能减少消费者剩余,从而降低整体社会福利。此外,虽然对人工智能生成的内容实施版权保护可以刺激市场对人工智能工具的需求,但这也可能削弱人工智能公司持续优化模型的动力,从而阻碍这项技术的长期发展,尤其是在头部公司形成垄断的市场环境中。在训练数据稀缺的情况下,除以上作用之外,可版权性还会对训练数据的生成造成影响。具体而言,对人工智能生成内容实施版权保护,虽然可以直接提高市场对人工智能工具的需求,但也会导致人类生成内容的供应减少。这将不利于人工智能模型的进一步发展,长远来看也会阻碍人工智能内容的生成。第三,关于合理使用与可版权性的互动关系。在人工智能训练数据丰富的情况下,合理使用与可版权性的制度设计具有一定的可替代性。例如,人工智能模型训练被视为合理使用,有利于人工智能公司获得更多的训练数据,从而提升模型质量;在市场竞争激烈的环境中,即使人工智能模型训练不再被视为合理使用,但如果对人工智能生成内容实施全面的版权保护,也可以达到提升人工智能模型质量的效果。在市场垄断的环境中,这种可替代性主要体现在对人工智能公司利润的影响。在训练数据稀缺的情况下,合理使用与可版权性之间的互动变得更加复杂。例如,当人工智能生成内容不受版权保护时,允许人工智能公司通过合理使用获得广泛的训练数据,将有助于推动人工智能的发展,并提高社会福利。然而,当人工智能生成内容受到版权保护时,如果仍然允许人工智能公司通过合理使用获取训练数据,反而可能会对人工智能的发展产生不利影响,并导致社会福利降低。这是因为在后一场景中,人类自主创作内容的激励被极大地削弱,从而严重制约了后续可用的训练数据。基于以上研究成果,两位作者提出了几点具体的政策建议:首先,生成式人工智能的治理应遵循灵活敏捷的原则,充分考虑不同行业和地区的独特环境因素。例如,欧盟的《人工智能法案》为成员国的各个行业制定了统一的规则。但由于未充分考虑各国的国情以及各行业和应用场景中人工智能训练数据的稀缺程度、人工智能模型的发展水平和市场竞争格局等差异,这种“一刀切”的做法可能导致一些意料之外的负面后果。相较而言,在普通法系下,法官根据具体情况对个案做出判断可能是一个更理想的制度选择。尽管中国并非普通法系国家,但中国法官仍可以在个案中做出灵活的指导。在监管模式选择上,中国应慎重立法,避免采用类似欧盟的立法模式。*针对欧盟人工智能监管“一刀切”的问题,两位作者在Project Syndicate专门撰写批判性评论: The Case For Regulating Generative AI Through Common Law, http://tinyurl.com/ze7p9tzv
第二,在现有法律框架下,人工智能的治理方法应当充分考虑合理使用与可版权性之间的互动关系。例如,在美国版权法下,合理使用的适用范围相当广泛,人工智能模型训练可能大多落入其中。在训练数据稀缺的情形,再为人工智能生成内容提供全面的版权保护,很可能对人工智能的发展产生负面影响。因此,美国的法院和版权局对生成式人工智能内容的可版权性要求设定较高,也具有一定的合理性。在中国版权法下,尽管合理使用的适用范围非常狭窄,但实际上,现有大模型的训练基本遵循合理使用思路,没有向版权人支付费用。在这种情况下,再对人工智能生成内容实施版权保护,将进一步削弱人类自主创作的积极性,从而导致高质量训练数据的稀缺。从长远来看,这种做法可能对中国大模型的发展不利,同时也会导致社会福利降低。第三,中国的相关监管者在借鉴他国经验时,应当考虑各国出发点的差异,从而决定最适合中国国情的制度设计。各国的法律制度设计受其具体的政策目标和优先事项影响。例如,中国和美国优先关注产业发展,尤其是人工智能的壮大。相反,欧盟由于没有强大的人工智能产业,更注重保障消费者和内容创作者。这些政策偏好的差异将直接影响各国最佳监管决策的选择。此外,在参考欧盟做法时,需要特别强调一点。作为一个超国家机构,欧盟成立的根本宗旨是建立统一的欧洲市场(a single market)。为实现此政策目标,欧盟主要依靠统一各成员国的法律。然而,这种统一的法律制度也缺乏灵活性,在很多情况下不利于人工智能的发展。因此,中国在借鉴欧盟的立法经验时需要特别谨慎。