袁真富 等 | 机器学习中作品利用的著作权补偿金制度研究

学术   2024-08-09 17:00   天津  

点击蓝字关注

了解更多精彩

ABOUT

(点击查看思维导图)



GB/T 7714-2015


CITE

袁真富,夏子轩.机器学习中作品利用的著作权补偿金制度研究[J].科技与出版,2024(7):28-36.


摘   要  

在ChatGPT等生成式人工智能的助推下,机器学习开启了超大规模预训练的浪潮。在机器学习的数据训练等场景中,作品素材的巨量使用导致权利许可机制失灵、单个作品的微量使用导致侵权判定机制失灵、作品资源的隐蔽使用导致侵权举证机制失灵、AI内容的海量输出导致创作激励机制失灵。作为一种利益平衡机制,著作权补偿金制度基于作品整体利用的共同价值回应,将适当恢复受到AIGC挤压的人类作者利益,并通过呼应权利弱化和利益分享理论,继续给予人类作者的有限垄断激励。相较于集体管理、法定许可等解决方案,补偿金制度回避了侵权判断难题、省略了许可谈判程序、解决了使用费分配难题、避免了使用费堆叠问题,且不影响专有权独立行使。在补偿金制度本土化过程中,可以从厘清支付补偿金的义务主体、明确补偿金的法定征收主体、采取比例费率的征收标准、确立面向公共利益的使用机制等方面构建适应AIGC时代的补偿金制度。


关键词  

生成式人工智能;机器学习;著作权;补偿金制度


1
问题的提出

在人工智能浪潮的席卷之下,ChatGPT、 Sora等生成式人工智能(AI)产品横空出世。在这些生成式AI的助推下,AIGC(AI Generated Content,即人工智能算法生成内容)时代正式到来。但AIGC并非平地起高楼,作为人工智能的重要组成和实现途径,机器学习基于数据和算法实现预测和分类等功能,需要海量的甚至高质量的数据资源进行训练。2020年5月发布的GPT-3的预训练数据量即高达45TB,相比GPT-1增长了近 9倍,ChatGPT-4更是远甚于此,开启了超大规模预训练的浪潮。

机器学习中数据利用的合法性问题,广泛地牵涉到个人信息、隐私、姓名、肖像、商业秘密等人格权和知识产权风险,但本文聚焦于其中作品利用的著作权侵权问题。根据《生成式人工智能服务管理暂行办法》(2023年)第7条的规定,生成式人工智能服务提供者依法开展预训练、优化训练等训练数据处理活动时,不得侵害他人依法享有的知识产权。新一代人工智能的技术核心是以“数据训练算法”为特征的机器学习,数据的好坏直接关系人工智能的好坏,相比其他数据,作品数据是典型的高质量数据资源,具有无与伦比的算法训练价值。[1] 因此,在机器学习过程中,在预训练(包括预训练素材输入)等数据输入阶段必然会利用已有的作品资源,并已引发著作权争议。2023年12月,美国《纽约时报》提起诉讼,指控OpenAI的聊天机器人ChatGPT和微软的Copilot未经许可利用其内容开发AI产品,这些AI产品接受了数百万条《纽约时报》内容的训练,并利用这些材料为用户的提示生成答案。[2] 《纽约时报》的诉讼将机器学习的著作权争议,从理论探讨变成了现实问题。人工智能的高速发展已经导致权利人与使用人的地位受到前所未有的颠覆,AIGC正日益严重威胁到以人类作者为代表的著作权人的利益。在生成式AI面前,著作权人无法洞察和控制人工智能对其作品的利用,也难以取得报酬,利益的天平被瞬间打破。有鉴于此,从长远和整体的利益视角出发,本文将尝试提出引入作品补偿金制度,来重构各方的利益格局,并提供持续的制度激励。

2
机器学习中作品利用引发的制度失灵

2.1  作品素材的巨量使用导致权利许可机制失灵

OpenAI推出的ChatGPT代表当下生成式大语言模型的顶点,但不论模型设计如何先进,进行深度学习和训练都需要“投喂”巨量的素材,尤其是高质量的作品素材,才能训练出越来越好的使用性能。ChatGPT以千亿级别的数据进行大量训练,高速并大规模地涌现出令人折服的内容生产质量。毫无疑问,如此巨量的作品素材使用,如何识别作品来源,如何取得作品授权,如何支付作品报酬等,都是前所未有的挑战。在此场景下,点对点的著作权许可机制面临高额的许可成本,甚至是不可能完成的任务。

2.2  单个作品的微量使用导致侵权判定机制失灵

虽然生成式AI用以训练或学习的数据资源,包括作品素材,堪称巨量,但生成式AI从中萃取的数据结构的特征,以及在输出阶段所生成的内容,相对于用来训练的作品素材,仅仅是“萃取”了现有单个作品的只言片语。实际上,生成式AI已将训练的作品素材通过机器学习转化为数以亿(甚至万亿)计的参数,形成了自己的“数据仓库”。机器学习在数据获取时的素材复制目前存在著作权法意义上的“复制”争议,但在数据结构的特征抓取、保存和调取等环节,最多体现为对现有单个作品的“微量使用”(甚至看不出存在细微“使用”)。这些“微量使用”在著作权法上未达到实质性相似判定使用的最低阈值 [3],而在AI 输出阶段生成的内容与现有作品相比,通常也难以找出相似的部分。至此,根据“接触+相似”判断方法认定侵权,难度极高,概率极低。

2.3  作品资源的隐蔽使用导致侵权举证机制失灵

一方面,虽然生成式AI用于训练算法的数据(包括作品素材)是巨量的,但其通过数据挖掘获取数据资源(包括作品素材)的路径难以追踪,几乎是“暗箱操作”,痕迹容易掩盖。同时,在预训练时,向人工智能“投喂”作品素材的过程通常完成于脱机状态,极具隐蔽性。另一方面,机器学习对作品素材的利用具有不唯一性和随机性,AI生成内容的表达性利用是隐蔽的,难以确定来自哪些著作权人的作品。在目前没有法律强制要求披露数据来源的情形下,通常也难以得知作品素材的具体来源。此外,生成式AI的数据使用具有持续性,除了预训练,还包括联网后的人机交互和数据抓取使用,因此,用于训练或“投喂”的数据(包括现有作品素材)不断更新,持续增长,生成的内容也源源不断,并反哺算法,最终作品内容相互交织,融为一体,难以分辨,对现有作品的利用更加隐蔽。即使想主张机器学习过程中存在“复制”等侵权行为,也因数据来源问题而难以举证其作品是否被用于预训练等环节。

2.4   AI内容的海量输出导致创作激励机制失灵

面对机器学习利用作品存在规模大、损害大,速度快、难以保护的特点,当前的AIGC对著作权人利益的损害更为严重,产生更深度的利益失衡。在前述《纽约时报》诉讼案中,《纽约时报》认为其新闻花费大量的人力与时间,体现着记者优质独创的人类努力,而OpenAI和微软无偿使用并创造了可以替代《纽约时报》的产品,分流了《纽约时报》的部分受众。可见,AI对作品的海量使用以及AI内容的海量输出,会对人类作者产生侵夺性危害。人类从专业创作(PGC)发展到用户创作(UGC)的时间并不久远,以 ChatGPT为代表的AI工具又借助超级算力和大语言模型,将人类迅速带入速度高效、内容海量的 AIGC时代,可以预见人类的创作又将变得稀缺。 “人类作者经过构思框架、收集资料、整理资料等复杂过程,夜以继日完成的作品,人工智能可能仅需几秒钟就能够高效输出表达意图相似的内容。”[4] 人类创作的热情将受到打击,加上与生成式AI的内容竞争中又难以得到补偿,著作权的激励机制将逐渐失灵。

3
著作权补偿金制度提出的理论逻辑

基于生成式人工智能的飞速发展,在机器学习预训练等场景中的作品利用如何重新平衡著作权人与AI开发者以及后续运营商、使用人的利益,学界提出诸多理论学说或观点,以提供解决方案。有的依据临时复制、机器无须许可、合理使用、公有领域等理论主张机器学习不构成侵权,以促进人工智能产业的发展,但对著作权人的专有权置若罔闻。有的主张机器学习中的作品复制等行为落入著作权的专有权控制,理应支付报酬,进而提出集体管理说、法定许可说等解决方案。世界知识产权组织(WIPO)2024年3月发布的《生成式AI知识产权导航》也表达了谨慎的倾向,为避免争议应获得第三方受版权保护内容的授权,再进行训练人工智能。[5] 但这种严苛的专有权保护模式将会限制人工智能的发展。本文折乎其中,提出将著作权补偿金制度作为一种可选的方案运用于AIGC时代,以解决机器学习预训练等环节的侵权争议。


3.1  补偿金制度的制度回溯:利益平衡的机制设计

3.1.1 补偿金制度产生的背景

利益平衡既是著作权制度的基石,又是著作权制度追求的目标。著作权补偿金制度始于德国,诞生于日益发展的复制技术对著作权人专有权的利益损害日渐加剧的这一历史背景。1965 年德国《著作权法》在第53条(5)项中规定,个人可以为欣赏目的录制音乐,但录音机制造商须支付录音设备税,补偿金制度由此建立。经过 1985年著作权法的改革,德国建立起完整的补偿金制度,包括录制设备税、空白媒介税和复印设备税。此后,欧洲大多数国家纷纷建立补偿金制度。[6] 随着复制技术的革新,德国《著作权法》在 1985年、2001年、2011年与2013年的修改中相应扩大了补偿金的征收范围,至今“有存储功能的装置或存储媒介,包括数字存储媒介”都被纳入到补偿金的征收范围中。[7]

1992年,美国建立著作权补偿金制度,对数字录音机器、数字录音用储存媒介物征收补偿金;同年,日本开始对数字录音录像机器、数字录音录像用储存媒介物征收补偿金。[8] 美国成立了收取并分配著作权补偿金的机构——艺术家及唱片公司联盟(AARC),AARC通过谈判已相继与日本、西班牙、荷兰、爱尔兰、英国、瑞士等国家的数个著作权集体管理组织达成了协议,确保在这些国家发行唱片的美国权利人享有获得著作权补偿金的权利。[9]

上述国家的补偿金制度,一方面,弥补了著作权人因为复制尤其是私人复制造成的损失。对社会大众超过合理限度的复制行为,给予著作权人适当补偿。为“有血有肉的作者”创造收入来源,确保他们的报酬,改善其工作与生活条件。另一方面,高效地满足了使用作品的需要,因为补偿金制度克服了许可(包括法定许可)的高昂谈判与分配成本。当前,在数字时代尤其是人工智能时代,作品被广泛和深度利用的速度较私人复制时期更快,补偿金制度理应更受关注。

 3.2 基于机器学习的补偿金制度:利益补偿的理论逻辑

3.2.1 权利人与使用人的利益再平衡

在复制和传播技术尚不够发达时期,私人复制被认为是合理使用的范围,因为当时基于个人使用而复制作品对著作权市场的影响微不足道。但消费者个人掌握了复制和传播的工具,私人复制的能力大幅提升为不合理地损害著作权人利益的一种来源 [6],这正是补偿金制度产生的背景。当下,机器学习海量、高效、快速地使用海量作品,打破了权利人与使用人之间脆弱的利益平衡。相较于人类作者学习和模仿创作时的费时费力,AIGC(尤其是其类似作品的表达性内容)的高效输出,将侵占和挤压人类创作的市场空间,并对人类作品的相关市场产生竞争甚至替代效果,长此以往,将导致人类创作萎靡,影响文化艺术和人类精神文明的繁荣。[10]

因此,需要改变“免费”使用数据(作品)资源的惯常思维,正如Martin Senftleben指出的,补偿人类作者因生成式人工智能而减少的市场份额和收入。[11] 补偿金制度一定程度上可以实现对著作权人的整体利益救济。为了能在“公众自由”与“著作权人利益”间,以及“制度公平”与“制度效率”间达成平衡,德国等国家在控制私人复制行为的立法思路之外另辟蹊径,通过对复制设备和介质“征税”并补偿著作权人的方式,间接抑制私人复制行为所可能产生的负外部性影响,这对于AIGC时代机器学习的作品补偿机制同样有重要的启示。

3.2.2 面向人类作品整体价值的共同回应

生成式AI在机器学习时所利用的作品资源可以视为一个“集合”,虽然单个作品对AI的预训练和内容输出贡献有限,但是在整体上,AI的预训练及其内容输出时的互联网数据抓取,离不开人类作品的深度利用。对于开发者和运营商而言,通过机器学习等人工智能技术大规模利用人类智慧创作的结晶,并通过服务收费等模式从中获得了利益回报。更何况,在生成式AI的使用过程中,AI会不断利用用户的数据而持续迭代,因此,AI的内容输出可谓与人类的集体数据生产息息相关,而著作权补偿金制度恰恰不是基于著作权保护的个人主义,而应是基于人类作品整体利用的共同回应。

3.2.3 继续给予人类作者的有限经济激励

作品虽具有公共物品的属性,但只有让著作权人能够获得经济报酬,才能产生激励效果,才能鼓励更多人参与并加入创作行列,促进文化发展与繁荣。当前机器学习技术基本由大公司掌握,将机器学习完全纳入合理使用范畴,允许大公司在数据训练时无偿获取并使用作品资源,值得谨慎考量。[12] 机器学习产生的内容海量输出,对人类作品市场产生的竞争性威胁不言而喻。如果机器学习想要保留可持续性的人类作品资源以供算法训练,那么应当尊重作者的个性化表达,并保障人类作者从作品使用中获得有限的经济激励。在AIGC的挤压之下,随着预期收益的日益降低和内容生产的竞争劣势,人类作者的原创将会越来越稀少,此时激励人类作者弥足珍贵的创作热情,显得更加重要。

3.2.4 对权利弱化和利益分享理论的呼应

著作权作为完整意义上的私权,其权利行使本应遵循权利人之意愿。但著作权关涉社会利益甚巨,在一定条件下,法律准许使用人在支付适当报酬甚至不用付费的情形下,不经许可即能利用作品,从而增进社会利益。著作权法设计了一系列权利限制制度,包括合理使用制度、法定许可制度,目的就在于减少交易成本。随着作品网络传播的规模增长,“权利弱化和利益分享理论”[13] 逐渐获得关注,它强调弱化著作权人的禁止权,要求著作权人降低交易成本,从而能够促使双方合作,达到利益分享、互利双赢的效果。早在网络普及之初,就有学者呼吁“准法定许可”,将著作权中的某些绝对权降格为报酬权,即“在网上传播作品能否只需向著作权人交钱付费而不必先经著作权人授权同意”。[14] 著作权补偿金制度是应对人工智能挑战的优选项,因为AI 开发者及运营商无须寻求许可,只需支付补偿,这正是“权利弱化和利益分享理论”在数字技术环境下的理论运用。

4
著作权补偿金制度的独特优势

 4.1 回避侵权判断难题

回溯机器学习的整个过程,贯穿了是否存在“复制”素材(作品等)等事实的认定和法律的判断。机器学习的预训练在数据获取时,通常认为以素材复制为前提,并抓取训练素材中数据结构的特征进行保存,转化为本地参数建立自己的“数据仓库”。当生成式AI收到用户提问等指令时,会调取本地参数回应并生成内容。在预训练完成之后,原始的训练素材一般不被保留。生成式AI在联网后,在回应用户指令时会同步抓取网络作品资源,进行数据增强。前述数据获取的素材复制、数据结构的特征保存和作品资源的网络抓取,是受著作权控制的“复制”还是不受其控制的“临时复制”,目前存在定性争议,总体上,既有可以豁免侵权的情形(数据结构的特征保存、调取等),也有难以逃脱侵权嫌疑的情形(尤其是素材复制)。因此,学者多认为,机器学习的过程涉及大量未经授权的复制行为,落入著作财产权中复制权的规制范围。[15] 更有甚者,有学者认为机器学习除了涉及复制,还涉及对训练数据的翻译、改编、汇编等行为。[12] 然而,即使存在侵权“复制”等行为,由于机器学习的隐蔽性,维权举证也相当艰难。而补偿金制度恰恰不是建立在著作权侵权的基础上,而是建立于各方利益的平衡上,其并不着眼于具体的、单个的行为是否构成侵权,而是从整体上权衡著作权人的利益是否受到不合理的减损,从而进行利益再平衡。正是在这个意义上,不少德国、美国学者认为,著作权补偿金制度是法律新创设的一种权利,而非传统的对著作权侵权的补偿。[16]

4.2  省略许可谈判程序

考虑到机器学习牵涉的作品资源数量庞大,即使认定落入著作权的专有权控制范围,逐一去取得许可也脱离现实,因而有学者提出通过集体管理组织解决授权难题。[17] 著作权集体管理是在集体管理的框架下,权利人授权集体管理组织管理其权利,即监督相关作品的使用、与使用者谈判、以收取合适的许可费为对价发放许可,并向权利人分配许可费。集体管理的目的在于降低作品检索成本、减少双方交易成本,最终降低法律风险。但采用集体管理模式仍然不能完全解决许可谈判的问题:一是集体管理组织通常只能管理入会的权利人(会员)作品,其数量较有限,难以面对AI使用大量作品的需求。二是集体管理仍然需要许可谈判,谈判的集体管理组织可能涉及不止一家(甚至不止一国),这个过程难言轻松。三是许可谈判的成果也不能解决大量非集体管理组织成员作品使用的合法性问题。而补偿金制度是一个强制性的补偿机制,某种程度上,它虽然偏向于权利人整体的利益,但又超脱于具体权利人的意愿,省略了许可谈判的困扰。即使将来授权集体管理组织行使收取补偿金的职能,其也不拘束于权利人的授权与否。

4.3 解决使用费分配难题

为彻底摆脱机器学习面临的许可谈判困扰,采用法定许可模式似乎是一个适当的解决方案。在法定许可的框架下,使用人可以不经著作权人许可,以特定的方式使用其已经发表的作品,但应支付报酬并尊重作者的精神权利。相对于集体管理模式,法定许可看似省略了许可谈判程序,但付费的对象却指数级增加,将面向海量的权利人一一识别作品,并支付使用费,本质上并没有减轻机器学习的著作权负担。事实上,集体管理模式同样面临如何识别会员作品使用与否,并如何分配使用费的问题。总体上,无论专有权控制、集体管理还是法定许可,生成式AI的开发者或运营商的付费对象最终都是面向海量作品的权利人,其数量规模不可想象,既要甄别哪些内容有著作权保护(背后还有复杂的权属问题),又要识别哪些内容已进入公有领域,或者哪些内容已经取得授权。在作品识别、费用支付,甚至许可谈判等方面所花费的成本、耗费的精力令人难以承受。即使是法定许可,其报酬的分配也是一项困难的工作,有效执行也面临非常大的阻碍。[12] 相比之下,补偿金制度最大的优势不仅省略了许可谈判的程序,也省去了识别权利人并向其分配使用费的问题,更有效率。

4.4 避免使用费堆叠问题

鉴于机器学习需以海量数据为基础,在集体管理和法定许可的收费标准之下,海量作品累积起来所形成的作品使用费会形成“堆叠”效应,由此导致机器学习成本巨大,不可控制,并最终会反映到AI产品或服务的购买和使用价格上。而补偿金往往是“打包价”,比如按产品售价一定比例提取补偿金,不直接受作品使用规模的影响,这是补偿金制度的一项优势。传统上的著作权补偿金和税收有着相似之处,具有集中性和强制性,由特定机构(通常是著作权集体管理组织)依法代表权利人集中行使,排除了个人自行管理的权利 [6],这也消除了使用费堆叠的可能性。

4.5 不影响专有权独立行使

补偿金制度主要针对难以识别权利人、难以识别侵权,或者难以构成侵权但又会造成利益失衡的场景,机器学习正是这种平衡机制的最佳场景应用。作为一种补充性质的平衡机制,补偿金制度不排斥权利人的专有权控制和合同控制,与授权许可并行不悖。比如,在以下场景中,权利人可以保留行使其权利,而不会因补偿金制度而架空其专有权:其一,权利人可以采用技术措施拒绝生成式AI的开发者或运营商通过网络抓取其作品资源进行利用。其二,数据库拥有人仍然可以通过单独许可的方式和生成式AI开发者或运营商达成协议,以提供丰富的数据资源。比如,中国知网提供数据授权,支持科学研究有关的数据训练。其三,当生成式AI生成的内容与已有的单个作品实质性相似时,该作品的权利人仍然有权追究相关主体的侵权责任,这并不会因为AI开发者或运营商支付了补偿金而豁免其侵权责任。

5
著作权补偿金制度构建的初步展望

传统上,补偿金制度的产生以无法对私人复制进行控制为前提,随着数字版权管理技术措施的发展,私人复制在网络环境下已经可以得到相当地控制,但生成式AI、大语言模型的发展,让机器学习这样的“商业复制”也变得无法控制,发源于扭转私人复制利益失衡的补偿金制度在数字版权管理时代看似式微,又在人工智能时代可以迎接新的使命。补偿金制度作为利益再平衡机制,在我国著作权法上尚属立法空白,在人工智能已经崛起的时代,我国应当引入补偿金制度并将其本土化。

 5.1 厘清支付补偿金的义务主体

传统上,补偿金制度仅向特定群体“征收版税”,征收对象主要是复制设备的制造者、销售者(包括进口商),以及提供复制服务的经营者,并不面向最终用户。对每一个复制利用其作品或从其作品利用中受益的最终用户收取补偿金根本不现实,通过向上游的复制设备的生产者或销售者“征税”,最终转嫁给最终用户,也是一种具有效率的制度设计。

依照同样的思路,机器学习中作品利用的补偿金支付主体为AI工具开发者(包括后续的制造商、销售商)和运营商(AI服务提供者)。首先,生成式AI的开发者和运营商因提供内容生产服务,可以获得丰厚的商业回报,包括但不限于向用户按词元(token)个数、按字数或按篇数收费,获得广告收益等商业利益,因此,其支付补偿金具有正当性。其次,最终用户通过付费购买AI产品或服务成为补偿金的最终负担者,事实上用户还是逃不了与生成式AI开发者和运营商分担补偿金。当然,补偿金的分担是一种隐性的转嫁,就像QQ音乐的用户按月支付给平台会员费,但其并未感受到在向每一首具体的歌曲付费。

5.2 明确补偿金的法定征收主体

著作权人自行收取补偿金,现实操作的可行性低、执行成本高。更何况,在补偿金征收的场景中,一般无法识别单个作品的权利人或者识别成本高昂,因此,它无法按照作品真正被使用的情况来付费,这也是补偿金制度排除权利人自行征收的逻辑。因此,可以建立专门的著作权补偿金收费管理组织,统一对复制各类作品的复制设备,包括生成式AI产品及服务收取补偿金。但实行补偿金的国家通常都依赖于集体管理组织来执行补偿金的收取和分配,在我国也可以建立或指定集体管理组织作为法定的征收主体,专门从事补偿金收取、分配和使用等工作。

5.3  采取比例费率的征收标准

著作权补偿金的收取标准主要有两种模式。一是以德国为代表的定额费率制,按照定额方式向生产者收取补偿金,而不管设备的市场销售价格等情况;二是以美国为代表的比例费率制,按照复制设备销售额的一定比例收取补偿金。[18]考虑到生成式AI的特性,其在作品素材的获取复制、数据结构的特征抓取和作品资源的网络抓取等方面具有持续性,不适合采用一次性收取定额补偿金的模式,因此,可以采取比例费率的征收标准。具体而言,对于AI平台运营类,可以按平台服务收入提取一定比例支付补偿金;对于AI产品类(装载AI程序或可连接AI服务的设备),可以按AI产品销售额的一定比例支付补偿金。

5.4 确立面向公共利益的使用机制

补偿金制度同样面临如何分配收取费用的挑战。考虑到识别被训练或抓取使用的作品及其权属,然后逐一合理分发使用费,是一个艰巨甚至不可能的任务。因此,补偿金不必指向个别作者进行分配,必须从整体价值和公共利益的视角来看待补偿金分配和利用的问题。美国音乐家联合会与广播和唱片公司AFM的提议给出了一个参考。它主张对所有录音和无线电转录征税,所得资金将直接捐给信托基金,然后该基金将筹集到的资金用于支付北美各地的免费音乐会,从而为居住在主要城市地区以外的未充分就业的音乐家提供有偿工作,弥补了文化参与方面的地理差异,而且还在一定程度上减少大规模复制技术加剧的赢家通吃的情况。[19] 机器学习中作品利用的补偿机制可以借鉴上述做法,建议以著作权补偿金为基础设立公益基金,用于文学艺术、教育等公益事业,激励日益稀少的人类作者创作,鼓励和推动原创、高质的作品传播,从而实现公共水平的作品利益补偿。

6
结  语

对于机器学习中的作品利用,一种观点是通过主张系临时复制或合理使用,或者基于公有领域等考虑而直接将其认定为不侵权;另一种观点则是将其纳入著作权专有权的控制范围,并以此为基础提出授权使用、集体管理、法定许可等解决方案。一些掌握优质训练素材的厂商会通过技术措施等手段阻止对其内容的过度访问或索取, AI开发者或运营商必须取得使用授权才能获取进行数据训练。对处于公开状态、权利人众多且分散的作品素材,考虑到存在素材输入的“复制” 争议,出于谨慎,为积极消除这些素材的来源风险,集体管理组织的集中授权虽然是一个选项,但受制于代表权利人的有限性,往往无法满足全部训练素材的授权要求,因而修法将机器学习的作品利用纳入法定许可是相对较佳的制度选择。不过,法定许可模式需要建立在被利用作品及其权利人可识别、可追溯的基础上,其制度运行成本也相对较高。

作为解决机器学习中作品利用合法性问题的可选方案,著作权补偿金制度是基于人类作者整体利益的保护,相对于侧重个体利益保护的授权使用、集体管理、法定许可等模式具有补充性,甚至可以考虑在授权使用、法定许可等专有权控制模式之外,仍能有限度地并行征收补偿金 “税”,且该制度本身可以立法纳入强制性集体管理框架之中。同时,无论机器学习的作品利用是否认定侵权,补偿金制度都具有兼容性,它与临时复制、合理使用等不侵权主张并不冲突,即使机器学习的作品利用不受专有权控制,为了扭转失衡的各方利益,也可以考虑向特定主体征收补偿金。总之,可以探索在不同情形下采用合理使用、集体管理、法定许可以及补偿金制度等多种解决方案,为机器学习中作品利用的合法性提供制度支持,并让各方利益保持恰当的平衡。





参 考 文 献

(上滑查看)

[1]     李安. 机器学习的著作权规则:历史启示与当代方案[J]. 环球法律评论,2023(6):97.

[2]     纽约时报起诉要求销毁ChatGPT,赔偿数十亿美元(起诉状全文)[EB/OL].(2024-01-04)[2024-05-05]. 

https://mp.weixin.qq.com/s/Vir_jOJcW947-7hZSUlAFg.

[3]     袁真富. 用户创造内容(UGC)的著作权合理使用问题研究[J]. 科技与出版,2020(10):9.

[4]     刘银良. 论人工智能作品的著作权法地位[J]. 政治与法律,2020(3):3.

[5]     林华. 人工智能立法与合规中的版权挑战[EB/OL].(2024-04-16)[2024-05-05]. 

https://www.163.com/dy/article/IVSNOUCI0556781P.html?spss=dy_author.

[6]     张今. 数字环境下的版权补偿金制度[J]. 政法论坛,2010(1):80-87.

[7]     彭桂兵,冒乙静. 补偿金制度:探讨互联网时代调整私人复制行为的利益再平衡机制[J]. 媒体融合新观察,2020(6):50.

[8]     ANDRE F C,JOHN D,FIONA R. Canada's private copying levy-does it comply with Canada's international treaty obligation?[J].Intellectual Property,2006 (20):111-134.

[9] Alliance of artists and recording companies,"AARC Summary"[EB/OL].(2024-05-16--20)[2024-05-20]. 

http://www.aarcroyalties.net/forms/AARC Summery.pdf.

[10]   徐龙. 机器学习的著作权困境及制度方案[J]. 东南学术,2022(2):239.

[11]   MARTIN S.Generative AI and author remuneration [J]. 2023(54):1535-1560.

[12]   刘友华,魏远山. 机器学习的著作权侵权问题及其解决[J]. 华东政法大学学报,2019(2):68-79. 

[13]  庄善洁. 权利弱化与利益分享:重构信息网络传播权与图书馆信息共享利益平衡新理论[J]. 图书与情报,2008(5):76-78.

[14]  陶鑫良. 网上作品传播的“法定许可”适用探讨[J]. 知识产权,2000(4):11-15.

[15]  高阳,胡丹阳. 机器学习对著作权合理使用制度的挑战与应对[J]. 电子知识产权,2020(10):15. 

[16]  曹世华. 论数字时代的版权补偿金制度及其导入[J]. 法律科学(西北政法学院学报),2006(6):147. 

[17]  张平. 生成式人工智能数据训练知识产权合法性问题探讨[EB/OL].(2023-08-31)[2024-05-05]. 

https:// mp.weixin.qq.com/s/8N4-ojQvfmRnhP_HfMinVQ.

[18]  李青文. 论数字环境下我国著作权补偿金制度之构建[J]. 编辑之友,2017(11):81.

[19]  ERIC D. Copyright,compensation,and commons in the music AI industry[J]. Creative Industries Journal, 2021(2):202.

AUTHOR

袁真富  夏子轩

上海大学法学院知识产权学院





END


科技与出版
《科技与出版》旨在搭科技进步与出版创新之桥,传编辑出版与文化传播之经。是CSSCI来源期刊、中文核心期刊、“复印报刊资料”重要转载来源期刊。由清华大学主管,清华大学出版社有限公司主办,中国版协科技出版工作委员会指导。
 最新文章