AI大模型训练的侵权风险与合法路径

文摘   2024-12-04 14:51   中国香港  


专家策略

王焱

汉坤律师事务所

合伙人

yan.wang@hankunlaw.com

别样红

汉坤律师事务所

律师

yanghong.bie@hankunlaw.com


年来,AI大模型技术取得了长足进展,展现出了令人惊艳的能力。其性能和效果高度依赖于训练数据集的规模和质量,而这些数据集及其数据往往受著作权保护。因此,本文将探讨在知识产权法框架下,AI行业在获取和使用训练数据集时,可能涉及的著作权侵权风险及合法性路径。


著作权侵权风险

AI大模型数据训练所使用的训练数据集很可能属于受著作权法保护的作品。因此,在AI大模型的整体技术开发过程中,开发者首先需要解决的往往是所使用的训练数据集的合法性问题。


(1)数据集受著作权保护。首先,数据集中的海量数据,无论是自主采集、向数据服务提供商购买,还是爬取自公开数据,都可能包含他人的作品。其次,由于数据的独创性编排,数据集本身也可能被视为受著作权法保护的汇编作品。例如,GPT-4模型的训练数据集涵盖了大量网络文本,这些文本的甄别、分类和整合往往需要独特构思。因此,最终形成的庞大语料库或可因其内容选择和编排的独创性而被视为汇编作品,受著作权保护。


(2)现行法律框架下,针对AI大模型训练数据集著作权例外的适用。在日本、美国、欧洲等法域框架下,已经规定了使用AI大模型训练数据/数据集可能的侵权豁免情形。例如,英国、法国、德国等欧洲国家在版权法中增设“文本数据挖掘”的例外条款。日本著作权法也为“数据分析”设立了特定的著作权例外。美国通过判例法将数据存储、挖掘纳入合理使用范围,裁判基础是合理使用制度中的“转换性使用”理论。


然而,在中国,现行《著作权法》中的“合理使用”与法定许可这两种著作权例外均不能为AI大模型训练过程中数据集的使用提供有效的侵权豁免。具体而言,《著作权法》第二十四条虽规定了“合理使用”制度,但通常不适用于AI大模型训练过程中的数据集使用场景。首先,生成式AI模型的开发大多基于商业目的,其使用训练数据集的行为不属于个人研究及欣赏,亦难以归类于学校课堂教学或者科学研究的范畴。其次,AI大模型训练过程往往需要大量引用甚至全文复制他人作品,这也可能不符合“适当引用”情形限制。


虽然《著作权法》还规定了四种法定许可制度。但在具体适用场景上,这些制度也很难适配AI训练数据集使用时对著作权豁免的需要。


展望

历史上,技术的重大变革往往都伴随着法律制度的进步。例如,互联网论坛的发展推动了美国《数字千禧年版权法案》中“避风港”规则的建立;搜索引擎的兴起引发了对合理使用制度的重新解释。这些新制度的建立是平衡各方利益的结果。


AI大模型已展现出显著提升生产力的巨大潜力,但其性能的发挥依赖于高质量的训练数据集。而数据集所涉及的著作权人的合法权益也应得到充分保障。技术创新与权利保护之间的利益冲突,迫切需要通过新的法律制度加以平衡。


在AI大模型蓬勃发展的背景下,中国可以考虑通过以下几个路径探索平衡大模型开发者和训练数据集著作权人之间的利益冲突,确保训练数据集的合法使用:


(1)拓展合理使用的适用范围以纳入不对外输出生成内容的AI大模型训练行为。例如,AI系统仅用于评卷打分、数据分析等内部功能,即便其训练过程中使用了受著作权保护的作品,但由于其并不会对外输出与训练内容相同或相似的作品,因而不会实质性影响著作权人的利益。将此类训练行为视为合理使用,既有利于技术发展,又不损害权利人的合法权益。


(2)借鉴“避风港”规则,建立通知—屏蔽机制。当著作权人发现AI大模型可能生成涉嫌侵权的内容时,可以向开发者发出通知。开发者在接到通知后,若能迅速采取技术措施屏蔽相关侵权内容,并防止其进一步传播,则可免除其赔偿责任。此举鼓励开发者主动规范自身行为,及时回应权利人的合法诉求。



作者 汉坤律师事务所合伙人王焱、律师别样红


本文刊载于《商法》2024年9月刊。如欲阅读电子版,欢迎浏览《商法》官网。

往期专栏精选



长按扫码关注我们

为了让您第一时间获取专业法律资源

请常点“在看”

并将CBLJ 商法设为星标


阅读原文查看更多专家策略的相关内容

商法CBLJ
《商法》China Business Law Journal 是国际市场领先的双语法律全媒体,专为从事中国跨境投资之决策者、公司法务及中外律师提供实用法律建议及深度分析。
 最新文章