AI大模型训练的侵权风险与合法路径

文摘 2024-12-04 14:51 中国香港

专家策略

王焱

汉坤律师事务所

合伙人

yan.wang@hankunlaw.com

别样红

汉坤律师事务所

律师

yanghong.bie@hankunlaw.com

近

年来，AI大模型技术取得了长足进展，展现出了令人惊艳的能力。其性能和效果高度依赖于训练数据集的规模和质量，而这些数据集及其数据往往受著作权保护。因此，本文将探讨在知识产权法框架下，AI行业在获取和使用训练数据集时，可能涉及的著作权侵权风险及合法性路径。

著作权侵权风险

AI大模型数据训练所使用的训练数据集很可能属于受著作权法保护的作品。因此，在AI大模型的整体技术开发过程中，开发者首先需要解决的往往是所使用的训练数据集的合法性问题。

(1)数据集受著作权保护。首先，数据集中的海量数据，无论是自主采集、向数据服务提供商购买，还是爬取自公开数据，都可能包含他人的作品。其次，由于数据的独创性编排，数据集本身也可能被视为受著作权法保护的汇编作品。例如，GPT-4模型的训练数据集涵盖了大量网络文本，这些文本的甄别、分类和整合往往需要独特构思。因此，最终形成的庞大语料库或可因其内容选择和编排的独创性而被视为汇编作品，受著作权保护。

(2)现行法律框架下，针对AI大模型训练数据集著作权例外的适用。在日本、美国、欧洲等法域框架下，已经规定了使用AI大模型训练数据/数据集可能的侵权豁免情形。例如，英国、法国、德国等欧洲国家在版权法中增设“文本数据挖掘”的例外条款。日本著作权法也为“数据分析”设立了特定的著作权例外。美国通过判例法将数据存储、挖掘纳入合理使用范围，裁判基础是合理使用制度中的“转换性使用”理论。

然而，在中国，现行《著作权法》中的“合理使用”与法定许可这两种著作权例外均不能为AI大模型训练过程中数据集的使用提供有效的侵权豁免。具体而言，《著作权法》第二十四条虽规定了“合理使用”制度，但通常不适用于AI大模型训练过程中的数据集使用场景。首先，生成式AI模型的开发大多基于商业目的，其使用训练数据集的行为不属于个人研究及欣赏，亦难以归类于学校课堂教学或者科学研究的范畴。其次，AI大模型训练过程往往需要大量引用甚至全文复制他人作品，这也可能不符合“适当引用”情形限制。

虽然《著作权法》还规定了四种法定许可制度。但在具体适用场景上，这些制度也很难适配AI训练数据集使用时对著作权豁免的需要。

展望

历史上，技术的重大变革往往都伴随着法律制度的进步。例如，互联网论坛的发展推动了美国《数字千禧年版权法案》中“避风港”规则的建立；搜索引擎的兴起引发了对合理使用制度的重新解释。这些新制度的建立是平衡各方利益的结果。

AI大模型已展现出显著提升生产力的巨大潜力，但其性能的发挥依赖于高质量的训练数据集。而数据集所涉及的著作权人的合法权益也应得到充分保障。技术创新与权利保护之间的利益冲突，迫切需要通过新的法律制度加以平衡。

在AI大模型蓬勃发展的背景下，中国可以考虑通过以下几个路径探索平衡大模型开发者和训练数据集著作权人之间的利益冲突，确保训练数据集的合法使用：

(1)拓展合理使用的适用范围以纳入不对外输出生成内容的AI大模型训练行为。例如，AI系统仅用于评卷打分、数据分析等内部功能，即便其训练过程中使用了受著作权保护的作品，但由于其并不会对外输出与训练内容相同或相似的作品，因而不会实质性影响著作权人的利益。将此类训练行为视为合理使用，既有利于技术发展，又不损害权利人的合法权益。

(2)借鉴“避风港”规则，建立通知—屏蔽机制。当著作权人发现AI大模型可能生成涉嫌侵权的内容时，可以向开发者发出通知。开发者在接到通知后，若能迅速采取技术措施屏蔽相关侵权内容，并防止其进一步传播，则可免除其赔偿责任。此举鼓励开发者主动规范自身行为，及时回应权利人的合法诉求。

作者 | 汉坤律师事务所合伙人王焱、律师别样红

本文刊载于《商法》2024年9月刊。如欲阅读电子版，欢迎浏览《商法》官网。

往期专栏精选

长按扫码关注我们

为了让您第一时间获取专业法律资源

请常点“在看”

并将“CBLJ 商法”设为星标

阅读原文查看更多专家策略的相关内容

商法CBLJ

《商法》China Business Law Journal 是国际市场领先的双语法律全媒体，专为从事中国跨境投资之决策者、公司法务及中外律师提供实用法律建议及深度分析。

最新文章

《商法》企业法务大奖2025提名开始！

【商法视听】用人单位调岗调薪合规要点

IST中的个人信息保护合规

巴西投资限制与退出机制

美邦关闭北京办事处，本周内第二家

知识产权权利人如何参与“行刑衔接”程序

AI大模型训练的侵权风险与合法路径

又一家！宝维斯年底撤出北京

企业合规之如何处理“涉刑”员工？

企业数据资产入表合规制度的建立

招投标刑事风险及应对措施

如何设计股权回购责任

单边选择仲裁条文效力的判定

私募基金合规运营义务及投后管理

市场主体登记告知承诺制度的法律风险

美国《生物安全法案》对中国企业的影响

如何在乌兹别克斯坦办理抵押担保？

【商法视听】科技成果转化的三重法律保障

金融监管规范的合同效力动态系统论构建

新《公司法》下任命职工董事的挑战

【商法视听】先刑后民 vs 刑民并行

宠物航空运输损害赔偿责任的承担

新《公司法》实施对股改实务的影响

中国草拟首部医疗器械管理法，提升立法层级

【最后三天】《商法》“年度杰出交易”2024申报本周五结束

投资人如何行使股权回购权

史密夫斐尔与凯来合并，将创收20亿美元

案例分析：新《公司法》的溯及力

【下周截止】《商法》“年度杰出交易”2024申报进入倒计时

用人单位“未及时足额支付劳动报酬”的法律分析

外企将获准迁册入港

“2024年上海 • CBLJ高峰论坛”圆满落幕 | 精彩瞬间回顾

【商法视听】证券虚假陈述责任纠纷索赔途径

“2024年上海 • CBLJ高峰论坛”热烈进行中！

【明日召开】“2024年上海 • CBLJ高峰论坛”，期待与您相聚！

法总智言 | 极氪智能科技刘昉

【倒计时2天】11月1日“2024年上海 • CBLJ高峰论坛”即将开启！

法总智言 | 正荣集团李建华

印尼投资股权架构设计要点

法总智言 | 新百伦贸易(中国)陈永明

【倒计时4天】11月1日“上海 • CBLJ高峰论坛”，期待您的莅临！

新《公司法》实施后，国企吸收合并法律解析(上)

法总智言 | 看云控股贾峥

《商法》对104家领先律所营收分析：下行市场真的来了

法总智言 | 平安健康(检测)中心曾妮

外资律所撤离中国的背后：市场低迷与数据监管的挑战

在港仲，仲裁庭如何组成？

法总智言 | 东方日升新能源李志刚

投资方与融资方如何“对赌”？

法总智言 | 极兔速递环球尚泉汐

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉