编者荐语
本文通过运用比例原则的核心价值,应对生成式大模型训练数据带来的风险与挑战,进而构建一套关于生成式大模型训练数据风险管理的理论框架。
本文发表于《信息安全与通信保密》2024年7期
引用格式:钟海燕, 黄运康.生成式大模型训练数据的法律规制——以比例原则为分析视角[J].信息安全与通信保密,2024(7):99-108.
摘 要
依赖大量数据训练的生成式人工智能大模型正处于蓬勃发展时期,但其在训练数据收集、处理和输出过程中,存在的潜在的数据合规、数据偏见、数据泄露等风险不仅会威胁技术本身的发展,还会对社会相关利益群体产生一定的威胁,需要通过法律对其进行规制。首先,基于平衡人工智能发展与保障人类权益的目的,对生成式大模型训练数据过程中的风险进行分析,根据比例原则基本原理构建风险治理的框架,即对数据获取的来源与目的加以限制,充分平衡各方权利人的利益;其次,对数据内容与算法技术进行正当性管控,以使对各方的损害达到最小范围;最后,从执行数据收集最小化原则、增强合规数据使用和明确相关主体责任义务3个途径降低数据泄露风险。
论文结构
1 生成式大模型训练数据带来的法律风险
1.1 数据来源风险
1.2 数据质量风险
1.3 数据泄露风险
2 比例原则下规制生成式大模型训练数据的正当性
2.1 比例原则在训练数据规制适用中的可行性
2.2 比例原则在训练数据规制适用中的必要性
2.3 比例原则为训练数据的规制提供了“更好的结构性规范”
3 比例原则下规制生成式大模型训练数据的路径
3.1 针对数据来源风险
3.2 针对数据质量风险
3.3 针对数据泄露风险
作者简介
钟海燕(2001—),女,本科在读,主要研究方向为法学理论; 黄运康(1987—),男,博士,讲师,主要研究方向为知识产权法、数字法学。
点击“阅读全文”, 查看原文