作者:吴卫明
大语言模型(Large Language Model)通常是指具有大规模参数和运算能力的自然语言处理模型,算法、算力与数据,是支撑大模型发展的三大基石。而模型预训练过程中的海量数据,被认为是决定模型能力的核心要素之一。
大模型训练过程中,通过对词语序列的概率相关性分布的建模,语料数据及参数经过模型的加工、分析和多轮推理演算,最终形成对于语料关系的判断模型和预测模型。即以语句中词汇的组合作为输入条件,预测后续不同词汇出现的概率分布。因此,语料数据对于大模型的基础能力具有重要的影响。某种意义上讲,输出来自于训练时的数据输入。尽管由于不同数据、不同参数对于模型的影响机制仍难以通过量化的方式说明,产生了算法及模型的“黑箱效应”,但训练数据对于模型的影响机制仍然是客观存在的。
对于大模型研发企业而言,规范大模型的训练过程,预训练语料数据的合规无疑是最为重要的方面之一。
一、预训练数据的来源及分类
通常而言,考虑到大模型作为一种基础语言模型,语料数据来源应具有广泛性。以Chat-GPT为例,其语料数据集就包括了维基百科的网页数据、各类书籍、杂志期刊等,还包括其他专门的开源数据集,比如Common Crawl,以及GitHub等代码数据集。丰富的数据集有助于提升模型理解、对话交流和多模态信息处理等方面的能力。由于数据在不同国家、不同法域、不同领域、不同行业有不同的规则,因此,有必要对于预训练数据集的进行分类,从而对其合规性予以判断。
1、依据数据来源所进行的分类
(1)开源数据集
境外的常见开源数据集包括Common Crawl等开源数据集,Common Crawl是一个大型的网站抓取数据集,包含原始网页、元数据和文本等语料提取数据。当前境内也有不同机构推出了相应的人工智能预训练开源数据集,随着我国对于开源训练语料数据平台的鼓励政策,此类平台也会逐渐成熟。
(2)公开网页爬取数据
网页爬取数据是大模型企业重要的数据来源,通过自动化程序复制目标网页的文章、图片等网页内容,是获取网页数据的重要方法[1]。对于公开网页爬取方式获取数据的做法,在实践中存在一定的争议。比如对于作品的合理使用、数据合理使用等问题。
(3)第三方商业数据集
第三方商业数据集一般是指以有偿方式所获取的来自于专业数据服务商的语料数据,此类数据包括通过公开途径无法获取的数据,或者直接通过网页爬取方式存在一定风险的数据。以有偿方式获取,一方面可以解决数据的权属或者知识产权问题,另一方面,也可以获取经过加工的高质量数据。
(4)企业自采数据
对于拥有丰富业务场景的大模型开发企业而言,自采数据是其预训练语料的重要来源之一。比如一些搜索类企业,即拥有大量的文本类数据。对于经营社交类应用或社交媒体的企业,则会拥有大量的音视频数据或者用户行为数据。
2、依据预训练数据类型所进行的分类
(1)作品数据
作品数据是大模型训练中最为常见一种数据,大模型在获取语言知识和世界知识过程中,作品数据无疑是优质的训练语料。书籍、学术期刊、各类文章等都属于作品数据。作品数据一般会存在作者或者相关机构的著作权问题,如何协调模型训练与著作权之间的关系,成为各国立法和司法机构面临的新问题。
(2)个人信息
对于以合法方式获取的个人信息,在符合个人信息处理目的的前提下,也可以用于大模型训练。当然,由于个人信息的来源渠道丰富,在使用个人信息训练大模型的过程中,可能存在相应的合规风险。
(3)公共数据
公共数据包括政务数据等,由于不同国家和地区对于公共数据用于大模型训练有不同的开放政策,因此,在不同国家,大模型企业对于政务数据的使用或挖掘深度并不相同。但是随着人们对于公共数据价值的日益重视,公共数据也将成为大模型训练数据的重要来源。
(4)企业数据
企业数据通常指与企业信息公开或经营有关的数据,基于鼓励商事信息公开的通常做法,在各类信息公开的平台,都可以看到大量的企业注册信息和基本登记信息、经营信息。此类信息经过公开,一般不涉及商业秘密问题,从而成为风险较低的数据类型。
(5)行业数据
对于特定行业而言,其数据在垂直类大模型训练中拥有较高的价值。这些领域包括健康医疗领域、金融领域、交通领域等。由于不同行业领域均有其特定的法规与监管规则,因而特定行业领域的数据用于大模型训练,除了遵循一般规则外,还应关注行业的相应规则。
二、预训练数据合规的立法概况
1、早期立法框架构建
2017年7月8日,国务院发布《新一代人工智能发展规划》。在保障措施提到“制定促进人工智能发展的法律法规和伦理规范”。开展与人工智能应用相关的民事与刑事责任确认、隐私和产权保护、信息安全利用等法律问题研究。加大对数据滥用、侵犯个人隐私、违背道德伦理等行为的惩戒力度。
2021年9月17日,国家互联网信息办公室、中央宣传部、教育部、科学技术部、工业和信息化部、公安部、文化和旅游部、国家市场监督管理总局、国家广播电视总局等九部委制定发布了《关于加强互联网信息服务算法综合治理的指导意见》。其中指出,对算法的数据使用、应用场景、影响效果等开展日常监测工作,感知算法应用带来的网络传播趋势、市场规则变化、网民行为等信息,预警算法应用可能产生的不规范、不公平、不公正等隐患,发现算法应用安全问题。
早期的立法中,已经开始关注数据安全与合规,并突出隐私保护等问题,但并未专门针对预训练数据的合规进行规定。[2]
2、逐渐突出对于数据合规的针对性
2021年11月16日,国家互联网信息办公室发布《互联网信息服务算法推荐管理规定》。算法推荐服务提供者应当落实算法安全主体责任,建立健全算法机制机理审核、科技伦理审查、用户注册、信息发布审核、数据安全和个人信息保护、反电信网络诈骗、安全评估监测、安全事件应急处置等管理制度和技术措施,制定并公开算法推荐服务相关规则。并明确将《中华人民共和国网络安全法》、《中华人民共和国数据安全法》、《中华人民共和国个人信息保护法》、《互联网信息服务管理办法》等法律、行政法规,作为办法的制定依据。
此外,还规定算法推荐服务提供者应当加强用户模型和用户标签管理,完善记入用户模型的兴趣点规则和用户标签管理规则,不得将违法和不良信息关键词记入用户兴趣点或者作为用户标签并据以推送信息。[3]
这一阶段的立法,根据数据安全法及个人信息保护法的要求,在数据安全与个人信息保护方面确立了基本的要求
3、突出训练数据的合规
2022年11月3日,国家互联网信息办公室发布《互联网信息服务深度合成管理规定》。该规定第十条专门对输入数据进行了规范,服务提供者应当加强深度合成内容管理,采取技术或者人工方式对深度合成服务使用者的输入数据和合成结果进行审核。
该规定还在第十四条专门规定了服务提供者和技术支持者应当加强训练数据管理,采取必要措施保障训练数据安全;训练数据包含个人信息的,应当遵守个人信息保护的有关规定。
在2023年8月15日国家互联网信息办公室发布的《生成式人工智能服务管理暂行办法》中,则明确了预训练数据的合规要求。该办法第七条规定,生成式人工智能服务提供者应当依法开展预训练、优化训练等训练数据处理活动:(一)使用具有合法来源的数据和基础模型;(二)涉及知识产权的,不得侵害他人依法享有的知识产权;(三)涉及个人信息的,应当取得个人同意或者符合法律、行政法规规定的其他情形;(四)采取有效措施提高训练数据质量,增强训练数据的真实性、准确性、客观性、多样性。
除了预训练数据外,该办第八条还对数据标注进行了规范,在生成式人工智能技术研发过程中进行数据标注的,提供者应当制定符合本办法要求的清晰、具体、可操作的标注规则;开展数据标注质量评估,抽样核验标注内容的准确性;对标注人员进行必要培训,提升尊法守法意识,监督指导标注人员规范开展标注工作。
总体而言,这一阶段的立法已经重点关注预训练数据的合规,并将预训练数据的合规作为生成式人工智能监管的重要内容。
三、不同预训练数据的基本合规要求
1、个人信息数据
大模型预训练中的个人信息数据的合规问题,仍应遵循个人信息保护法的有关规则。
(1)首先还是应遵循合法、正当、最小化原则。最小化原则而言,对应的是个人信息保护法的必要原则,只应收集必要的数据,即与模型训练和功能实现密切相关的数据,避免无关数据的收集;即便是为了提高模型的表现,也不能在没有明确理由的情况下收集额外的个人信息。
(2)知情同意原则也需要予以重视。虽然大模型训练可能并不关注数据的个体颗粒度和识别度,但是特定领域数据个体颗粒度的保留依然是需要的。因此,涉及能够识别到个人信息信息,或者保持一定个体颗粒度的信息,仍然需要适用个人信息保护的知情同意原则。对于无需保留个体颗粒度的数据,则应通过匿名化的方式来降低个人信息合规风险。
(3)公开收集数据集,则需要关注个人信息的合理利用问题。一般而言,由于模型训练本身并不涉及个人信息的对外利用和转让,因而此类使用具有一定合理性。
(4)对于开源数据集或者来自于第三方的商业数据,则需要关注其中所包含个人信息的来源及合规性。如果这些数据本身是公开数据,则需要关注合理使用问题。如果其中的个人信息不能说明来源,则需要重点关注其合规性,以及是否符合知情同意原则。
(5)生命周期安全与删除,也是个人信息数据用于大模型预训练需要考虑的问题。研发企业应采取技术与管理措施,保证个人信息数据全生命周期的安全。设定数据的保留期限,超出这一期限就应启动删除流程。
2、用户反馈数据合规
用户反馈数据虽然并不属于大模型预训练阶段的数据,但是属于模型训练的反馈过程,对于优化模型具有重要的作用。对于用户反馈数据优化模型,也同样需要符合知情同意原则,数据具有用户的授权记录,将收集用户输入内容的情况以及数据使用和拒绝的方式以显著的方式告知。
对于以toB方式部署的大模型应用,收集来自于B端用户的数据,如果数据权益归属于用户,则同样应遵循用户知情同意的原则。对于B端用户的最终个人用户,也需要明确告知数据收集主体,并取得最终个人用户同意。
3、公开爬取数据的合规
如前所述,通过自动化程序爬取公开网页数据,是大模型预训练数据的重要来源之一。针对此类数据获取行为,也引发了不少争议。部分平台的运营者认为,网页数据包含其版权或者竞争性财产权益,而模型训练本身是商业行为,从而使用公开网页数据可能会构成侵犯著作权或者不正当竞争。
此外,由于部分网络通过Robots协议或者反爬虫技术措施限制数据的爬取,并且也已经发生过因为爬取数据而产生的刑事案件。数据爬取,可能会涉及刑法285条第二款的适用,即该种行为可能会被认定构成“非法获取计算机信息系统数据罪”。[4]
笔者认为,从当前的实践来看,爬取的公开网页数据是大模型预训练重要数据来源,而数据爬取作为一种技术措施,本身并不构成违法。而是需要根据不同情形具体判断,并采取必要的合规措施。这些措施主要包括:
(1)从民事风险的角度看,对于爬取的公开数据应遵循合理使用原则,且其使用不应具有非法目的。此外,爬取数据的使用方式,不对源网站/系统产生实质性替代,或者具有替代性效果。此外,还应关注网站法律声明内容及Robots协议的限制。
(2)从行政或刑事法律风险角度看,爬取数据的过程应关注爬取的流量和频率,爬取过程不能影响网络产品或者服务的正常运行和系统的正常功能。并且,原则上不应采取技术措施绕过反爬虫措施。此外,不应通过破解网站、系统所采取的安全保护措施获取后台非公开数据。
4、作品数据使用的合规
在大模型预训练过程中,书籍、图片、各类文章等作品数据是重要的数据类型。但是作品数据的利用,将会面临是否属于著作权合理使用的问题。我国《著作权法》采取的是“许可使用”的基本模式。如《著作权法》第二十四条列举了可以不经著作权人许可的几种“合理使用”的具体情形。如“个人使用”、“适当引用”和“学习研究使用”等,但这些规定难以直接覆盖大模型训练中大规模复制和利用作品的商业化需求。因此,需要通过立法或者司法案例对于模型训练使用作品的情形进行界定,以便平衡著作权与人工智能发展的关系。由于这一问题较为复杂,作者将另行撰文,本处不做进一步展开。
5、公共数据合规
公共数据由于其数据类型丰富,且数据体量巨大,因而也成为大模型训练的潜在数据来源。随着我国公共数据开放和授权运营体系的日益推进,公共数据用于大模型预训练的合规问题也日益凸显。公共数据中包含企业数据、个人信息和其他数据,也包含重要数据和国家秘密数据等。因此,公共数据用于大模型训练的合规性判断较为复杂。应遵循公开透明、规范管理、权责明确、风险可控等基本原则。在合规措施方面,还应遵循“原始数据不出域、数据可用不可见”的原则。此外,如果公共数据中涉及国家秘密的情况,相应的数据集还应遵循国家秘密保护有关法律法规。
对于公共数据中的个人信息、企业数据、其他类型的数据,还应遵循相应领域数据合规的相应规则。由于公共数据用于大模型训练的合规问题较为复杂,作者将另行撰文,本文不做进一步展开。
综上,大模型预训练过程中,数据是核心要素之一。预训练数据的合规,也是大模型开发企业合规体系建设中最为重要的一环。
注释
吴卫明 高级合伙人
wuweiming
@allbrightlaw.com
免责声明
本文内容仅为提供信息之目的由作者/锦天城律师事务所制作,不应视为广告、招揽或法律意见。阅读、传播本文内容不以建立律师-委托人关系为目的,订阅我们的文章也不构成律师-委托人关系。本文所包含的信息仅是作为一般性信息提供,作者/锦天城律师事务所不对本文做日常性维护、修改或更新,故可能未反映最新的法律发展。读者在就自身案件获得相关法域内执业律师的法律意见之前, 不要为任何目的依赖本文信息。作者/锦天城律师事务所明确不承担因基于对本文任何形式的使用(包括作为或不作为)而产生的一切责任、损失或损害。
END