GEN AI 合规 FAQs(二) | 如何合规地建立大模型预训练数据集?

文摘   2024-09-05 17:30   北京  

欢迎点击上方 TMT法律论坛 关注我们



专栏

GEN AI

导读

自Open AI掀起生成式人工智能的狂潮以来,大模型在各行各业的应用日益广泛,成为推动企业创新与新质生产力发展的重要力量。与此同时,合规挑战亦如影随形。在此背景下,我们推出系列“GEN AI 合规 FAQs”。


每期,我们都将聚焦企业应用Gen AI相关的核心话题,从产品备案到训练数据集构建,从电信业务许可到内容安全管理,从数据安全保护到知识产权风险应对……全方位覆盖不同合规领域及应用场景,以期帮助Gen AI应用企业妥善应对潜在的法律风险。


本期为"GEN AI 合规 FAQs"第二期“如何合规地建立大模型预训练数据集?”


注:专栏配图均由AI生成






训练数据的数量、质量、多样性是构建大模型能力的关键性因素,同时法律层面上对于训练数据的合规性也有所要求,因此如何合规、高效地建立大模型预训练数据集成为大模型发展和应用首先需要解决的问题。结合行业实践来看,目前大模型的训练数据来源主要包括爬取的公开数据、开源数据集、采购数据、合成数据、用户输入内容、企业自有数据等。本期FAQ将对建立大模型预训练数据集的常见问题进行讨论。


Q: 如何合规地爬取公开数据?


公开数据是目前大模型预训练数据最主要的来源之一。通过自动化方式访问、收集互联网公开数据的过程中,需至少关注以下合规要点:


  • 流量及频率控制,不得影响网站、网络产品/服务的正常运行,不得影响系统的正常功能;

  • 技术措施管理,不得绕过或破解网站、系统所采取的技术保护措施,关注网站声明内容及Robots协议对数据爬取的限制并相应遵循;

  • 内容筛选和过滤,爬取的数据类型应当为公开的、非保密的前台数据,且应当进行数据清洗和内容安全管理;

  • 使用限制,对爬取的公开数据的处理/使用应当限定在合法合理的限度内,不得对原始数据来源网站/系统产生替代性效果;

  • 公开数据本身可能具备多重法律属性,包括但不限于个人信息、作品、公共数据等特定数据权益,实践中需结合数据所对应的法律属性采取针对性的合规措施。


Q: 应用开源数据集进行大模型训练的合规要点是什么?


开源数据集是汇编了众多数据内容(例如网页、图片、文字)的集合。数据集“开源”引用了开源软件之开放共享的理念,通过开源许可证(Open Source License,又称开源协议)明确数据集使用的条件和限制,允许使用者在符合条件和限制的情况下进行使用和分发。


实践中,开源数据集在其许可协议中会限制商业用途的范围,以及衍生物的进一步开源义务。鉴于目前已经有司法案例将开源协议认定为具备法律效力的合同,因此在使用开源数据集时,应重点关注开源协议的内容,确保使用行为符合开源协议的约定,以降低法律风险。


Q: 采购训练数据用于大模型训练需要关注哪些重点?如何对采购数据开展合规审查?


目前已经有多个数据交易所上线专门的大模型训练数据集产品以满足产业发展的需要,同时场外交易也较为活跃。采购训练数据时,结合大模型的产研场景,应当重点关注以下内容:


  • 数据内容是否满足业务需求,尤其是垂类大模型对于专业知识的特殊要求;

  • 数据交付的形式和流程,例如API或者数据包等,应当满足大模型产品研发的需要;

  • 数据质量的可控性和数据安全的可靠性

  • 数据价值的确定以及对应价格,数据要素市场不断完善的过程中,公允、合理地定价对于激励数据要素的流通具有重要意义;

  • 采购数据所获得的数据权益是否满足大模型训练的需要,例如使用录音制品进行大模型训练,也需要就所涉及的声音等人格权获得自然人的授权。


具体推进过程中,企业需要对采购数据进行合规审查以有效降低合规风险,合规审查的要点包括但不限于:


  • 数据类型的合规性,是否含有禁止/限制流通交易的数据类型,例如国家秘密、商业秘密、个人隐私等;

  • 数据收集授权的合规性,是否是未经授权所收集的数据; 

  • 数据交易的合规性,出售方是否合法地拥有或控制数据,是否有权对外提供。


Q: 合成数据用于大模型训练的合规要点是什么?


利用合成数据进行大模型训练,是缓解训练数据不足的有效方案。但由于合成数据是基于算法和数据模型创建的虚拟数据,并非是客观世界所真实存在的数据,事实上会存在偏差与噪声等问题,因此使用合成数据用于大模型训练,需要关注以下问题:


  • 数据质量,需要特别关注合成数据在大模型训练过程中的真实性、准确性、客观性、多样性的质量控制;

  • 公平公正和可解释性,由于合成数据的产生过程系基于算法和数据模型,可能无法直接说明数据合成的原理和依据,所以需要采取技术和管理措施确保遵循公平、公正、透明、可靠、可控等原则;

  • 伦理问题,由于前述合成数据的固有特性,需要关注基于合成数据训练大模型所产生结果对于个人权益、公共利益的风险控制和保护。


Q: 使用用户输入内容进行大模型训练的合规要点是什么?


用户输入内容用于大模型优化对于提升大模型的性能具有重要的价值。根据《生成式人工智能服务安全基本要求》以及参考《网络安全技术 生成式人工智能服务安全基本要求(征求意见稿)》内容,使用用户输入内容进行大模型训练,需要至少符合:


  • 具有用户的授权记录;

  • 为用户提供便捷的关闭其输入内容用于大模型训练的方式;

  • 将收集用户输入内容的情况以及前述关闭的方式以显著的方式告知。


Q: 使用作品用于大模型训练的合规要点是什么?


作品因凝结了人类的独创性是大模型重要的训练语料。基于目前《著作权法》所建立的“许可使用”的基本模式,除合理使用和法定许可外,取得著作权人的许可是将作品用于大模型训练法律风险最低的方式。鉴于目前大模型训练所涉及的作品使用行为是否属于合理使用的范畴仍存在广泛的争论,通过许可方式将作品用于大模型训练是一种合规的方式。同时,一旦发现存在侵犯第三方知识产权权益的行为,应采取措施及时处理。


Q: 训练数据的安全风险及安全要求是什么?


目前训练数据的安全风险主要包括:包含违反社会主义核心价值观的内容、包含歧视性内容、商业违法违规、侵犯他人合法权益、无法满足特定服务类型的安全需求等。


为有效降低安全风险,根据《生成式人工智能服务安全基本要求》以及参考《网络安全技术 生成式人工智能服务安全基本要求(征求意见稿)》《网络安全技术 生成式人工智能预训练和优化训练数据安全规范(征求意见稿)》内容,对于训练数据的安全要求主要包括:


  • 语料来源安全要求,包括但不限于对语料来源进行安全评估、进行语料搭配以保证多样性、确保语料来源可追溯、阻断违法不良信息等;

  • 语料内容安全要求,包括但不限于过滤违法不良信息、建立并落实知识产权管理机制、符合个人信息保护的相关要求等;

  • 语料标注安全要求,包括但不限于标注人员管理、标注规则管理、标注内容准确性控制等。


相关规范

《生成式人工智能服务管理暂行办法》

第七条 生成式人工智能服务提供者应当依法开展预训练、优化训练等训练数据处理活动,遵守以下规定:

(一)使用具有合法来源的数据和基础模型;

(二)涉及知识产权的,不得侵害他人依法享有的知识产权;

(三)涉及个人信息的,应当取得个人同意或者符合法律、行政法规规定的其他情形;

(四)采取有效措施提高训练数据质量,增强训练数据的真实性、准确性、客观性、多样性;

(五)《中华人民共和国网络安全法》、《中华人民共和国数据安全法》、《中华人民共和国个人信息保护法》等法律、行政法规的其他有关规定和有关主管部门的相关监管要求。


《互联网信息服务深度合成管理规定》

第十四条 深度合成服务提供者和技术支持者应当加强训练数据管理,采取必要措施保障训练数据安全;训练数据包含个人信息的,应当遵守个人信息保护的有关规定。


"GEN AI 合规 FAQs" 专栏系列往期回顾


第一期 | 生成式人工智能产品的备案要求是什么?


重要提示:

本专栏所有内容仅作为信息性参考,不构成法律意见,不能作为任何行动的依赖。本文中的回复意见可能是不全面的,考虑到监管的不断实践,不排除后续的进一步变化。任何的行动,请以律师的正式意见和监管的意见为准。




作者往期文章推荐

中伦解读


域外关注


本期文字:李佳笑

本期编辑:陈瑊 陈煜烺 陈瑞庭


TMT法律论坛
聚焦数据合规、网络安全、GDPR、大数据、Fintech、人工智能、自动驾驶与电子商务等TMT领域的前沿法律实务,由中伦TMT团队运营,合作与沟通:DataLaw.pg@zhonglun.com。
 最新文章