张涛:生成式人工智能训练数据集的法律风险与包容审慎规制
文摘
社会
2024-07-26 09:35
北京
作者:张涛(中国政法大学数据法治研究院讲师,法学博士;中国政法大学数字社会治理研究院研究员)
出处:《比较法研究》2024年第4期
一、问题的提出
二、生成式人工智能中训练数据集的双重法律地位
三、生成式人工智能中训练数据集的法律风险
四、生成式人工智能中训练数据集的规制框架重构
五、生成式人工智能中训练数据集的包容审慎规制
六、结语
摘要:训练数据集是生成式人工智能的基础,亦是一种聚合型权益客体,可以成为规制生成式人工智能的重要切入点。训练数据集的开发存在未经许可使用作品、违法处理个人信息等法律风险。然而,现有规制框架却呈现出风险防范形式化的现象,许可使用、合理使用等著作权法律规则难以因应规模化的训练数据集,而个人同意、目的限制与数据最小化等个人信息保护机制及原则亦存在效能不彰的问题。为此,有必要重塑现有的规制框架,将规制目标从权利保护进阶为公平使用,将规制路径由命令控制转变为包容审慎。为了实现生成式人工智能训练数据集的包容审慎规制,一是要构建包容审慎的著作权法规制,包括重构合理使用的标准与范围、构建著作权临时许可裁定制度、发布著作权合规最佳实践指南;二是要迈向包容审慎的个人信息保护法规制,包括拓展个人信息处理的合法性基础、改造告知同意机制、实施个人信息保护影响评估。关键词:生成式人工智能;训练数据集;个人信息保护;著作权;包容审慎规制 生成式人工智能能够快速发展与广泛应用的重要驱动因素是“数据爆炸”。智能手机、云系统和社交媒体等各种计算设备和网络平台的快速普及,使之成为巨大的数据生成器。因此,创建复杂的生成式人工智能模型变得更为容易。从技术逻辑的角度看,生成式人工智能是一种可以生成内容(如文本、图像、音频、视频等)的人工智能技术;若要开发能够执行此种操作的应用程序,就必须使用大量数据训练底层模型,使之能够识别数据集中的模式和结构。训练数据集(training dataset)是直接作为模型训练输入的数据,包括预训练、优化训练过程中的输入数据;训练数据集的类型、规模和使用方式直接决定生成式人工智能模型的成败。在计算机科学中,有一种常见的说法叫“垃圾进,垃圾出”,即如果输入的数据的质量很差,例如包含错误或有偏见,那么输出结果通常也是不正确或有偏见的。 为了创造高质量的输出,人工智能系统通常需要大量的训练数据,而这些数据往往包含大量受著作权保护的作品和个人信息。这便引起社会公众及政策制定者对生成式人工智能是否以及如何收集和利用训练数据集的担忧。在实践中,围绕人工智能的法律辩论愈演愈烈,导致针对ChatGPT等生成式人工智能系统开发者的多起诉讼,指控其模型训练侵犯著作权或个人隐私。欧盟《人工智能白皮书》在设计未来人工智能的规制框架时,首先便专门针对训练数据提出规制建议:一是要求确保人工智能系统接受足够广泛的数据训练,并且需要涵盖避免危险情况所需的所有相关场景;二是要求采取合理措施确保人工智能系统后续的使用不会产生歧视性结果;三是确保在使用人工智能产品和服务期间,个人数据和隐私均应当获得充分保护。由此可知,法律问题不仅出现在“即用型”人工智能系统方面,而且还提前出现在模型“训练”(training)和“微调”(fine-tuning)阶段。随着生成式人工智能在日常生活中变得越来越普遍和重要,妥善解决人工智能模型训练带来的著作权挑战和个人信息保护风险至关重要。 在理论研究中,已有研究成果主要聚焦于生成式人工智能的使用所引发的法律问题,如法律定位、安全风险、内容治理等,较少涉及训练数据集的法律规制问题,这与训练数据集在生成式人工智能中的重要地位不相适应。在我国,国家互联网信息办公室等部门联合发布的《生成式人工智能服务管理暂行办法》第6条、第7条和第8条初步构成了生成式人工智能训练数据集的规范基础。不过,从其内容来看,有的规定仍较为粗疏。由于训练数据集的开发涉及不同领域的法律规则,需要采用一种整体性视角,利用各种手段进行综合规制(umfassende Regulierung),直接或间接地影响人工智能开发者的数据处理行为。对训练数据集的规制充满复杂性和挑战性,既要重视个体权益的保护,同时又推动负责任的数据共享与使用,不能抑制新兴技术的发展与应用。基于此,本文旨在对生成式人工智能训练数据集的法律地位进行探析,从整体性视角检视其涉及的著作权法风险和个人信息保护法风险,并以包容审慎规制的理念重构相应的规制框架,以期为我国人工智能治理提供参考。
从理论与实践来看,生成式人工智能的训练数据集具有双重法律地位:一是从功能定位的角度看,在人工智能时代,训练数据集已经成为数字基础设施的重要组成部分;二是从法律属性的角度看,训练数据集是一种聚合型权益客体,涉及多个主体的多种权益。 基础设施是社会经济现代化的重要标志。在工业经济时代,传统的基础设施主要是由钢筋、水泥、砖石、钢结构等工业材料构成。随着数字经济时代的来临,社会的基础设施需求也发生了变化,数字基础设施便应运而生。研究表明,数字基础设施通常包含三个不同的层次:一是网络通信层,主要包括5G网络、光纤宽带等;二是计算存储层,主要包括数据中心、云计算等;三是融合应用层,主要包括工业互联网、物联网等。新型数字基础设施不仅可以通过功能转换、结构优化和效率提升三个层面促进经济社会高质量发展,而且还能通过降低交易成本、优化资源配置和扩大技术溢出提升地区技术创新水平。 在人工智能时代,训练数据集已经成为数字基础设施的重要组成部分。从数据科学的角度看,推动生成式人工智能的“三驾马车”主要包括科学方法、人员和基础设施,而基础设施又由硬件、数据和软件构成。在基础设施的三大核心要素中,数据值得特别关注,尤其是训练数据集,它是生成式人工智能的“燃料”。换言之,单从技术逻辑或者系统构成的角度看,训练数据集已经成为生成式人工智能产业的基础设施。例如,文本到图像生成模型Stable Diffusion使用了非营利组织LAION收集的三个大型数据集进行训练,包括58.5亿个图像-文本对。自然语言处理模型GPT-3则是由从45TB原始数据中过滤的570GB数据训练的,包括网站抓取数据集(Common Crawl)、网页文本数据集(WebText)、图书语料库和英语维基百科(Wikipedia),共设置了1750亿个参数。 从功能主义的角度看,数字基础设施所具备的技术创新效应也体现在训练数据集与生成式人工智能的关系之中。一方面,训练数据集决定了生成式人工智能的性能和效果。生成式人工智能是一种基于数据的人工智能技术,它通过从大量数据中学习规律和知识,然后应用到新的数据上,实现各种智能任务。因此,训练数据集的规模和质量直接影响了生成式人工智能的学习能力和泛化能力。例如,GPT模型架构从第1代到第4代均较为相似,但是训练数据集的规模、类型和质量却有很大的不同。GPT-1是由4.8GB未过滤原始数据训练的,GPT-3是由从45TB原始数据中过滤的570GB数据训练的,而GPT-4则是在该基础上又加入了高质量人类标注。另一方面,训练数据集是生成式人工智能的创新驱动力,促进了生成式人工智能的技术进步和应用拓展。生成式人工智能是一种不断进化的人工智能技术,它通过不断地探索和利用新的数据,来提高自身的智能水平,实现更多的智能功能。不同场景或领域的数据具有不同的语言特征或语义知识,对模型能力提升的侧重点也不同。因此,训练数据集的多样性和新颖性直接影响了人工智能的创新能力和应用范围。 生成式人工智能取得巨大成功的一个重要因素是,有大量高质量的数据可用于构建机器学习模型。随着训练数据集在人工智能中的作用不断凸显,理论上提出了所谓的“以数据为中心的人工智能”(data-centric AI)。然而,训练数据集并不是一个简单的概念,它不是高度同质性的单一数据类型,而是类型多样的数据资源池。一方面,训练数据集包含了不同的数据形式,包括结构化数据、非结构化数据以及半结构化数据。这些数据类型的差异性为机器学习模型提供了丰富的训练资源,使其能够从多个角度和维度理解和解析现实世界的复杂性。另一方面,训练数据集包含了不同的数据来源,如互联网、传感器、社交媒体、公开数据库、私有数据库等。这些数据之间可能存在质量、可靠性、相关性、代表性等方面的差异,需要通过合适的方法进行选择、清洗、整合、增强等处理,才能构成一个有效的训练数据集。 训练数据集的形成并非一蹴而就,而是具有阶段性,并且涉及不同的主体。一般认为,训练数据集的开发大致包括如下阶段:问题建构、数据收集、数据清理、数据标注、模型训练、模型评估、模型部署与推理以及数据分发。每个阶段都有其特定的目标和挑战,需要特定的技术和策略来解决。例如,数据收集阶段需要考虑数据来源的合法性和代表性;数据清洗阶段需要处理数据的质量和一致性问题;数据分发阶段则需要考虑数据的安全性和隐私性。在训练数据集的开发过程中,还涉及不同的主体,包括数据提供者、数据收集者、数据标注者、数据使用者、著作权所有者、个人信息主体等。每个主体在训练数据集的开发过程中都扮演着重要的角色,并且有其特定的权益和/或责任。 由于训练数据集具有来源广泛、类型多样、开发复杂、主体多元的特点,因而训练数据集不是一个单一的权利客体,而是一种聚合型权益客体,涉及不同的权益形态。一般认为,这些权益主要包括以下几类:一是个人信息权益,主要体现为《中华人民共和国个人信息保护法》(以下简称“《个人信息保护法》”)第四章所规定的各项权利,如知情权、决定权、查阅复制权、更正权、删除权等。二是隐私权,主要体现为《中华人民共和国民法典》(以下简称“《民法典》”)第1032条所规定的私密信息、私密空间和私密活动在大数据时代的数据化载体。三是知识产权,主要表现为《中华人民共和国著作权法》(以下简称“《著作权法》”)第10条所规定的各项权利,如发表权、署名权、复制权、修改权、保护作品完整权等。四是国家安全,主要体现为《中华人民共和国数据安全法》(以下简称“《数据安全法》”)和《中华人民共和国国家安全法》有关“数据安全”和“国家安全”的规定。由此可知,训练数据集的开发是一个复杂和动态的过程,训练数据集的治理需要考虑多方面的因素和不同的利益相关者。
为了检视训练数据集可能存在的法律风险,有必要采取一种多维或多部门法融合交叉的视角,根据不同的法律规则进行风险识别与评估。从理论与实践来看,生成式人工智能训练数据集的突出法律风险主要包括两大类:一是著作权法风险,即未经许可使用作品;二是个人信息保护法风险,即违法处理个人信息。 生成式人工智能是一种深度学习模型,它可以学习并生成类似于训练数据的新数据。这种技术特性使得生成式人工智能在许多领域都有广泛的应用场景,如自然语言处理、图像生成、音乐创作等。生成式人工智能的技术特性和应用场景导致训练数据集的开发可能面临著作权法风险,原因如下。 首先,训练数据集可能包含各种形式的作品。根据我国著作权法的规定,著作权的客体是具有独创性的作品,必须同时符合“独立创作”和“最低限度的创造性”两个方面的条件,其类型包括文字作品、音乐作品、摄影作品、视听作品等。在生成式人工智能训练中,训练数据集主要包括文本、图片、视频、音频、代码等,其中一部分是合成的,即所谓的合成数据,但是绝大部分数据不是专门为训练而创建的,而是从互联网上爬取的。由于著作权保护的门槛较低,这些文本、图片、视频、音频等很可能达到“独创性”标准。此外,在数字时代作品几乎可以以任何形式被“固定”(fixed)下来,一旦个人创作了作品,无需办理特殊手续或申请保护,即可受到著作权法的保护。 其次,训练数据集的开发可能构成使用作品。根据我国著作权法的规定,使用作品的方式主要包括复制、发行、出租、展览、表演、放映、广播、信息网络传播、改编、翻译、汇编等。为了训练人工智能模型,首先必须先对之前收集的数据进行标准化处理,这就可能涉及对大量“原始作品”的收集、整理和加工,以满足算法学习和模型训练的需求。以图片为例,这可能涉及将其转换成特定的图像尺寸、特定的长宽比、特定的色彩或特定的文件格式。从著作权法的角度来看,这些处理行为实际上可能涉及对原始作品的复制、演绎、传播等行为,从而构成著作权法意义上的使用作品。 最后,训练数据集的开发可能侵犯著作权。根据我国著作权法的规定,著作权的内容包括著作人身权(如发表权、署名权、保护作品完整权等)和著作财产权(如复制权、演绎权、传播权等),原则上均由著作权人享有。训练数据集的开发具有阶段性、复杂性和规模性,这些特点可能会影响著作权人行使上述权利。例如,数据集的复杂性可能导致难以追溯每一项数据的来源,而规模性则可能导致著作权人的权利在实际操作中被忽视或削弱。 在比较法中,生成式人工智能训练数据集涉及的著作权侵权案件也层出不穷。例如,2023年2月,全球数字媒体提供商和库存图像、编辑摄影、视频和音乐内容供应商Getty images在美国特拉华州地方法院对Stability AI公司提起诉讼,指控Stability AI公司的AI艺术工具复制并处理了1200万张图像以及相关的文本和元数据,用以训练他们的AI模型,没有获得许可;2023年6月,两位作者代表自己和其他当事人在美国加利福尼亚州北区地方法院对OpenAI公司提起集体诉讼,声称他们从未授权OpenAI公司复制其书籍、制作衍生作品、公开展示或传播作品副本(或衍生作品)。 在大数据时代,个人信息保护已经成为一项全球性课题,其核心便是保障个人对其个人信息处理的知情权、选择权、决定权等权利,防止个人信息被非法收集、使用、篡改、泄露等。然而,随着生成式人工智能的兴起与广泛应用,其特殊的数据处理模式也给个人信息保护带来了更加独特的风险。在比较法中,有关生成式人工智能训练数据集的个人信息保护案例也不断涌现。例如,2023年3月,意大利个人数据保护局曾发布临时禁令,禁止使用OpenAI公司的聊天机器人ChatGPT,其理由是ChatGPT平台出现用户对话数据和付款服务支付信息丢失的情况,并且平台没有就收集处理用户信息进行告知,缺乏收集和存储大量个人数据的法律依据。总体而言,训练数据集可能包含大量个人信息,这些信息的处理(包括收集、存储、使用、共享、传输、公开等)受到法律的严格限制,而训练数据集开发的过程性和复杂性可能给个人信息保护提出挑战。 第一,非法处理个人信息风险。生成式人工智能需要大量的数据来训练模型,这些数据可能涉及个人信息,如人脸信息、行踪轨迹、消费信息、医疗信息等。如果生成式人工智能服务提供者在开发训练数据集的过程中,未经个人同意或者违反法律、行政法规的规定,擅自收集、使用或传输这些数据,就可能构成对个人信息的非法获取。这种风险可能导致个人信息的非授权处理,侵犯个人的知情权、自主权、决定权等个人信息权益。 第二,个人信息质量风险。生成式人工智能的输出结果取决于其训练数据的质量和代表性,如果训练数据存在偏差或不平衡,就可能导致生成式人工智能的输出结果存在歧视或偏见。生成式人工智能服务提供者在训练数据集的选择、处理、优化等过程中,可能故意或者无意地引入或者放大某些特定的价值观、立场、偏好等,导致生成的内容具有歧视、误导、攻击等倾向的风险。这种风险可能导致生成的内容违背社会公德和伦理规范,损害社会的和谐稳定,影响公共利益和社会秩序。例如,一些生成式人工智能服务提供者为了迎合市场需求或者实现商业利益,可能有意识地选择或者过滤某些训练数据,使得生成的内容符合其预期的目标,如吸引眼球、刺激情绪、操纵舆论等,而忽视了内容的真实性、客观性、公正性等。 第三,个人信息安全风险。生成式人工智能服务提供者或者使用者在存储、传输、删除等训练数据集的管理过程中,由于技术缺陷、人为失误、恶意攻击等原因,可能导致个人信息被非法获取、复制、修改、删除或者泄露给第三方。此外,如果对分散在不同数据库中并不敏感的信息进行聚合,就可能具有很强的揭露性,并可用于对个人或群体的推理,为歧视性、偏见性和侵犯性决策创造新的机会。这种风险可能导致个人信息的非法利用,侵犯个人的隐私权、身份权、名誉权等,甚至引发诈骗、勒索、敲诈等犯罪行为。
针对生成式人工智能训练数据集可能存在的法律风险,现有的法律规则也作出了回应。然而,从实际情况来看,现有规制框架主要是由前大数据时代的法律规则构建的,其制度设计主要以工业社会甚至是传统农业社会为模板,具有明显的路径依赖。这种规制框架在人工智能时代具有明显的不适应性,虽然形式上很完美但实效性不足,有必要进行重构。 一般认为,颠覆性技术的发展可能导致法律的不适合性(unfitness),主要有三种表现形式:一是现有法律规则的实质内容不再适合预期的规范目的,从而需要修改相关规则;二是现行法律规则对技术或其应用没有作出任何规定,存在空白或者遗漏,需要专门的规则回应;三是现有法律规则不再与技术及其应用相映射或关联,规则与现实之间存在一种“脱节”。就生成式人工智能训练数据集的法律风险而言,现有法律规则虽然直接或专门进行具体规定的较少,但仍然可以将其纳入已有法律框架中,如《民法典》《个人信息保护法》和《著作权法》等。然而,无论是个人信息保护法律规则,还是著作权保护法律规则,在调整生成式人工智能训练数据集的风险时,均存在不适合性,集中体现为风险防范的形式化。 著作权法的基本假设是:没有合法的排他权,创造力就无法发展;没有法律的干预,广泛的复制就不可避免;法律决定了公众与创造性作品的互动方式。基于此种假设,长期以来,“作者中心主义”一直是整个著作权法体系的“底色”和“基调”,其核心思想是:作品源于作者,作品是作者人格与精神的化身、延伸,因此作者应有权对作品进行全面控制。然而,面对生成式人工智能训练数据集开发所引发的大规模使用作品风险,基于“作者中心主义”所形成的规则及制度却面临困境,难以适应生成式人工智能技术变革的需要。 第一,传统“许可使用”模式难以因应规模化的训练数据集。根据《著作权法》的规定,传统“许可使用”模式通常要求著作权人授权他人使用作品时,签订许可协议,并且收取一定的报酬。由此可知,生成式人工智能训练数据集若要摆脱侵犯著作权的“原罪”,最好的方式便是按照《著作权法》的规定获得著作权人的许可。然而,在实践中,传统的“许可使用”模式在生成式人工智能训练数据集的开发中却面临适用困境:首先,许可使用模式与生成式人工智能的技术特性不相适应。生成式人工智能的技术特性决定了其训练数据的使用方式与传统的作品使用方式有所不同。例如,生成式人工智能的训练数据并不是直接复制或转载他人的作品,而是通过算法对作品进行分析、提取、重组等处理,生成新的内容,这种处理过程可能会改变或丧失原作品的表现形式、内容和特征,使得原作品难以被识别或还原。其次,传统“许可使用”模式的成本高昂,并且效率低下。生成式人工智能通常需要大量的训练数据,涉及多种类型和来源的作品,要求训练数据开发者与每个著作权人进行许可协商,不仅耗费时间和精力,而且可能面临许可费用过高、许可条件过苛、许可范围过窄等问题。此外,由于训练数据的来源可能不明确或不可追溯,训练数据开发者可能难以确定著作权人的确切身份,从而无法取得有效的许可。 第二,封闭的“合理使用”标准难以适用于生成式人工智能训练数据集。美国学者温迪·戈登(Wendy J. Gordon)曾指出,当事人之间无法通过市场交易实现对版权作品的有效利用时,可以采用合理使用规则来配置数据资源,以实现社会福利和公共利益最大化。按照《著作权法》的规定,生成式人工智能训练数据集若要适用“合理使用”,不仅要符合《著作权法》第24条所列举的特定情形(包括私人使用、为介绍和评论的使用、新闻报道、为教学与科学研究的使用等),而且还必须符合“三步检验法”的抽象性规定。然而,这种封闭的“合理使用”标准实际上亦难以适用于生成式人工智能训练数据集。理由有以下两点。 一是已有的合理使用情形难以涵盖生成式人工智能训练数据集的使用。生成式人工智能训练数据集的开发,一般是为了利用生成式人工智能技术生成新的内容,而不是为了对原有作品进行评论、研究、教学、新闻报道等目的。因此,生成式人工智能训练数据集的开发,很难适用于《著作权法》第24条至第25条规定的具体例外情形。即使生成式人工智能训练数据集开发可以纳入合理使用的特定情形,仍需要满足“应当指明作者姓名或者名称、作品名称”“不得影响该作品的正常使用”和“不得不合理地损害著作权人的合法权益”的条件,而这三个条件在规模化的生成式人工智能训练数据集中是难以实现的。 二是生成式人工智能训练数据集的技术特性破坏了“三步检验法”的适用条件。“三步检验法”是指在确定合理使用的范围时,应当考虑以下三个条件:(1)使用的目的是特殊情况;(2)使用的数量和范围是有限的;(3)使用不会对被使用作品的正常利用造成不合理的影响。然而,生成式人工智能训练数据集的技术特性,使得这三个条件难以满足。首先,生成式人工智能训练数据集的使用,往往不是为了特殊情况,而是为了普遍的商业目的。其次,生成式人工智能训练数据集的使用,往往需要大量的数据,而不是有限的数量和范围。最后,生成式人工智能训练数据集的使用,可能会对被使用作品的正常利用造成不合理的影响,如影响著作权人的署名权、修改权、完整权等。 “公平信息实践”原则是现有个人信息保护制度的理论渊源,其核心目标是增强个人对个人信息的自我控制或决定的能力。为了实现这个目标,现有的个人信息保护法律规则主要从三个方面切入:一是确立了“个人同意”机制在个人信息保护中的“帝王条款”作用,将“个人同意”作为个人信息处理的首要合法性基础;二是明确了个人信息保护的基本原则,如目的明确与最小化原则等;三是赋予了个人信息主体一系列权利,如知情权、决定权、查阅复制权、删除权、更正权、可携带性权等,并要求个人信息处理者积极承担义务,促进上述权利的有效行使。尽管《个人信息保护法》没有明确提及生成式人工智能,但是《个人信息保护法》中的许多规定都与生成式人工智能有关,而且有些规定确实受到了生成式人工智能带来的新型数据处理方式的挑战。 第一,“个人同意”机制的形式化。从理论上看,在一个单一且明确可见的个人信息处理关系中,“个人同意”确实可以发挥风险预防的功能,从源头上控制个人信息的违法收集和不当使用。然而,进入大数据时代后,“个人同意”的有效性越发受到质疑与批判,而在生成式人工智能训练数据集的开发中,“个人同意”的形式化倾向更为明显,主要原因有以下几点:一是个人同意的获取可能存在困难。训练数据集往往涉及大量的个人信息,这些信息可能有多个来源,如个人信息处理者自行收集、从其他个人信息处理者获取、从公开渠道获取等。对于这些不同来源的个人信息,个人信息处理者可能难以一一获取个人的同意,或者难以证明个人的同意的真实性和有效性。二是个人同意的表达可能存在缺陷。训练数据集的处理活动往往涉及复杂的技术和算法,个人可能难以充分理解和评估处理活动的风险和后果,或者受到个人信息处理者的误导、欺诈、胁迫等影响,从而无法作出真正自愿、明确的同意。三是个人同意的撤回可能存在障碍。训练数据集的处理活动往往是持续性的,处理者可能会不断地收集、更新、分析、使用个人信息,而个人可能难以及时地了解和监督处理活动的进展和变化,或者难以有效地行使撤回同意的权利。 第二,目的限制与数据最小化原则面临现实困境。与个人同意机制一样,目的限制与数据最小化原则是国内外个人信息保护法的核心原则。这些原则在理论上是为了保护个人信息和数据安全而设计的,但在实际执行过程中却遭遇多方面的挑战,尤其是在训练数据开发场景中。首先,目的限制原则要求数据的收集和使用必须符合特定、明确和合法的目的。这意味着在开发训练数据集时,必须确保收集的数据仅用于既定的训练目标,并且在使用后不应再用于其他无关目的。然而,在生成式人工智能的训练中,数据往往需要具备一定的多样性和广泛性,以便算法能够学习到丰富的特征和模式。这可能导致数据收集的目的不够具体或难以界定,从而使目的限制原则难以有效实施。其次,数据最小化原则要求只收集完成特定任务所必需的最少量的数据。这一原则旨在减少对个人隐私的侵犯和数据泄露的风险。然而,在生成式人工智能的训练中,为了提高模型的性能和准确性,通常需要大量的数据来进行训练。这可能导致收集的数据远远超过实际需要的最少量,从而违反数据最小化原则。正如学者所言:“通过避免收集数据来预防性保护基本权利的概念与任何特定人工智能场景中对数据的大量需求存在明显冲突。” 第三,删除、更正等权利难以有效行使。为了保护个人信息主体的隐私、自主和尊严,《个人信息保护法》《数据安全法》等法律授予个人信息主体一系列权利,包括删除权、更正权、拒绝权等,这些权利共同构成了个人信息权的内容。然而,在训练数据集的开发过程中,个人信息主体的删除、更正等权利的行使面临诸多困难和挑战,甚至可以说是不可能的,主要原因有以下几点:首先,训练数据集通常是由海量、复杂、多样的数据构成的,这些数据可能来源于公开的网络信息、数字图书、科学论文、自媒体对话数据集等,也可能来源于用户在使用生成式人工智能服务时自行输入的信息。这些数据的获取、处理、存储和使用,往往涉及多个主体、多个环节、多个地域,导致数据的归属、来源、性质、范围等难以确定和界定。因此,个人信息主体很难找到个人信息处理者,也很难证明自己的个人信息权利主张,更难以监督和保障自己的权利实现。其次,训练数据集一旦形成,就会被用于模型训练,从而生成新的内容。这些内容可能与原始数据有很大的差异,甚至完全不同。这就导致个人信息主体很难追溯其数据在生成式人工智能的训练和生成过程中的流向和影响,也很难评估自己的数据是否被侵权或滥用,再加上训练过后的模型具有“记忆”功能,因此要求删除、更正或停止使用其数据已变得不可能。 鉴于现有规制框架之不足,有必要重构生成式人工智能训练数据集的规制框架,首先需要明确训练数据集的规制目标,即规制的价值取向。本文认为,训练数据集的规制目标应当从“权利保护”进阶为“公平使用”,即从单纯地保护相关主体的权利和利益,进阶为促进训练数据集的公平、合理、有效使用,以实现生成式人工智能的社会价值和公共利益的最大化。 第一,权利保护的局限性。权利保护是对训练数据集进行规制的基本目标,也是现有规制框架的主要取向,无论是个人信息保护法,还是著作权法,均体现了浓厚的“权利范式”色彩。权利保护的核心是维护训练数据集中利益相关方的权利和利益,如著作权、个人信息权益等,强调权利的普遍性、不可分割性和相互依存性,旨在为所有人提供最低限度和统一的保护水平。然而,在数字时代,以权利保护为中心的规制目标也面临困境。就训练数据集的个人信息保护法规制而言,由于个人信息具有个体属性和公共流通属性,基于个人主义的个人信息确权保护难以成立,有必要转向对个人信息收集、存储、处理的各个环节予以行为主义的规制。就训练数据集的著作权法规制而言,著作权并非作者对作品这一无体“物”享有的权利,而是在符合公共福祉的限度内对人们的行动自由进行限制的特权,其本质也是行为规制。此外,“权利保护”目标衍生的“个人控制”机制可能导致训练数据集的权利人过度地控制和限制训练数据集的获取、处理、使用和共享等活动,使得训练数据集成为一种稀缺和昂贵的资源,造成训练数据集的不平等分配,导致生成式人工智能的技术创新和社会效益受到抑制。 第二,公平使用的必要性。为了弥补“权利保护”目标存在的不足,有必要在“行为主义规制范式”下将“公平使用”作为训练数据集治理的进阶目标,重构现有的规制框架。公平使用的核心是促进训练数据集的公平、合理、有效使用,以实现生成式人工智能的社会价值和公共利益的最大化,如推进技术进步、促进市场竞争、提升社会福祉、保护文化多样性等。事实上,将公平使用作为训练数据集的进阶规制目标也有其深层次原因:首先,以公平使用为规制目标是由数据本身的特性决定的。数据不同于其他生产要素,具有非竞争性、非排他性、可复制性等特征,因此在设置相关权利配置及行为规则时,应当尽量避免设置排他性的专有权利,而应通过行为规制实现数据公平利用。其次,以公平使用为规制目标是由训练数据集本身的地位决定的。如前所述,在人工智能时代,训练数据集已经成为数字基础设施的重要组成部分,按照公共物品或公共资源治理的一般原理,应当优化供给机制,促进各类市场主体和社会主体的公平使用。最后,从功能主义的角度看,以公平使用作为规制目标,可以发挥目标的“指挥棒”作用,推动建立一些更加合理的数据转让、交易、共享等流通机制,平衡训练数据集的权利人和使用人之权益。 为了重构生成式人工智能训练数据集的规制框架,除了需要明确训练数据集的规制目标外,还有必要明确训练数据集的规制路径,即规制的实施方式和方法。本文认为,训练数据集的规制路径应当从命令控制转向包容审慎,即从单纯地依靠法律和行政的强制性规制,到兼顾法律、伦理、技术标准等多元规范以及政府、企业、社会组织等多元主体的协同性规制,以适应生成式人工智能的技术特性和规制需求。 在规制理论与实践中,命令控制型规制是一种传统的、强制性的、自上而下的规制模式。从根源上看,命令控制型规制源于政府对市场失灵的干预,以及对公共利益和社会正义的维护。政府认为市场不能有效地分配资源,也不能解决外部性、信息不对称、公共物品等问题,因此需要通过法律和行政手段来规范市场行为,保护健康、安全、人权等价值。从表现上看,命令控制型规制主要是政府制定具体的、统一的、强制性的标准和要求,对被规制者进行直接的控制和监督,通过威慑和惩罚来实现对法律的遵从。 为了实现权利保护这一规制目标,训练数据集的现有规制框架主要采用命令控制型规制。如前所述,《个人信息保护法》和《著作权法》的诸多规定是为了实现权利保护,相关机制及制度具有明显的命令控制型规制色彩,但是却难以在实践中发挥实效,原因之一是这两部法律在制定或修改之时没有充分考虑大数据、人工智能、机器学习等新兴技术的技术特性和颠覆性影响。此外,作为专门调整生成式人工智能技术的最新规定,《生成式人工智能服务管理暂行办法》虽然在第3条宣示性地规定了“对生成式人工智能服务实行包容审慎和分类分级监管”,但是在具体制度或机制设计上仍然仅是照搬《个人信息保护法》和《著作权法》等法律的有关规定,并未根据生成式人工智能的技术特性作出有针对性的调整。 尽管从理论上看,现有的规制框架可以通过明确统一的规制标准以及强大的规制力度,来维护生成式人工智能训练数据集开发的秩序和安全,保障相关主体的权利和利益。然而,这种规制路径也存在一定的不适应性,主要表现在以下两个方面:首先,命令控制型规制可能导致规制的滞后和僵化,影响生成式人工智能的技术创新和市场竞争。由于命令控制型规制往往需要较长的时间和繁琐的程序,难以及时反映和适应生成式人工智能的技术发展和社会变化,从而导致规制的不完善和不合理。其次,命令控制型规制可能导致规制的过度和失衡,难以平衡生成式人工智能的技术效益和社会效益。由于命令控制型规制通常倾向于强调风险防范和权利保护,而忽视效率提升和效益实现,从而导致规制的过度和失衡。此外,对不合规行为的严厉处罚,再加上合规要求本身的不确定性,可能会构成一种新的风险,这非但不会激励企业采取适当的合规措施,反而会阻碍中小企业从事新的技术创新业务。 在数字时代,人工智能、物联网、区块链等新兴科技的发展不仅引发了重要的社会变革,而且也给传统的政府规制模式提出了挑战。包容审慎规制是我国政府在应对新技术、新业态时采取的一项公共政策,已经逐渐成为一种新的规制模式,其目的是避免将针对传统业态的规制机制直接类推适用于新技术、新业态。包容审慎规制要求“政府不以包容的名义放弃必要的审慎监管,也不因市场出现了一些问题而立即转向过度监管,其主张的并非先发展后规范或者先规范后发展,而是在发展中规范、在规范中发展”。与传统的命令控制型规制相比,包容审慎规制具有如下特征:一是在执法强度上更加柔性,更为强调对被规制者的责任豁免;二是在执法介入的时机选择上更多通过“包容期”“观察期”等期限设置来推迟规制介入的时间;三是在执法手段上更加注重情境化且量体裁衣式的规制方案,反对一刀切地追求形式平等。从规制原理的角度看,包容审慎规制体现了回应性规制、试验性规制等规制理论的一般原理,在因应新技术、新业态带来的不确定性时,能够发挥更好的治理效能。 如前所述,训练数据集是生成式人工智能的基础,为了实现公平使用这一规制目标,在权利保护与技术创新之间取得适当平衡,有必要遵循包容审慎规制原则来建构生成式人工智能训练数据集的规制框架。 首先,包容审慎规制符合国家关于人工智能发展和安全的总体要求。《新一代人工智能发展规划》提出,要“坚持发展和安全并重,促进创新和依法治理相结合,建立健全人工智能安全保障体系”。包容审慎规制既不是放任自流,也不是一刀切,而是根据不同的创新类型、特点和风险程度,采取分类分级、动态调整、适度有序的规制措施,实现创新与规制的平衡和协调。可见,包容审慎规制是贯彻落实国家关于人工智能发展和安全的总体要求的具体体现和有效途径。 其次,包容审慎规制有利于激发和保护生成式人工智能的创新活力和潜力。生成式人工智能是一种颠覆性技术,对人民福祉、经济发展、国家安全和战略竞争均具有重要意义,能够赋能新质生产力充分涌现。包容审慎规制旨在鼓励生成式人工智能技术在各行业、各领域的创新应用,生成积极健康、向上向善的优质内容,探索优化应用场景,构建应用生态体系。包容审慎规制不会对生成式人工智能训练数据集的开发设置过高的门槛和过严的标准,而是根据不同的数据类型、来源、规模、用途等因素,采取灵活的规制措施,如安全评估、算法备案、信息披露、数据标注等,以保障数据的真实性、准确性、客观性、多样性,提高生成内容的质量和可靠性。此外,包容审慎规制也会支持行业组织、企业、教育和科研机构、有关专业机构等在生成式人工智能技术创新、数据资源建设、转化应用、风险防范等方面开展协作,推动生成式人工智能基础设施和公共训练数据资源平台建设,促进算力资源协同共享,提升算力资源利用效能。 最后,包容审慎规制有助于防范和化解生成式人工智能的风险和挑战。生成式人工智能的快速发展,也带来了一些风险和挑战,如数据安全、知识产权、个人信息保护、社会伦理等。如果训练数据集的来源不清、质量不高、内容不实,可能导致生成内容的误导、欺骗、伪造等问题,给国家安全和社会公共利益造成损害,侵害公民、法人和非法人组织的合法权益。包容审慎规制要求生成式人工智能训练数据集在处理、使用、传输等过程中,遵守法律、行政法规,尊重社会公德和伦理道德,不得侵害他人的知识产权、肖像权、名誉权、荣誉权、隐私权和个人信息权益,不得生成法律、行政法规禁止的内容,不得产生歧视和偏见。
从包容审慎规制在其他新业态领域(如网约车)的实践经验来看,要实现包容审慎规制的预期效果,并非易事,对于是否包容、如何包容、何时规制、采取何种审慎规制措施等诸多事项,仍然充满不确定性。对此,有必要在实施包容审慎规制时遵循以下原则:一是辅助性原则;二是试验性原则;三是比例性原则;四是科学性原则。此外,为了确保包容审慎规制得到理性实施,还有必要以行政法治理论塑造包容审慎规制框架:一是暂缓干预为市场预留发展空间;二是开放政策程序以提升行政理性;三是借助试验机制促成规制的包容审慎;四是以容错机制激励市场创新。为了实现对训练数据集的包容审慎规制,针对生成式人工智能训练数据集的法律风险以及现有规制框架之不足,有必要将上述原则及机制融入具体的规制措施的设计之中,迈向包容审慎的著作权法规制和个人信息保护法规制。 在新技术演进的早期阶段,要评估如何平衡相互竞争的著作权利益并非易事。事实上,在受著作权保护的作品之创作者与能够以意想不到的创新方式使用这些作品的技术开发者之间存在冲突也并非新鲜事,诸如有线电视、录像机、MP3播放器等技术在刚出现时均对著作权制度提出了挑战。当新技术的应用引发政策制定者没有预料到的新著作权问题时,理论与实践通常会考虑哪种著作权政策最符合设立著作权制度的宪法目的。我国宪法赋予国家“发展自然科学和社会科学事业,普及科学和技术知识”的权力,意味着国家要为公共利益促进知识的创造和传播。这要求在著作权所有者的合法利益与创新技术开发者和后续创作者的合法利益之间取得平衡,前者要防止其作品被盗用,因为盗用会削弱创作的积极性,而后者则需要一些喘息的空间,以便他们也能进行创新。 自人类社会迈入信息时代以来,有关著作权法改革的呼声就一直存在,要求纠正传统著作权制度中的利益倾斜问题,放弃对复制的传统依赖,重新制定对非法使用的衡量标准。佐哈尔·埃夫罗尼(Zohar Efroni)认为,传统著作权法律体系在应对数字挑战方面的失败是结构性的,也是致命的,其深层原因在于法律与受其约束的现实之间的内在差距。以排他性权利为核心的著作权法律体系依赖于某些物理条件和限制,而这些条件及限制在网络空间中已经荡然无存。因此,埃夫罗尼认为,应当以基于访问的规制方法(access-based regulative approach)来对著作权法律体系进行根本性变革。 就生成式人工智能的著作权政策选择而言,传统“先授权、再使用”的规制范式亟待改革。乔舒亚·甘斯(Joshua S. Gans)从经济学的角度提出建议,对于大型人工智能模型的训练,按照传统的著作权制度,禁止性法律诉讼或事先许可谈判将产生高昂的交易成本,从而带来不利的社会后果。相反,可以采取一种替代性合理使用制度,原则上允许在人工智能训练中使用受著作权保护的内容,但如果对内容提供者造成了实质性商业损害,则人工智能开发者应当承担损害赔偿责任。刘晓春则提出了更为彻底的改革方案,认为生成式人工智能对著作权人并未造成整体激励的削弱,而是对激励行为进行结构性调整,训练数据对作品的使用应当认定为“非作品性使用”。本文认为,学者们的改革倡议与包容审慎规制的核心理念是相一致的,即在尊重著作权人合法利益的同时尽可能给技术创新留有空间。为了不使著作权的平衡发生剧烈变化,我国可以在现有著作权法框架下,按照包容审慎规制的原则重塑著作权法规制机制。 合理使用是著作权法中的一项重要的权利限制和例外规则,它旨在平衡著作权人的权利和公众的利益,促进文化繁荣和科技进步。在生成式人工智能训练数据中,合理使用规则可以为获取和使用训练数据提供一定的便利和灵活性,降低著作权侵权的风险,鼓励生成式人工智能的创新和应用。因此,我国应当适当扩大合理使用的范围,明确生成式人工智能训练数据集的合理使用标准和条件,为生成式人工智能的发展提供法律支持。无论采用何种立法模式来规范合理使用,法律灵活性和确定性始终是政策制定者应当认真考虑的关键点。具体而言,可以从以下几个方面进行完善。 第一,应当对合理使用的理论基础进行完善。在现代著作权理论与实践中,专有权主要管理市场驱动的作品使用,而合理使用则管理社会性使用。换言之,与市场驱动的激励措施相比,合理使用应当与社会功能及框架相关联。保罗·戈德斯坦(Paul Goldstein)认为,“构建合理使用的一般理论所面临的挑战是,既要达到足够宽松的抽象程度,以涵盖法院多年来判定为合理或不合理的各种使用,又要足够具体,以预测个案的结果,这是任何有效理论都必须做到的”。大数据、人工智能、机器学习等数字技术已经成为现代数字社会的核心,其技术发展与社会应用也在不断冲击合理使用理论的有效性。对此,爱德华·李(Edward Lee)提出了“技术性合理使用”(technological fair use)概念,以此来增强合理使用理论对数字时代的回应性。马克·莱姆利(Mark A. Lemley)等更为具体地提出了“合理学习”(fair learning)理论,允许人工智能系统使用受著作权保护的作品进行训练,将使人工智能系统变得更好、更安全、更公平。据此,可以从理论层面,将上述理论纳入合理使用的理论基础,以此来因应包括生成式人工智能训练数据集在内的新型数字技术发展所提出的挑战与需求。 第二,应当对合理使用的法律规范进行适当调整。为了确保合理使用的灵活性和可预测性,立法还应当对合理使用的清单进行调整。在比较法中,为了促进人工智能与大数据产业的发展,日本于2018年率先对其著作权法进行了修订,主要通过三个条款来消除人工智能训练数据集的合理使用障碍:(1)第34条之4非享受性使用条款,允许“进行信息分析(即从大量作品和其他大量信息中提取、比较、分类和分析与语言、声音、图像以及构成这些信息的其他要素有关的信息)”;(2)第47条之4计算机附随性使用条款,允许“在计算机的信息处理过程中,为了方便或有效地进行信息处理而将作品记录在计算机的记录介质上,供计算机使用”;(3)第47条之5信息处理轻微利用条款,允许“进行电子信息分析并提供分析结果”。在理论上,不断有学者主张对我国著作权法进行修改,将“文本数据挖掘”增列为一项合理使用情形,以回应人工智能训练数据集的开发要求。结合已有的理论与实践经验,本文认为,可以通过以下路径对相关法律规范进行修改:从短期来看,在我国著作权法未作修改的情况下,应当按照我国著作权法第24条第11项“法律、行政法规规定的其他情形”提供的空间,对《中华人民共和国著作权法实施条例》进行修改,增加“数据挖掘”作为合理使用的特定情形,以回应生成式人工智能技术发展的需要;从长远发展来看,应当对我国著作权法第24条进行修改,增加“数据挖掘”作为合理使用的特定情形,同时对“应当指明作者姓名或者名称、作品名称”这一条件进行修改,从根源上使我国著作权法适应数字时代的发展。 在著作权理论与实践中,一般认为,强制许可制度是指在特定的情况下,由著作权主管机关根据相应的条件与标准,将已经发表作品的使用权授予申请者,由申请者向著作权人支付报酬。强制许可制度可以作为合理使用的补充,一方面,扩大其他人对受版权保护作品的获取和利用;另一方面,可以满足著作权人获得经济收益的愿望。在人工智能时代,强制许可制度具有更加突出的价值和地位,它可以解决大规模个人许可所面临的现实困境,因为在很多情况下,著作权人不为人知,难以获得有效许可。 在比较法中,日本于2023年对著作权法进行了修改,增加了第67条之3“使用未经管理的已出版作品等”条款,用以解决作者意愿不明的作品之二次使用问题。根据该条规定,尽管作品的使用者采取了确认著作权人的授权意向等措施,但仍然无法确认著作权人的授权意愿时,可以向文部科学省所属的文化厅申请裁定,经文化厅厅长裁定允许使用并缴纳补偿金后,使用者可以在该裁定所定的期间内(申请书所载之期限最长不得超过3年)先行使用该作品。新的裁定使用制度放宽了确认著作权人意愿的程序与要求,降低使用门槛,并同时规定著作权人可以申请撤销使用,如果文化厅厅长裁定撤销使用,则使用者应当停止继续使用该作品,著作权人可以根据使用者实际使用期间的比例领取补偿金。 尽管我国著作权法并未规定强制许可制度,但是适用于我国的《伯尔尼公约》和《世界版权公约》均规定了强制许可制度。结合已有的理论与实践经验,本文认为,为了解决生成式人工智能训练数据集面临的“许可使用”困境,可以参照强制许可制度,从以下几个方面建构符合生成式人工智能训练数据集的著作权临时许可裁定制度:首先,应当明确著作权临时许可的范围,在考虑将某类作品列入临时许可范围时,应当综合考虑作者的投入成本、获得个人许可的可能性以及可能产生的市场影响等。其次,应当明确临时许可的补偿金标准。由著作权主管机关事先明确补偿金标准,既可以避免使用者不公平地低价使用,也能避免著作权人不合理的要价问题。著作权主管机关应当联合其他机关(如财政部门),参照版权税费标准以及经济发展情况,确定合理的补偿金标准,平衡著作权人与作品使用者之间的利益。再次,应当建立公开透明的临时许可裁决程序。对于受版权保护的作品,使用者在无法确认作者的许可意愿时,可以向主管机关提出申请,要求取得临时使用许可,并缴纳相应标准的补偿金。最后,应当建立方便快捷的著作权人申报程序。若著作权人知晓其作品的使用情况后,同意使用其作品,可以向主管部门进行申报,要求获得相应的补偿金;若不同意,则可以要求主管部门裁定撤销许可使用,裁定作出后,使用者不得继续使用作品。 在数字时代,著作权法规制不仅需要静态思维的权利范式,更要注重动态思维的行为规制范式。按照包容审慎规制的原则要求,应当尽可能采用相对柔性的规制手段来调整被规制者的行为,而非一律采取处罚、强制、吊销许可等刚性措施。“在科技高速发展、社会经济情况变迁迅速以及法律规制日益复杂的现代社会,行政指导可以为相对人提供相应的知识和技术指导,促进其朝着政府希望的方向发展。”在我国政府规制实践中,行政指导已经广泛使用,并取得较好的治理效果。例如,国务院反垄断委员会于2021年在总结我国执法实践经验和借鉴其他国家(地区)做法的基础上,根据反垄断法等有关法律的规定,制定出台了《国务院反垄断委员会关于平台经济领域的反垄断指南》,有助于平台经营者、平台内经营者等各类市场主体有效预防和降低法律风险。以此为参考借鉴,国家知识产权主管部门可以联合人工智能监管部门制定《生成式人工智能著作权合规最佳实践指南》,确立相应的原则、规则及示范,为训练数据集开发提供合规指导,降低法律风险。 生成式人工智能训练数据集的个人信息保护问题亦是一个备受关注的重要问题,如何在个人信息保护与技术创新之间取得适当平衡是一个复杂的难题。《个人信息保护法》虽然允许开发生成式人工智能及相关应用,以成功平衡个人信息保护与其他社会经济利益,但是它为如何实现这一目标所提供的指引非常有限。按照实现包容审慎规制所需要遵循的辅助性原则、试验性原则、比例性原则和科学性原则的要求,针对生成式人工智能训练数据集面临的法律风险,结合国内外个人信息保护的最新发展,本文认为,可以通过采取以下几个方面的措施来迈向包容审慎的个人信息保护法规制。 1.拓展个人信息处理的合法性基础,引入“合法利益”事由 国内外个人信息保护法均将“合法性”作为个人信息处理的核心原则。这意味着生成式人工智能训练数据集的开发也必须遵循合法性要求。我国个人信息保护法第13条规定了个人信息处理的六种合法性事由,其中与训练数据集开发密切相关的是第1种事由“个人同意”和第6种事由“合理范围内处理已公开个人信息”。然而,如前所述,“个人同意”事由难以成为服务于生成式人工智能训练数据集开发的合适且现实的选择;而《个人信息保护法》第27条又对“合理范围内处理已公开个人信息”施加了两项限制:一是个人有拒绝权;二是对个人权益有重大影响的,仍需个人同意。上述规定的解释仍然具有强烈的主观性标准,充满不确定性,容易导致已公开个人信息的特殊规定形同虚设。因此,有必要探索其他合法性事由的可能性。 在比较法中,欧盟《通用数据保护条例》第6条规定了“合法利益”(legitimate interest)事由,即为了数据控制者或第三方追求合法利益的目的之必要,无需征得数据主体的同意,便可以进行数据处理,除非这些利益与数据主体的利益或基本权利和自由相冲突。尽管“合法利益”事由通常具有法律上的不确定性,但目前数据保护机构和大部分文献均将“合法利益”条款视为合法收集和处理人工智能训练数据集的最实际和最有力的法律依据,原因在于利益平衡的灵活性可以全面考虑人工智能系统的技术特点。例如,英国信息专员办公室(ICO)在《人工智能和数据保护指南》中指出,根据具体情况,数据处理者可以基于合法利益来处理个人数据,以开发和持续使用人工智能,但是数据处理者必须承担额外的责任,以保护个人权益,还必须证明数据处理的必要性和相称性。 我国个人信息保护法制定之时,正值个人信息亟待严格规范的历史阶段,立法者出于政策考量,并未规定“合法利益”条款。本文认为,鉴于人工智能背景下个人同意等合法性事由面临现实困境,可以在我国个人信息保护法规制中引入“合法利益”事由,作为一种替代性的合法依据,从而在商业和社会利益与个人权益之间取得平衡。引入“合法利益”事由,可以为生成式人工智能训练数据集的开发提供更多的法律空间和灵活性,同时也可以在一定程度上减轻对个人同意规则的过度依赖及其失效问题。当然,“合法利益”事由并非对个人信息处理放任自流,它需要个人信息处理者履行更高的承诺,具有更高的合规能力。若个人信息处理者试图依靠“合法利益”事由来处理个人信息,以训练其机器学习模型,那么必须进行“三要件测试”:一是目的测试,确定是否存在合法利益;二是必要性测试,表明个人信息处理活动确实是实现该合法利益所必需的,不能仅凭“某些数据可能对处理有用”之类的推断来证明处理的必要性;三是平衡测试,与个人的利益、权利和自由相比,合法利益应当具有优势地位,换言之,处理个人信息产生的风险或负面影响不能超过合法利益。 2.改造告知同意机制,从“隐私通知”到“透明环境” 告知同意在个人信息处理实践中的效果不彰已经成为一种普遍性共识,然而,“个人同意”的有效性困境不能否定其必要性,也不能消解个人信息处理者的“告知义务”。除了通过“合法利益”事由来弥补过度依赖“个人同意”所面临的不足外,还需要重塑“告知义务”。个人信息处理者应当从单纯依靠“隐私政策”迈向构建整体性“透明环境”,保障个人信息主体的知情权、选择权等权利,提升人工智能技术的社会信任。 鉴于新兴数据生态系统日趋复杂、数据收集无处不在、实时数据处理已成常态,单一的“隐私通知”已经不能合理地满足支持个人选择、政府规制、公众教育等多种目的。本文认为,在生成式人工智能训练数据集开发中,应当以一般意义上的“通知”概念作为起点,构建整体性的“透明环境”。在理论上,有学者将“透明度”定义为人们对从信息披露者处收到的信息质量的感知,其中,信息质量又具体分为三个维度:信息披露的程度、信息披露的清晰度以及信息披露的准确性。以此为参考,本文认为,可以从以下几个方面构建整体性的“透明环境”。 第一,建立分类的隐私通知。个人信息处理者可以将隐私通知分为两类:一类是综合性的隐私通知,其内容包含有关个人信息处理的全面技术性描述,通知对象是规制机构及相关专家学者,他们可以将这些通知载明的数据保护承诺与实际做法进行比较,发现问题,并提出指导与建议;另一类是以用户为中心的隐私通知,这些通知应当简明扼要、准确无误,包含必要信息以促进个人对个人信息处理活动的理解即可,不必面面俱到。 第二,将隐私通知与通过设计保护数据原则相结合。通过设计保护数据(data protection by design)是一种将个人信息保护原则融入数据处理过程的方法,要求数据处理者在数据处理的每个阶段,都要考虑和实施个人信息保护的措施,以最大限度地保护信息主体的权益。将隐私通知与通过设计保护数据相结合,意味着数据处理者在设计和开发生成式人工智能训练数据集时,就要考虑如何向信息主体提供有效的隐私通知,如何让信息主体了解和同意数据处理的目的、方式、范围和后果,如何让信息主体参与和监督数据处理的过程,以实现隐私通知的及时性和有效性。 第三,创新隐私通知的方法。隐私通知的传统方法通常是以文字形式在网站、应用或者协议中向信息主体展示个人信息处理者的隐私政策(privacy policy),要求信息主体阅读并同意。然而,这种方法存在一些问题,如隐私政策的内容过于复杂和冗长,难以引起信息主体的注意和理解,信息主体的同意往往是被动的和形式的,难以反映信息主体的真实意愿和选择。为了解决这些问题,有必要创新隐私通知的方法,一是可以采用图形、图标、动画、语音、视频等多媒体形式,以简明、直观、生动的方式向信息主体展示数据处理者的隐私政策,提高信息主体的阅读和理解效率;二是可以采用分层、模块化、定制化等方式,根据信息主体的不同需求和偏好,向信息主体提供不同层次和模块的隐私政策,提高信息主体的选择和控制能力。 个人信息保护影响评估是在开始信息处理之前,考虑到处理的性质、范围、场景和目的以及风险的原因,对与处理相关的风险进行评估。个人信息保护影响评估本质上是“基于风险的方法”(risk-based approach)在个人信息保护中的具体应用,其目的是确定保护措施、机制和程序,以降低处理过程中的相关风险,确保对个人信息的保护,并证明符合个人信息保护法的规定。按照我国个人信息保护法第55条的规定,使用大量训练数据集训练人工智能系统可能被纳入强制性个人信息保护影响评估的范围。在此种情况下,训练数据集开发者应当严格按照《个人信息保护法》及《信息安全技术 个人信息安全影响评估指南》(GB/T39335-2020)的要求,履行个人信息保护影响评估义务。 此外,即便在训练数据集开发者没有义务进行个人信息保护影响评估的情况下,也鼓励其自愿实施个人信息保护影响评估。一方面,即使在没有强制性个人信息保护影响评估的情况下,也必须根据处理的类型、范围、情况和目的来确定由此产生的风险。这种评估必须有适当的文件记录,以用于向监管机构证明其合规能力及水平,还能向信息主体证明个人信息已得到妥善处理。另一方面,在没有官方声明或法院判决的情况下,目前还无法在法律上确定监管机构将如何根据个人信息保护法来评估训练数据集的开发。因此,自愿性个人信息保护影响评估不仅能避免被指控没有进行强制性个人信息保护影响评估,还能为内部合规制度的构建提供有针对性的指引。
奥利弗·温德尔·霍姆斯(Oliver Wendell Holmes)大法官在《法律之路》一文中解释说,法律就像植物生长一样,缓慢而稳定地发展。然而,随着大数据、人工智能等颠覆性技术的快速发展与广泛应用,人类将被迫解决由科学进步引发的新型社会问题。我们有理由认为,这些变化将影响社会关系,进而影响相关法律规范的发展。生成式人工智能技术对现有的法律规则提出了挑战,尤其是训练数据集的开发,使得现有的著作权法、个人信息保护法的诸多规定难以有效适用。为了因应生成式人工智能训练数据集的风险与挑战,有必要对现有规制框架进行重构,在权利保护与技术创新之间取得适当平衡。为了实现这种平衡,生成式人工智能训练数据集的规制目标应当从以权利保护为中心进阶为以公平使用为目的,其规制路径应当从命令控制型规制转向包容审慎规制。此外,高质量的训练数据集并不会自行产生,其开发过程既耗时又耗资,收集数据、清理数据并使其适合模型训练需要花费45%甚至80%—90%的时间,因此未来还有必要专门针对训练数据集建构适当的激励机制和法律责任机制。