“新宝看法”是张新宝教授在教授加开设的独家专栏,栏目文章已经正式上线学习强国。同时,栏目文章还被今日头条官方号同步转发。
张新宝:中国人民大学法学院教授
核心观点
生成式人工智能训练语料的个人信息保护应当秉持鼓励和支持创新的基本立场。为确保服务提供者的个人信息利用需求能够得到满足,可以在训练端对《个人信息保护法》作适当宽松解释或例外规定。对于已公开的个人信息,可以通过宽松解释“公开目的”将其纳入可处理的范围。对于未公开的个人信息,仍需要以个人同意作为处理行为的合法性来源,但是可以通过宽松解释目的限制原则、调整“告知—同意”的相关规则,缓解服务提供者面临的困难。技术壁垒的提高加剧了信息主体的劣势地位,需要确保个人信息保护请求权的行使,以维护个人的合法权益,但是其行使不可避免受到技术现实的限制。服务提供者应严格履行包括技术措施在内的个人信息安全保护义务,尽可能降低给个人信息带来的风险。保护机制整体上应以行政监管为主导,如果侵害个人信息权益造成损害,应允许服务提供者以“符合行政监管要求”作为不存在过错的抗辩。
生成式人工智能训练语料的个人信息保护研究
一、问题的提出
(一)语料短缺与个人信息保护之间的矛盾
我国当前面临训练语料尤其是高质量中文语料不足的困境,限制了生成式人工智能技术的发展。从我国数字经济发展的角度考虑,应当允许将更多个人信息数据用作训练语料。生成式人工智能目前仍然处在早期阶段,存在安全方面的不足和个人信息泄露风险。模型通常只有在出现过拟合等情况下才会记忆训练数据,但有研究表明,模型可能在没有过拟合的情况下无意中记忆训练数据中的个人信息。
(二)个人信息作为训练数据的制度困境
若严格适用“告知—同意”和相关的配套规则,服务提供者在获取个人信息语料时需要频繁地取得个人的同意,可能导致服务提供者无法获取必要的个人信息语料。对于信息主体而言,频繁接收个人信息处理者的告知,久而久之也会不堪其扰。
生成式人工智能的发展当然不能以威胁甚至侵害个人信息权益为代价,个人信息的安全和自然人享有的个人信息权益即构成训练行为的合法性边界。本文将从训练语料个人信息保护的基本立场与指导思想出发展开讨论,希望通过分析,提出一个合理的个人信息保护方案,服务于我国人工智能法的制定。
二、个人信息语料获取困境的解决
(一)以“数据二十条”为指导平衡产业发展与个人信息保护
鉴于生成式人工智能高度关系到国家、社会和个人的利益,应当坚持支持创新的基本立场,顺应加快构建数据基础制度、激活数据要素潜能的政策导向,尽可能在满足产业对个人信息利用需求的前提之下保护个人信息的安全,最大限度地协调生成式人工智能产业的发展和个人信息的保护。
1.支持生成式人工智能创新的基本立场
生成式人工智能研发是建设数字中国、推进中国式现代化的关键步骤,我们应从国家发展全局的视角出发来思考其治理问题,将支持和鼓励创新作为当前生成式人工智能个人信息风险治理的重要考虑因素。
2.平衡产业发展与个人信息保护的基本思路
作为解决生成式人工智能训练语料个人信息保护问题的基本思路,可以在训练端适当放松而相应地在其他环节收紧:原则上允许使用个人信息数据作为训练语料,并结合生成式人工智能的技术特征来解释《个人信息保护法》的规定,必要时可以作出例外规定,以实现个人信息(尤其是一般个人信息)的最大化利用,满足生成式人工智能研发对个人信息的利用需求;同时,应当确保个人信息保护请求权的行使,要求服务提供者尽到严格的个人信息安全保护义务,尽最大努力消除生成式人工智能研发给个人信息(尤其是敏感个人信息)带来的风险。如此,可以最大程度地兼顾生成式人工智能技术的发展和个人信息权益的保护,实现两者的平衡。
(二)基于平衡理念对个人信息保护法适用的调适
基于兼顾产业发展与个人信息保护的考虑,应当对《个人信息保护法》的规定作出有利于生成式人工智能发展的解释,以满足生成式人工智能训练对个人信息数据的利用需求,并在必要时作出例外规定。
1.已公开个人信息的处理
(1)理论层面的考量
处理个人自愿公开的个人信息以推定同意为合法性基础;处理依法强制公开的个人信息以目的一致为合法性基础。
自愿公开行为可以被推定为同意(默示的同意),代表个人已经同意他人在可预期的风险之内处理个人信息。事实上,个人权益被侵害的风险并不会因为用作训练语料而增加。可以认为使用自愿公开的个人信息训练生成式人工智能属于合理范围之内的处理行为。判断是否可将依法强制公开的个人信息用作训练语料的关键在于处理目的与公开目的是否一致。基础大模型几乎可以服务于任何公共目标,利用依法强制公开的个人信息用作训练语料间接地契合了个人信息公开的目的,可被归为合理范围之内的处理行为。
(2)国际竞争与产业发展层面的考量
美国、欧盟和英国的个人信息保护制度在生成式人工智能训练语料的获取方面具有一定“优势”。站在国际竞争的角度考虑,我国应当允许将已公开个人信息用作训练语料,以避免陷入被动局面。从产业发展来看,如果人工智能企业面临过高的个人信息合规难度,不仅无法有效化解个人信息风险,反而可能会使制度目的落空。
2.未公开个人信息的处理
(1)已收集的信息:宽松适用目的限制原则
《个人信息保护法》第6条规定了目的限制原则,要求信息处理者在收集个人信息时应有明确、合理的目的,且在后续的处理过程中不偏离此目的。应当综合考虑处理的性质、风险等因素来判定是否超出了初始目的。训练人工智能的过程本质上是“学习数据”,而非“分析数据”或“记忆数据”,一般情况下不会直接反映出数据中的内容,将已经收集的个人信息数据用作训练语料并不会给个人带来更高的风险。
(2)未收集的信息:集中取得个人同意
考虑到训练语料的流通需求,可以允许个人信息处理者集中地取得向不同人工智能企业提供个人信息的同意,缓和“告知—同意”规则给生成式人工智能研发造成的限制,以促进训练语料的流转。如此一来,个人信息处理者无需在向第三方流转个人信息时频繁地征求个人的单独同意,只需集中地告知个人并取得概括的同意之后,便可以直接将收集的个人信息流转给不同的人工智能企业;服务提供者与其他个人信息处理者通过交易获取个人信息语料时也无需取得个人同意。
除非有充分的必要性,应当避免将敏感个人信息数据用作训练语料,尤其是用于基础大模型的训练。但在确实需要使用敏感个人信息训练生成式人工智能时,同样可采取上述集中取得个人同意的方式。
(3)不宜普遍认定为合理使用
不宜普遍地将使用未公开个人信息数据作为训练语料的行为认定为合理使用,原因主要在于:首先,通过宽松解释目的限制原则和调整“告知—同意”的相关规则基本已经可以解决未公开个人信息语料的获取难题。其次,虽然集中取得个人同意会给服务提供者带来一定的成本,但是这对于服务提供者而言是应当支出的合理成本。再次,部分情况下个人信息数据并非必要的训练语料。最后,对于敏感个人信息而言,更不宜通过合理使用进行使用。可以在总结实践经验的基础之上,尝试将确实存在使用需求又难以通过集中取得个人同意来获取充足语料的情形认定为合理使用,但是应确保个人的合法权益不会受到严重损害。
三、个人信息权益的实现与保障
(一)个人信息保护请求权的行使
生成式人工智能技术壁垒的提高加剧了个人的劣势地位,而个人信息保护请求权的行使可以推动权益保护的实现。
1.个人查阅、复制权的行使
查阅、复制权的行使应以服务提供者的客观技术能力和合理成本为限,若个人的查阅、复制请求超出了技术可行范围,则应当受到限制;若个人的请求超出了合理限度,服务提供者也可拒绝或收取相应费用。
2.个人解释说明请求权的行使
解释说明请求权的实现同样不得不受到技术现状的制约。基础大模型的参数已经达到千亿级别,它们共同决定生成式人工智能的功能,导致输入到输出之间的逻辑不够清晰,难以清楚地观察和解释模型为何会输出特定回答。服务提供者可能难以解释个人信息如何被学习和对模型产生影响,导致解释说明权无法得到完全行使。但是,服务提供者应尽可能帮助个人理解生成式人工智能学习个人信息数据的整个过程。
3.个人删除请求权的行使
删除请求权的行使应当受到一定的限制:首先,受到技术发展现状的限制。由于物理上彻底删除难以实现,只要个人信息数据达到无法被利用并且安全的状态,即可认为实现了删除。其次,受到服务提供者利益的限制。若缺失对应数据会对数据库或者模型产生实质影响,破坏其完整性,甚至影响其功能的实现,则应当对权利的行使进行限制。再次,受到生成式人工智能原理的限制。个人无权要求服务提供者重新训练模型,只能请求将其个人信息从数据库中删除,并在下次重新训练时使用不包含该个人信息数据的语料。最后,删除请求权的行使如果超过了合理频次且没有正当理由,服务提供者可以拒绝或者收取相应的费用。
(二)个人信息安全保护义务与侵权责任
作为在语料获取问题上作宽松处理的“对价”,服务提供者应尽到严格的个人信息安全保护义务,以最大程度地降低个人信息风险。
1.隐私计算、过滤等措施
(1)隐私计算技术
隐私计算技术(又称“隐私增强技术”)可减轻生成式人工智能研发带来的个人信息和隐私风险,实现保护隐私的机器学习,如多方安全计算、同态加密、差分隐私,以及分布式、去中心化的机器学习模型训练方案——群体学习(Swarm Learning)。服务提供者应当在模型训练过程中充分结合隐私计算技术,并尽可能采用最有效的技术方案。
(2)过滤及其他措施
服务提供者应采用关键词过滤等技术对侵害个人信息权益的内容进行屏蔽。一方面,要过滤用户的输入,避免用户引导模型生成侵害他人个人信息权益的内容;另一方面,要过滤模型的输出,避免模型在过拟合等情形下意外输出用户的未公开个人信息甚至是敏感个人信息。服务提供者还应积极采用其他可以降低个人信息风险的措施,包括使用合成数据、抵御外部攻击等。
2.个人信息保护评估
生成式人工智能训练的技术门槛比过去的个人信息处理场景更高,难以从外部准确地评判其风险,因此需要服务提供者从内部开展评估。
(1)必要性评估
必要性评估是指服务提供者应评估其利用某种类型个人信息训练生成式人工智能是否具有必要性,确保将个人信息语料的数量控制在实现模型功能所需的最小范围之内。服务提供者应在构建模型或者算法的时候就考虑选择使用对个人信息数据依赖性更小的方式,并在开展训练之前判断某种类型的个人信息数据是否会对模型功能的实现发挥实质作用。如果对模型功能的贡献甚微,应当尽量避免将其作为训练语料。
(2)安全性评估
安全性评估是指服务提供者应评估其模型是否可以较大程度地避免输出侵害个人信息权益的内容,以及是否可以有效抵御外部的攻击。安全性评估应当覆盖生成式人工智能从训练到投入使用的全过程。
3.服务提供者的过错推定责任与行政合规抗辩
生成式人工智能训练相较于其他个人信息处理过程更加复杂,服务提供者难以进行清晰的“复盘”,以证明处理过程完全符合《个人信息保护法》的要求。如此一来,过错推定责任可能会事实上发展为无过错责任。生成式人工智能发展初期的个人信息保护机制应当以行政监管为主导,并且重指导轻处罚,以促进生成式人工智能的健康稳定发展。可以允许服务提供者以“符合行政监管要求”作为不存在过错的抗辩。
(本文全文原载《中国法学》2024年第6期,此处为摘要版)
往期回顾
版权所有,未经教授加授权,不得转载、摘编或利用其他方式使用上述作品;已获授权使用作品的,并注明“来源:教授加”。违反上述声明者,教授加将追究其相关法律责任。