欧洲EDPB关于人工智能模型数据保护的意见
精 解
一、基本信息
发布主体:欧洲数据保护委员会(EDPB)。 发布时间:2024 年 12 月 17 日。
二、出台背景
三、核心内容要点
(一)AI 模型匿名性评估
判定标准
使用个人数据训练的 AI 模型不能简单认定为匿名。其匿名性需综合评估,关键在于个人数据被直接(包括概率性)提取或通过查询获取的可能性是否极小,同时要考量控制者或其他人 “合理可能使用的所有手段”。 监管机构应依据 WP29 意见 05/2014 等相关准则,审查控制者提供的文件,如模型设计文档、数据处理记录等,判断模型是否满足匿名条件。若模型存在可提取个人数据的风险,或输出与训练数据相关的个人信息,则不能认定为匿名。
训练数据、模型和训练过程的特征,如数据独特性、模型复杂度和训练方法等,会影响识别风险。例如,数据过于敏感或模型缺乏有效的隐私保护机制,可能导致识别风险增加。 AI 模型发布和处理的上下文,包括访问限制、安全措施等,以及可获取的额外识别信息、获取成本和时间、处理时的技术水平等,均在评估范围内。例如,若模型可被广泛公开访问且缺乏安全防护,识别风险将升高。
(二)正当利益作为法律依据的评估
三步测试法
确定正当利益:利益需合法、清晰精确阐述且真实当前存在。例如,开发辅助用户的对话代理服务或检测欺诈的 AI 系统等可视为正当利益,但需具体情况具体分析。 分析处理必要性:处理应是实现正当利益的必要手段,需考虑是否有其他更少侵入性方式,以及处理数据量与利益追求的比例关系。例如,若能用合成数据达到相同效果,则处理个人数据可能不必要。 评估利益平衡:要权衡控制者或第三方的正当利益与数据主体的利益及基本权利自由。数据主体在开发和部署阶段有多种权益,如对个人数据的控制权、财务利益等,同时基本权利如隐私、言论自由等也需保障。例如,若 AI 模型处理可能侵犯数据主体隐私,即使有正当利益,也可能不被允许。
数据主体的合理期望在平衡测试中关键。其受数据公开性、与控制者关系、服务性质、数据收集上下文、来源隐私设置、模型用途及数据主体对数据在线的意识等因素影响。例如,用户在不同场景下对数据处理期望不同,控制者应提供足够信息帮助形成合理期望,避免因期望不符导致处理争议。
(三)非法处理对后续处理的影响
场景一:同一控制者处理
若控制者非法处理个人数据开发模型且数据保留,后续同一控制者处理时,监管机构可干预初始处理,纠正措施可能影响后续处理。例如,监管机构可责令删除非法数据,使后续处理无法使用这些数据。 开发与部署阶段目的关系及初始处理非法性在正当利益评估中的考量等因素,会影响后续处理合法性。例如,若初始非法处理使数据主体风险增加或期望不符,后续处理合法性受质疑。
确定不同控制者角色及责任是关键。最初和后续控制者都要确保处理合法性,监管机构评估两者行为,包括数据来源合法性审查等。例如,若初始控制者非法获取数据,后续控制者未审查就使用,可能承担连带责任。 初始处理非法性对后续处理影响逐案评估,涉及后续控制者对模型开发合法性评估、数据主体潜在风险评估及平衡测试中技术和法律因素考量等。例如,后续控制者需评估模型是否侵权,在正当利益评估中考虑初始非法处理带来的数据主体风险。
若模型匿名化后后续操作不涉个人数据处理,GDPR 可能不适用,但监管机构要严格评估匿名性。例如,若模型存在潜在个人数据提取风险,仍受 GDPR 约束。 若部署阶段处理新收集个人数据,其合法性不受初始处理非法性影响,但初始处理仍受监管机构干预。例如,后续合法处理不改变初始非法处理应受的监管,监管机构可要求控制者整改初始问题。
(四)控制者确保合规的措施
模型设计阶段
选择来源:控制者应选择合适的训练数据来源,确保选择标准适当、来源与目的相关且充分,排除不适当来源。例如,开发医疗 AI 模型应选合法可靠的医疗数据源。 数据准备和最小化:考虑使用匿名或假名化数据,实施数据最小化策略,如限制数据量、过滤不相关数据。例如,图像识别模型训练只选必要图像数据,避免过度收集个人信息。 训练方法选择:采用能降低可识别性的方法,如正则化和差分隐私技术。例如,差分隐私可扰动数据保护隐私同时不影响模型性能。 模型输出措施:添加措施降低查询获取训练数据相关个人数据的可能性,如模糊化输出或限制输出详细度。
进行文档审计,包括评估所选措施对限制识别可能性的影响,如分析代码审查报告。同时,开展针对多种攻击的结构化测试,如属性和成员推断、数据泄露等测试,确保模型抗攻击能力。例如,定期模拟攻击测试并根据结果改进模型和保护措施。
(五)缓解措施的应用
多种类型措施
技术措施:采取如加密模型等措施,在不影响模型功能前提下增加数据安全性,不导致匿名化且不违反其他 GDPR 义务或必要性测试。 假名化措施:根据情况实施防止基于个人标识符组合数据的措施,但需权衡控制者数据收集需求。例如,研究性模型开发中要谨慎使用假名化措施。 促进权利行使措施:包括在数据收集和使用间设合理时间间隔、提供无条件 “选择退出”、允许数据主体在特定情况下行使删除权、处理数据反刍主张等。例如,金融 AI 模型应允许用户对错误数据记忆提出纠正主张。 透明度措施:发布超 GDPR 要求的信息,采用多种方式告知数据主体,如媒体宣传、电子邮件、可视化、模型卡等,增强数据主体对处理活动的理解。例如,金融机构的 AI 模型应详细说明数据使用情况。
缓解措施应根据具体情况定制,监管机构逐案评估其实施和效果,确保符合 AI 模型特点、处理目的和数据主体权益保护要求。例如,监管机构审查措施是否有效降低风险,是否存在过度或不足情况。
(六)监管机构的权力与职责
🌹如需中译本(文字版)和原文(PDF版),请在文末加入DPOHUB开放社区领取!
全部AI及数据中译本及资讯请加入