OpenAI违反GDPR被罚1500万欧元，来龙去脉及合规启示

文摘 2024-12-21 00:03 上海

一日可能发布多篇推送，推荐标星⭐本号，避免错过数据合规新鲜资讯～

来源：Garante官网

简评：看完之后感觉OpenAI真的很努力了，但还是没能逃过一劫，这执法颗粒度，真是让人害怕。

一共四大罪状：①数据泄露通知违规；②缺乏数据处理合法性基础；③未成年人保护措施不足；④输出数据不准确。

根据处罚文书梳理来龙去脉，也有一点自己的思考，仅供参考。

懂意大利语的可以直接看处罚文书。

意大利隐私保护机构（Garante per la protezione dei dati personali，以下简称“Garante”）结束针对Open调查。OpenAI需进行为期六个月的宣传活动，并支付1500万欧元罚款。

Garante指出，OpenAI在2023年3月的数据泄露事件中未能及时通知监管机构，并且在没有合法依据的情况下使用用户数据训练ChatGPT，隐私政策违反透明原则。同时，OpenAI未能建立年龄验证机制，可能导致未成年人接触不适合其年龄的内容。此外，OpenAI还存在输出数据准确性不足的问题。

为确保数据处理的透明度，Garante要求OpenAI在六个月内开展一次包括广播、电视、报纸和互联网的宣传活动。宣传内容需与Garante协商，以提高公众对ChatGPT工作原理的了解，特别是关于如何收集用户数据用于人工智能训练，以及用户的权利，包括反对、修改和删除权等。这是首次根据意大利《隐私法》（Codice Privacy）第166条第7款规定所采取的措施。

考虑到OpenAI在调查中的良好合作态度，罚款金额为1500万欧元（约1.14亿人民币）。

最后，鉴于OpenAI在调查期间已将其欧洲总部设立在爱尔兰，Garante根据所谓的“一站式服务”规则，此案件将移交给爱尔兰数据保护机构，以便继续调查任何持续性违规行为。

罗马，2024年12月20日

引言

2023 年 3 月 20 日，ChatGPT 出现严重技术漏洞，致使部分用户聊天记录信息泄露，具体涉及姓名、邮箱、信用卡部分信息（如后四位数字及有效期）等敏感数据。

迅速响应，主动展开调查，发现 OpenAI 在 ChatGPT 服务的数据处理环节存在诸多关键问题：

①在用户信息告知方面严重不足，未向用户和相关利益者清晰说明数据收集、处理的目的、方式及他们所拥有的权利等重要信息。

②数据处理的法律依据模糊不清，缺乏明确且合法的基础来支撑其大规模的数据处理行为。

③输出数据准确性不足，ChatGPT 生成的输出内容与实际数据存在偏差，无法保证数据的可靠性。

④对未成年人的保护措施近乎缺失，未采取有效手段防止未成年人接触不适当内容或保护他们的个人数据。

针对上述问题，2023 年 3 月 30 日，Garante 依据相关法规对禁用OpenAI ，旨在立即遏制潜在的数据风险。

随后，在 4 月 11 日，鉴于 OpenAI 承诺采取整改措施，Garante 暂停了该临时限制，但同时明确要求 OpenAI 进一步完善数据处理规范，具体包括：

①在其官方网站显著位置发布详细且易于理解的信息说明，涵盖数据收集和处理的所有相关细节；

②提供便捷有效的工具，方便用户和相关主体行使对个人数据处理的反对权等重要权利；

③重新审视并修改数据处理的法律依据，确保其合法、合规性；

④实施严格的年龄验证机制，防止未成年人在无监管的情况下使用服务等一系列关键措施。

⑤开展信息宣传活动，OpenAI 需要通过各种媒体渠道向公众传达这些关键信息，确保公众了解自己的数据在 ChatGPT 服务中的使用情况，并为他们提供行使数据权利（如删除数据）的途径。

Garante为各项措施设定了严格的完成期限，以督促 OpenAI 尽快整改。

OpenAI的回应与行动

OpenAI 在收到 Garante 的要求后，积极采取行动并及时回应。2023 年 4 月 28 日，OpenAI 告知 Garante 已完成部分整改任务：

①在网站建设方面，在隐私政策和帮助中心发布了与模型训练相关的隐私政策，详细说明了数据在训练过程中的使用方式和范围；

②为用户提供了专门的工具，用户可通过该工具便捷地行使数据权利，如反对数据处理、申请数据更正或删除等。

③确定将合法利益作为将用户个人数据用于AI训练的合法性基础。

④在年龄验证方面，实施了年龄验证机制，对于新用户，要求提供出生日期以确保其年满 13 岁，对于 13 至 17 岁的用户，需获得家长同意才能创建账户；对于已注册用户，也要求声明年龄并在必要时提供家长同意证明。

2023 年 5 月 15 日，OpenAI 再次告知已完成信息宣传活动要求。其采取的措施包括在《共和报》等报纸上发布首席技术官的采访，在报纸上购买广告版面发布与 ChatGPT 服务相关的教育材料，在官方网站设置专门面向用户的页面提供详细信息，以及与 Garante 合作制作教育视频等。

然而，Garante 对其媒体宣传活动的执行情况并不满意。Garante 认为 OpenAI 在实施这些活动时，未按照规定提前与其进行充分的沟通并达成一致，导致活动内容和形式可能无法有效传达关键信息。而且，从实际效果来看，这些活动未能达到预期的宣传目标，没有充分覆盖到目标受众，使得广大用户和相关利益者对数据处理等重要问题的认知并未得到显著提升。

对此，OpenAI 表示愿意进一步改进并加强与 Garante 的合作，以确保后续措施能够符合要求并取得良好效果。

在整个调查过程中，OpenAI 还主动向 Garante 提供了关于数据训练来源、数据处理保障措施等方面的详细信息。

在数据训练来源上，表明其主要从互联网公开信息、第三方授权信息和用户提供信息三个渠道获取数据，并在数据处理过程中采取了一系列措施来保障数据安全和用户隐私。例如，通过限制个人数据在训练数据中的使用量，避免过度收集和使用用户个人信息；

采用过滤技术，有效排除有害信息，如仇恨言论、成人内容、垃圾信息等，防止这些不良信息对模型训练产生负面影响；

同时，为用户提供选择是否允许使用其聊天记录进行训练的权利，尊重用户的自主意愿。

调查行动

Garante 为深入了解情况，两次发出信息请求获取调查所需的关键元素，这两次请求分别依据GDPR和意大利相关法规（Codice Privacy）的特定条款进行。

OpenAI 对这些请求积极回应，提供了大量详细信息。

在数据训练方面，OpenAI 详细说明了 ChatGPT 的训练数据来源。

其一是互联网公开信息，在收集过程中，会先对数据进行筛选和过滤，排除那些包含大量个人数据的网站以及暗网数据，并在模型微调阶段利用 Azure Cognitive Services 进一步去除个人信息，确保数据的合法性和安全性。

其二是第三方授权信息，通过合法授权获取高质量的数据集，在选择过程中会严格评估数据集的来源和质量，确保其符合数据保护要求。

其三是用户提供信息，在用户与服务交互过程中获取，并通过专门的 “训练者” 进行整理和筛选。

同时，OpenAI 明确其数据处理的法律依据为合法利益，并详细阐述了在数据处理过程中的隐私保护措施。例如，为用户提供多种选择，方便他们控制自己的数据是否被用于训练；实施一系列数据保护技术，如数据加密、访问控制等，防止数据泄露和滥用。

此外，OpenAI 还提供了关于年龄验证、数据准确性处理等方面的信息和相关文件。

在年龄验证方面OpenAI介绍了正在探索和实施的多种技术方案和验证流程，以确保能够准确识别用户年龄，包括：自拍估算年龄、证件扫描。

在数据准确性处理上，说明了如何对训练数据进行审核和优化，以及在模型生成输出后如何对不准确信息进行处理，如通过人工审核和自动纠错机制相结合的方式，提高数据的准确性和可靠性，但这些措施仍需根据 Garante 的要求进一步完善和改进。

听证会

2024 年 4 月 11 日，按照相关法规规定的程序和要求，在Garante的罗马总部举行了一场重要的听证会。

OpenAI 在会上着重强调了自首次接到 Garante 措施要求以来，便积极与 Garante 展开合作与沟通的历程。在这期间，OpenAI 按照 Garante 的指示，逐步采取了一系列关键的改进措施，如对数据保护影响评估（DPIA）和合法利益评估（LIA）等文件进行完善和更新，使其更加符合法规要求，同时不断优化内部的数据处理机制和流程，确保数据处理的合法性和安全性。

OpenAI 详细介绍了公司的组织架构和发展情况。其成立于 2015 年，最初是一个非营利性的研究组织，旨在推动人工智能技术的发展。随着业务的拓展，在 2023 年成立了具有特定性质的控制公司，通过这种架构来确保公司在实现人工智能造福人类的使命的同时，能够有效管理数据处理等相关事务。

在数据保护的透明度方面，OpenAI 表示已通过多种渠道发布了大量相关材料，包括系统信息表、技术报告、博客文章和其他研究成果等，旨在向用户和公众传达其数据处理的原则和方式。

然而，OpenAI 也承认在 ChatGPT 推出初期，由于对用户数量的快速增长和意大利市场的重要性预估不足，在数据保护方面存在一些不足之处。例如，隐私政策在初期可能不够完善，但在后续已根据 Garante 的要求和反馈不断进行改进，使其更加清晰和全面。

在资源方面，OpenAI 提到在 2023 年初公司员工数量相对较少，但在面对来自多个数据保护机构的大量信息请求时，积极调配资源，努力应对。

在数据处理保护措施上，OpenAI 强调其采用了基于透明、隐私设计 / 最小化原则和用户选择退出机制的隐私合规模式。

在模型训练的不同阶段，如：（i）在数据收集阶段，通过严格筛选数据来源和进行数据去重处理，减少不必要的个人数据收集；（ii）在训练阶段，利用人工审核（如 Reinforcement learning with human feedback，RLHF）等方式，确保模型不会生成有害或不准确的信息，尤其是涉及个人隐私和敏感信息的内容；（iii）在数据使用阶段，为用户提供明确的选择和便捷的操作方式，方便他们随时控制自己的数据使用情况。

针对 Garante 提出的各项违规指控，OpenAI 再次进行了详细的解释和辩护。

对于数据处理作为合法性基础的问题，OpenAI进一步说明了在服务推出后积极开展相关评估工作的过程和困难；

对于隐私政策缺陷，OpenAI强调了已采取的改进措施和未来的完善计划；

对于未成年人保护缺失，OpenAI阐述了已实施的其他保护措施和正在研发的年龄验证技术的进展，包括引入供应商Yoiti，（i）基于Yoti 应用或网站自拍的年龄估算（照片立即删除）、(ii)身份证件扫描（依情况在会话完成或 25 小时后删除数据）、(iii)信用卡关联临时交易（Yoti 仅获取支付授权）等方式，且所有方案中 Yoti 只向 OpenAI 传会话 ID 和年龄验证结果。Yoti 作为数据处理控制者，其数据处理受 GDPR 第 28 条协议约束且在英处理数据，同时它符合多项标准并获相关认证和批准。

对于数据不准确问题，OpenAI按监管要求告知用户数据收集截止日期来管理准确性，还评估与出版商合作项目以融入新闻，通过用户界面免责声明提醒用户模型不准确性，对涉及个人数据的不准确性用后训练活动或输出数据过滤器处理。

OpenAI 请求 Garante 在做出处罚决定时，能够充分考虑到公司在数据保护方面所做出的积极努力和改进措施，但最终 Garante 仍根据全面的调查和听证情况，综合权衡各种因素后做出了处罚决定。

管辖权限

根据GDPR第 3 条的明确规定，判断数据保护监管机构的管辖权需要综合考虑处理者是否在欧盟设立机构以及服务是否针对欧盟用户等关键因素。

在本案中，虽然在 2022 年 11 月 30 日向公众提供服务时，OpenAI 未在欧盟设立机构，但由于该服务涉及欧盟用户，且其服务性质和推广方式符合GDPR中对欧盟管辖权的界定条件，因此Garante拥有对 OpenAI 数据处理行为的管辖权。

具体而言，根据相关规定和指导原则，如欧洲数据保护委员会（EDPB）发布的指南和欧盟法院（CJEU）的判例，在判断服务是否针对欧盟用户时，会考虑多种因素，包括服务的宣传推广是否涉及欧盟地区、服务的可访问性和实际使用情况等。

ChatGPT 在线免费提供的方式以及在欧盟地区的广泛使用和传播，使得其明显符合针对欧盟用户的条件。

对于 OpenAI 数据处理违规行为的监管和处罚权限，Garante 对 2024 年 2 月 15 日前发生的非持续性违规行为具有明确的监管和处罚权。

对于部分持续性违规行为，在 OpenAI 于 2024 年 2 月 15 日在欧盟设立机构后，根据相关规定，将部分与持续性违规行为相关的文件移交给爱尔兰监管机构（作为牵头监管机构）。

这是为了确保在欧盟范围内实现统一和有效的监管，同时 Garante 仍保留对已发生违规行为的部分处理权限，以便在必要时提供协助和信息，确保整个监管过程的连续性和完整性。

违法行为

（1）数据泄露通知违规（违反GDPR第 33 条）

2023 年 3 月 20 日的数据泄露事件发生后，OpenAI 未按照GDPR第 33 条的规定，在 72 小时内直接向Garante进行通知。虽然 OpenAI 已将该事件通知给爱尔兰监管机构，并在其官方网站发布了相关信息，也尝试通过电子邮件告知部分可能受到影响的用户，但这些措施均不能替代向 Garante 的直接通知。

因为此次事件涉及到意大利的 440 名用户，根据规定，在欧盟单一机构机制不适用的情况下（当时 OpenAI 未在欧盟设立机构），OpenAI 有义务直接向 Garante 报告。

该违规行为于 2023 年 3 月 23 日完成，性质为非持续，即该违规行为在特定时间点发生后未持续存在。

//评：等于说，如果没有在欧盟设立总部，一站式监管就不适用，一旦有数据泄露，只要有该国家的用户数据，就得汇报给那个国家的DPA，有几个算几个。好变态哦。但如果给监管群发会不会有引来更多调查和处罚呢？

（2）数据处理合法性基础缺失（违反GDPR第 5 条第 2 款和第 6 条）

截至 2023 年 3 月 30 日，OpenAI 无法证明在 2022 年 11 月 30 日 ChatGPT 向公众推出之前，已经确定了数据处理的合法依据。

尽管 OpenAI 提供了数据保护影响评估（DPIA）和合法利益评估（LIA）等相关文件，但这些文件无法充分证明其在规定时间前完成了合法依据的确定。

例如，DPIA 的初稿于 2023 年 2 月 24 日完成，更新于 5 月 19 日，LIA 是在 Garante 明确要求后才提供且无日期，均晚于 ChatGPT 推出时间。

根据法规要求，数据处理的合法依据应在处理活动开始前确定，并在向用户和相关利益者提供的信息中明确说明。

此违规行为于 2022 年 11 月 30 日发生，性质为非持续，表明在特定时间点存在法律依据缺失的问题。

//评：被问后补的没有日期不行，最好可以当场主动拿出来。以后境内PIA要是这么查就GG了，能事前做还是做一下，有钱最好嵌入系统。

（2）隐私政策不完善（违反GDPR第 5 条第 1 款 a)项、第12条和第 13 条）

在 2023 年 3 月 30 日时，ChatGPT 的隐私政策仅提供英文版本，且在网站上的位置不明显，不易被用户查找。

该隐私政策主要侧重于向用户说明在使用服务过程中数据的处理情况，而对于非用户数据（即用于模型训练的公开数据）的处理情况几乎未提及。

在内容上，对于数据处理的目的和方式的描述也不够清晰和详细，例如在说明数据处理目的时，使用了较为笼统的表述，未区分不同类型数据的处理目的，也未明确告知用户数据可能用于模型训练这一关键信息。

这违反了数据处理应合法、透明和准确告知用户的原则，该违规行为于 2022 年 11 月 30 日完成，性质为非持续，说明在特定时间点隐私政策存在缺陷。

//评：在意大利提供服务还得有意大利语的隐私政策，类推，在欧盟展业还得有芬兰语、西班牙语、德语？按照上述训练数据披露、处理目的和方式描述要求的标准审视一下境内AI产品的隐私政策，几个能过关？

（3）未成年人保护措施不足（违反GDPR第 8、第24 和 25 条第 1 款）

截至 2023 年 3 月 30 日，OpenAI 未实施有效的年龄验证机制来确保未成年人的合法权益。

虽然其服务条款在一定程度上识别了未成年人用户，并规定 13 至 18 岁用户需获得家长同意，但在实际注册和使用过程中，并未采取有效的技术手段来验证用户年龄。

这使得未成年人可能在无监管的情况下接触到不适当的内容或泄露个人数据，违反了保护未成年人数据的相关规定。

该违规行为于 2022 年 11 月 30 日完成，性质为非持续，表明在特定时间点未成年人保护措施未有效落实。

//评：用算术题来识别青少年没啥作用，但如果学OpenAI引入一家供应商靠自拍估算年龄或者收集证件计算年龄，符不符合最小必要原则？会不会增加数据泄露风险呢？而且，还得花钱呀。

（4）未遵守信息宣传命令（违反第 83 条第 5 款 e)项）

OpenAI 未按照 Garante 在 2023 年 4 月 11 日的要求（第 114/2023 号规定的第 9 点），在 2023 年 5 月 15 日前开展符合规定的信息宣传活动。

OpenAI 实施的活动虽然包括在报纸上发布采访和教育材料、在网站设置页面以及制作视频等，但这些活动在内容、方式和时间安排上均未与 Garante 达成一致，且未能有效覆盖到目标受众，导致广大用户和相关利益者对数据处理等关键信息的了解不足。

该违规行为于 2023 年 5 月 15 日完成，性质为非持续，说明在特定时间点未履行宣传命令。

//评：这点太抽象了，很难评。说实话，OpenAI花再多钱去解释原理，进进行宣传，一般用户真的会愿意看吗？

（5）数据不准确（违反第 5 条第 1 款 d)项）

ChatGPT 服务在 2023 年 3 月 30 日存在输出信息不准确的情况，即生成的内容与实际数据存在偏差，可能对用户造成误导。

虽然 OpenAI 采取了一些改进措施，如在模型训练过程中优化数据筛选和审核机制，在用户反馈后尝试进行数据更正或过滤不准确信息，但问题仍未完全解决。

该违规行为具有持续性，自 2023 年 3 月 30 日起至 2024 年 2 月 15 日（OpenAI 在欧盟设立机构之日）仍存在。

由于在此期间 OpenAI 的机构情况发生变化，根据管辖权转移的相关规定，该问题移交爱尔兰监管机构进行后续处理，以确保在欧盟范围内对持续性违规行为进行有效监管。

//评：这是大模型呀！如果能完全准确，那还得了？

处罚结果

（1）罚款

综合考虑各项违规行为，Garante 决定对 OpenAI 处以 1500 万欧元的行政罚款。其中

（i）因违反数据处理相关原则（包括合法性基础、透明度、未成年人保护等方面）的罚款为 900 万欧元；

（ii）数据泄露通知违规罚款 32 万欧元；

（iii）未遵守宣传命令罚款 568 万欧元。

罚款金额合计1500万欧元，根据GDPR相关规定及 OpenAI 2023 年全球营业额（10.29 亿美元，约合 9.48 亿欧元）等因素确定，占其 2023 年营业额的约 1.58%。

Garante认为该罚款具有有效性、相称性和威慑性。

//评：没通知只罚了32万欧元，但没有好好履行宣传命令竟然罚了568万欧元。

（2）附加处罚

要求 OpenAI 开展为期六个月的机构宣传活动，通过意大利主要媒体（广播、电视、报纸和互联网）进行，内容需经 Garante 事先批准，旨在提高公众对 ChatGPT 数据保护问题的认识，包括数据收集、用户权利等方面，活动应在 Garante 批准计划通知后 45 天内启动，OpenAI 需在通知处罚决定后 60 天内提交计划，并在活动结束后 60 天内向 Garante 报告活动执行情况及相关信息。

//评：不知道OpenAI怎样的宣传内容可以满足监管的要求，拭目以待。

（3）其他

Garante 宣布 OpenAI 相关数据处理行为违法，并要求其支付罚款，若 OpenAI 在规定时间内未对罚款提出异议，则需按规定方式支付；若提出异议，可按相关法律程序处理。

Garante将违规行为记录在案，并将部分违规行为相关文件移交给爱尔兰监管机构（自 2024 年 2 月 15 日起为牵头监管机构），同时告知 OpenAI 有权在规定时间内向司法机关对该处罚决定提出上诉。

//评：继续上法院呗，反正OpenAI全球各地都有诉讼，不多这一个。

数据何规

个人信息保护、数据安全及AI监管最新动态。