16国(地区)数据保护机构联合发布关于数据抓取的安全声明

文摘   2024-11-07 14:12   北京  

2024年10月29日,来自加拿大、西班牙、英国、中国香港等16个国家和地区的数据保护机构共同就数据抓取及隐私保障发布《关于数据抓取和隐私保护的总结声明》(Concluding joint statement on data scraping and the protection of privacy),旨在明确各方责任,以确保个人免受非法抓取带来的风险。该声明遵循2023年发布的最初的“关于数据抓取和保护隐私的联合声明”,总结声明主要倡导以下规则:

1.公开个人信息的法律保护公开可访问的个人信息在大多数司法管辖区都受到数据保护和隐私法律的约束。这意味着,即使信息已经公开,其收集、使用和处理也必须遵守相关法律法规。2.社交媒体公司和网站运营商的责任,社交媒体公司(SMCs)和网站运营商有义务保护其平台上公开可访问的个人数据免受违反数据保护和隐私法律的数据抓取行为(即“非法抓取”)的侵害3.非法抓取与数据泄露,大规模的数据抓取事件可能构成可报告的数据泄露事件,这在许多司法管辖区都是如此。因此,组织应加强对数据抓取活动的监控和应对。4.个人与企业的保护措施,个人可以采取措施保护自己的个人信息免受数据抓取。同时,企业也应部署多种保护措施来防范非法抓取,这些措施应定期审查和更新,以跟上抓取技术和手段的发展。6.人工智能的双重角色,虽然人工智能(AI)被一些高级数据抓取者用于逃避检测,但它也可以成为解决方案的一部分,用于增强对非法抓取的保护。然而,使用AI进行抓取或训练AI模型的组织必须遵守数据保护和隐私法律,以及任何特定的AI法律。7.合同授权与合法抓取,当社交媒体公司和其他组织通过合同授权从其平台抓取个人数据时,这些合同条款本身并不能使抓取行为合法化。但是,它们可以作为重要的保障措施。允许抓取个人数据的组织必须确保有合法的依据、透明性,并在法律要求时获得同意。8.应用程序接口(API)的使用,通过API提供合法访问可以使组织对其平台上的数据拥有更大的控制权,并有助于检测和减轻未经授权的抓取。9.研究与社会效益,在某些情况下,法律可能要求社交媒体公司提供对平台上公开可访问数据的大规模访问,以支持研究等社会有益目的。然而,这必须遵守适用的数据保护和隐私法律。

以下为声明全文:

关于数据抓取和隐私保护的联合总结声明

基于与业界就2023年8月发布的《关于数据抓取和隐私保护的初步联合声明》(以下简称“初步声明”)的后续交流


2024年10月

关键要点

初步声明
本总结声明是基于2023年8月24日发布的《关于数据抓取和隐私保护的联合声明》(初步声明)而制定的,初步声明强调了以下关键信息:

  • 在大多数司法管辖区,公开可访问的个人信息受数据保护和隐私法律的约束。

  • 社交媒体公司(SMCs)和托管公开可访问个人数据的网站运营商有义务保护其平台上的此类数据免受违反数据保护和隐私法律的数据抓取(“非法抓取”)的侵害。

  • 大规模数据抓取事件,如果收集个人信息,可能构成许多司法管辖区内的应报告数据泄露事件。

  • 个人也可以采取措施保护自己的个人信息免受数据抓取的侵害,而社交媒体公司在帮助用户以隐私保护的方式使用其服务方面发挥着作用。

结论声明
基于初步声明发布后与社交媒体公司和其他行业利益相关者的互动,联合签署方希望强调以下额外的关键要点:

  • 为有效防范非法抓取,组织应部署一系列保障措施,并应定期审查和更新这些措施,以跟上抓取技术和技术的进步。

  • 虽然一些复杂的数据抓取器使用人工智能(AI)来规避检测,但AI同样可以成为解决方案的一部分,用于增强对非法抓取的防护。

  • 保护免受非法抓取义务适用于大型企业和中小型企业(SMEs)。中小型企业可以在服务提供商的协助下,采取较低成本的措施来履行这一义务。

  • 当社交媒体公司和其他组织通过合同授权从其平台上抓取个人数据时,这些合同条款本身并不能使此类抓取行为合法化;然而,它们可以成为一种重要的保障措施。

  • 组织因任何目的(包括商业和社会公益目的)而允许抓取个人数据的,必须确保但不限于有合法的依据这样做,对所允许的抓取行为保持透明,并在法律要求时获得同意。

  • 组织还应实施充分的措施,包括合同条款以及相关的监测和执行机制,以确保合同授权使用的被抓取个人数据符合适用的数据保护和隐私法律。

  • 当组织合法允许第三方从其平台上收集公开可访问的个人数据时,通过应用程序编程接口(API)提供此类访问可以让组织对其数据有更大的控制权,并便于检测和缓解未经授权的抓取行为。

  • 使用被抓取数据集和/或使用其自身平台上的数据来训练人工智能(如大型语言模型)的社交媒体公司和其他组织必须遵守数据保护和隐私法律,以及任何存在的针对人工智能的特定法律。在监管机构提供了关于开发和实施人工智能模型的指南和原则的情况下,我们期望组织遵循这些指导。

引言
2023年8月发布的《关于数据抓取和隐私保护的初步联合声明》(初步声明)阐明了组织为确保个人免受非法抓取风险而应采取的措施。本结论声明旨在强化初步声明中提出的要求,分享通过与社交媒体公司和行业利益相关者在初步声明发布后进行的交流中学到的最佳实践和经验教训,并为社交媒体公司和其他托管公开可访问个人信息的组织提出进一步期望。

两份声明均涉及从网络上自动化提取个人数据形式的数据抓取。这些声明不涉及搜索引擎的索引,也不涉及非个人信息的抓取。

初步声明最初由国际执法工作组(IEWG)的12名成员发布,并在发布后得到了另外两名成员的认可。现在,初步声明和本结论声明共得到了16个联合签署方的认可。

与业界的互动
在发布初步声明后,联合签署方向Alphabet Inc.(YouTube)、ByteDance Ltd.(TikTok)、Meta Platforms, Inc.(Instagram、Facebook和Threads)、Microsoft Corporation(LinkedIn)、Sina Corp(Weibo)和X Corp.(X,前身为Twitter)提供了该声明的副本,并邀请他们就如何遵守声明中概述的期望发表意见。

在接下来的几个月里,联合签署方与其中一些组织进行了书面和虚拟的互动。联合签署方还与减轻未经授权抓取联盟(MUSA)进行了互动,该联盟主动与联合签署方分享了其对防范未经授权抓取的看法。

一家商业数据抓取公司也联系了联合签署方,分享了其在合法收集公开可访问数据(可能包括个人数据)方面的努力。虽然本结论声明和初步声明主要针对的不是数据抓取者,但商业数据抓取者应注意,公开可访问的个人数据通常受数据保护和隐私法律的约束,因此他们应采取措施遵守这些法律。

通过这些交流,联合签署方能够以协调一致的方式与业界进行有意义的互动,并以统一的声音发声。反过来,这也为相关利益相关者提供了机会,让他们通过与全球隐私监管机构的直接和实际互动,解释其各自的数据和隐私保护方法。

下面,联合签署方分享了与行业代表讨论中学到的经验教训,以及对托管公开可访问个人数据的组织的进一步期望。

学到的经验教训和联合签署方的期望
与初步声明一样,以下许多建议在一些或所有司法管辖区代表了法定要求。

初步声明的一个基本要点是,在大多数司法管辖区,公开可访问的个人数据仍然受数据保护和隐私法律的约束。社交媒体公司和托管公开可访问个人数据的网站运营商根据数据保护和隐私法律有义务保护其平台上的个人信息免受非法抓取的侵害。

应对数据抓取实践进步带来的挑战和解决方案
在初步声明中,联合签署方强调了社交媒体公司和其他组织需要采取多层次的方法来保护其平台上的公开可访问数据免受非法抓取的侵害。

通过在该声明发布后进行的互动,我们确定,虽然社交媒体公司在防范非法抓取方面面临挑战(如越来越复杂的抓取器、不断发展的抓取技术进步、难以区分抓取器与授权/合法用户,以及保持用户友好界面的需求),但他们有动力去防范未经授权的抓取。

社交媒体公司普遍确认,他们已经实施了初步声明中提到的许多措施,包括但不限于:

  • 指定团队和/或组织内的特定角色来开发和实施控制措施,以保护、监测和应对抓取活动。

  • 对一个账户访问其他账户资料的次数进行“速率限制”,并在检测到异常活动时限制访问。

  • 监测新账户寻找其他用户的速度和积极性。

  • 采取措施检测抓取器和“机器人”活动,如使用验证码(CAPTCHA)和阻止发现此类活动的IP地址。

  • 在怀疑和/或确认存在数据抓取时,采取适当的法律行动,如发送“停止和终止”信函,要求删除被抓取的信息,并获得删除确认。

  • 密切监测威胁态势和新技术,以开发和调整相应的保障措施。

通过我们的互动,我们还了解到了组织在防范数据抓取方面采取的超出初步声明详细描述的进一步措施,如实施平台设计元素,使使用自动化工具抓取数据更加困难(例如,随机账户URL、随机界面设计元素和检测及阻止恶意网络流量的工具)。

我们了解到,人工智能的快速兴起对隐私构成了威胁。社交媒体公司告诉我们,抓取器现在正在使用人工智能来更有效地抓取数据(例如,通过可以模拟真实用户活动的“智能”机器人)。同时,社交媒体公司也解释说,他们正在利用人工智能来更好地检测和防范未经授权的抓取,强调创新的人工智能工具也可以成为解决方案的一部分。

最终,联合签署方了解到,虽然没有任何措施可以保证防止所有非法抓取(因为精密的低容量抓取往往可以模拟用户活动),但多层次和动态的保障措施组合在防止大规模抓取以及当大量数据主体受到影响时可能产生的更大危害方面特别有效。

中小型企业(SMEs)
中小型企业通常没有与全球社交媒体公司相同的财务资源或技术能力。然而,这并不能免除中小型企业保护免受非法抓取的责任。事实上,许多中小型企业托管了大量的公开可访问个人数据,这些数据应通过多层次的技术和程序控制组合来保护免受数据抓取的侵害。

联合签署方通过与业界的互动了解到,有多种工具可用于防范非法抓取。其中一些工具,如机器人检测、速率限制和验证码,对于预算较为有限的中小型企业来说是可以获取的。还有第三方服务提供商可以帮助中小型企业防范非法抓取。然而,联合签署方希望强调,聘请第三方服务提供商并不能免除组织保护个人数据的责任。

最终,根据数据保护和隐私法律,保障措施应适当并与所涉信息的敏感性相称。因此,组织应将其公开可访问的信息的数量和敏感性限制在其能够充分保护免受非法抓取的范围之内。

社交媒体公司允许的抓取和合法抓取
几家社交媒体公司表示,在某些情况下,他们允许从其平台上抓取或以其他形式大规模收集数据(例如,通过下文进一步讨论的API访问),以促进其自身或第三方的商业利益,如与平台管理相关的利益。

这些公司解释说,他们通常通过合同条款(如其条款和条件)来“授权”此类收集。社交媒体公司进一步解释说,为确保他们允许的抓取是合法的,其合同条款通常要求平台上的第三方遵守适用法律。他们还解释说,很难确定被抓取的数据是否仅被这些第三方用于合同允许的目的。

联合签署方指出,合同条款本身并不能使数据抓取合法化。例如,组织还必须确保他们有合法的依据来授予访问权限或允许收集个人数据,对他们允许的抓取行为保持透明,并在法律要求时获得同意。

此外,虽然合同条款是防范非法抓取的重要保障措施,但仅指出第三方必须遵守适用法律的合同条款是不够的。组织应采取充分措施,确保合同允许使用的被抓取个人数据符合适用的数据保护和隐私法律。例如,合同可以具体规定可以抓取的信息限制和可以使用这些信息的目的,以及不遵守这些条款的后果。然而,组织不能仅依赖合同措施。他们还应采取措施监测第三方对合同限制的遵守情况,并在不遵守时强制执行合规。

为研究和其他可能具有社会效益的目的而访问数据

在某些情况下,法律可能要求社交媒体公司(Social Media Companies,简称SMCs)向第三方(如研究人员)提供其平台上可公开访问的大规模数据(例如,根据《欧盟数字服务法案》第40条)。在其他情况下,我们了解到,即使没有法律要求,SMCs也可能选择向第三方提供数据访问权限(例如,为支持对社会有益的研究)。多家公司表示,他们通常通过应用程序编程接口(API)提供此类访问权限,特别是在法律要求或允许其提供大规模访问的情况下。
联合签署方承认社会有益研究的重要性,但希望提醒SMCs及其他托管可公开访问的个人数据的组织,在允许大规模访问或收集时,组织必须确保遵守适用的数据保护和隐私法律,包括确保有合法的访问授权或允许收集的基础。具体而言,联合签署方指出,并非所有数据保护和隐私法律都将“公共利益”、研究或统计目的作为同意要求的例外或作为处理个人数据的合法基础。此外,即使存在此类例外,其应用范围也可能受到限制。
联合签署方还认识到,在合法允许大规模访问或收集的情况下,API可以构成对非法抓取的进一步保障。虽然API并非坚不可摧,但它们可以让托管方对其平台上的数据拥有更大的控制权,并通过使用凭证以及记录和监控相关活动来检测和减轻未经授权的访问。
SMCs使用抓取的数据及其自身平台上的数据用于人工智能开发
联合签署方借此倡议提供的机会,与SMCs就其自身抓取数据以及使用抓取数据集来训练其大型语言模型的行为进行了交流。这些行为既带来了创新的机会,也带来了重大的隐私风险。
基于通过这些交流所了解到的情况,联合签署方希望提醒SMCs及其他可能使用抓取的个人数据或从其自身平台上收集的数据来开发、运营和部署生成式人工智能(AI)系统的组织,他们必须遵守数据保护和隐私法律,以及任何存在的针对AI的特定法律。联合签署方还呼吁这些组织遵守2023年全球隐私大会(Global Privacy Assembly)关于生成式人工智能系统的决议(Footnote7)及其他国际指导中所述的隐私和数据保护原则。具体而言,联合签署方指出,数据保护和隐私法律规定了为AI开发收集和使用个人数据在何种程度上是合法的。
结论
自发布初步声明以来,非法数据抓取已日益受到关注,部分原因是生成式AI系统的迅速涌现和部署。数据抓取也一直是,并将继续是全球数据保护机构和行业广泛讨论的话题。
联合签署方希望肯定那些已发布指导(Footnote8)以应对与数据抓取相关做法的各个数据保护机构的工作。在这些指导中,我们注意到一个共同主题,即可公开访问的个人数据一般受数据保护和隐私法律的管辖,并应得到充分保护,以防止非法抓取。
联合签署方还想强调,他们期望所有公司,而不仅仅是SMCs,都要保护其托管的可公开访问的个人信息免受非法抓取的侵害。未能按照适用法律实施充分保障措施可能会导致监管干预,包括执法行动。
联合签署方还希望提醒那些从事数据抓取活动的个人,以及使用其自身平台上的数据来训练AI的SMCs和其他组织,他们应采取措施确保其数据处理实践符合数据保护和隐私法律。
数据抓取是一个复杂、广泛且不断发展的问题,它现在是,并且将继续是数据保护机构的关注重点。它也应该是其他在保护隐私方面发挥作用的利益相关者,包括我们在本倡议过程中与之互动的利益相关者的关注重点。联合签署方将继续努力促进这一领域的合规工作,包括通过与相关利益相关者的未来互动、制定补充政策、开展公众教育活动以及执法,包括协作执法。
同时,联合签署方鼓励SMCs继续相互合作,并与其他利益相关者合作,共享知识和策略,并开发解决方案来应对和回应这一共同威胁。
联合签署方感谢在监管机构讨论中表现出开放态度的SMCs和行业利益相关者。这使得联合签署方能够在无需采取正式、资源密集型的执法行动的情况下,制定并分享其期望,这对所有方面都是有益的。
本声明由全球隐私大会(GPA)国际执法合作工作组(International Enforcement Cooperation Working Group,简称“IEWG”)的以下成员共同签署。

清华大学智能法治研究院
发布清华大学法学院、清华大学智能法治研究院在“计算法学”(Computational Law)前沿领域的活动信息与研究成果。
 最新文章