2024年10月29日,来自加拿大、西班牙、英国、中国香港等16个国家和地区的数据保护机构共同就数据抓取及隐私保障发布《关于数据抓取和隐私保护的总结声明》(Concluding joint statement on data scraping and the protection of privacy),旨在明确各方责任,以确保个人免受非法抓取带来的风险。该声明遵循2023年发布的最初的“关于数据抓取和保护隐私的联合声明”,总结声明主要倡导以下规则:
1.公开个人信息的法律保护,公开可访问的个人信息在大多数司法管辖区都受到数据保护和隐私法律的约束。这意味着,即使信息已经公开,其收集、使用和处理也必须遵守相关法律法规。2.社交媒体公司和网站运营商的责任,社交媒体公司(SMCs)和网站运营商有义务保护其平台上公开可访问的个人数据免受违反数据保护和隐私法律的数据抓取行为(即“非法抓取”)的侵害。3.非法抓取与数据泄露,大规模的数据抓取事件可能构成可报告的数据泄露事件,这在许多司法管辖区都是如此。因此,组织应加强对数据抓取活动的监控和应对。4.个人与企业的保护措施,个人可以采取措施保护自己的个人信息免受数据抓取。同时,企业也应部署多种保护措施来防范非法抓取,这些措施应定期审查和更新,以跟上抓取技术和手段的发展。6.人工智能的双重角色,虽然人工智能(AI)被一些高级数据抓取者用于逃避检测,但它也可以成为解决方案的一部分,用于增强对非法抓取的保护。然而,使用AI进行抓取或训练AI模型的组织必须遵守数据保护和隐私法律,以及任何特定的AI法律。7.合同授权与合法抓取,当社交媒体公司和其他组织通过合同授权从其平台抓取个人数据时,这些合同条款本身并不能使抓取行为合法化。但是,它们可以作为重要的保障措施。允许抓取个人数据的组织必须确保有合法的依据、透明性,并在法律要求时获得同意。8.应用程序接口(API)的使用,通过API提供合法访问可以使组织对其平台上的数据拥有更大的控制权,并有助于检测和减轻未经授权的抓取。9.研究与社会效益,在某些情况下,法律可能要求社交媒体公司提供对平台上公开可访问数据的大规模访问,以支持研究等社会有益目的。然而,这必须遵守适用的数据保护和隐私法律。
以下为声明全文:
关于数据抓取和隐私保护的联合总结声明
基于与业界就2023年8月发布的《关于数据抓取和隐私保护的初步联合声明》(以下简称“初步声明”)的后续交流
2024年10月
关键要点
初步声明
本总结声明是基于2023年8月24日发布的《关于数据抓取和隐私保护的联合声明》(初步声明)而制定的,初步声明强调了以下关键信息:
在大多数司法管辖区,公开可访问的个人信息受数据保护和隐私法律的约束。
社交媒体公司(SMCs)和托管公开可访问个人数据的网站运营商有义务保护其平台上的此类数据免受违反数据保护和隐私法律的数据抓取(“非法抓取”)的侵害。
大规模数据抓取事件,如果收集个人信息,可能构成许多司法管辖区内的应报告数据泄露事件。
个人也可以采取措施保护自己的个人信息免受数据抓取的侵害,而社交媒体公司在帮助用户以隐私保护的方式使用其服务方面发挥着作用。
结论声明
基于初步声明发布后与社交媒体公司和其他行业利益相关者的互动,联合签署方希望强调以下额外的关键要点:
为有效防范非法抓取,组织应部署一系列保障措施,并应定期审查和更新这些措施,以跟上抓取技术和技术的进步。
虽然一些复杂的数据抓取器使用人工智能(AI)来规避检测,但AI同样可以成为解决方案的一部分,用于增强对非法抓取的防护。
保护免受非法抓取义务适用于大型企业和中小型企业(SMEs)。中小型企业可以在服务提供商的协助下,采取较低成本的措施来履行这一义务。
当社交媒体公司和其他组织通过合同授权从其平台上抓取个人数据时,这些合同条款本身并不能使此类抓取行为合法化;然而,它们可以成为一种重要的保障措施。
组织因任何目的(包括商业和社会公益目的)而允许抓取个人数据的,必须确保但不限于有合法的依据这样做,对所允许的抓取行为保持透明,并在法律要求时获得同意。
组织还应实施充分的措施,包括合同条款以及相关的监测和执行机制,以确保合同授权使用的被抓取个人数据符合适用的数据保护和隐私法律。
当组织合法允许第三方从其平台上收集公开可访问的个人数据时,通过应用程序编程接口(API)提供此类访问可以让组织对其数据有更大的控制权,并便于检测和缓解未经授权的抓取行为。
使用被抓取数据集和/或使用其自身平台上的数据来训练人工智能(如大型语言模型)的社交媒体公司和其他组织必须遵守数据保护和隐私法律,以及任何存在的针对人工智能的特定法律。在监管机构提供了关于开发和实施人工智能模型的指南和原则的情况下,我们期望组织遵循这些指导。
引言
2023年8月发布的《关于数据抓取和隐私保护的初步联合声明》(初步声明)阐明了组织为确保个人免受非法抓取风险而应采取的措施。本结论声明旨在强化初步声明中提出的要求,分享通过与社交媒体公司和行业利益相关者在初步声明发布后进行的交流中学到的最佳实践和经验教训,并为社交媒体公司和其他托管公开可访问个人信息的组织提出进一步期望。
两份声明均涉及从网络上自动化提取个人数据形式的数据抓取。这些声明不涉及搜索引擎的索引,也不涉及非个人信息的抓取。
初步声明最初由国际执法工作组(IEWG)的12名成员发布,并在发布后得到了另外两名成员的认可。现在,初步声明和本结论声明共得到了16个联合签署方的认可。
与业界的互动
在发布初步声明后,联合签署方向Alphabet Inc.(YouTube)、ByteDance Ltd.(TikTok)、Meta Platforms, Inc.(Instagram、Facebook和Threads)、Microsoft Corporation(LinkedIn)、Sina Corp(Weibo)和X Corp.(X,前身为Twitter)提供了该声明的副本,并邀请他们就如何遵守声明中概述的期望发表意见。
在接下来的几个月里,联合签署方与其中一些组织进行了书面和虚拟的互动。联合签署方还与减轻未经授权抓取联盟(MUSA)进行了互动,该联盟主动与联合签署方分享了其对防范未经授权抓取的看法。
一家商业数据抓取公司也联系了联合签署方,分享了其在合法收集公开可访问数据(可能包括个人数据)方面的努力。虽然本结论声明和初步声明主要针对的不是数据抓取者,但商业数据抓取者应注意,公开可访问的个人数据通常受数据保护和隐私法律的约束,因此他们应采取措施遵守这些法律。
通过这些交流,联合签署方能够以协调一致的方式与业界进行有意义的互动,并以统一的声音发声。反过来,这也为相关利益相关者提供了机会,让他们通过与全球隐私监管机构的直接和实际互动,解释其各自的数据和隐私保护方法。
下面,联合签署方分享了与行业代表讨论中学到的经验教训,以及对托管公开可访问个人数据的组织的进一步期望。
学到的经验教训和联合签署方的期望
与初步声明一样,以下许多建议在一些或所有司法管辖区代表了法定要求。
初步声明的一个基本要点是,在大多数司法管辖区,公开可访问的个人数据仍然受数据保护和隐私法律的约束。社交媒体公司和托管公开可访问个人数据的网站运营商根据数据保护和隐私法律有义务保护其平台上的个人信息免受非法抓取的侵害。
应对数据抓取实践进步带来的挑战和解决方案
在初步声明中,联合签署方强调了社交媒体公司和其他组织需要采取多层次的方法来保护其平台上的公开可访问数据免受非法抓取的侵害。
通过在该声明发布后进行的互动,我们确定,虽然社交媒体公司在防范非法抓取方面面临挑战(如越来越复杂的抓取器、不断发展的抓取技术进步、难以区分抓取器与授权/合法用户,以及保持用户友好界面的需求),但他们有动力去防范未经授权的抓取。
社交媒体公司普遍确认,他们已经实施了初步声明中提到的许多措施,包括但不限于:
指定团队和/或组织内的特定角色来开发和实施控制措施,以保护、监测和应对抓取活动。
对一个账户访问其他账户资料的次数进行“速率限制”,并在检测到异常活动时限制访问。
监测新账户寻找其他用户的速度和积极性。
采取措施检测抓取器和“机器人”活动,如使用验证码(CAPTCHA)和阻止发现此类活动的IP地址。
在怀疑和/或确认存在数据抓取时,采取适当的法律行动,如发送“停止和终止”信函,要求删除被抓取的信息,并获得删除确认。
密切监测威胁态势和新技术,以开发和调整相应的保障措施。
通过我们的互动,我们还了解到了组织在防范数据抓取方面采取的超出初步声明详细描述的进一步措施,如实施平台设计元素,使使用自动化工具抓取数据更加困难(例如,随机账户URL、随机界面设计元素和检测及阻止恶意网络流量的工具)。
我们了解到,人工智能的快速兴起对隐私构成了威胁。社交媒体公司告诉我们,抓取器现在正在使用人工智能来更有效地抓取数据(例如,通过可以模拟真实用户活动的“智能”机器人)。同时,社交媒体公司也解释说,他们正在利用人工智能来更好地检测和防范未经授权的抓取,强调创新的人工智能工具也可以成为解决方案的一部分。
最终,联合签署方了解到,虽然没有任何措施可以保证防止所有非法抓取(因为精密的低容量抓取往往可以模拟用户活动),但多层次和动态的保障措施组合在防止大规模抓取以及当大量数据主体受到影响时可能产生的更大危害方面特别有效。
中小型企业(SMEs)
中小型企业通常没有与全球社交媒体公司相同的财务资源或技术能力。然而,这并不能免除中小型企业保护免受非法抓取的责任。事实上,许多中小型企业托管了大量的公开可访问个人数据,这些数据应通过多层次的技术和程序控制组合来保护免受数据抓取的侵害。
联合签署方通过与业界的互动了解到,有多种工具可用于防范非法抓取。其中一些工具,如机器人检测、速率限制和验证码,对于预算较为有限的中小型企业来说是可以获取的。还有第三方服务提供商可以帮助中小型企业防范非法抓取。然而,联合签署方希望强调,聘请第三方服务提供商并不能免除组织保护个人数据的责任。
最终,根据数据保护和隐私法律,保障措施应适当并与所涉信息的敏感性相称。因此,组织应将其公开可访问的信息的数量和敏感性限制在其能够充分保护免受非法抓取的范围之内。
社交媒体公司允许的抓取和合法抓取
几家社交媒体公司表示,在某些情况下,他们允许从其平台上抓取或以其他形式大规模收集数据(例如,通过下文进一步讨论的API访问),以促进其自身或第三方的商业利益,如与平台管理相关的利益。
这些公司解释说,他们通常通过合同条款(如其条款和条件)来“授权”此类收集。社交媒体公司进一步解释说,为确保他们允许的抓取是合法的,其合同条款通常要求平台上的第三方遵守适用法律。他们还解释说,很难确定被抓取的数据是否仅被这些第三方用于合同允许的目的。
联合签署方指出,合同条款本身并不能使数据抓取合法化。例如,组织还必须确保他们有合法的依据来授予访问权限或允许收集个人数据,对他们允许的抓取行为保持透明,并在法律要求时获得同意。
此外,虽然合同条款是防范非法抓取的重要保障措施,但仅指出第三方必须遵守适用法律的合同条款是不够的。组织应采取充分措施,确保合同允许使用的被抓取个人数据符合适用的数据保护和隐私法律。例如,合同可以具体规定可以抓取的信息限制和可以使用这些信息的目的,以及不遵守这些条款的后果。然而,组织不能仅依赖合同措施。他们还应采取措施监测第三方对合同限制的遵守情况,并在不遵守时强制执行合规。
为研究和其他可能具有社会效益的目的而访问数据