英国:使用隐私增强技术 (PET) 负责任地释放数据价值

文摘   2024-11-16 23:07   北京  

2024年11月7日,英国政府科学、创新和技术部(DSIT)的责任技术采用小组(RTA)与英国信息专员办公室(ICO)合作创建联合发布了隐私增强技术 (PET) 成本效益意识工具.该资源旨在帮助组织了解和评估与采用各种 PET 相关的成本和收益。除了这些资源,还发布了一个支持组织的清单确保他们已经考虑了这些因素。

该工具专注于“新兴隐私增强技术(PETs)”,这是一系列为现代数据驱动系统中的隐私挑战提供新颖解决方案的技术。新兴隐私增强技术的示例包括:同态加密、可信执行环境、安全多方计算和差分隐私。隐私增强技术可以帮助各行业的组织从数据中解锁更多价值,并以保护人们隐私的方式推动创新。然而,这些技术的采用率较低,部分原因是组织在评估采用尚未完全成熟技术的成本与收益时面临挑战。这项工作基于2023年秋季与行业专家和学者进行的访谈,并建立在今年2月发布的初始博客版本之上。
该工具围绕一个使用一系列隐私增强技术进行隐私保护联邦学习的示例构建;即训练机器学习模型,而不进行集中数据收集或处理,并保护整个系统中数据的隐私。除了是一个广泛适用的用例外,此示例还提供了一个有用的框架,用于考虑与一系列隐私增强技术相关的成本和收益。我们提供了指导,展示如何使用该工具来评估在各种用例中使用隐私增强技术的成本和收益,包括:向外部受众(以不同程度的详细程度)提供数据以供研究;对无法直接共享的数据进行协作统计分析;在数字环境中保护数据处理活动,以防止敏感信息被未经授权的访问或其他数据泄露;该工具包含关于合规成本和收益的信息,以帮助说明使用隐私增强技术可以降低对个人的风险并减少长期合规成本的方式。
该工具既包含假设示例,也引用了真实世界的用例,以说明隐私增强技术在各行业中的多种应用。更广泛的真实世界用例集合可在我们的《隐私增强技术用例库》中查阅。该库包含了不同行业中使用的不同隐私增强技术的示例。
什么是隐私增强技术(PET)

隐私增强技术(PET)是一种保护敏感信息隐私或机密性的技术方法。这一术语涵盖了广泛的技术,包括更传统的隐私增强技术和更新颖、新兴的隐私增强技术。

传统隐私增强技术是更为成熟的隐私技术,如加密方案,这些方法可确保信息在传输和存储过程中的安全;去标识化技术,如标记化,用唯一标识符替换敏感数据;以及泛化,通过去除具体细节来降低数据敏感性。

本工具包重点关注新兴的隐私增强技术,这些技术是解决数据驱动系统中隐私挑战的相对新颖的解决方案。虽然新兴隐私增强技术没有固定的定义,但本工具包主要考虑以下技术:

  • 同态加密(HE):一种直接在加密数据上进行计算的加密方法。

  • 可信执行环境(TEEs):处理器内的一个安全区域,与主操作系统并行运行,与主处理环境隔离。也称为安全飞地。

  • 多方计算(MPC):加密协议,使多方能够共享或协作处理数据,而不披露各方所持信息的细节。

  • 合成数据(synthetic data):生成的人工数据,用于保留其基于的原始数据集的模式和统计特性。

  • 差分隐私(differential privacy):一种确保数据隐私的正式数学方法,通过向输入数据或其产生的输出中添加噪声来工作。

  • 联邦分析(federated analytics):以分散的方式处理数据以产生分析或执行机器学习,通常与上述技术的组合一起使用。


本工具包的背景
隐私增强技术可在众多行业中支持广泛且日益增多的用例(请参阅我们的隐私增强技术用例库)。

本工具包围绕一个高级用例构建:使用隐私保护的联邦学习来训练机器学习模型,而无需直接共享数据。

此用例聚焦于联邦分析的一个子集,即联邦学习,并与其他隐私增强技术结合使用,以提高输入隐私(在训练机器学习模型的处理阶段保护原始数据)和输出隐私(保护处理后共享或发布的数据)。联邦学习与其他隐私增强技术的结合通常被称为隐私保护的联邦学习(PPFL)

DSIT和ICO使用这个PPFL用例来构建本指南,因为它涉及一系列相关的隐私增强技术,并为评估潜在的成本和收益提供了一个明确的基准。这种类型的用例是2022-23年度英美隐私增强技术奖挑战赛的关注点,DSIT和ICO在设计这些挑战赛时发现,PPFL用例具有在不损害隐私的前提下改善组织间和跨境数据协作的潜力。然而,本文件的分析对于在相关情境中部署相同新兴隐私增强技术的其他情况同样具有相关性。

除本工具外,发布者还制作了一份清单,以支持考虑使用隐私增强技术的组织,确保他们已考虑本文件中概述的影响。

如何使用本工具包


第1节探讨了联邦学习的成本和收益,即在数据仍分布于不同位置或组织时训练模型,这是我们的PPFL用例不可或缺的一部分。

以下部分(第2节和第3节)讨论了在这一解决方案的不同阶段叠加其他隐私增强技术所产生的成本和收益。它们考虑了在两端部署额外的隐私增强技术:提高输入隐私(第2节)和提高输出隐私(第3节)。这些术语将在下文解释。

根据读者的预期用例,本文件的不同部分可能对不同读者更有用和更相关。

  • 对联邦分析或联邦学习(不采用额外的输入和输出隐私技术)感兴趣的读者应阅读本引言和第1节。

  • 对PPFL感兴趣的读者应阅读本文件的全部内容。

  • 对提高输入隐私(或同态加密、可信执行环境、多方计算)的方法感兴趣的读者应阅读第2节。

  • 对提高输出隐私(或差分隐私、合成数据)的方法感兴趣的读者应阅读第3节。

本节的其余部分将介绍联邦分析、联邦学习和PPFL,这些技术支持了本文件中评估的用例。本节还将介绍一种使用更传统方法的基线解决方案,以便在整个文档中为我们的PPFL解决方案提供一个比较点。

输入和输出隐私
输入隐私侧重于在整个处理阶段保护原始数据。有效的输入隐私确保在任何时候任何方都无法访问或推断出敏感输入。这种保护可能涉及:

  • 防止未经授权的访问:确保所有数据处理都是在任何一方都无法访问或推断出原始原始数据的情况下进行的。这涉及访问控制和防止间接推断攻击的组合。

  • 攻击性安全考虑:预测并抵消对手可能采用的潜在攻击性安全技术,以获得对系统的未经授权访问。这包括防御利用可观察的系统变化(如时间或功耗)的攻击。

  • 主动攻击对策:利用强大的防御技术和方法,包括质量保证周期和严格的红队演练(红队演练也在2022-2023年度英美隐私增强技术奖挑战中使用,是一个过程,其中被称为“红队”的参与者故意模拟可能在现实世界中发生的攻击,以严格测试其他人创建的解决方案的强度),以主动最大限度地减少攻击面。这些措施有助于识别和减轻可能通过侧信道攻击等利用的潜在漏洞。

通过在联邦解决方案中叠加一系列隐私增强技术和技巧,可以提高输入隐私。这种方法所涵盖的隐私增强技术和技巧可能是基于硬件和/或加密的,并且通常被视为与安全本身同义的概念。有关输入隐私的更多信息,请参阅第2节:输入隐私考虑因素。

输出隐私关注提高输出数据或模型的隐私性。保护处理后的数据对于防止数据分析后或用于训练模型后可能发生的隐私泄露至关重要。关键考虑因素包括:

  • 实施基于输出的技术:向模型的训练过程中添加随机噪声的技术,如差分隐私,对于确保训练数据或其子集无法在后续阶段被提取特别有效。这种方法即使在模型共享或部署后也能帮助保护数据。

  • 平衡隐私与模型性能:像差分隐私这样的技术可能会影响模型的性能,包括准确性。应仔细权衡隐私和性能之间的取舍,考虑模型的大小以及准确性相对于特定研究问题的重要性。

通过在联邦解决方案中有效实施一系列隐私增强技术和技巧,可以提高输出隐私。有关输出隐私的更多信息,请参阅第3节:输出隐私考虑因素。

联邦分析与学习
联邦分析是一种在分散的数据源上执行数据分析或计算的技术。它使组织能够使用无法直接共享的数据。来自多个来源的本地数据被用于为全局模型提供信息或执行复杂分析,使用联邦方法而无需共享数据本身。数据在本地处理后,此处理的结果会在全局节点或本地节点之间聚合。

在本工具包中,DSIT和ICO将联邦学习定义为联邦分析的一个子集。联邦学习涉及在分布于多个节点的数据集上训练机器学习模型。这种方法使用来自许多本地模型的模型更新来改进中央或全局模型。节点基于本地持有的数据训练后传输更新的模型参数,而不是数据本身。这允许在不集中收集数据的情况下训练模型。

示例1:联邦分析用于统计分析

一家医疗保健组织希望与大学和跨国同行合作,分析疾病爆发的趋势。该组织开发了通往合作伙伴本地存储数据的数据管道。通过这些管道,该组织可以发送数据分析请求。

分析在本地进行,医疗保健组织无法访问数据集。然后将此分析的结果返回给该组织,该组织会聚合所有合作伙伴的结果。

示例2:联邦学习用于训练模型

一家技术组织希望提高其语音识别系统的准确性,而无需集中收集用户的语音数据。该组织创建了一个基于易于获取的数据集训练的初始模型,然后将其共享到用户的设备上。该模型会根据用户的语音数据在本地进行更新。

在用户同意的情况下,本地模型会定期上传到中央服务器,而用户的个人语音数据永远不会离开其设备。中央模型通过使用从用户设备上重复的本地化训练轮次中收集的本地模型进行持续迭代。然后,这个更新的中央模型会共享到用户的设备上,并且这个训练循环会持续进行。

隐私保护的联邦学习(PPFL)
在联邦学习架构上叠加额外的隐私增强技术通常被称为隐私保护的联邦学习(PPFL)。在联邦学习的基础上使用额外的隐私增强技术可以提高输入和/或输出隐私。

将在后续阶段更详细地讨论这些方法和组合的背后机制。这种综合方法确保了从数据输入到模型部署的每一步都提供了一定程度的隐私保护,从而防范未经授权的数据泄露,并增强对联邦学习过程的信任。

随附的解释还为如何在特定用例中实际部署这些技术提供了技术选项或考虑的参考。这旨在说明一种指示性的方法,展示如何有效地部署这些技术,而并非唯一正确的部署方式的权威指南,也并非对这些技术比其他潜在方法更优的具体认可。

[1] 本地节点的数据库结构

1.a) 可信执行环境(TEE)与联邦学习:

实施:TEE可用于为参与联邦学习的每个节点创建一个安全的本地环境。这确保了本地数据的中间计算在安全的服务器区域内被隔离。而联邦学习本身通过仅共享模型权重更新来防止其他方访问本地原始训练数据,TEE则在此基础上增加了额外的安全层。

TEE可用于创建一个安全的本地环境,进一步保护计算和模型更新免受潜在的篡改或未经授权的访问,即使在本地设备内部也是如此。这在本地攻击风险较高或需要额外基于硬件的安全性的场景中尤其有用。

交互:联邦学习的本地模型训练可以在TEE内进行。在此过程中,只有模型更新(而非原始数据)会被发送到中央/全局节点(与数据库结构连接的节点[2])。这既提供了额外的安全层,又受益于集体学习。

1.b) 同态加密(HE)与多方计算(MPC):

实施:HE允许直接在加密数据上执行计算,确保敏感数据在处理过程中始终保持受保护状态。这防止了任何一方访问未加密的数据,从而增强了隐私性。

MPC允许多个方在保持其输入对彼此保密的同时,协作计算一个函数。

通过利用TEE、HE或MPC,组织可以在不泄露敏感数据的情况下执行安全计算,为联邦学习的固有保护提供了额外的隐私层。

交互:HE确保数据在传输和计算过程中保持加密状态,而MPC允许这些加密结果在全局节点或数据库之间安全地组合,从而增强了输入和输出的隐私性。这种技术组合有助于防范推理攻击,在需要协作分析的场景中尤其适用,能够实现安全且私密的集体计算。

1.c) 合成数据生成:

实施:合成数据生成涉及创建人工数据集,这些数据集复制了真实数据集的统计属性。这种合成数据可用于初始模型训练和测试,而不会暴露敏感信息,这在数据隐私是特定关注点(由于涉及特别敏感的信息)的场景中非常有价值。如果合成数据制作精良且不包含任何可识别信息,则通常不需要额外的隐私技术。然而,在担心合成数据可能与外部数据相关联以推断敏感信息的情况下,可以应用差分隐私等技术来增加额外的保护层。

交互:合成数据可用于安全地进行实验、验证模型或训练机器学习系统,而不会冒暴露真实敏感数据的风险。合成数据集与机器学习模型或分析工具之间的交互与真实数据相似,从而允许进行准确的测试和开发。

在可能推断出敏感信息的情况下,使用差分隐私或其他隐私保护技术可以确保,即使合成数据被未经授权的方访问,重新识别的风险也仍然很小。

[2] 中央全局节点(联邦学习的聚合器)

2.a) 带有差分隐私的联邦学习:

实施:在聚合器上实施差分隐私技术,向聚合的模型更新中添加噪声,通过使模型更难以追溯到个人贡献来增强模型的隐私性。

交互:将联邦学习与差分隐私相结合,可以确保即使聚合模型被暴露,个体数据源隐私被泄露的风险也会降低。

2.b) 带有合成数据的联邦学习:

实施:合成数据可用于在开发阶段对机器学习模型进行初步基线和验证。这种方法允许使用模仿真实数据集的数据进行早期测试和模型架构调整,而不会暴露敏感信息。一旦确认模型按预期运行,则应使用真实数据对其进行进一步训练,以确保准确性和有效性,然后再部署到本地节点进行联邦学习。

交互:联邦学习可以使用合成数据在各种条件下进行校准和测试,以确保在部署使用真实用户数据的模型之前具有稳健性。在交互阶段,可以使用合成数据对模型进行测试和完善,这有助于建立坚实的基础,同时减少隐私泄露。然而,必须注意的是,如果模型仅基于合成数据进行训练,则不应将其推送到本地节点进行最终训练。相反,模型应使用真实数据进行额外训练,以确保其在现实场景中的准确性能,然后再部署到联邦网络中。

[3] 节点之间的连接

联邦学习与HE:

实施:HE可用于对节点之间传输的模型更新进行加密。这些更新虽然最初来源于数据,但不再是原始数据本身,而是代表学习到的模式的参数更新。对这些更新进行加密可以确保,即使在它们被聚合和处理时,底层数据模式也能免受潜在的推理攻击。

交互:在交互阶段,模型更新使用HE在节点之间安全传输。这些更新不再是原始数据,而是模型学习到的参数的加密表示。这种加密确保了在更新被聚合以完善全局模型时,它们仍然保持安全且无法访问,从而保护了底层数据的隐私。

[4] 联邦学习网络

模型整合:实施:本节展示了联邦学习过程的整合输出,即一个完全训练的模型,该模型整合了所有参与节点获得的洞察。

交互:该模型通过聚合更新进行了优化和完善,体现了去中心化网络的集体智能,同时保持了底层数据的隐私性。

[5] 终端用户设备(客户端)

客户端设备上的TEE和合成数据:

实施:TEE可在客户端设备上使用,以安全地处理数据,并使用合成数据模拟用户交互,而无需冒暴露真实数据的风险。合成数据可以从真实数据或数据集的匿名版本中生成。

交互:TEE确保了即使在设备被攻破的情况下,敏感数据(真实或合成)的处理仍然保持安全。

基线比较

在评估采用隐私增强技术(PETs)的成本和效益时,与替代方法进行比较是有用的。

在此PPFL示例中,一个有用的基线比较是在集中整理的数据上训练等效模型。假设这些数据由组织收集,来源于不同的实体,并包含个人或敏感信息。

尽管不使用额外PETs的联邦学习无法保护数据免受所有风险,但与基线解决方案相比,联邦学习仍然可以提供好处并提高安全性。在发生侵权行为时,ICO在考虑是否处以罚款时,会考虑已实施的技术和组织措施在数据保护设计方面的情况。使用联邦学习可能有助于证明已采取主动措施减少损害,这可能会对潜在的罚款产生有利影响。

数据保护影响评估(DPIA)
使用隐私保护技术可能会简化DPIA流程,从而降低法律成本。例如,通过最小化处理的个人数据量,联邦学习解决方案本质上应减轻一些隐私风险,否则这些风险需要考虑在内。

通过设计和默认方式将数据保护融入联邦学习系统的设计中,可能会降低固有的隐私风险。这可能会降低这些评估所涉及的法律开销。例如,由于合规性考虑已“融入”系统设计,因此审计系统的成本可能会降低。

分摊法律成本
在多个组织参与联邦学习项目的情况下,如果情况允许,共享法律资源或联合法律团队可能有助于在参与方之间分摊法律成本。然而,同样应该注意的是,使用不熟悉的新兴或新颖技术(如联邦学习)可能导致法律团队之间进行漫长的讨论,因为就什么是足够的安全和隐私保障措施可能难以达成共识。为了减轻这些挑战,在项目开始时建立明确、标准化的指南和最佳实践,可以帮助简化这些讨论,并减少达成协议所需的时间和成本。

联邦学习通过将数据保留在设备上而不是集中化来降低大规模数据泄露的风险。分布式数据处理最小化了攻击面,并将潜在数据泄露的影响限制在单个节点上,而不是整个数据集。

联邦学习避免传输原始数据的隐私保护特性符合安全最佳实践。这种一致性可能会降低保险公司的风险感知,从而可能降低保费。然而,如果建立了可重复的指南和标准来安全地实施联邦学习,则更有可能实现这一潜在好处。如果没有这些标准,实施的差异性可能会导致安全结果不一致,从而使保险公司保持谨慎。

长期考量
联邦学习的一些好处可能只有在长期内才能充分实现。组织应考虑产品/系统整个生命周期的成本和收益,这应包括考虑采用联邦学习在未来可能带来的更广泛机会。

使用联邦学习的长期好处包括提高将新数据源添加到模型训练中的长期效率,能够利用以前无法访问的数据资产,以及随着更成功的联邦分析解决方案的部署而产生的更广泛的网络效应(以下将对此进行更详细的探讨)。

整合新数据源

联邦学习能够通过系统设计,建立一种方法和结构来整合不同数据提供者的见解,从而提高系统的长期效率。
长期来看,联邦学习可以简化新数据源的集成过程,从而不断增强中央模型。虽然联邦学习本身就支持在不集中数据的情况下添加来自不同地点的数据源,但重要的是要认识到,一个设计良好的集中系统也可以有效地容纳未来的数据集成。
关键区别在于方法:联邦学习天然支持以最小干扰进行增量数据集成,而集中系统则需要谨慎的预见和设计才能达到类似的灵活性。
从数据资产中获取价值

总体而言,联邦方法提供了更广泛的机会来从受保护和敏感数据的价值中受益。数据所有者可能能够从以前无法访问的数据资产中解锁价值,而数据的价值对数据所有者而言是受到保护的,因为可以在不完全访问数据的情况下使用数据。根据具体情况,这可能对应于数据的直接货币价值,或更广泛的社会或经济利益。
PPFL提供了额外的安全性,允许对完整数据进行更大的控制和管理,从而可以增强输入和输出的隐私性。只共享关于模型更新的信息,这确保了实际数据的价值得到保护,并可用于其他机会。相比之下,在联邦学习中,由于缺乏额外的隐私增强技术(Privacy-Enhancing Technologies,PETs)层来提供安全性,数据的价值保护程度受到限制。
网络效应

采用联邦学习的用户可能会因为联邦方法更广泛使用和采用而产生的网络效应,而随着时间的推移获得复合效益。虽然联邦学习相对新兴,但随着时间的推移,更成功的基于联邦分析的解决方案的部署和通过它们的协作可能会鼓励更多采用这种方法。
联邦学习更广泛的应用将在组织和部门之间为使用联邦方法创造更多机会,这将带来更多合作和从数据中解锁更大价值的机会。


第一节 联邦学习的成本与收益


本节探讨了在不增加额外隐私保护的情况下,实施联邦机器学习方法所相关的成本与收益。它对比了上述基线场景,从技术、运营、法律以及更长期的维度进行了考量。

尽管部分具体内容涉及机器学习,但本节概述的考量因素也广泛适用于更广泛的联邦分析领域。

后续章节将探讨如何在这一解决方案的基础上叠加额外的隐私增强技术(PETs),以加强隐私保护。

技术考量

数据存储考量


基线场景要求组织建立并维护一个更大的中央数据库。

将大量数据集中到一个域中需要强大的安全保护;

在许多情况下,这种数据聚合可能会提高所需的安全级别,因为数据丢失的影响会更大,且威胁模型可能更加复杂。

如果数据是从多个数据拥有组织收集的,那么中央数据库可能需要遵守多套安全要求。

与此相关的成本包括实施适当的数据治理和安全机制以保护敏感数据,以及与此相关的持续运营成本。这种数据聚合往往导致一定程度的僵化,因为中央平台的任何变更都需要多个数据控制者或处理者的批准。

对于联邦学习而言,其中一些成本可能会降低。大部分数据将保留在其源头附近,并在本地进行处理,从而最大限度地减少了对大型中央数据库的需求,降低了单一数据泄露或外泄的风险,并且让数据拥有组织能够控制各自的数据集。与所有本地数据源的数据都需要复制并在中央进行处理的集中式设置相比,这可能是一种更高效的解决方案。联邦学习消除了数据复制的需求。然而,要全面评估这一方案在组织特定情境下的适用性,还需要考虑其他因素,例如现有数据存储基础设施的就绪情况。

联邦学习中的计算考量
在基线场景中,大量数据需要在中央进行处理。这意味着所有繁重的计算工作都在中央进行,从而导致较高的中央计算成本。
相比之下,联邦学习涉及在本地参与节点上训练模型,然后再在中央进行聚合。这减轻了中央服务器的计算负载,并将数据处理成本分散到联邦网络中。因此,与基线场景相比,中央计算成本可能会显著降低。在节点为单个用户设备(如手机)的场景中,这可能会降低中央成本,但可能会将负担和隐含成本转移到能力较弱的设备上。在多组织设置中,每个参与者承担部分计算成本,这可能导致对成本效益比的不同看法。
除了将计算负担转移到能力较弱的设备上之外,联邦学习还可能引入与连接相关的依赖性,这可能影响性能和可靠性。网络连接不稳定或较差的设备可能难以有效地参与联邦学习过程,可能会延迟模型更新或导致全局模型的不一致性。此外,对网络连接的高度依赖可能导致更高的延迟和潜在的数据同步问题,这可能降低学习过程的整体效率。必须仔细管理这些连接挑战,以确保所有参与设备都能在不损害联邦模式完整性的情况下有效贡献。对于计算更复杂的任务,上述影响将更为显著。例如,训练机器学习模型的计算开销远大于执行简单分析。
虽然联邦学习可能降低了中央服务器的计算开销,但它并不一定减少总体计算需求。事实上,当汇总所有节点的总计算量时,由于效率低下以及需要在许多节点上独立处理,联邦学习的总计算成本可能更高。
联邦学习的性能和效率在很大程度上取决于本地节点的计算能力,而这种能力可能各不相同。与用户设备(如手机)相比,组织服务器具有更强的计算能力和更长的电池寿命,而本地计算能力会显著影响性能。
相比之下,计算能力更强的设备可以在本地处理更复杂的模型,而不受同样的限制,但会以增加运营成本为代价。根据使用场景,对于在移动设备等上进行联邦学习,仔细评估和管理计算任务和电池使用情况可能很重要。对于计算密集型过程,这一考量更为重要。
叠加额外的隐私保护技术可能会显著影响计算开销。有关使用额外隐私增强技术(PETs)对计算影响的更详细信息,请参阅第2节和第3节。

技术复杂性
市场上对数据科学和机器学习技能的需求很高,这通常会导致无论采用哪种方式,都会面临较高的薪资成本以及招聘和留任挑战。然而,在联邦场景中还存在一些额外的挑战。

在多个节点上运行联邦学习过程所增加的复杂性,要求将数据科学和机器学习(ML)的理解与分析代码如何与基础设施(计算、网络等)交互的更深层次专业知识相结合。在集中式的基线场景中,这些大多通过一系列成熟的框架和软件产品,从数据科学家的工作中抽象出来。在联邦式方法中,现有的框架尚不成熟,并且很少有人有在复杂的现实场景中部署这些框架的经验。这有可能在短期内增加成本和风险;然而,随着联邦式方法变得越来越普遍,这种情况正在改善。

联邦式方法也可能给开发人员和数据科学家带来挑战。通常,数据科学和机器学习需要对数据进行迭代探索,尝试不同的方法并寻求理解结果。在联邦式方法中,数据科学家无法直接访问数据,这可能会增加难度。这也可能使故障排除问题更具挑战性。

联邦学习还可能引入与数据集中表示相关的潜在复杂性。例如,当在不同站点分布的数据上训练模型时,数据集特征可能存在显著差异,如医疗数据集中不同种族群体的比例不同。这些偏差可能不会被协调服务器发现,因此需要在本地层面付出额外努力来确保数据适合联邦训练。这可能涉及大量的数据预处理或详细的文档记录,以告知未参与协调的一方潜在的偏差,从而增加了整体过程所需的时间和资源成本。

尽管这确实为联邦式方法带来了额外的挑战,但重要的是要指出,对于集中持有的敏感数据集,许多相同的限制也可能适用,在这些情况下,数据科学家根本无法直接访问原始数据,或者只能在高度受限的情况下(如专用的物理环境)访问。使用虚拟数据和自动化验证流程是应对上述挑战的有效方法。这些方法有助于在没有直接数据访问的情况下模拟潜在问题并验证功能。

隐私、数据保护和法律考量
与传统的集中式过程相比,联邦式方法本身更具隐私性。联邦学习的分布式特性防止了数据的共享,从而最小化了数据泄漏或泄露的机会。由于数据分布在联邦网络中,整个数据集被泄露的风险通常较低。相比之下,在集中式方法中,如果服务器受到成功攻击,整个数据集都可能被访问。

尽管与基线相比,使用联邦学习可以带来隐私和安全方面的好处,但根据具体情况,仅使用联邦学习本身可能不足以满足英国《通用数据保护条例》(GDPR)的安全原则要求。

例如,如果没有额外的隐私增强技术(PETs),联邦学习可能会带来间接暴露用于本地模型训练的私有数据的风险。这种暴露可能通过模型反演、观察确定的模式(梯度)或其他攻击(如成员推理)来发生。如果攻击者能够观察模型随时间的变化、特定的模型更新或操纵模型,就会存在这种风险。有关在不使用额外PETs的情况下使用联邦学习的风险更多信息,请参阅信息专员办公室(ICO)的指南。

这种数据泄露的风险使组织面临法律诉讼以及来自ICO和/或数据主体的风险,以及相关的罚款;然而,应该注意的是,与集中式解决方案相比,某些风险水平仍然较低。

虽然可以在不使用额外PETs的情况下使用联邦学习,但组织可能会发现这样做更加困难,并且更难证明已经采取了充分措施来保护个人数据(与使用额外PETs实施联邦学习相比)。这可能意味着组织未能满足解决方案需证明通过设计和默认方式保护数据的要求。

不使用额外PETs的联邦学习可能会留下从模型输出中重新识别个人的风险。未经授权的重新识别个人可能会导致ICO的监管行动(第3节中对此进行了更详细的讨论)。是否使用PETs来保护输出隐私将取决于处理的性质和目的。组织需要考虑是否需要匿名输出、数据集的大小以及分析结果所需的准确性和实用性。

为了减轻这些风险,组织可能希望通过叠加多个PETs来创建隐私保护联邦学习(PPFL)解决方案。有关可能与PPFL方法相结合的PETs相关的法律考量更多信息,请参阅以下链接部分:

第2节 输入隐私的法律考量

虽然与基线场景相比,联邦方法提高了隐私保护水平,但组织可能希望加入额外的隐私增强技术(PETs),以确保在任何时候,任何处理方都无法访问或推断出敏感输入。

通过将可信执行环境(TEE)、同态加密(HE)或安全多方计算(SMPC)等额外的PETs融入联邦解决方案中,可以实现更高水平的输入隐私。参见图1,了解这些PETs在隐私保护联邦学习(PPFL)架构中的应用示例。这些PETs也可用于广泛的其他用例,并且希望部署这些技术的组织将会遇到类似的成本和效益。

本节将详细介绍可以改善我们PPFL用例中输入隐私的不同类型的PETs、这些方法的成本和效益,以及这些PETs可以启用的其他用例。

关键技术

同态加密


同态加密(HE)允许直接在加密数据上进行计算。

传统的加密方法允许数据加密后在传输过程中或静止状态下保持加密状态,但需要解密后才能进行处理。

HE则允许数据在静止状态、传输过程中以及处理过程中均保持加密状态。

处理方在任何时候都无法访问未加密的数据,也无法解密加密的数据。

HE有三种形式,每种形式允许不同类型的操作:

部分同态加密(PHE):只允许对加密数据执行单一类型的操作(例如加法)。

有限同态加密(SHE):允许对加密数据执行某些组合操作(例如一些加法和乘法)。

全同态加密(FHE):允许对加密数据执行任意操作。

除非另有说明,本资料中提到的HE均指所有形式的同态加密。

示例

一家运营密码管理器的科技公司希望监控其用户的密码是否已被破解并在网上泄露。该公司收集用户密码的同态加密版本,并将这些密码与已泄露密码列表进行比较。公司可以在不解密用户密码的情况下进行这些比较。然后,如果用户的密码已被泄露,公司可以提醒用户,而实际上从未访问过用户的凭据。

可信执行环境

可信执行环境(Trusted Execution Environment,TEE)是处理器内部的一个安全区域,与主操作系统并行运行,与主处理环境隔离。它提供了额外的安全保障,确保加载到TEE内的代码和数据在机密性和完整性方面得到保护。TEE提供了执行空间,确保敏感数据和代码在安全环境中存储、处理和保护。在实际应用中,这意味着即使主处理器或操作系统被攻破,TEE仍然保持安全。

这种隔离通过一系列硬件强制的控制措施来防止未经授权的访问。此外,TEE的安全设计有助于保护更广泛的处理器系统,将任何潜在的恶意代码或数据泄露限制在TEE本身内。这种限制确保了威胁不会扩散到系统的其他部分,从而增强了整体安全架构,并降低了系统广泛漏洞的风险。

虽然TEE通过隔离和限制潜在威胁提供了强大的安全保障,但其有效性也取决于TEE提供商的可信度。例如,TEE安全功能的完整性取决于提供商实施和维护这些控制措施以及解决任何漏洞的能力。必须承认的是,如果TEE提供商被攻破,或者TEE存在未发现的漏洞,那么TEE提供的安全保证可能会受到破坏。一些TEE提供商旨在通过利用开源代码和独立验证流程来减轻这些风险,并提高TEE的透明度和信任度,但这些解决方案相对较新,在此不做进一步讨论。

示例

一家开发移动消息应用程序的公司希望将用户与其手机上同样使用该平台的联系人进行匹配。该公司通过将用户的联系人与其更广泛的用户数据库进行比较来实现这一点。公司不希望直接访问用户的联系人数据。用户的联系人数据会被加密并上传到公司服务器内部的可信执行环境(Trusted Execution Environment,TEE)中。在这个TEE内部,用户的数据会被解密,并与公司的用户数据库进行比较。然后,关于用户联系人与公司用户群之间匹配的信息会被返回给用户。由于用户的联系人数据仅在TEE内部被解密,因此公司从未见过这些数据,也不会收到未加密数据的副本。

安全多方计算

安全多方计算(Secure Multiparty Computation,SMPC)协议允许多个参与方在保持输入数据对其他参与方保密的同时,对数据进行协作处理。这通常是通过将数据分散在多个网络节点上来实现的。每个节点都托管一个“不可理解的碎片”(unintelligible shard),即数据的一部分,单独来看,它无法被用来推断原始数据的信息。然后,在各个碎片上本地完成函数计算,并将结果聚合以产生最终结果。

Case studies

  • BWWC (July 2021) Product - SMPC

  • Eurostat (June 2023) Proof of concept - TEE

  • Microsoft (July 2021) Digital product - TEE

  • Indonesia Ministry of Tourism (June 2023) Digital product - TEE

  • Secretarium/Danie (Finance) (June 2023) Product - TEE

  • Enviel (July 2021) Proof of concept - HE

部署额外的隐私增强技术(Privacy-Enhancing Technologies,PETs)以提高输入隐私的成本与收益

技术考量

使用安全多方计算(Secure Multi-Party Computation,SMPC)、可信执行环境(Trusted Execution Environments,TEEs)或同态加密(Homomorphic Encryption,HE)可以为联邦解决方案提供更高水平的隐私保护,但会牺牲数据处理器的可见性。这种可见性的缺乏在运行代码处理数据时,可能会给测试和故障排除带来问题。在TEE和HE解决方案中,数据处理器无法查看数据,从而确保了数据的机密性。SMPC涉及数据的分片,将无法理解的数据段分发给各方,确保任何单个分片都不会泄露有关原始数据的任何信息。虽然有一些选项可以缓解测试难题,但它们可能会产生额外的成本。

部分同态加密(Partially Homomorphic Encryption,PHE)和全同态加密(Fully Homomorphic Encryption,SHE)也带来了隐私与实用性之间的权衡,因为额外的隐私层级可能会限制可以对数据执行的操作类型和数量。这是因为,虽然这些系统通常比全同态加密(FHE)性能更高,但它们仅支持有限数量的预定操作。组织必须评估其用例的具体需求/要求,以选择最合适的方法。FHE和TEEs则不会面临这种隐私与实用性的权衡。同样,SMPC也没有这种权衡,但协议必须这样设置:确保没有任何数据分片包含足以推断出原始数据的数据集比例。

相比之下,传统的基线示例比TEE、HE或SMPC的技术成本更低,因为所有数据都是直接可用且可见的。在隐私保护的联邦学习(Privacy-Preserving Federated Learning,PPFL)解决方案中,数据访问权限也低于基线示例,然而部署这些额外的隐私增强技术增加了一层技术复杂性,以换取更高的数据隐私。

输入隐私方法中的隐私保护基础设施

同态加密(HE)和可信执行环境(TEEs)都为数据共享至网络后的管道提供了增强隐私的方法。使用同态加密时,数据在数据控制者控制范围之外时仍保持加密状态。数据处理者无法访问或解密底层数据。而使用可信执行环境时,数据仅在TEE内部解密,TEE是一个独立的处理环境,数据处理者无法访问。数据在移出TEE之前会被加密,并且只能由数据控制者再次解密。
与同态加密相比,可信执行环境需要各方之间建立更高程度的信任,因为必须相信环境已正确设置。可信执行环境也存在一些安全风险,例如通过侧信道攻击,可以从计算系统产生的信号中推断出TEE内部计算的信息。由于可信执行环境依赖于硬件,因此一旦发现漏洞,可能难以修补(见下文——测试与故障排除)。
安全多方计算(SMPC)有一套独特的隐私要求,这些要求与对本地节点各方信任度的考量相关。不诚实或勾结的各方可能会泄露信息或破坏SMPC协议。因此,在设计协议时,组织可能希望确保对这些攻击向量具有额外的抵御能力。
与未使用SMPC、TEE或同态加密的联邦学习相比,这些解决方案的安全性要高得多。未加密或“可理解”的联邦管道容易受到一系列攻击,包括中间人攻击,这种攻击可用于从本地节点窃取数据。

输入隐私保护方法的计算考量 

与基线集中数据集方法相比,安全多方计算(SMPC)由于节点间通信需要更复杂的协议,因此会导致更高的计算开销。然而,如果你的组织正在将SMPC作为联邦解决方案的一部分进行部署,那么这些开销可能微不足道。联邦系统通常处理大量的模型更新传输和分布在各节点上的计算负载,使得SMPC带来的额外负担显得不那么重要。

与SMPC、全同态加密(FHE)和基线相比,部分同态加密(PHE)和同态加密方案(SHE)提供的操作数量有限,从而限制了可以进行的处理活动类型。例如,PHE和SHE中的操作限制可能会阻止联邦学习的执行。因此,在选择PHE或SHE方案之前,必须了解系统所需的操作性质。

FHE允许进行任意操作,并且没有像PHE和SHE那样的功能限制。使用FHE的组织能够更改他们正在执行的操作。然而,FHE会带来巨大的计算开销,使得数据处理成本高昂,并且影响延迟。许多复杂操作根本不具备实用性。这是一个活跃的研究领域,未来很可能取得改进,计算开销也有望降低。

相比之下,与基线示例一样,可信执行环境(TEE)内的数据可以在不加密的情况下进行处理,这使得其计算效率更高,因此比同态加密更便宜、更快。在处理大量数据时,这些节省可能是显著的。TEE和基线解决方案都允许执行任意操作。

测试与故障排除考量

测试考量
在可信执行环境(TEE)和同态加密(HE)中,数据对数据处理者是不可见的。这可能在问题出现时给识别和解决问题带来困难。相比之下,在我们的基线解决方案中,数据对数据处理者是可见的。为了减轻潜在错误的发生,使用TEE和HE的组织可能会创建额外的验证路径、用于测试的虚拟数据以及清晰的数据模式,尽管这会增加额外成本,但可以确保在采用HE和TEE解决方案时流程按预期运行。
我们的基线方法和基于TEE的解决方案都可能涉及在非完全隔离或安全的环境中处理真实数据。这可能导致敏感数据意外保留在日志文件中、内存转储中或中间计算结果里,从而带来重大的安全和合规风险。
虽然安全多方计算(SMPC)通过分片来降低对整体数据的可见性,但与TEE和HE等环境相比,这一特性可能会使测试和调试变得更加复杂。在TEE和HE中,尽管数据保持加密或隔离状态,但完整的数据集仍然完好无损,并且可以在安全或加密环境内对其进行整体操作或检查。
这种完整的视图使得集成问题的错误识别和解决更加容易。相比之下,在SMPC中,数据处理是分片的,这意味着与不同方之间的数据集成或解释相关的错误可能难以检测和纠正。SMPC中的调试通常需要复杂的模拟和合成数据方法,以有效地模拟分布式计算过程,并确保集体操作产生正确的结果。
补丁考量
虽然SMPC、TEE和HE通常比基线示例更安全,但它们并非无懈可击,使用这些系统的漏洞仍然可能出现。
由于TEE是基于硬件的,因此为漏洞打补丁可能比为基于软件的解决方案打补丁更具挑战性。当TEE出现问题时,可能需要更换物理硬件来减轻威胁或问题,从而导致更换成本以及与解决问题所需的停机时间相关的成本。
在SMPC、HE、标准的联邦学习场景或我们的基线场景中修复问题或漏洞时,不会面临同样的问题,因为它们是基于软件的。
输入隐私保护方法的法律考量

设计使用同态加密(HE)或可信执行环境(TEEs)来处理个人数据或敏感数据的组织必须让法律和监管团队参与,以确保遵守数据保护法和特定行业的法规。使用TEEs或HE可以帮助组织遵守数据保护法规,降低合规成本,并最大限度地减轻组织的法律义务负担。与我们的基线解决方案相比,这些技术还可以提供更简单、更具成本效益的合规途径。
安全多方计算(SMPC)确保只共享必要信息,同时不影响数据的实用性或准确性。通过使用SMPC,并保持其他方的输入私密性,可以防止攻击者轻易篡改协议输出,从而证明遵守了安全原则。此外,使用SMPC还有助于遵守数据最小化原则,因为各方仅了解其输出,避免了不必要的信息暴露。另外,SMPC通过单独处理共享信息(即使在同一组织内),也有助于降低个人数据泄露的风险。
数据披露
使用TEEs或HE可以保护正在处理的数据不被披露给处理方。相比之下,在基线场景中,这些数据对数据处理者是公开可见的。
TEEs在隔离环境中处理数据。这确保了正在处理的数据受到保护,不会被披露,并提供了数据完整性、数据保密性和代码完整性的保证。
HE通过确保只有拥有解密密钥的各方才能访问信息,从而保护数据不被披露。当在不受信任的环境中进行计算外包时,它可以为组织提供一定的保证。处理方永远不会了解“原始”未加密数据、计算过程或计算结果。
SMPC也可以满足保护数据不被披露的要求,前提是充分缓解了不诚实方之间勾结的风险。
与基线场景相比,这种防止披露的保护可以帮助组织以不同的方式遵守英国《通用数据保护条例》(UK GDPR)中的安全原则和数据保护设计要求。
数据泄露
与基线场景相比,使用TEEs、HE和SMPC还可以帮助降低数据泄露的风险,以及相关的处罚和声誉损害。
TEEs通过为数据处理提供安全环境和强大的供应链安全,降低了数据泄露的风险。这是因为TEEs实施通过信任根(即加密系统中始终可以信任的来源)为设备嵌入唯一身份。
HE也防止了数据泄露的风险。由于数据在静止、传输和处理过程中都是加密的,因此任何泄露的数据对攻击者来说都应该是不可理解的。
同样,SMPC也降低了数据泄露的风险,因为分布在多个网络节点上的碎片化数据在单独情况下无法用于揭示或访问原始数据。在所有情况下,TEEs、SMPC和HE提供的额外数据泄露保护都可能降低组织面临的法律责任和成本。而这些额外保护在基线场景中均未提供。
数据治理
正确使用TEEs可以在实践中帮助组织进行数据治理,从而有助于降低与审计和其他合规要求相关的成本。与基线场景以及HE和SMPC相比,TEEs可以通过简化和自动化治理和透明度的某些方面来提高效率。
例如,可以将TEEs配置为提供数据处理活动的可靠且防篡改的日志记录,以供审计。这种日志记录可以使组织能够追踪TEE内每项操作的来源(例如用户、进程或系统),从而帮助组织遵守英国《通用数据保护条例》(UK GDPR)中的问责原则。

第3节 输出隐私的法律考量

本节将探讨确保数据处理后(输出隐私)仍然安全的方法。
组织可以采用一系列传统方法来实现这一目标,例如在发布数据或共享数据进行进一步处理之前对数据进行匿名化处理。例如,在向不受信任的节点发送数据集之前对其进行匿名化处理,或者在传输过程中阻止对数据的访问,以降低即时风险。
在隐私保护联邦学习(PPFL)用例中,可以通过在联邦解决方案中融入额外的隐私增强技术(PETs),如合成数据或差分隐私(DP),来提高输出隐私。见图1,其中示例展示了这些PETs在PPFL架构中的应用位置。本节将更详细地探讨这些方法的成本与收益。这些PETs适用于广泛的其他用例,考虑采用这些方法的组织将遇到类似的成本与收益,特别是当这些方法被视为传统匿名化或伪匿名化技术的替代方案时。
实现方法
差分隐私
差分隐私(DP)是一种正式的数学框架,旨在确保数据隐私。它通过向数据添加噪声来实现这一点,即插入随机变化以引入失真,无论是针对输入数据还是其生成的输出数据。通过向数据集中注入随机噪声,DP增加了确定数据集中是否存在与特定个人相关联的数据的难度。
在DP中,噪声是通过随机化机制添加的,这些机制降低了网络记忆明确训练样本的能力。添加的噪声越多,最终数据集可能越不准确,从而导致隐私与实用性之间的权衡。这种权衡通过Ɛ-差分隐私的概念进行量化,其中Ɛ参数表示可从数据集结果中推断出的最坏情况下的信息量。隐私预算,由Ɛ定义,设置了可添加到数据集中的噪声的最大阈值。此预算根据上下文和应用而变化。值得注意的是,没有标准化的方法来确定Ɛ应如何计算。
DP的应用可大致分为交互式和非交互式方法。每种方法都对数据实用性和实施者可用的隐私预算产生影响。了解这些区别对于确定最适合组织需求和特定用例的方法至关重要。
交互式DP通过允许用户查询数据库并接收带噪声的答案的机制来实现。这种方法通常涉及受信任的管理者或算法实时向查询中添加噪声。系统跟踪隐私预算,并确保添加到查询中的总噪声不超过此预算。
非交互式DP涉及对数据集进行净化或生成并发布保留原始数据统计特性的合成数据集,同时确保隐私。在这种方法中,数据发布者创建一个预先处理过噪声的差分隐私数据集,确保后续与数据的交互不涉及原始数据集。
非交互式DP还可以增强输入隐私。例如,组织可能使用非交互式DP生成一个净化后的数据集,然后在交互式DP系统中使用该数据集。这种组合确保了对数据库的进一步查询得到了双重保障:首先通过净化后的数据,其次通过基于每个查询的实时噪声调整。

示例

一家社交媒体公司希望发布关于用户平台上对电视节目兴趣的数据,以便研究人员评估趋势。为确保用户无法被识别,公司向数据集中注入了噪声。在此案例中,电视节目被归类为不同的类型,而添加的噪声会将实际节目更改为同一类型的节目。这确保了用户对电视节目的实际偏好在差分隐私的保护下得以保留,同时维持了数据中的总体趋势。

合成数据
如果使用差分隐私,合成数据也可用于在共享/发布时增强输出隐私,以保护敏感信息。合成数据是基于原始数据集生成的人工信息,旨在保留原始数据集的模式和统计特性。由于这种人工数据在细节上与原始数据不完全相同,因此它提供了一种保护个人数据隐私的方法,使得可以进一步对数据进行分析,并且使数据中的趋势和特征得以更广泛地访问。

合成数据的不同类型包括:

部分合成数据:包含部分真实数据,但删除了敏感信息。

完全合成数据:不包含任何原始数据。在这种情况下,会生成一个全新的数据集来模拟原始数据的属性。

混合合成数据:这种方法同时包含真实数据和完全合成数据。

合成数据可能是静态的(一次生成并固定)或动态的(多次生成并更新)。

示例
一家政策研究机构希望公布一项研究的结果数据,以便后续开展进一步研究。该数据集包含敏感信息,但该机构希望尽可能详细地共享这些数据,以便进行更深入的分析。他们将原始数据上传至一个合成数据生成器。该生成器会识别数据集中的统计模式,并复制这些模式以创建一个全新的合成数据集,该数据集不包含任何原始数据。

Case studies

Facebook - democracy research initiative (July 2021) DP

Alan Turing Institute - health tokens (July 2021) DP

Statice - predictive analytics for insurance (June 2023) Synthetic Data

Replica Analytics - healthcare data for research (June 2023) Synthetic Data


在PPFL(隐私保护联邦学习)中叠加额外隐私增强技术(PETs)以提高输出隐私的成本与收益
技术考量
在PPFL应用场景中,使用差分隐私(DP)或合成数据可以增强输出隐私。这两种方法都会带来额外的计算成本。无论是使用合成数据还是差分隐私,确保数据足够私密以防止其被恢复都是一个重要的考量因素。这两种方法都涉及隐私与效用的权衡,即某一特性的增强会以牺牲另一特性为代价。组织需要考虑其使用场景的具体背景,以确定如何平衡这种权衡。
输出隐私方法中的隐私保护基础设施

差分隐私(DP)和合成数据相比通过更传统方法对数据进行匿名化处理,具有更高的隐私保护水平,但这会以牺牲效用为代价。
在差分隐私中,如果隐私预算过高,数据可能会失去其效用;而如果隐私预算过低,则原始数据可能以更高的确定性被恢复。向数据集中注入更多的噪声可能会导致数据中的趋势丢失,或者引入不准确之处。对于数据中表示的较小子群体而言,这些影响更为显著。这高度依赖于具体情境,且由于目前不存在关于隐私预算的标准,组织需要决定他们愿意牺牲多少效用来使数据集具有足够的差分隐私性。在某些情境/用例中,组织还需要考虑如何向用户传达这一点。
同样,在合成数据中,由于包括原始数据集与合成数据集相比的规模或部署的合成数据类型(完全、部分等)等因素,从真实数据中的趋势创建的数据集并不能保证反映原始数据。例如,如果数据集具有某一特定特征的少数类别,由于生成工具放大了数据中现有的趋势和偏差,这些模式可能会在新数据生成或扩展时丢失。这可能导致合成数据集无法代表真实数据。通过这种方式,隐私增强技术(PET)提高了隐私保护,但代价是丢失了数据中的趋势,降低了其效用。组织可能希望通过将合成数据集中发现的结果与真实数据集中的结果进行比较,来测试其合成数据的效用,以确保两者具有可比性。
相反,在不部署差分隐私的联邦处理流水线中,数据的效用通过不改变其任何特征而得到最大化。然而,这提供了对数据恢复的隐私保护大大降低。主要的数据恢复风险包括原始训练数据可能在没有适当保护的情况下被恢复。这种缺乏隐私保护的情况甚至可能阻止匿名数据用于某些目的,如果匿名敏感数据被重新识别的风险被认为过高(见下文——法律考量)。
数据库考量

虽然合成数据可以增强输出隐私,但数据在存储时仍必须得到保护。存在一些威胁模型,可能允许对数据进行重建,包括成员推断(判断某个个体是否在原始数据中)、属性推断(恢复缺失属性)和重建攻击(恢复原始记录)。完全合成数据可能面临这些威胁的风险较低,因为即使攻击成功,数据集中也不包含任何真实数据。
寻求部署合成数据的组织还应考虑研究人员将如何使用其数据,这将决定所需数据的详细程度以及发布模型的类型。如果认为敏感数据可能会被识别,组织可能希望在合成数据上叠加额外的隐私增强技术(PETs),例如在合成数据集上部署差分隐私。虽然这会给组织带来额外成本,但它能为存储中的数据提供保护。
输出隐私方法中的计算考量
与传统方法(如匿名化)相比,使用合成数据或差分隐私(DP)在设置过程中会产生更大的计算开销。合成数据可以通过使用生成对抗网络、变分自编码器或其他机器学习机制来生成,与传统匿名化方法相比,这些方法会带来额外的成本。此外,如果组织希望创建动态合成数据,那么每次生成或更新新数据集时,都将面临持续的成本。
差分隐私的计算成本则更加多变,其需求取决于数据集的规模和复杂性以及隐私预算。隐私预算的设置取决于差分隐私是全局的还是局部的。本工具包特别关注了在隐私保护联邦学习(PPFL)管道中的全局差分隐私(Global DP)。全局差分隐私指的是在整个数据库或数据集集合上大规模应用DP技术,而不是在较小或单个的数据段上应用。这种方法涉及在整个数据集或全局输出中注入噪声,以确保单个数据贡献被掩盖,从而保护整个数据集中的个人隐私。全局差分隐私由于每次发送新查询时都要注入噪声,因此会产生额外成本,而不是一次性成本。在联邦学习管道中,这一点尤其重要,因为每当调用数据或模型时,都可能应用差分隐私。
在规划部署合成数据和差分隐私等隐私增强技术(PETs)时,这些计算考量至关重要,因为它们对有效数据隐私管理所需的初始和持续资源都有重大影响。通过了解这些成本,组织可以更好地将这些技术融入其数据流程的策略中,确保隐私增强不会损害运营效率。
输出隐私方法的法律考量

在某些情况下,使用差分隐私(DP)和合成数据可以有效地对个人数据进行匿名化处理。组织仍需考虑一些成本,包括可能需要寻求法律咨询以确定数据是否真正匿名,但那些希望提供数据的组织通过使用DP或合成数据,有可能降低法律和合规成本,以及与数据共享和处理相关的职责。
数据保护法不适用于已被评估为匿名的合成数据或差分隐私数据,因此,确保遵守数据保护法的相关法律成本降至最低。有关有效匿名化数据的更多信息,请参阅信息专员办公室(ICO)的指导。此外,使用合成数据或DP可以使组织在原本使用可识别数据会面临挑战的情况下利用数据。
差分隐私
如果添加了足够程度的噪声,两种差分隐私模型都可以使输出匿名化。
如果使用非交互式DP,可识别信息的程度是信息本身的属性,该属性针对给定的隐私预算而设定。一旦数据发布,后续查询就无法调整数据中的可识别性程度。这可以降低法律成本,因为数据不需要像交互式差分隐私那样进行持续的交互监督。
如果使用基于查询的交互式模型,可能需要法律咨询来制定合同控制措施,以降低各方查询数据(汇总查询结果并增加对数据集的集体了解)之间串通的风险。
如果DP配置和管理得当,个人数据被重新识别的风险可以降低到最低水平,从而显著降低因未能匿名化个人数据而可能面临的罚款和执法行动的风险。
合成数据
如上所述,数据保护法不适用于已被评估为匿名的合成数据,因此,确保遵守数据保护法的相关法律成本降至最低,例如无需满足数据主体请求。如果认为数据已匿名化,应随着时间的推移以及新攻击和任何可能增加合成数据可识别性的新数据源的发布,对合成数据的可识别性进行测试。
匿名合成数据可以节省获得真实数据使用批准的时间和法律成本,作为原型制作和系统测试的有效替代品。
在寻求共享合成数据时,可能也需要考虑类似的问题。在确定合成数据是否不包含个人数据或是否会无意中泄露个人数据(例如,通过推断攻击)时,可能需要法律咨询。使用差分隐私合成数据生成算法可以帮助将重新识别的风险降低到足够低的水平。
根据数据的发布机制,组织可能会通过数据共享协议和必要的合同控制措施产生法律成本,以明确界定用户可以对数据执行和不可以执行的操作。例如,如果数据发布到只有经批准的研究人员才能访问的封闭环境中,应制定合同控制措施,规定在未经评估和减轻数据中的任何偏差和不准确性之前,不得使用合成数据对个人做出决策。另外,如果数据是公开发布的,没有任何访问控制,那么就不适用任何合同控制或限制。
结论
使用隐私增强技术(PETs)并不是解决组织可能面临的所有隐私问题的“万能钥匙”,然而,在组织的背景和预期用例适当的情况下正确地采用这些技术,有可能引入和/或释放一系列好处。在采用任何PETs之前,重要的是要权衡解决方案的成本与这些好处,以确定该技术是否适合您的组织。
附录:PET 成本效益清单
在决定部署基于 PET 的解决方案之前,组织应该确保已为基于 PET 的解决方案和其他可能的方法考虑了以下所有内容:

1. 促进解决方案所需的数据存储的成本和收益

2.采用PET如何影响计算要求

3. 隐私保护基础设施和数据效用之间的权衡

4. 该解决方案将如何创建新的或增强检测和故障排除路径


5. 实施解决方案所需的技术技能和资源

6. 潜在解决方案对遵守相关法规的影响

7. 随着 PET 生态系统的发展,可能出现的长期成本和收益

清华大学智能法治研究院
发布清华大学法学院、清华大学智能法治研究院在“计算法学”(Computational Law)前沿领域的活动信息与研究成果。
 最新文章