2024年11月7日,英国政府科学、创新和技术部(DSIT)的责任技术采用小组(RTA)与英国信息专员办公室(ICO)合作创建联合发布了隐私增强技术 (PET) 成本效益意识工具.该资源旨在帮助组织了解和评估与采用各种 PET 相关的成本和收益。除了这些资源,还发布了一个支持组织的清单确保他们已经考虑了这些因素。
隐私增强技术(PET)是一种保护敏感信息隐私或机密性的技术方法。这一术语涵盖了广泛的技术,包括更传统的隐私增强技术和更新颖、新兴的隐私增强技术。
传统隐私增强技术是更为成熟的隐私技术,如加密方案,这些方法可确保信息在传输和存储过程中的安全;去标识化技术,如标记化,用唯一标识符替换敏感数据;以及泛化,通过去除具体细节来降低数据敏感性。
本工具包重点关注新兴的隐私增强技术,这些技术是解决数据驱动系统中隐私挑战的相对新颖的解决方案。虽然新兴隐私增强技术没有固定的定义,但本工具包主要考虑以下技术:
同态加密(HE):一种直接在加密数据上进行计算的加密方法。
可信执行环境(TEEs):处理器内的一个安全区域,与主操作系统并行运行,与主处理环境隔离。也称为安全飞地。
多方计算(MPC):加密协议,使多方能够共享或协作处理数据,而不披露各方所持信息的细节。
合成数据(synthetic data):生成的人工数据,用于保留其基于的原始数据集的模式和统计特性。
差分隐私(differential privacy):一种确保数据隐私的正式数学方法,通过向输入数据或其产生的输出中添加噪声来工作。
联邦分析(federated analytics):以分散的方式处理数据以产生分析或执行机器学习,通常与上述技术的组合一起使用。
本工具包的背景
隐私增强技术可在众多行业中支持广泛且日益增多的用例(请参阅我们的隐私增强技术用例库)。
本工具包围绕一个高级用例构建:使用隐私保护的联邦学习来训练机器学习模型,而无需直接共享数据。
此用例聚焦于联邦分析的一个子集,即联邦学习,并与其他隐私增强技术结合使用,以提高输入隐私(在训练机器学习模型的处理阶段保护原始数据)和输出隐私(保护处理后共享或发布的数据)。联邦学习与其他隐私增强技术的结合通常被称为隐私保护的联邦学习(PPFL)。
DSIT和ICO使用这个PPFL用例来构建本指南,因为它涉及一系列相关的隐私增强技术,并为评估潜在的成本和收益提供了一个明确的基准。这种类型的用例是2022-23年度英美隐私增强技术奖挑战赛的关注点,DSIT和ICO在设计这些挑战赛时发现,PPFL用例具有在不损害隐私的前提下改善组织间和跨境数据协作的潜力。然而,本文件的分析对于在相关情境中部署相同新兴隐私增强技术的其他情况同样具有相关性。
除本工具外,发布者还制作了一份清单,以支持考虑使用隐私增强技术的组织,确保他们已考虑本文件中概述的影响。
如何使用本工具包
第1节探讨了联邦学习的成本和收益,即在数据仍分布于不同位置或组织时训练模型,这是我们的PPFL用例不可或缺的一部分。
以下部分(第2节和第3节)讨论了在这一解决方案的不同阶段叠加其他隐私增强技术所产生的成本和收益。它们考虑了在两端部署额外的隐私增强技术:提高输入隐私(第2节)和提高输出隐私(第3节)。这些术语将在下文解释。
根据读者的预期用例,本文件的不同部分可能对不同读者更有用和更相关。
对联邦分析或联邦学习(不采用额外的输入和输出隐私技术)感兴趣的读者应阅读本引言和第1节。
对PPFL感兴趣的读者应阅读本文件的全部内容。
对提高输入隐私(或同态加密、可信执行环境、多方计算)的方法感兴趣的读者应阅读第2节。
对提高输出隐私(或差分隐私、合成数据)的方法感兴趣的读者应阅读第3节。
本节的其余部分将介绍联邦分析、联邦学习和PPFL,这些技术支持了本文件中评估的用例。本节还将介绍一种使用更传统方法的基线解决方案,以便在整个文档中为我们的PPFL解决方案提供一个比较点。
输入和输出隐私
输入隐私侧重于在整个处理阶段保护原始数据。有效的输入隐私确保在任何时候任何方都无法访问或推断出敏感输入。这种保护可能涉及:
防止未经授权的访问:确保所有数据处理都是在任何一方都无法访问或推断出原始原始数据的情况下进行的。这涉及访问控制和防止间接推断攻击的组合。
攻击性安全考虑:预测并抵消对手可能采用的潜在攻击性安全技术,以获得对系统的未经授权访问。这包括防御利用可观察的系统变化(如时间或功耗)的攻击。
主动攻击对策:利用强大的防御技术和方法,包括质量保证周期和严格的红队演练(红队演练也在2022-2023年度英美隐私增强技术奖挑战中使用,是一个过程,其中被称为“红队”的参与者故意模拟可能在现实世界中发生的攻击,以严格测试其他人创建的解决方案的强度),以主动最大限度地减少攻击面。这些措施有助于识别和减轻可能通过侧信道攻击等利用的潜在漏洞。
通过在联邦解决方案中叠加一系列隐私增强技术和技巧,可以提高输入隐私。这种方法所涵盖的隐私增强技术和技巧可能是基于硬件和/或加密的,并且通常被视为与安全本身同义的概念。有关输入隐私的更多信息,请参阅第2节:输入隐私考虑因素。
输出隐私关注提高输出数据或模型的隐私性。保护处理后的数据对于防止数据分析后或用于训练模型后可能发生的隐私泄露至关重要。关键考虑因素包括:
实施基于输出的技术:向模型的训练过程中添加随机噪声的技术,如差分隐私,对于确保训练数据或其子集无法在后续阶段被提取特别有效。这种方法即使在模型共享或部署后也能帮助保护数据。
平衡隐私与模型性能:像差分隐私这样的技术可能会影响模型的性能,包括准确性。应仔细权衡隐私和性能之间的取舍,考虑模型的大小以及准确性相对于特定研究问题的重要性。
通过在联邦解决方案中有效实施一系列隐私增强技术和技巧,可以提高输出隐私。有关输出隐私的更多信息,请参阅第3节:输出隐私考虑因素。
联邦分析与学习
联邦分析是一种在分散的数据源上执行数据分析或计算的技术。它使组织能够使用无法直接共享的数据。来自多个来源的本地数据被用于为全局模型提供信息或执行复杂分析,使用联邦方法而无需共享数据本身。数据在本地处理后,此处理的结果会在全局节点或本地节点之间聚合。
在本工具包中,DSIT和ICO将联邦学习定义为联邦分析的一个子集。联邦学习涉及在分布于多个节点的数据集上训练机器学习模型。这种方法使用来自许多本地模型的模型更新来改进中央或全局模型。节点基于本地持有的数据训练后传输更新的模型参数,而不是数据本身。这允许在不集中收集数据的情况下训练模型。
示例1:联邦分析用于统计分析
一家医疗保健组织希望与大学和跨国同行合作,分析疾病爆发的趋势。该组织开发了通往合作伙伴本地存储数据的数据管道。通过这些管道,该组织可以发送数据分析请求。
分析在本地进行,医疗保健组织无法访问数据集。然后将此分析的结果返回给该组织,该组织会聚合所有合作伙伴的结果。
示例2:联邦学习用于训练模型
一家技术组织希望提高其语音识别系统的准确性,而无需集中收集用户的语音数据。该组织创建了一个基于易于获取的数据集训练的初始模型,然后将其共享到用户的设备上。该模型会根据用户的语音数据在本地进行更新。
在用户同意的情况下,本地模型会定期上传到中央服务器,而用户的个人语音数据永远不会离开其设备。中央模型通过使用从用户设备上重复的本地化训练轮次中收集的本地模型进行持续迭代。然后,这个更新的中央模型会共享到用户的设备上,并且这个训练循环会持续进行。
隐私保护的联邦学习(PPFL)
在联邦学习架构上叠加额外的隐私增强技术通常被称为隐私保护的联邦学习(PPFL)。在联邦学习的基础上使用额外的隐私增强技术可以提高输入和/或输出隐私。
将在后续阶段更详细地讨论这些方法和组合的背后机制。这种综合方法确保了从数据输入到模型部署的每一步都提供了一定程度的隐私保护,从而防范未经授权的数据泄露,并增强对联邦学习过程的信任。
随附的解释还为如何在特定用例中实际部署这些技术提供了技术选项或考虑的参考。这旨在说明一种指示性的方法,展示如何有效地部署这些技术,而并非唯一正确的部署方式的权威指南,也并非对这些技术比其他潜在方法更优的具体认可。
[1] 本地节点的数据库结构
1.a) 可信执行环境(TEE)与联邦学习:
实施:TEE可用于为参与联邦学习的每个节点创建一个安全的本地环境。这确保了本地数据的中间计算在安全的服务器区域内被隔离。而联邦学习本身通过仅共享模型权重更新来防止其他方访问本地原始训练数据,TEE则在此基础上增加了额外的安全层。
TEE可用于创建一个安全的本地环境,进一步保护计算和模型更新免受潜在的篡改或未经授权的访问,即使在本地设备内部也是如此。这在本地攻击风险较高或需要额外基于硬件的安全性的场景中尤其有用。
交互:联邦学习的本地模型训练可以在TEE内进行。在此过程中,只有模型更新(而非原始数据)会被发送到中央/全局节点(与数据库结构连接的节点[2])。这既提供了额外的安全层,又受益于集体学习。
1.b) 同态加密(HE)与多方计算(MPC):
实施:HE允许直接在加密数据上执行计算,确保敏感数据在处理过程中始终保持受保护状态。这防止了任何一方访问未加密的数据,从而增强了隐私性。
MPC允许多个方在保持其输入对彼此保密的同时,协作计算一个函数。
通过利用TEE、HE或MPC,组织可以在不泄露敏感数据的情况下执行安全计算,为联邦学习的固有保护提供了额外的隐私层。
交互:HE确保数据在传输和计算过程中保持加密状态,而MPC允许这些加密结果在全局节点或数据库之间安全地组合,从而增强了输入和输出的隐私性。这种技术组合有助于防范推理攻击,在需要协作分析的场景中尤其适用,能够实现安全且私密的集体计算。
1.c) 合成数据生成:
实施:合成数据生成涉及创建人工数据集,这些数据集复制了真实数据集的统计属性。这种合成数据可用于初始模型训练和测试,而不会暴露敏感信息,这在数据隐私是特定关注点(由于涉及特别敏感的信息)的场景中非常有价值。如果合成数据制作精良且不包含任何可识别信息,则通常不需要额外的隐私技术。然而,在担心合成数据可能与外部数据相关联以推断敏感信息的情况下,可以应用差分隐私等技术来增加额外的保护层。
交互:合成数据可用于安全地进行实验、验证模型或训练机器学习系统,而不会冒暴露真实敏感数据的风险。合成数据集与机器学习模型或分析工具之间的交互与真实数据相似,从而允许进行准确的测试和开发。
在可能推断出敏感信息的情况下,使用差分隐私或其他隐私保护技术可以确保,即使合成数据被未经授权的方访问,重新识别的风险也仍然很小。
[2] 中央全局节点(联邦学习的聚合器)
2.a) 带有差分隐私的联邦学习:
实施:在聚合器上实施差分隐私技术,向聚合的模型更新中添加噪声,通过使模型更难以追溯到个人贡献来增强模型的隐私性。
交互:将联邦学习与差分隐私相结合,可以确保即使聚合模型被暴露,个体数据源隐私被泄露的风险也会降低。
2.b) 带有合成数据的联邦学习:
实施:合成数据可用于在开发阶段对机器学习模型进行初步基线和验证。这种方法允许使用模仿真实数据集的数据进行早期测试和模型架构调整,而不会暴露敏感信息。一旦确认模型按预期运行,则应使用真实数据对其进行进一步训练,以确保准确性和有效性,然后再部署到本地节点进行联邦学习。
交互:联邦学习可以使用合成数据在各种条件下进行校准和测试,以确保在部署使用真实用户数据的模型之前具有稳健性。在交互阶段,可以使用合成数据对模型进行测试和完善,这有助于建立坚实的基础,同时减少隐私泄露。然而,必须注意的是,如果模型仅基于合成数据进行训练,则不应将其推送到本地节点进行最终训练。相反,模型应使用真实数据进行额外训练,以确保其在现实场景中的准确性能,然后再部署到联邦网络中。
[3] 节点之间的连接
联邦学习与HE:
实施:HE可用于对节点之间传输的模型更新进行加密。这些更新虽然最初来源于数据,但不再是原始数据本身,而是代表学习到的模式的参数更新。对这些更新进行加密可以确保,即使在它们被聚合和处理时,底层数据模式也能免受潜在的推理攻击。
交互:在交互阶段,模型更新使用HE在节点之间安全传输。这些更新不再是原始数据,而是模型学习到的参数的加密表示。这种加密确保了在更新被聚合以完善全局模型时,它们仍然保持安全且无法访问,从而保护了底层数据的隐私。
[4] 联邦学习网络
模型整合:实施:本节展示了联邦学习过程的整合输出,即一个完全训练的模型,该模型整合了所有参与节点获得的洞察。
交互:该模型通过聚合更新进行了优化和完善,体现了去中心化网络的集体智能,同时保持了底层数据的隐私性。
[5] 终端用户设备(客户端)
客户端设备上的TEE和合成数据:
实施:TEE可在客户端设备上使用,以安全地处理数据,并使用合成数据模拟用户交互,而无需冒暴露真实数据的风险。合成数据可以从真实数据或数据集的匿名版本中生成。
交互:TEE确保了即使在设备被攻破的情况下,敏感数据(真实或合成)的处理仍然保持安全。
在此PPFL示例中,一个有用的基线比较是在集中整理的数据上训练等效模型。假设这些数据由组织收集,来源于不同的实体,并包含个人或敏感信息。
尽管不使用额外PETs的联邦学习无法保护数据免受所有风险,但与基线解决方案相比,联邦学习仍然可以提供好处并提高安全性。在发生侵权行为时,ICO在考虑是否处以罚款时,会考虑已实施的技术和组织措施在数据保护设计方面的情况。使用联邦学习可能有助于证明已采取主动措施减少损害,这可能会对潜在的罚款产生有利影响。
数据保护影响评估(DPIA)
使用隐私保护技术可能会简化DPIA流程,从而降低法律成本。例如,通过最小化处理的个人数据量,联邦学习解决方案本质上应减轻一些隐私风险,否则这些风险需要考虑在内。
通过设计和默认方式将数据保护融入联邦学习系统的设计中,可能会降低固有的隐私风险。这可能会降低这些评估所涉及的法律开销。例如,由于合规性考虑已“融入”系统设计,因此审计系统的成本可能会降低。
分摊法律成本
在多个组织参与联邦学习项目的情况下,如果情况允许,共享法律资源或联合法律团队可能有助于在参与方之间分摊法律成本。然而,同样应该注意的是,使用不熟悉的新兴或新颖技术(如联邦学习)可能导致法律团队之间进行漫长的讨论,因为就什么是足够的安全和隐私保障措施可能难以达成共识。为了减轻这些挑战,在项目开始时建立明确、标准化的指南和最佳实践,可以帮助简化这些讨论,并减少达成协议所需的时间和成本。
联邦学习通过将数据保留在设备上而不是集中化来降低大规模数据泄露的风险。分布式数据处理最小化了攻击面,并将潜在数据泄露的影响限制在单个节点上,而不是整个数据集。
联邦学习避免传输原始数据的隐私保护特性符合安全最佳实践。这种一致性可能会降低保险公司的风险感知,从而可能降低保费。然而,如果建立了可重复的指南和标准来安全地实施联邦学习,则更有可能实现这一潜在好处。如果没有这些标准,实施的差异性可能会导致安全结果不一致,从而使保险公司保持谨慎。
长期考量
联邦学习的一些好处可能只有在长期内才能充分实现。组织应考虑产品/系统整个生命周期的成本和收益,这应包括考虑采用联邦学习在未来可能带来的更广泛机会。
使用联邦学习的长期好处包括提高将新数据源添加到模型训练中的长期效率,能够利用以前无法访问的数据资产,以及随着更成功的联邦分析解决方案的部署而产生的更广泛的网络效应(以下将对此进行更详细的探讨)。
整合新数据源
第一节 联邦学习的成本与收益
本节探讨了在不增加额外隐私保护的情况下,实施联邦机器学习方法所相关的成本与收益。它对比了上述基线场景,从技术、运营、法律以及更长期的维度进行了考量。
尽管部分具体内容涉及机器学习,但本节概述的考量因素也广泛适用于更广泛的联邦分析领域。
基线场景要求组织建立并维护一个更大的中央数据库。
将大量数据集中到一个域中需要强大的安全保护;
在许多情况下,这种数据聚合可能会提高所需的安全级别,因为数据丢失的影响会更大,且威胁模型可能更加复杂。
如果数据是从多个数据拥有组织收集的,那么中央数据库可能需要遵守多套安全要求。
与此相关的成本包括实施适当的数据治理和安全机制以保护敏感数据,以及与此相关的持续运营成本。这种数据聚合往往导致一定程度的僵化,因为中央平台的任何变更都需要多个数据控制者或处理者的批准。
对于联邦学习而言,其中一些成本可能会降低。大部分数据将保留在其源头附近,并在本地进行处理,从而最大限度地减少了对大型中央数据库的需求,降低了单一数据泄露或外泄的风险,并且让数据拥有组织能够控制各自的数据集。与所有本地数据源的数据都需要复制并在中央进行处理的集中式设置相比,这可能是一种更高效的解决方案。联邦学习消除了数据复制的需求。然而,要全面评估这一方案在组织特定情境下的适用性,还需要考虑其他因素,例如现有数据存储基础设施的就绪情况。
技术复杂性
市场上对数据科学和机器学习技能的需求很高,这通常会导致无论采用哪种方式,都会面临较高的薪资成本以及招聘和留任挑战。然而,在联邦场景中还存在一些额外的挑战。
在多个节点上运行联邦学习过程所增加的复杂性,要求将数据科学和机器学习(ML)的理解与分析代码如何与基础设施(计算、网络等)交互的更深层次专业知识相结合。在集中式的基线场景中,这些大多通过一系列成熟的框架和软件产品,从数据科学家的工作中抽象出来。在联邦式方法中,现有的框架尚不成熟,并且很少有人有在复杂的现实场景中部署这些框架的经验。这有可能在短期内增加成本和风险;然而,随着联邦式方法变得越来越普遍,这种情况正在改善。
联邦式方法也可能给开发人员和数据科学家带来挑战。通常,数据科学和机器学习需要对数据进行迭代探索,尝试不同的方法并寻求理解结果。在联邦式方法中,数据科学家无法直接访问数据,这可能会增加难度。这也可能使故障排除问题更具挑战性。
联邦学习还可能引入与数据集中表示相关的潜在复杂性。例如,当在不同站点分布的数据上训练模型时,数据集特征可能存在显著差异,如医疗数据集中不同种族群体的比例不同。这些偏差可能不会被协调服务器发现,因此需要在本地层面付出额外努力来确保数据适合联邦训练。这可能涉及大量的数据预处理或详细的文档记录,以告知未参与协调的一方潜在的偏差,从而增加了整体过程所需的时间和资源成本。
尽管这确实为联邦式方法带来了额外的挑战,但重要的是要指出,对于集中持有的敏感数据集,许多相同的限制也可能适用,在这些情况下,数据科学家根本无法直接访问原始数据,或者只能在高度受限的情况下(如专用的物理环境)访问。使用虚拟数据和自动化验证流程是应对上述挑战的有效方法。这些方法有助于在没有直接数据访问的情况下模拟潜在问题并验证功能。
隐私、数据保护和法律考量
与传统的集中式过程相比,联邦式方法本身更具隐私性。联邦学习的分布式特性防止了数据的共享,从而最小化了数据泄漏或泄露的机会。由于数据分布在联邦网络中,整个数据集被泄露的风险通常较低。相比之下,在集中式方法中,如果服务器受到成功攻击,整个数据集都可能被访问。
尽管与基线相比,使用联邦学习可以带来隐私和安全方面的好处,但根据具体情况,仅使用联邦学习本身可能不足以满足英国《通用数据保护条例》(GDPR)的安全原则要求。
例如,如果没有额外的隐私增强技术(PETs),联邦学习可能会带来间接暴露用于本地模型训练的私有数据的风险。这种暴露可能通过模型反演、观察确定的模式(梯度)或其他攻击(如成员推理)来发生。如果攻击者能够观察模型随时间的变化、特定的模型更新或操纵模型,就会存在这种风险。有关在不使用额外PETs的情况下使用联邦学习的风险更多信息,请参阅信息专员办公室(ICO)的指南。
这种数据泄露的风险使组织面临法律诉讼以及来自ICO和/或数据主体的风险,以及相关的罚款;然而,应该注意的是,与集中式解决方案相比,某些风险水平仍然较低。
虽然可以在不使用额外PETs的情况下使用联邦学习,但组织可能会发现这样做更加困难,并且更难证明已经采取了充分措施来保护个人数据(与使用额外PETs实施联邦学习相比)。这可能意味着组织未能满足解决方案需证明通过设计和默认方式保护数据的要求。
不使用额外PETs的联邦学习可能会留下从模型输出中重新识别个人的风险。未经授权的重新识别个人可能会导致ICO的监管行动(第3节中对此进行了更详细的讨论)。是否使用PETs来保护输出隐私将取决于处理的性质和目的。组织需要考虑是否需要匿名输出、数据集的大小以及分析结果所需的准确性和实用性。
为了减轻这些风险,组织可能希望通过叠加多个PETs来创建隐私保护联邦学习(PPFL)解决方案。有关可能与PPFL方法相结合的PETs相关的法律考量更多信息,请参阅以下链接部分:
第2节 输入隐私的法律考量
虽然与基线场景相比,联邦方法提高了隐私保护水平,但组织可能希望加入额外的隐私增强技术(PETs),以确保在任何时候,任何处理方都无法访问或推断出敏感输入。
通过将可信执行环境(TEE)、同态加密(HE)或安全多方计算(SMPC)等额外的PETs融入联邦解决方案中,可以实现更高水平的输入隐私。参见图1,了解这些PETs在隐私保护联邦学习(PPFL)架构中的应用示例。这些PETs也可用于广泛的其他用例,并且希望部署这些技术的组织将会遇到类似的成本和效益。
同态加密(HE)允许直接在加密数据上进行计算。
传统的加密方法允许数据加密后在传输过程中或静止状态下保持加密状态,但需要解密后才能进行处理。
HE则允许数据在静止状态、传输过程中以及处理过程中均保持加密状态。
处理方在任何时候都无法访问未加密的数据,也无法解密加密的数据。
HE有三种形式,每种形式允许不同类型的操作:
部分同态加密(PHE):只允许对加密数据执行单一类型的操作(例如加法)。
有限同态加密(SHE):允许对加密数据执行某些组合操作(例如一些加法和乘法)。
全同态加密(FHE):允许对加密数据执行任意操作。
除非另有说明,本资料中提到的HE均指所有形式的同态加密。
示例
一家运营密码管理器的科技公司希望监控其用户的密码是否已被破解并在网上泄露。该公司收集用户密码的同态加密版本,并将这些密码与已泄露密码列表进行比较。公司可以在不解密用户密码的情况下进行这些比较。然后,如果用户的密码已被泄露,公司可以提醒用户,而实际上从未访问过用户的凭据。
这种隔离通过一系列硬件强制的控制措施来防止未经授权的访问。此外,TEE的安全设计有助于保护更广泛的处理器系统,将任何潜在的恶意代码或数据泄露限制在TEE本身内。这种限制确保了威胁不会扩散到系统的其他部分,从而增强了整体安全架构,并降低了系统广泛漏洞的风险。
虽然TEE通过隔离和限制潜在威胁提供了强大的安全保障,但其有效性也取决于TEE提供商的可信度。例如,TEE安全功能的完整性取决于提供商实施和维护这些控制措施以及解决任何漏洞的能力。必须承认的是,如果TEE提供商被攻破,或者TEE存在未发现的漏洞,那么TEE提供的安全保证可能会受到破坏。一些TEE提供商旨在通过利用开源代码和独立验证流程来减轻这些风险,并提高TEE的透明度和信任度,但这些解决方案相对较新,在此不做进一步讨论。
Case studies
BWWC (July 2021) Product - SMPC
Eurostat (June 2023) Proof of concept - TEE
Microsoft (July 2021) Digital product - TEE
Indonesia Ministry of Tourism (June 2023) Digital product - TEE
Secretarium/Danie (Finance) (June 2023) Product - TEE
Enviel (July 2021) Proof of concept - HE
部署额外的隐私增强技术(Privacy-Enhancing Technologies,PETs)以提高输入隐私的成本与收益
技术考量
使用安全多方计算(Secure Multi-Party Computation,SMPC)、可信执行环境(Trusted Execution Environments,TEEs)或同态加密(Homomorphic Encryption,HE)可以为联邦解决方案提供更高水平的隐私保护,但会牺牲数据处理器的可见性。这种可见性的缺乏在运行代码处理数据时,可能会给测试和故障排除带来问题。在TEE和HE解决方案中,数据处理器无法查看数据,从而确保了数据的机密性。SMPC涉及数据的分片,将无法理解的数据段分发给各方,确保任何单个分片都不会泄露有关原始数据的任何信息。虽然有一些选项可以缓解测试难题,但它们可能会产生额外的成本。
部分同态加密(Partially Homomorphic Encryption,PHE)和全同态加密(Fully Homomorphic Encryption,SHE)也带来了隐私与实用性之间的权衡,因为额外的隐私层级可能会限制可以对数据执行的操作类型和数量。这是因为,虽然这些系统通常比全同态加密(FHE)性能更高,但它们仅支持有限数量的预定操作。组织必须评估其用例的具体需求/要求,以选择最合适的方法。FHE和TEEs则不会面临这种隐私与实用性的权衡。同样,SMPC也没有这种权衡,但协议必须这样设置:确保没有任何数据分片包含足以推断出原始数据的数据集比例。
相比之下,传统的基线示例比TEE、HE或SMPC的技术成本更低,因为所有数据都是直接可用且可见的。在隐私保护的联邦学习(Privacy-Preserving Federated Learning,PPFL)解决方案中,数据访问权限也低于基线示例,然而部署这些额外的隐私增强技术增加了一层技术复杂性,以换取更高的数据隐私。
输入隐私方法中的隐私保护基础设施
输入隐私保护方法的计算考量
与基线集中数据集方法相比,安全多方计算(SMPC)由于节点间通信需要更复杂的协议,因此会导致更高的计算开销。然而,如果你的组织正在将SMPC作为联邦解决方案的一部分进行部署,那么这些开销可能微不足道。联邦系统通常处理大量的模型更新传输和分布在各节点上的计算负载,使得SMPC带来的额外负担显得不那么重要。
与SMPC、全同态加密(FHE)和基线相比,部分同态加密(PHE)和同态加密方案(SHE)提供的操作数量有限,从而限制了可以进行的处理活动类型。例如,PHE和SHE中的操作限制可能会阻止联邦学习的执行。因此,在选择PHE或SHE方案之前,必须了解系统所需的操作性质。
FHE允许进行任意操作,并且没有像PHE和SHE那样的功能限制。使用FHE的组织能够更改他们正在执行的操作。然而,FHE会带来巨大的计算开销,使得数据处理成本高昂,并且影响延迟。许多复杂操作根本不具备实用性。这是一个活跃的研究领域,未来很可能取得改进,计算开销也有望降低。
相比之下,与基线示例一样,可信执行环境(TEE)内的数据可以在不加密的情况下进行处理,这使得其计算效率更高,因此比同态加密更便宜、更快。在处理大量数据时,这些节省可能是显著的。TEE和基线解决方案都允许执行任意操作。
测试与故障排除考量
第3节 输出隐私的法律考量
示例
一家社交媒体公司希望发布关于用户平台上对电视节目兴趣的数据,以便研究人员评估趋势。为确保用户无法被识别,公司向数据集中注入了噪声。在此案例中,电视节目被归类为不同的类型,而添加的噪声会将实际节目更改为同一类型的节目。这确保了用户对电视节目的实际偏好在差分隐私的保护下得以保留,同时维持了数据中的总体趋势。
合成数据
如果使用差分隐私,合成数据也可用于在共享/发布时增强输出隐私,以保护敏感信息。合成数据是基于原始数据集生成的人工信息,旨在保留原始数据集的模式和统计特性。由于这种人工数据在细节上与原始数据不完全相同,因此它提供了一种保护个人数据隐私的方法,使得可以进一步对数据进行分析,并且使数据中的趋势和特征得以更广泛地访问。
合成数据的不同类型包括:
部分合成数据:包含部分真实数据,但删除了敏感信息。
完全合成数据:不包含任何原始数据。在这种情况下,会生成一个全新的数据集来模拟原始数据的属性。
混合合成数据:这种方法同时包含真实数据和完全合成数据。
合成数据可能是静态的(一次生成并固定)或动态的(多次生成并更新)。
Case studies
Facebook - democracy research initiative (July 2021) DP
Alan Turing Institute - health tokens (July 2021) DP
Statice - predictive analytics for insurance (June 2023) Synthetic Data
Replica Analytics - healthcare data for research (June 2023) Synthetic Data
1. 促进解决方案所需的数据存储的成本和收益
2.采用PET如何影响计算要求
3. 隐私保护基础设施和数据效用之间的权衡
4. 该解决方案将如何创建新的或增强检测和故障排除路径
5. 实施解决方案所需的技术技能和资源
7. 随着 PET 生态系统的发展,可能出现的长期成本和收益