作者:罗易凡
图1 差分隐私:一种强大的隐私保护技术(图片来自于网络)
研究背景
随着个人数据保护意识的增强以及隐私法规的严格化,如何在保证数据隐私的同时充分利用数据进行机器学习,成为了一个急需解决的问题。差分隐私(Differential Privacy,DP)作为一种强大的隐私保护技术,通过在数据分析过程中添加噪声,来防止特定个人信息的泄露。差分隐私技术自2006年提出以来,已被广泛研究,并应用于多种数据分析任务中,特别是在机器学习领域。然而,尽管差分隐私理论上能提供严格的隐私保障,其在实际应用中却常因实施方式的问题,而未能达到预期的隐私保护效果。本研究通过对当前机器学习中差分隐私应用的批判性回顾,揭示了其实施过程中的缺陷和挑战,尤其是隐私保护和数据实用性之间的平衡问题。
研究内容与结果
本文详细探讨了差分隐私在机器学习中的应用现状和存在的问题。首先,我们从差分隐私的基本概念入手,解释了差分隐私保护的原理及其在机器学习中实现的基本方法。由于标准的差分隐私应用会导致机器学习的准确度大大下降,在实际应用现有工作往往采取更松弛的差分隐私度量。我们发现,在ML中实施DP时,减少模型对私有训练数据的过度拟合(overfitting)可能比使用DP更能有效降低隐私风险。此外,实现DP的通常方法是差分隐私随机梯度下降(DP-SGD),它在训练模型的每个阶段都添加噪音。DP-SGD对于复杂模型不太适用,因为它会导致模型准确度受到限制,并增加了训练时间。
一、中心化机器学习中的差分隐私实施
图2 中心化机器学习中的差分隐私实施(图片来自于网络)
本文接下来分析了差分隐私在中心化机器学习环境下的不同差分隐私实现策略:
1. 输入扰动:在数据集合上直接添加噪声,以满足差分隐私保护的需求。这种方法虽然实现简单,但可能会严重影响数据的实用性,尤其是在噪声水平需要很高时。
2. 目标扰动:在优化的目标函数中添加噪声。这种方法适用于各种机器学习算法,包括支持向量机和逻辑回归等。通过调整噪声的添加方式,可以在保护隐私和保持模型性能之间找到平衡。
3. 输出扰动:在机器学习模型的输出结果上添加噪声。例如,在生成模型参数或预测结果时加入随机性。这种方法可以有效隐藏单一数据记录的影响,但对模型的准确性和可靠性有一定影响。
中心化机器学习中差分隐私实施的问题主要包括:
1. 参数选择:实施DP的过程中,选择隐私参数(如隐私预算ε)是一项挑战。如果ε值设置得过大,隐私保护可能不充分;而ε值过小,则可能严重影响模型的实用性。
2. 隐私与效用的权衡:在ML中保持隐私和效用之间的平衡是一项挑战,文中指出,即使在非常宽松的DP实现中,也很难同时实现良好的隐私保护和高准确度。
3. 计算开销:为了满足DP的要求,训练过程中需要对梯度进行裁剪和添加噪音,这会导致计算资源的大量消耗,从而增加训练时间。
4. 序列合成与并行合成:在连续的查询中应用DP时,保护的强度会随着输出的累积而减弱,这一点在ML的迭代训练过程中尤为明显。
5. 超参数调整的复杂性:在实施DP时,需要精确调整梯度裁剪和噪音水平等超参数,这些都增加了实施DP的复杂性。
6. 实证评估缺失:许多使用DP的ML实现很少进行实证隐私保护水平的评估,而这是验证保护效力的关键一步。
二、去中心化机器学习中的差分隐私实施
图3 联邦学习中的差分隐私实施(图片来自于网络)
去中心化机器学习环境下,不同差分隐私实现策略如下:
1. 本地差分隐私(Local Differential Privacy, LDP):每个参与者在本地数据上独立应用差分隐私技术,然后只分享已添加噪声的模型更新或梯度信息。这种方法强调在数据源头保护隐私,但由于缺乏中央协调,可能导致模型整体性能的下降。
2. 中心化聚合扰动:所有参与者将原始的模型更新发送到一个中央服务器,在服务器上对这些更新进行聚合,并在聚合结果上添加噪声。这种方法可以减少噪声对模型性能的影响,但需要依赖一个可信的中央服务器来确保噪声的正确添加和隐私保护的实施。
3. 安全多方计算(SMC):与差分隐私结合使用时,SMC允许参与者在不泄露各自输入的情况下,共同计算出一个功能(如模型更新)。通过这种方式,可以在不直接共享敏感数据的情况下,协同训练模型。
去中心化机器学习中实施差分隐私的问题包括:
1. 本地差分隐私的限制:尽管在本地数据上实施DP可以提高隐私保护,但是当单个用户的数据点高度相关时(例如,健康追踪数据),LDP可能只提供了数据点级的隐私保护而不是用户级别的隐私保护。
2. 信任中央服务器:采用中央差分隐私(Central Differential Privacy, CDP)时,客户端必须信任中央服务器来正确执行隐私保护机制。这种信任要求可能与去中心化的隐私保护目标相冲突。
3. 隐私参数的确定:像中心化机器学习一样,在去中心化设置中确定合适的隐私参数(如ε和δ)是一个挑战。不适当的参数设置可能导致隐私保护不足或模型性能下降。
4. 参与者数量的影响:在FL中,参与者数量对于模型的准确性和隐私保护水平有显著影响。客户端数量较少时,模型准确性受到的影响较大;而客户端数量极多时,可能会降低隐私风险。
5. 非独立同分布(non-i.i.d.)数据的挑战:在FL中,客户端持有的数据可能在分布上具有差异。不同的本地数据分布可能使某些客户端更容易被区分出来,因此需要更多的噪声来隐藏它们对模型的影响。
6. 模型的可靠性和可用性:在去中心化学习中应用DP需要在保证隐私的同时保持模型的可靠性和可用性,这在FL中尤为困难,因为需要在没有直接访问所有训练数据的情况下训练模型。
研究贡献
研究结果显示,尽管差分隐私能在理论上提供强大的隐私保护,但在实际机器学习应用中,其保护效果和数据实用性之间往往难以达到最佳平衡。具体来说:
1. 过度依赖差分隐私可能导致机器学习模型的准确性大幅下降,特别是在隐私保护参数较严格的情况下。
2. 标准的机器学习防过拟合技术(如dropout和L2正则化)在一定程度上可以替代差分隐私,以达到保护隐私的目的,同时减少对模型性能的影响。
3. 我们建议在实施差分隐私时,应综合考虑数据特性、模型复杂度及应用场景,合理设置差分隐私参数,以达到隐私保护和数据实用性的双重优化。
参考文献
[1] Blanco-Justicia, A., Sánchez, D., Domingo-Ferrer, J., & Muralidhar, K. (2022). A critical review on the use (and misuse) of differential privacy in machine learning. ACM Computing Surveys, 55(8), 1-16.
写在最后
我们的文章可以转载了呢~欢迎转载与转发呦
想了解更多前沿科技与资讯?
点击上方入口关注我们!
欢迎点击右上方分享到朋友圈
香港中文大学(深圳)
网络通信与经济实验室
微信号 : ncel_cuhk