差分隐私在机器学习中的实施

文摘科技 2024-04-29 00:24 广东

作者：罗易凡

图1 差分隐私：一种强大的隐私保护技术（图片来自于网络）

研究背景

随着个人数据保护意识的增强以及隐私法规的严格化，如何在保证数据隐私的同时充分利用数据进行机器学习，成为了一个急需解决的问题。差分隐私（Differential Privacy，DP）作为一种强大的隐私保护技术，通过在数据分析过程中添加噪声，来防止特定个人信息的泄露。差分隐私技术自2006年提出以来，已被广泛研究，并应用于多种数据分析任务中，特别是在机器学习领域。然而，尽管差分隐私理论上能提供严格的隐私保障，其在实际应用中却常因实施方式的问题，而未能达到预期的隐私保护效果。本研究通过对当前机器学习中差分隐私应用的批判性回顾，揭示了其实施过程中的缺陷和挑战，尤其是隐私保护和数据实用性之间的平衡问题。

研究内容与结果

本文详细探讨了差分隐私在机器学习中的应用现状和存在的问题。首先，我们从差分隐私的基本概念入手，解释了差分隐私保护的原理及其在机器学习中实现的基本方法。由于标准的差分隐私应用会导致机器学习的准确度大大下降，在实际应用现有工作往往采取更松弛的差分隐私度量。我们发现，在ML中实施DP时，减少模型对私有训练数据的过度拟合（overfitting）可能比使用DP更能有效降低隐私风险。此外，实现DP的通常方法是差分隐私随机梯度下降（DP-SGD），它在训练模型的每个阶段都添加噪音。DP-SGD对于复杂模型不太适用，因为它会导致模型准确度受到限制，并增加了训练时间。

一、中心化机器学习中的差分隐私实施

图2 中心化机器学习中的差分隐私实施（图片来自于网络）

本文接下来分析了差分隐私在中心化机器学习环境下的不同差分隐私实现策略：

1. 输入扰动：在数据集合上直接添加噪声，以满足差分隐私保护的需求。这种方法虽然实现简单，但可能会严重影响数据的实用性，尤其是在噪声水平需要很高时。

2. 目标扰动：在优化的目标函数中添加噪声。这种方法适用于各种机器学习算法，包括支持向量机和逻辑回归等。通过调整噪声的添加方式，可以在保护隐私和保持模型性能之间找到平衡。

3. 输出扰动：在机器学习模型的输出结果上添加噪声。例如，在生成模型参数或预测结果时加入随机性。这种方法可以有效隐藏单一数据记录的影响，但对模型的准确性和可靠性有一定影响。

中心化机器学习中差分隐私实施的问题主要包括：

1. 参数选择：实施DP的过程中，选择隐私参数（如隐私预算ε）是一项挑战。如果ε值设置得过大，隐私保护可能不充分；而ε值过小，则可能严重影响模型的实用性。

2. 隐私与效用的权衡：在ML中保持隐私和效用之间的平衡是一项挑战，文中指出，即使在非常宽松的DP实现中，也很难同时实现良好的隐私保护和高准确度。

3. 计算开销：为了满足DP的要求，训练过程中需要对梯度进行裁剪和添加噪音，这会导致计算资源的大量消耗，从而增加训练时间。

4. 序列合成与并行合成：在连续的查询中应用DP时，保护的强度会随着输出的累积而减弱，这一点在ML的迭代训练过程中尤为明显。

5. 超参数调整的复杂性：在实施DP时，需要精确调整梯度裁剪和噪音水平等超参数，这些都增加了实施DP的复杂性。

6. 实证评估缺失：许多使用DP的ML实现很少进行实证隐私保护水平的评估，而这是验证保护效力的关键一步。

二、去中心化机器学习中的差分隐私实施

图3 联邦学习中的差分隐私实施（图片来自于网络）

去中心化机器学习环境下，不同差分隐私实现策略如下：

1. 本地差分隐私（Local Differential Privacy, LDP）：每个参与者在本地数据上独立应用差分隐私技术，然后只分享已添加噪声的模型更新或梯度信息。这种方法强调在数据源头保护隐私，但由于缺乏中央协调，可能导致模型整体性能的下降。

2. 中心化聚合扰动：所有参与者将原始的模型更新发送到一个中央服务器，在服务器上对这些更新进行聚合，并在聚合结果上添加噪声。这种方法可以减少噪声对模型性能的影响，但需要依赖一个可信的中央服务器来确保噪声的正确添加和隐私保护的实施。

3. 安全多方计算（SMC）：与差分隐私结合使用时，SMC允许参与者在不泄露各自输入的情况下，共同计算出一个功能（如模型更新）。通过这种方式，可以在不直接共享敏感数据的情况下，协同训练模型。

去中心化机器学习中实施差分隐私的问题包括：

1. 本地差分隐私的限制：尽管在本地数据上实施DP可以提高隐私保护，但是当单个用户的数据点高度相关时（例如，健康追踪数据），LDP可能只提供了数据点级的隐私保护而不是用户级别的隐私保护。

2. 信任中央服务器：采用中央差分隐私（Central Differential Privacy, CDP）时，客户端必须信任中央服务器来正确执行隐私保护机制。这种信任要求可能与去中心化的隐私保护目标相冲突。

3. 隐私参数的确定：像中心化机器学习一样，在去中心化设置中确定合适的隐私参数（如ε和δ）是一个挑战。不适当的参数设置可能导致隐私保护不足或模型性能下降。

4. 参与者数量的影响：在FL中，参与者数量对于模型的准确性和隐私保护水平有显著影响。客户端数量较少时，模型准确性受到的影响较大；而客户端数量极多时，可能会降低隐私风险。

5. 非独立同分布（non-i.i.d.）数据的挑战：在FL中，客户端持有的数据可能在分布上具有差异。不同的本地数据分布可能使某些客户端更容易被区分出来，因此需要更多的噪声来隐藏它们对模型的影响。

6. 模型的可靠性和可用性：在去中心化学习中应用DP需要在保证隐私的同时保持模型的可靠性和可用性，这在FL中尤为困难，因为需要在没有直接访问所有训练数据的情况下训练模型。

研究贡献

研究结果显示，尽管差分隐私能在理论上提供强大的隐私保护，但在实际机器学习应用中，其保护效果和数据实用性之间往往难以达到最佳平衡。具体来说：

1. 过度依赖差分隐私可能导致机器学习模型的准确性大幅下降，特别是在隐私保护参数较严格的情况下。

2. 标准的机器学习防过拟合技术（如dropout和L2正则化）在一定程度上可以替代差分隐私，以达到保护隐私的目的，同时减少对模型性能的影响。

3. 我们建议在实施差分隐私时，应综合考虑数据特性、模型复杂度及应用场景，合理设置差分隐私参数，以达到隐私保护和数据实用性的双重优化。

参考文献

[1] Blanco-Justicia, A., Sánchez, D., Domingo-Ferrer, J., & Muralidhar, K. (2022). A critical review on the use (and misuse) of differential privacy in machine learning. ACM Computing Surveys, 55(8), 1-16.

写在最后

我们的文章可以转载了呢~欢迎转载与转发呦

想了解更多前沿科技与资讯？

点击上方入口关注我们！

欢迎点击右上方分享到朋友圈

香港中文大学（深圳）

网络通信与经济实验室

微信号 : ncel_cuhk

http://mp.weixin.qq.com/s?__biz=MzU5NDIyODY4Ng==&mid=2247489248&idx=1&sn=ca0fd37fec2a7f207aee3df25ade9cb7

网络通信与经济

介绍网络、通信和经济交叉领域的最新科研成果和活动 —香港中文大学（深圳）网络通信与经济学实验室

最新文章

基于年龄奖励机制: 提升信息的新鲜度

利用大语言模型进行差分隐私数据生成

以隐贝叶斯推理解释上下文学习

基于多主体动态博弈视角的深度神经网络训练优化

2024年夏季网络通信与经济学实验室（NCEL）研讨会

解耦知识蒸馏

如何激励去中心化系统的资源池化？

通过数据交易提升在线算法决策的公平性

模型间博弈提升大语言模型输出易读性

借助大语言模型评估文本信息

大语言模型挑战众包工人

基于联合选址和可修复库存模型的城市电车换电服务的规模化布局与运营研究

面向生产环境的大语言模型联邦学习

Galaxy：面向边缘大模型协同推理的分布式边缘智能系统

能量感知年龄优化：基于能量采集的多源更新网络系统中的AoI分析

差分隐私联邦学习中用户选择和隐私补偿机制设计

活动回顾｜李葆春教授：实证联邦学习的数据隐私保护

活动回顾｜文勇刚教授：GPU数据中心大规模深度学习负载调度

差分隐私在机器学习中的实施

联邦遗忘学习概述

神经网络中的特征学习

基于大语言模型的电力系统通用人工智能展望：理论与应用

离线强化学习概述

竞合：数据共享在电子商务中的新策略

众筹中的策略性定价与信息披露

联邦学习在无线网络中的异构用户自适应采样优化算法

对抗性机器学习中的博弈论

大语言模型的机制设计

如何让同行评审更加科学

联邦学习与模型服务提供共存：一种模型训练和模型推理联合优化方法

网络通信与经济实验室（NCEL）2023研讨会暨成立十五周年团建活动回顾

活动回顾 | 牛志升教授：突发流量下节能服务的最佳休眠策略

车对车通信下的信息机制设计

活动回顾 | 香港中文大学（深圳）深圳市群体智能驱动的低碳能源网络重点实验室揭牌仪式暨启动会成功举办

考虑数据新鲜度的移动群智感知激励机制

预测策略性储能行为

边缘内容缓存与分享的经济分析

隐私资源：如何在差分隐私联邦学习中合理分配

2023年夏季网络通信与经济学实验室（NCEL）研讨会

香港中文大学（深圳）黄建伟教授招聘博士生、博士后！

8月18日9:00，Junshan Zhang教授介绍热启动强化学习相关研究

喜讯 | IEEE TNSE 2022年度影响因子攀升至6.6！

喜讯 | 理工学院12位教授获Research.com评为其学术领域内2023顶尖科学家

当数据源耦合时，我们如何优化信息新鲜度？

高精度地图众包中高效车辆选择的轨迹穿透表征

基于模型分解训练的异构多模态联邦学习

基于排序特征学习的多智能体少样本感知

能源区块链系统中提升交易吞吐量的机制设计

基于众包数据标注的联邦学习激励机制设计

【讲座通知】Insights from the Editor-in-Chief: My Recent Experiences

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉