CCS 2024 | 如何严格衡量机器学习算法的隐私泄露？ ETH有了新发现

科技 2024-11-12 12:47 北京

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

本文作者张杰是苏黎世联邦理工大学的二年级的博士生，导师是 Florian Tramèr。本文发表在 CCS 2024 上，第一单位是 ETH Zurich，主要探讨如何严格的衡量某个机器学习算法的隐私保护能力。

arXiv地址：https://arxiv.org/pdf/2404.17399
GitHub代码：https://github.com/ethz-spylab/misleading-privacy-evals
论文标题：Evaluations of Machine Learning Privacy Defenses are Misleading

1. 前言

机器学习模型往往容易受到隐私攻击。如果你的个人数据被用于训练模型，你可能希望得到一种保障，确保攻击者无法泄露你的数据。更进一步，你或许希望确保没有人能够判断你的数据是否曾被使用过，这就是成员推理攻击（membership inference attack, MIA）所关注的问题。

差分隐私（Differential Privacy, DP）确实可以提供这种理论上可证明的保护。然而，这种强有力的保障往往以牺牲模型的性能为代价，原因可能在于现有的隐私分析方法（如 DP-SGD）在实际应用中显得过于保守。因此，许多非理论保证的防御手段（empirical defenses）应运而生，这些方法通常承诺在实际应用中实现更好的隐私与实用性之间的平衡。然而，由于这些方法并没有提供严格的理论保证，我们需要通过严谨的评估方式来验证它们的可信度。

遗憾的是，我们发现，许多 empirical defenses 在衡量隐私泄露的时候存在一些常见的误区：

关注的是群体层面的平均隐私，但对最「脆弱」数据的隐私却关注甚少。但 privacy 并不应该是一个平均的指标！
使用很弱的、非自适应的攻击。没有针对具体防御，做适应性攻击。
与模型性能过差的 DP 差分隐私方法进行相比，这种比较方式不够公平，容易误导人们对模型隐私保护效果的判断。

为了解决这些问题，我们提出了一种严格的衡量方法，可以准确评估某个机器学习算法的隐私泄露程度。我们建议应该与差分隐私（Differential Privacy）方法进行公平对比，并进行适应性攻击，最后汇报「脆弱」数据上的隐私泄露。

我们应用此方法研究了五种 empirical defenses。这些防御方法各不相同，包括蒸馏、合成数据、损失扰动以及自监督训练等。然而，我们的研究发现，这些防御所导致的隐私泄露程度远超其原始评估所显示的水平。

事实上，所有这些防御方法都未能超越经过适当调整的最基本的差分隐私方法 ——DP-SGD。例如，当我们将 CIFAR-10 数据集上的所有防御措施（包括 DP-SGD）调整至至少达到 88% 的测试准确率，同时尽量保证隐私时，现有评估可能严重低估隐私泄露的程度，误差高达五十倍之多！

2. 隐私评估为何应关注个体隐私泄露程度

而非群体的平均情况？

虽然整体平均隐私泄露看似可接受，但个别用户的隐私可能面临严重威胁。在机器学习中，隐私保护措施需要确保即便整体隐私保护水平达标，仍能为每位个体提供足够的隐私保障。以 CIFAR-10 数据集为例，每个样本的隐私泄露程度如下：

通过分析，我们可以发现，少数样本的隐私泄露程度几乎达到了 100%。然而，如果仅关注群体的平均隐私泄露，这一数值仅为 4%，这容易导致对该方法隐私保护能力的误解。实际上，这种看似低的平均值掩盖了部分个体的严重隐私风险，使得整体评估显得不够准确。因此，在隐私保护的研究与实践中，关注个体隐私泄露的情况显得尤为重要。

3. 使用金丝雀（canary）进行高效的样本级隐私评估

因此，我们的论文认为，严格的隐私评估应该能够衡量攻击者是否可靠地猜测数据集中最脆弱样本的隐私。具体来说，就是在低假阳性率（FPR）下实现高真实阳性率（TPR）。

然而，这种样本级评估的成本显著高于现有的群体级评估。估计攻击的真实阳性率（TPR）和假阳性率（FPR）通常采用蒙特卡罗抽样的方法：通过模拟多个独立的训练过程，每次随机重新采样训练数据，并计算每个模型结果中攻击者成功的次数。

不过，要在 FPR 为 0.1% 时估计个体级别的 TPR，我们可能需要对每个样本进行数千次训练，才能排序并找出最容易受到攻击的样本及其隐私泄露程度。这种开销显然是相当庞大的（例如上图 CIFAR-10，我们训练了 20000 个模型才能精准描绘每个样本的隐私泄露）。

为此，我们提出了一种有效的近似方法：针对一小部分金丝雀（canary）样本进行攻击评估。直观来看，金丝雀样本应能够代表在特定防御策略和数据集下最容易受到攻击的样本。因此，我们只需在有限的金丝雀样本上进行隐私评估。这种方法不仅降低了评估的成本，同时也确保了隐私评估的准确性和有效性。

在我们的论文中，我们详细说明了如何针对五种具体的防御方法设计相应的金丝雀样本。至关重要的是，金丝雀的选择必须依据防御策略和数据集的特性进行调整。某些样本可能对特定防御方法来说是有效的金丝雀，但对其他防御方法却并不适用。作为一般准则，异常数据，例如被错误标记的样本或与训练数据分布不一致的样本（即 OOD 数据），通常是一个良好的起点，因为这些样本往往最容易受到攻击。

例如，下面是来自 CIFAR-10 数据集的一些高度脆弱的样本，这些样本用于简单的（未防御的）ResNet 模型。其中一些样本被错误标记（例如，人类的图片被标记为「卡车」），而另一些样本则是不太「正常」的情况（例如，陆地上的一艘船或一架粉色的飞机）。

4. DP-SGD 仍是一种强大的 empirical defense

我们采用高效的样本级评估（结合适应性攻击）来测试是否存在经验上优于差分隐私（DP）方法的 empirical defense。许多 empirical defense 声称能够在现实环境中实现合理的隐私保护，同时提供比 DP-SGD 等具有强大可证明保证的方法更好的实用性。

然而，DP-SGD 的 privacy-utilty 是可调节的。如果 empirical defense 无论如何都会放弃可证明的保证，那么我们为何不对 DP-SGD 采取同样的策略呢？因此，我们对 DP-SGD 进行了调整，以达到较高的 CIFAR-10 测试准确率（比如从 88% 提升到 91%），即将 empirical defense 和 DP-SGD 方法的性能调整到相似水平，再进行公平的隐私泄露比较。

令人惊讶的是，我们在案例研究中发现，简单调整后的 DP-SGD 性能优于所有其他 empirical defenses。具体来说，在 CIFAR-10 数据集上，我们的方法达到了与所有其他 empirical defense 相当的测试准确率，但却为最易受到攻击的样本提供了更强大的经验隐私保护。因此，DP-SGD 不仅仅是理论上有保证的防御手段，同时也可以成为一种强有力的 empirical defense。

5. 结论

我们论文的主要结论是，隐私评估的具体方式至关重要！Empirical 隐私攻击和防御的文献考虑了多种指标，但往往未能准确描述这些指标的隐私语义（即某个指标捕获了哪种隐私）。

在论文中，我们提倡在个体样本层面上进行隐私评估，报告防御方法对数据分布中最脆弱样本的隐私泄露程度。为了高效地进行这样的评估，我们明确设计了一小部分审计子群体，这些样本具有最坏情况的特征，称为金丝雀样本。

在我们的评估中，我们发现 DP-SGD 是一种难以超越的防御方法 —— 即使在当前分析技术无法提供任何有意义保证的情况下！一个根本性的问题是，可证明隐私与 empirical 隐私之间的差距究竟是由于隐私分析不充分，还是由于 empirical 攻击手段的不足。换句话说，我们的 empirical DP-SGD 方法在 CIFAR-10 等自然数据集上是否真的具备隐私保护（我们只是尚未找到证明的方法），还是说还有更强大的潜在攻击（我们尚未发现）？

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650942721&idx=5&sn=f94eacdaa45918ee783ecc68006d5342

机器之心

专业的人工智能媒体和产业服务平台

RTX 4090可跑、完全开源，最快视频生成模型问世，实测一言难尽

RL「误人」？LeCun 在技术路线上又有何战略摇摆？

智能体零样本解决未见过人类设计环境！全靠这个开放式物理RL环境空间

研究大模型门槛太高？不妨看看小模型SLM，知识点都在这

大半年过去，主流视频生成模型们超越Sora了吗？

这才是真・开源模型！公开「后训练」一切，性能超越Llama 3.1 Instruct

阿里国际版o1来了，Marco-o1：聚焦开放式问题推理

英伟达开源福利：视频生成、机器人都能用的SOTA tokenizer

NeurIPS 2024 Oral | 还原所见！揭秘从脑信号重建高保真流畅视频

如今的智能体，已经像人一样「浏览」视频了，国内就有

仅仅一天，Gemini就夺回了GPT-4o拿走的头名

上交大o1复现新突破：蒸馏超越原版，警示AI研发"捷径陷阱"

大模型不会推理，为什么也能有思路？有人把原理搞明白了

全球十亿级轨迹点驱动，首个轨迹基础大模型来了

扣子OpenAPI突进智能语音战场！点满低延时、定制化、随时打断和音色克隆技能（内测开启！）

推理性能直逼o1，DeepSeek再次出手，重点：即将开源

诺奖得主哈萨比斯新作登Nature，AlphaQubit解码出更可靠量子计算机

神级项目训练GPT-2仅需5分钟，Andrej Karpathy都点赞

NeurIPS 2024 | 水印与高效推理如何两全其美？最新理论：这做不到

大模型代肝，自动刷《崩铁》升级材料，Claude操纵计算机还能这么用！

实测昆仑万维对话AI「Skyo」，会读诗、知晓雷军摆拍

室温超导学术不端、多次Nature撤稿，这位印度裔学者被大学解雇

德国科学家激进观点：意识是虚拟的，存在于大脑构建的梦中

媲美OpenAI事实性基准，这个中文评测集让o1-preview刚刚及格

在「最难LLM评测榜单」上，阶跃万亿参数模型拿下中国第一

登上Nature的AI芯片设计屡遭质疑，谷歌发文反击，Jeff Dean：质疑者连预训练都没做

高通的自研架构芯片，正在整合生成式AI世界

发力了，Mistral对标ChatGPT全面升级le Chat，还祭出超大杯多模态模型

大模型承重墙，去掉了就开始摆烂！苹果给出了「超级权重」

取人类与大模型之长，人机协作式智能软件开发框架AgileGen来了

面向代码语言模型的安全性研究全新进展，南大&NTU联合发布全面综述

精度与通用性不可兼得，北大华为理论证明低精度下scaling law难以实现

Karpathy后悔了：2015年就看到了语言模型的潜力，却搞了多年强化学习

钻石冷却的GPU即将问世：温度能降20度，超频空间增加25%

可以实现零代码开发的OPPO智能体平台，到底强在哪？

继良品率低后，英伟达Blackwell又出过热问题，说好的明年初发货呢？

NeurIPS 2024 | 自我纠错如何使OpenAI o1推理能力大大加强？北大、MIT团队给出理论解释

对标o1，Kimi放出了最能打的国产模型

怎样保证你不是AGI独裁者？马斯克为何退出OpenAI？早期邮件公开了

从未见过现实世界数据，MIT在虚拟环境中训练出机器狗，照样能跑酷

扩展测试时计算是万能的吗？Scaling What成为关键

突破无规则稀疏计算边界，编译框架CROSS数倍提升模型性能

谁能进入下一轮？具身智能「练习生」的技术储备和商业路径有何异同？

传说中Ilya Sutskever精选论文清单：AI领域40大论文完整版「破解」完成

首个自主机器学习AI工程师，刚问世就秒了OpenAI o1，Kaggle大师拿到饱

LeCun 的世界模型初步实现！基于预训练视觉特征，看一眼任务就能零样本规划

NeurIPS 2024 | 无需训练，一个框架搞定开放式目标检测、实例分割

率先解决多类数据同时受损，中科大MIRA团队TRACER入选NeurIPS 2024：强鲁棒性的离线变分贝叶斯强化学习

这三家国内机构合作成果，斩获EMNLP 2024最佳论文奖，主办方：明年苏州见！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉