联邦遗忘学习概述

文摘   科技   2024-04-22 20:37   广东  

作者:林沁琦



图1 机器遗忘学习(图片来自于网络)

研究背景——机器遗忘学习

    随着社会对个人数据隐私保护的关注日益增加,世界各国的政府及立法者制定了许多重要的数据隐私法规,如欧盟的GDPR和加州的CCPA。特别地,这些法规赋予了个体宝贵的被遗忘权(Right to be forgotten, RTBF), 允许他们能够从数据收集方的数据库中删除其个人数据。考虑到数据密集型机器学习(Machine learning, ML)算法的广泛应用,数据被遗忘权不仅允许数据所有者能够从训练数据集中消除其个体数据的存在,还允许从训练的ML模型中消除其个体数据的影响。针对这一过程,机器遗忘学习(Machine unlearning, MU)被提出以确保个人数据在ML模型中的影响可以被有效地删除,从而进一步加强数据隐私。如图1所示,机器遗忘学习的主要目标是从训练模型中消除特定数据点的影响,同时保持模型的整体性能。

机器遗忘学习原则

    一个最直接实现数据遗忘的方式是从剩余数据重新开始训练(Naïve retraining),即丢弃已经训练好的原始模型并从头开始重新训练。显而易见的是,重新训练的计算代价是昂贵的;相反,机器遗忘学习的目标在于从已经训练好的模型开始训练,以更加经济高效的方式确保遗忘学习后的模型与重新训练的模型具有相当的性能水平(如通过KL-散度进行度量)。

    在进入联邦学习的场景讨论机器遗忘学习之前,我们接下来先介绍现有MU文献中主要依赖的遗忘学习原则:

    [1]. 重新训练:指直接从剩余数据集开始训练模型。尽管这样训练的模型不包含需要遗忘的数据的信息,但这样的过程既耗时又是资源密集型的。

    [2]. 模型微调:指利用剩余数据集来优化原始模型,减少遗忘数据集的影响。然而,这个过程涉及多次迭代,导致计算和通信成本的增加。

    [3]. 梯度上升(逆向学习):指在机器遗忘学习过程中应用梯度上升来最大化损失函数,然而这种方法很容易导致灾难性遗忘。因此,许多研究引入了约束条件规避灾难性遗忘。

    [4]. 多任务遗忘学习:指在不仅消除遗忘数据集的影响,还加强对剩余数据的知识获取。在这个过程中,大多数研究旨在在遗忘效果与保留效果之间取得平衡。

    但这些在中心化环境进行遗忘学习的原则,并不直接适用于去中心化的环境,特别是对原始数据隐私保护有较高要求的联邦学习系统中。

研究背景——联邦遗忘学习

    基于机器遗忘学习(MU)的原理与被遗忘权(RTBF)的概念,联邦遗忘学习(Federated unlearning, FU)在联邦学习(Federated learning, FL)环境中应运而生。特别地,在联邦学习系统中,多个客户端在本地训练其机器学习模型,随后将这些模型合并以构建全局模型;然后,服务器将更新的全局模型分发给所有客户端,在后续的联邦轮次中进行训练;这些步骤持续重复,直到全局模型达到收敛。因此,联邦遗忘学习的目标是使联邦学习模型能够消除联邦学习客户端的影响或与客户端部分数据相关的可识别信息,同时保持分布式学习过程的隐私保证,如图2所示。与通常由单个客户端执行的机器遗忘学习算法不同,联邦遗忘学习系统涉及多个参与者,包括遗忘学习的目标客户端、剩余的客户端和中央服务器,其中任何一方都可以作为遗忘学习者,负责执行遗忘学习算法。此外,联邦学习的目标可能涵盖整个目标客户端,也可能仅是目标客户端的特定部分数据。


图2 联邦遗忘学习

联邦遗忘学习目标与挑战

    接下来,我们将明确在联邦学习环境中遗忘学习的目标,主要包括遗忘学习过程中的模型一致、效率保障、隐私保护以及可认证性:

    [1]. 模型一致性:遗忘学习后的模型必须呈现出与重新训练模型相当的性能,即遗忘学习算法需要确保遗忘学习过程不会降低其准确性和可靠性。

    [2]. 遗忘效率:遗忘学习算法需要确保其成本显著低于获得重新训练模型的成本。

    [3]. 隐私保护:在遗忘学习过程中,需要确保遗忘学习算法不会泄露客户端敏感信息或破坏数据隐私。

    [4]. 遗忘认证:在遗忘学习过程中,验证是否已从联邦学习系统中删除整个目标客户端或客户端部分数据的能力亦至关重要。

    然而,与传统的中心化机器遗忘学习相比,联邦学习系统的独特特点为遗忘学习带来了一些挑战,如下所述。

    挑战1:知识渗透。当一个目标客户端的数据需要被遗忘学习时,其信息已经在联邦学习系统的所有参与者中传播开来。特别地,在联邦学习中,参与方通过交换和聚合模型更新来共享知识和信息。因此,当一个客户端的数据被用于训练全局模型时,其信息已经渗透到整个系统中的其他参与方。

    挑战2数据隔离。联邦学习系统在隐私保护方面的一个重要优势在于每个客户端都单独维护其数据集并进行本地的模型训练,因此在联邦学习系统中只有梯度或全局模型被公开共享。这一特点可能会阻碍在联邦学习环境中适应现有的直接访问数据的遗忘学习算法。

    挑战3:遗忘学习的执行者。与通常只有单个客户端执行的中心化机器遗忘学习算法不同的是,联邦遗忘学习系统往往涉及多个参与方,包括:遗忘学习的客户端(即目标客户端),其余客户端和中央服务器。这些参与方中的任何一个都可以充当遗忘学习的执行者,并负责执行遗忘学习算法。

    挑战4:遗忘学习的目标。在联邦遗忘学习系统中,遗忘学习请求的发起可以源自联邦学习客户端或是服务器,这取决不同的目的。同时,更重要的是,遗忘学习的目标可以是整个目标客户端,或者是目标客户端的特定部分数据。

    针对以上目标及随之而来的挑战,接下来,我们将介绍联邦遗忘学习的主要流程与方法。



图3 联邦遗忘学习工作流程

    如上,图3介绍了一个统一的联邦遗忘学习的工作流程。作为讨论现有遗忘学习技术的基础,该工作流程定义了学习、遗忘和验证的时间线。具体地,当联邦遗忘学习系统接收到一个遗忘学习请求时,它可以立即允许目标客户端退出系统,称为“被动遗忘学习”;或者,目标客户端可以选择留下并参与遗忘学习过程,称为“主动遗忘学习”。详细的分类体系如下图4所示。



图4 联邦遗忘学习方法分类

Ø 被动遗忘学习(Passive unlearning):被动遗忘学习指目标客户端不在联邦遗忘学习系统内停留参与遗忘学习的过程,该过程通常涉及一系列的计算迭代。相反,剩余的参与方,包括中央服务器、剩余的联邦学习客户端或两者同时执行遗忘学习算法。在这种情况下,被动遗忘学习会遗忘整个客户端而不是部分数据。
Ø 主动遗忘学习(Active unlearning):主动遗忘学习表示目标客户端积极参与遗忘学习过程,然后可以选择留下或离开,进行验证或不进行验证。鉴于目标客户端直接访问待遗忘数据的能力,这种方法在现有研究中显示出更大的潜力。此外,主动遗忘学习可以遗忘整个客户端也可以遗忘客户端部分数据。

总结

    通过围绕机器遗忘学习及联邦遗忘学习的讨论,特别是从中心化到分布式的演化,一方面联邦学习系统带来了更多的挑战,另一方面这也引出了一系列新的研究可能,例如关于各个联邦遗忘学习参与方的策略性决策。

参考文献

[1] Liu Z, Jiang Y, Shen J, et al. A survey on federated unlearning: Challenges, methods, and future directions[J]. arXiv preprint arXiv:2310.20448, 2023.

[2] Qu Y, Yuan X, Ding M, et al. Learn to unlearn: Insights into machine unlearning[J]. Computer, 2024, 57(3): 79-90.

[3] Bourtoule L, Chandrasekaran V, Choquette-Choo C A, et al. Machine unlearning[C]//2021 IEEE Symposium on Security and Privacy (SP). IEEE, 2021: 141-159.

[4] Gao X, Ma X, Wang J, et al. Verifi: Towards verifiable federated unlearning[J]. IEEE Transactions on Dependable and Secure Computing, 2024.

[5] Ginart A, Guan M, Valiant G, et al. Making ai forget you: Data deletion in machine learning[J]. Advances in neural information processing systems, 2019, 32.

[6] Wang F, Li B, Li B. Federated unlearning and its privacy threats[J]. IEEE Network, 2023.

[7] Chen M, Zhang Z, Wang T, et al. When machine unlearning jeopardizes privacy[C]//Proceedings of the 2021 ACM SIGSAC conference on computer and communications security. 2021: 896-911.

写在最后

我们的文章可以转载了呢~欢迎转载转发

想了解更多前沿科技与资讯?

点击上方入口关注我们!

欢迎点击右上方分享到朋友圈

香港中文大学(深圳)

网络通信与经济实验室

微信号 : ncel_cuhk


网络通信与经济
介绍网络、通信和经济交叉领域的最新科研成果和活动 —香港中文大学(深圳)网络通信与经济学实验室
 最新文章