引言: 当前,在代理模型辅助进化优化的应用中,隐私保护和可信数据共享已经成为日益重要的关注点,尤其是在涉及分布式敏感数据的场景中。现有的隐私保护代理模型辅助进化优化算法依赖于联邦学习基础框架,因而可能存在漏洞,例如其对梯度泄漏和推理攻击等对抗性威胁的敏感性。 为了解决该挑战,最近西湖大学可信及通用人工智能实验室与德国比勒费尔德大学以及匈牙利罗兰大学合作,在计算智能顶级期刊 IEEE TEVC上发表了一篇通过差分隐私随机梯度下降方法来保护原始数据,以训练代理模型的相关工作。该研究先根据具有潜力的样本和额外的辅助样本设计了一个差分进化算子,为多个客户端生成个性化的新样本,从而避免在线生成数据的暴露。此外,此研究还整合了一种基于相似性的聚合算法,以有效构建全局代理模型,从而进一步验证所提方法在隐私保护方面的有效性。
让我们一起来读一读吧!
论文链接:https://ieeexplore.ieee.org/document/10520272
随着深度学习技术在医疗、金融和物联网等领域的广泛应用,不同组织之间的合作变得不可或缺。通过从多个机构收集数据,可以有效增加训练数据的数量和分布,从而更有可能训练出高质量的大规模机器学习模型。然而,由于数据聚合面临两大挑战,数据孤岛问题随之而来。首先,像《GDPR》这样的数据隐私法规对跨领域的数据共享设置了严格的规则。其次,数据孤岛中的数据通常存储在独立系统中,可能由于数据存储格式、质量和数量的差异而与其他数据集不兼容。因此,迫切需要有效的机制来在保护隐私的同时利用数据训练复杂的深度学习模型。
联邦学习(FL)是一种隐私保护的机器学习范式,它允许机构间合作而无需共享原始数据。常用的联邦学习算法,如FedAvg,可以通过上传模型参数而不是训练数据到中央服务器来实现隐私保护,服务器则会聚合本地模型更新的参数以获得全局模型。然而,联邦学习中的隐私风险依然存在,例如梯度泄漏攻击和推理攻击可能会暴露参与者的私密数据。
代理辅助进化算法(SAEA)已成为解决计算昂贵或代价高昂的黑盒优化问题的一种方法。在SAEA中,通过使用历史数据构建代理模型来逼近黑盒问题,并使用代理模型预测候选解的目标值,从而减少对耗时的目标评估的依赖。常用的代理模型包括支持向量机、径向基函数网络(RBFN)和高斯过程。SAEA可以在分布式环境中应用,使用多个参与方的数据优化黑盒问题,如移动设备和物联网。然而,隐私、安全、法规或经济问题可能阻止这些参与方共享私密信息。在联邦代理辅助进化算法(FSAEA)中,虽然现有研究在隐私保护方案上有一些进展,但为了进一步提高搜索效率和隐私保护能力,仍有以下几个关键挑战需要解决:
1. 数据隐私保护:需全面保护客户端本地收集的数据隐私,包括初始训练数据和优化过程中生成的新样本。在优化任务中,决策向量及其对应的目标值构成数据对,因此必须确保每个客户端的目标函数最优解不会泄露。
2. 代理模型选择的挑战:代理模型的选择具有挑战性,因为不同类型的代理模型在可扩展性、准确性和隐私保护方面各有优劣。例如,高斯过程(GP)通常用于代理模型,但在FSAEA中使用GP会带来额外挑战,如需要在联邦环境中通过随机傅里叶特征进行逼近,并且当训练数据量增加时,GP会遇到扩展性问题。相比之下,径向基函数网络(RBFN)在FSAEA中表现出色,值得进一步研究。
3. 隐私保护技术的应用:差分隐私(DP)等技术在应对固有的不确定性和推理攻击方面具有巨大潜力。然而,与传统联邦学习不同,FSAEA旨在寻找最优解,而非构建精确的分类或回归模型。因此,需要进一步研究如何在FSAEA中有效实施差分隐私技术,以提升隐私保护能力。
为应对这些挑战,本文提出了一个通用框架,将差分隐私引入RBFN辅助的SAEA中,称为DP-FSAEA。该框架的主要特点包括:
全面的数据隐私保护:DP-FSAEA不仅保护本地收集的原始数据隐私,还保护每个客户端的最优解(包括决策向量和目标值)。通过DP-SGD技术,每个客户端能够在保护本地初始训练数据的同时,采用隐私保护策略保护新生成的样本。
全局模型质量提升:DP-FSAEA在服务器端引入了一种新聚合策略,通过评估客户端之间的相似性,综合考虑群集中心的幅度和方向,优化全局模型的质量。
增强的隐私保护能力:DP-FSAEA利用差分隐私策略,有效减轻了梯度泄漏和推理攻击的风险。
实验结果表明,DP-FSAEA在解决昂贵的优化问题的同时,能够有效保障数据隐私。此外,结果显示,通过差分隐私策略引入的噪声不会严重影响优化性能。
2.1 威胁模型和安全定义:
威胁模型:我们的框架包括三个实体:聚合服务器、训练客户端和外部对手。服务器和客户端都被视为“半诚实”,即它们虽然遵循协议,但会尽力从获得的信息中提取最大信息。服务器会根据客户端提供的参数计算最优解,但这些参数和解可能泄露客户端的私密信息。客户端之间虽然不直接共享数据,但仍可能通过协作学习和优化结果推测出其他客户端的信息。外部对手则可能窃听客户端上传的数据和服务器的聚合数据,并利用模型推理和梯度重构攻击来提取敏感信息。
安全定义:该框架的安全需求如下定义:
- 数据机密性:任何多项式时间内的攻击者只能以极小的概率获取客户端输入的相关信息,例如原始数据、决策变量的最优值以及模型生成的目标值等。
- 梯度泄漏防护:DP-FSAEA框架确保任何多项式时间内的攻击者几乎无法通过梯度更新重构原始数据或推断出决策变量的最优值。
- 推理攻击防护:框架保护措施使得任何多项式时间内的攻击者几乎不可能通过分析训练过程中的模型更新,推测出用户数据的详细信息。
2.2 整体框架
DP-FSAEA的整体框架如下:
图1: DP-FSAEA的整体框架
DP-SGD应用于RBFN辅助SAEA的主要步骤如下,
- 初始化阶段:首先,服务器初始化全局模型参数θ₀,并将这些参数广播给参与的客户端进行训练。每个客户端Cₖ同步这些参数,设置θ₀ₖ = θ₀,并通过拉丁超立方体抽样法生成初始训练数据集。客户端将其目标函数应用于对应的输入输出对,评估其数据集中的每个样本。
- DP-SGD掩码阶段:为确保隐私,DP-SGD算法用于在每个客户端训练本地RBFN,而不是直接对原始数据添加噪声。具体来说,DP-SGD算法先计算随机小批量数据样本的梯度,剪裁其L2范数至最大阈值,计算剪裁后的梯度平均值,然后向该平均值添加噪声以保证隐私。
- 聚合阶段:客户端将本地参数发送回服务器,服务器通过相似性加权平均的方法更新全局模型。局部和全局模型预测结果的标准差平方作为获取函数,用于增强探索能力。服务器随后使用进化算法优化获取函数,从而生成优化后的种群。
- 广播阶段:最后,服务器不仅广播更新后的全局模型,还将最佳候选样本x以及从种群中随机选取的附加辅助解xaₖ发送给每个参与的客户端。随后,每个客户端可以对x和xaₖ执行差分进化操作,生成个性化的新样本xpₖ,并使用真实目标函数进行评估,以更新本地模型。这样可以确保新生成样本的隐私得到保护。
DP-FSAEA的主要算法如下:
图2: DP-FSAEA的主要算法
2.3 基于相似度的聚合
直接应用FedAvg在RBFN参数上会显著降低性能,其主要原因是RBFN中的神经元簇中心在模型构建中起着关键作用。因此,在聚合时必须考虑不同客户端提供的中心的相似性。然而,之前提出的排序平均方法仅根据中心的平方和进行相似性度量,忽略了方向因素,可能导致不同客户端间中心的不正确匹配。例如,如果最初的决策向量集中在拉丁超立方采样的平均值附近,这种方法可能会使所有中心看起来相似。为了解决这一问题,我们提出了一种新的相似性度量,综合考虑了中心的大小和方向。
给定由客户端Ck提供的一组中心Ck = (ck,1, ck,2, ..., ck,m),方向由每个中心ck,i与单位长度参考向量v之间的锐角θk,i表示,而每个中心ck,i的大小由其长度∥ck,i∥衡量。具体来说,使用余弦定律来计算向量的角度,以确定这些中心的方向是否相同。注意,对于每组中心,为简化不同客户端提供的中心集合的匹配,角度会进行归一化:
其中,max βk 和 min βk 分别表示中心Ck的最大和最小角度。为了在大小和方向之间取得平衡,引入了一个新的相似性度量Sim:
随后,根据相似性度量的值,以升序排列本地RBFN中的节点索引。通过这种方式,所有参数(包括中心、宽度和连接权重)都根据各本地RBFN中按排序索引的节点进行平均:
其中n是训练数据的总数,nk是第k个客户端上的训练数据量。
DP-FSAEA的安全性分析主要评估其对内部攻击(如服务器发起的数据重构攻击)和外部对手攻击(如推理攻击)的防护能力。差分隐私(DP)在攻击防护中的具体细节已在很多文献中详尽讨论,因此我们在此不再赘述。通过结合DP方案的固有特性,DP-FSAEA能够有效防止推理攻击和梯度泄漏攻击。安全性分析主要证明DP-FSAEA如何在整个算法过程中保持(ϵ, δ)-DP,从而确保原始数据和新生成样本的隐私始终得到保护。
定理: DP-FSAEA在整个过程中对服务器保持(ϵ, δ)-DP隐私保护。
证明: 如我们所知,差分隐私(DP)满足序列可组合性,这意味着如果存在一系列随机算法f1, f2, f3, ..., fn,并且每个算法fi (1≤i≤n) 满足ϵi-DP,那么整个过程就满足 ∑ϵi-DP。在DP-FSAEA中,首先,每个客户端k向参数θt添加噪声ηi,其中ηi ∼ G(0, δ²i) 是噪声分布,G表示高斯分布。我们选择噪声尺度σ ≥ c∆GS/ϵ,常数c ≥ √(2 ln(1.25/δ)),其中ϵ ∈ (0, 1)。n表示数据集中的加性噪声样本值,f是实值函数。
根据FedAvg算法,服务器基于接收到的所有值进行聚合:
这个过程保证了最终结果的(ϵ, δ)-DP隐私性。整体来看,全局模型会传递给优化器,用于获取最佳的Xₚ。基于RBFNs函数,比较仅在此阶段进行,并为每个值保留(ϵ, δ)-DP隐私性。
因此,无论是半诚实还是恶意的受损服务器,均无法推断出原始值或进行梯度泄漏和推理攻击。同样,外部对手和窃听者也无法通过持续监控获取准确的客户端隐私和模型信息,从而确保数据隐私得以保护。
4.1 实验1: 数据保护分析
此实验进一步检验了所提出方法的隐私保护效果。以Ackley函数为例,分别使用标准SGD方法和DP-SGD方法对从Ackley函数中随机抽取的一组训练数据进行训练,训练得到的RBFN模型分别标记为RBFN_sgd和RBFN_dp-sgd。然后,这两个模型分别对训练数据的均值进行预测,从而计算预测误差,例如均方误差(MSE)。此外,实验采用了一种名为排序偏向重叠(RBO)的相似性测度,来进一步研究预测误差对预测值排序的影响。
表I: 不同优化方案的安全隐私保护分析
从实验结果(见表I)可以发现,尽管DP-FSAEA_sgd在预测目标值上比DP-FSAEA_dp-sgd更准确,但它未能保持种群中样本的正确排序。相比之下,DP-FSAEA_dp-sgd能够更好地保持与真实目标值排序相似的排序。另一个有趣的发现是,噪声水平较高的DP-FSAEA_dp-sgd(即ϵ=0.1)在排序方面表现优于噪声水平较低的(即ϵ=1, 10)。然而,噪声对预测误差的影响与DP-SGD原论文中的结果一致。这一现象可以通过优化任务与学习任务的区别来解释:虽然噪声降低了机器学习模型的精度,但基于模型的代理辅助进化优化并不会总是导致性能下降,因为选择是基于排序而不是目标值。
4.2 实验2: 集中式SAEAs分析
实验将所提出的算法与三种集中式SAEAs进行了比较:1)标准的贝叶斯优化算法EGO;2)用于大规模问题的RBFN辅助算法SACC-EAM-II;3)用于高维问题的RBFN辅助算法SA-COSO。表II中的结果表明,所提出的算法在几乎所有测试实例中,优化性能显著优于高斯过程辅助算法和RBFN辅助算法。可能的解释是,DP-FSAEA允许多个客户端在保护原始数据的同时共享信息,从而加速了优化过程。
表II: 集中式SAEAs分析
4.3 实验3: FDD-EA分析
实验还将DP-FSAEA与最新的联邦SAEA算法FDD-EA进行了比较,结果如表III所示。可以看到,DP-FSAEA在18个测试实例中的10个上显著优于FDD-EA,并且在不同程度的非独立同分布(Non-IID)数据和搜索空间下都保持了其优势。特别是,非IID数据分布在Rastrigin和F13函数上稍微降低了两种算法的性能。同样,搜索空间维度的增加对DP-FSAEA和FDD-EA都带来了挑战。尽管FDD-EA在10维搜索空间的测试实例中表现竞争力,但DP-FSAEA在高维度下表现更好。
表III: FDD-EA分析
为了进一步说明优化性能,下图展示了在Ackley和Rosenbrock函数上的收敛曲线,维度分别为d = 10, 20, 30,参数τ = 0, 1, 10。Ackley函数的结果显示,FDD-EA在初期收敛速度比DP-FSAEA更快;然而,FDD-EA在优化过程中缺乏进一步探索最佳目标值的能力。Rosenbrock函数的结果也证实了这一观察。此外,虽然FDD-EA在更高维度的搜索空间(如d = 30)中表现不佳,但我们的算法显示出在整个空间中进行有效探索的优势,这可以通过新样本选择的策略来解释。DP-FSAEA通过最大化多个代理模型提供的不确定性,获得了良好的探索能力。
图3: 在Ackley和Rosenbrock函数上的收敛曲线
该文章提出了一种基于差分隐私(DP)的联邦进化算法,称为DP-FSAEA。该模型基于FDD-EA框架,并扩展了对每个客户端初始训练数据和新生成样本的保护。通过实现DP-SGD,DP-FSAEA在防止梯度泄漏和推理攻击方面证明了其有效性。此外,我们的安全分析和实验表明,该方案在整个过程中始终满足(ε, δ)-DP隐私保护要求,并能够准确选择最佳查询。
参考文献:
[1] Yan, Y., Wang, X., Ligeti, P. and Jin, Y., 2024. DP-FSAEA: Differential Privacy for Federated Surrogate-Assisted Evolutionary Algorithms. IEEE Transactions on Evolutionary Computation.
[2] McMahan, B., Moore, E., Ramage, D., Hampson, S. and y Arcas, B.A., 2017, April. Communication-efficient learning of deep networks from decentralized data. In Artificial intelligence and statistics (pp. 1273-1282). PMLR.
[3] Kusner, M., Gardner, J., Garnett, R. and Weinberger, K., 2015, June. Differentially private Bayesian optimization. In International conference on machine learning (pp. 918-927). PMLR.
[4] Xu, J., Jin, Y., Du, W. and Gu, S., 2021. A federated data-driven evolutionary algorithm. Knowledge-based systems, 233, p.107532.
[5] Shokri, R., Stronati, M., Song, C. and Shmatikov, V., 2017, May. Membership inference attacks against machine learning models. In 2017 IEEE symposium on security and privacy (SP) (pp. 3-18). IEEE.
[6] Wang, Y., Lin, J., Liu, J., Sun, G. and Pang, T., 2021. Surrogate-assisted differential evolution with region division for expensive optimization problems with discontinuous responses. IEEE Transactions on Evolutionary Computation, 26(4), pp.780-792.
End
初稿|严宇萍
复审|颜学明
终审|金耀初