「可信人工智能」论文分享:一种联邦数据驱动多任务优化的集成模型知识蒸馏方法

文摘   2024-08-10 22:27   浙江  


「引言」当前, 数据驱动优化已成为科研以及工业界解决复杂优化问题的重要手段之一。然随着数据隐私和安全问题日益凸显, 如何在保护数据隐私的同时实现高效优化成为一个当前亟待解决的难题。此外,在许多实际的应用场景中,处理分布在多个客户端的相似数据驱动黑箱优化任务不仅涉及隐私问题,还面临非独立同分布(non-IID)数据的挑战,这进一步严重影响优化性能。 

为了解决这些挑战,最近萨里大学联合西湖大学可信及通用人工智能实验室, 在计算智能顶级期刊 IEEE Transactions on Evolutionary Computation上发表了一篇利用集成模型的知识蒸馏处理联邦数据驱动的多任务优化中非独立同分布数据(Non-IID)的相关工作。在该研究中,为构建高质量的全局代理模型,服务器在接收本地参数后为每个模型参数拟合高斯分布,并从中采样得到一个集成模型。为了减少通信成本并提供一个通用的全局模型,通过从集成中的知识蒸馏得出了一个学生代理模型。此外,每个客户端都被允许保留本地和全局模型,以便使用预测的均值和方差来指导新样本的选择。实验结果证明了我们提出的方法在存在non-IID数据的基准问题和真实机器学习问题上的可靠性和有效性。让我们一起来读一读吧!




论文链接:https://ieeexplore.ieee.org/document/10599211



一、 研究背景


在科学技术领域中,许多实际应用涉及多个相关任务需要同时优化。让我们以医疗诊断为例:深度学习已成为医疗诊断中预测和决策的强大工具。然而,医疗数据通常分散在不同医院甚至不同国家,且包含高度敏感的患者信息。这就带来了一个挑战:如何在保护隐私的同时,利用这些分散的数据来优化深度神经网络的性能?理想情况下,我们希望通过共享有用知识来同时优化不同机构的深度神经网络超参数,从而加速整体优化过程。但是,医疗数据的敏感性使得直接共享数据变得不可行。近年来,联邦学习应运而生,成为一种流行的机器学习范式。它能够利用分布式数据而不泄露敏感信息。
虽然联邦学习已经引起了显著的关注,但在联邦学习中的每个客户端都旨在利用其他客户端共享的信息,使用一阶优化技术(如随机梯度下降)来优化其本地模型的参数。然而,在深度神经网络的超参数调优等任务中,由于缺乏对数学优化函数和梯度的访问,传统的联邦学习方法难以直接应用。此外,评估目标函数可能耗时。因此,在联邦设置中需要数据驱动/黑盒优化技术来解决这些挑战。与联邦学习相比,联邦优化受到的关注要少得多。相比联邦学习,联邦优化研究还相对较少。目前的研究可以大致分为三类:

  • 联邦迁移优化:这类方法允许目标客户端利用其他客户端先前完成任务的信息来优化自身的数据驱动任务。代表性工作是基于联邦汤普森采样(FTS)的贝叶斯优化框架[1]。FTS使用随机傅里叶特征近似[2]将非参数高斯过程(GP)模型转换为参数线性回归模型,并在客户端间共享模型参数。
  • 水平联邦学习的优化:多个客户端在中央服务器的协助下协作优化一个黑盒目标函数,无需共享原始数据。例如,Xu等人[3]提出的方法中,每个客户端构建径向基函数网络(RBFN)作为代理模型,通过排序平均得到全局代理模型。服务器基于全局和本地代理模型构建获取函数,决定下一个采样点。尽管这种方法能够保护每个客户端上的初始数据的隐私,但在优化过程中每个客户端采样的所有新数据都会暴露给服务器,因此无法保护其隐私。为了解决这个问题,文献中提出了一种隐私保护的联邦数据驱动多目标进化算法,该算法结合安全聚合方案在随机选择的客户端上构建获取函数[4,5]。戴等人[6]通过使用差分隐私来保护用户级隐私,扩展了FTS。此外,引入了一种分布式探索策略,称为DP-FTS-DE,以适应性地调整模型聚合的权重
  • 联邦多任务优化:这是一种更通用的设置,允许不同客户端处理不同的优化任务。代表性工作[7]提出了基于GP的联邦迁移学习方案,同时优化多个相似任务。通过评估客户端间任务的相似性来聚合GP的超参数,并结合本地和全局代理模型计算获取函数,实现个性化优化。

这些联邦优化方法初步展示了将联邦学习基本理念引入数据驱动优化(尤其是贝叶斯优化)的潜在优势。虽然这三类方法都面临系统异构性和额外通信成本等共同挑战,但第三类方法尤其具有挑战性,因为它需要在分布式设备网络上优化不同的目标函数。具体而言,从多样化优化任务中采样的本地数据天然呈现非独立同分布(non-IID)特性。这导致客户端模型漂移问题,使得标准的客户端模型平均聚合方法收敛不稳定且缓慢。此外,在边缘设备上局部处理不同的优化任务,使得使用单一全局代理模型来有效指导搜索变得非常困难。

值得注意的是,联邦学习中的non-IID挑战源于多种原因,如特征分布偏斜和标签分布偏斜等。针对这些挑战,研究人员已开发了多种方法,如重新加权本地目标、共享合成数据和学习个性化模型等。然而,大多数方法假设本地目标可以通过一阶优化技术来优化,这在许多机器学习任务中并不成立。目前,联邦数据驱动优化方法还很少,该领域的non-IID挑战仍是一个开放问题。鉴于这些挑战,本研究聚焦于解决联邦数据驱动优化中的non-IID数据问题。我们提出了一种基于径向基函数网络(RBFN)的数据驱动方法,旨在学习多个客户端上的异构私有数据,同时处理多样化的多任务优化。本文的主要贡献如下:
  • 提出了一个RBFN辅助的优化框架,在保护数据隐私的同时协作优化多个客户端上的多个任务。为捕捉客户端数据在多任务优化中的异质性,我们学习了全局模型的概率分布,假设每个客户端模型都是可能的全局模型。服务器使用接收到的本地参数为全局模型的每个参数拟合高斯分布,从中构建集成模型作为全局模型,实现更稳健的聚合。
  • 我们在服务器端执行教师-学生知识蒸馏,而不是将集成模型广播给客户端。具体而言,使用代理数据集从集成模型中提炼出一个计算效率更高的学生RBFN模型作为全局模型。代理数据集由随机采样的无标签数据批次组成,其对应标签由集成模型的预测近似得到。
  • 除全局模型外,每个客户端还维护自己的本地模型。新样本的选择通过最小化两个模型预测的均值并最大化预测的方差来实现,即使用下置信界(LCB)准则。
  • 实验结果证明了所提方法在存在non-IID数据的基准问题和真实机器学习问题上的有效性和可靠性。
这项研究为解决联邦数据驱动优化中的数据异质性问题提供了新的思路,有望在保护数据隐私的同时提高分布式优化的性能。


2. 研究方法


2.1 问题描述

联邦学习通常被定义为一个优化问题,目标是从存储在多个远程设备上的数据中学习单一的全局模型,而设备生成的数据则在本地存储和处理。与之不同,联邦数据驱动优化(Federated Data-driven Optimization, FDO)旨在为每个客户端相关的昂贵黑盒优化任务寻找最优解,这个过程借助代理模型来完成。在本研究中,我们参考[7]的工作,对一般的联邦数据驱动优化问题进行了如下表示:

对于I个设备,每个设备i∈I拥有本地数据Di=(Xi,Yi)和优化任务fi:Xi→R,需要解决以下优化问题:

其中xi表示第i个客户端优化任务的最优解,通常涉及耗时且资源密集的评估。FDO的目标是在保护每个客户端数据隐私的同时,同时为所有昂贵的黑盒优化任务找到一组最优解{x1,x2*,...,xI*}。同时,由于本地客户端的数据来自具有不同搜索空间的不同任务,因此这些数据通常表现出非独立同分布(Non-IID)的特征。


FDO与多任务优化的比较:

  • 本研究中考虑的联邦数据驱动优化旨在借助服务器解决客户端上的多个黑盒优化任务,同时保护分布式数据的隐私。它遵循客户端-服务器架构,计算发生在客户端和服务器上,而通信发生在客户端和服务器之间。
  • 相比之下,多任务优化通常以集中式方式运行,所有数据(包括解决方案及其对应的适应度值)以及任务都存储在单个设备上。此外,现有的进化多任务优化方法往往忽视了黑盒优化任务和数据隐私concerns。
  • 将现有的多任务优化方法扩展到联邦设置并非易事。主要挑战在于保护解决方案及其对应适应度值的隐私,因为现有的跨任务知识转移技术可能会暴露解决方案或其适应度值。例如:
  • 在处理多任务优化的进化算法MFEAs中,每一代都使用适应度值来为个体分配任务并选择个体生成新的个体。此外,交叉和变异操作是在来自不同任务的个体上进行的。这意味着解决方案及其适应度值都被暴露了。
  • MFEA的大多数变体采用类似的基于解决方案及其适应度值的方法进行知识共享,因此无法保证隐私保护。

如果数据隐私是一个考虑因素,MFEAs需要使用差分隐私和同态加密等隐私保护技术。此外,在联邦设置中,通信通常发生在客户端和服务器之间。将多任务优化扩展到联邦设置时,跨任务的知识转移应该在服务器上进行。然而,即使使用差分隐私或同态加密技术,在每一代直接传输解决方案及其对应的适应度值也会显著增加通信成本。

2.2 集成模型知识蒸馏框架

本研究中提出的联邦数据驱动优化(FDO)问题涉及不同客户端上的多个昂贵优化任务。这种情况通常面临数据不足和本地数据分布存在显著统计异质性的挑战。这使得传统的FedAvg算法难以构建一个能够适应客户端模型漂移的全局模型。受[8]和[9]中新型聚合方法的启发,我们在服务器端执行稳健的集成模型蒸馏(EMD),通过捕捉本地模型参数的变化来实现更好的泛化性能。

1)代理模型选择

尽管高斯过程(GP)在数据驱动优化中被广泛用作代理模型,但在联邦设置中直接应用FedAVg到GP是不可行的。主要原因是GP是由其核矩阵定义的非参数模型,在联邦设置中通常需要参数化近似。此外,考虑到每个客户端可能拥有多种优化任务,使用多任务高斯过程作为代理模型似乎是自然的选择。然而,多任务高斯过程面临类似的挑战和计算复杂性问题。为了规避这些问题,我们采用径向基函数网络(RBFN)来近似每个设备上昂贵的黑盒目标函数。

2) 集成模型构建

基于[9]的思路,我们从贝叶斯角度解释联邦学习中的本地模型漂移。假设有I个客户端,每个客户端i∈I都有一个用本地数据训练的RBFN模型wi。从服务器的角度看,我们假设存在一个后验分布p(w | D),所有本地模型和全局模型wg都是从这个分布生成的。我们使用贝叶斯推断来获得全局模型的完整预测分布,而不是使用点估计:

由于后验分布难以直接计算,我们采用蒙特卡罗方法从p(w | D)中采样得到一个集成:

其中wi ~ p(w | D)。类似于大多数联邦学习中的贝叶斯模型,我们使用客户端模型拟合一个高斯分布N(μ, Σ):

从这个分布中,我们可以采样M个模型{wm ~ p(w | D)}(m=1 to M)来构建集成。

3)知识蒸馏

我们不直接将集成模型广播给客户端,而是基于集成的预测拟合一个单一的学生模型。具体而言,服务器随机采样J个解作为无标签辅助数据Xa = {xa1, xa2, ..., xaJ},对应的软/伪标签Ya = {ya1, ya2, ..., yaJ}通过平均集成中每个成员的预测来构造:

ŷaj = (1/I) ∑(i=1 to I) p(y | xaj; wm)

利用辅助数据集Da = (Xa, Ya),我们通过最小化Da上的L2损失函数来执行知识蒸馏,生成一个蒸馏后的学生模型,作为全局模型wg广播给客户端。

EMD的主要流程如下:


2.3 客户端新样本选择

虽然集成模型蒸馏(EMD)能够协作训练一个稳健的全局模型来应对统计异质性和客户端漂移,但共享全局模型的泛化能力可能会受限于客户端间多样化的优化任务和数据分布。为了解决这个问题,我们提出在每个客户端维护两个模型:一个用本地数据训练的本地模型,和一个从服务器接收的全局模型。这样,我们可以利用两个模型预测的均值和方差来指导新样本的选择。具体来说:

1)每个客户端i使用从其优化任务中采样的本地数据训练自己的RBFN模型wi。

2)全局模型wg学习一些共享知识,而本地模型则作为针对客户端特定优化任务的个性化模型。

3) 对于候选解x,我们可以计算两个模型预测的均值和方差:

4)从统计不确定性的角度看,wi和wg之间的差异可以解释为:σ(x)^2越大,表明由异质本地数据导致的客户端漂移越大。

5) 我们的方法利用μ(x)和σ(x)^2来:

   - 衡量RBFN模型的预测不确定性

   - 结合客户端特定和全局共享信息来选择新样本,以同时提高泛化性能和个性化性能

6)我们使用进化算法优化一个常用的获取函数——下置信界(LCB): 

   LCB = μ - w * σ

其中w是一个可调参数,通常设为2。通过调整w,LCB能有效平衡探索与利用的权衡。

这种方法与现有的联邦学习策略有所不同,但与一些联邦数据驱动方法有相似之处。主要区别在于代理模型的选择,这进一步影响了联邦优化策略的设计。与之前的一些工作不同,我们建议直接在客户端优化LCB,而不是在服务器端选择新样本。这样做不仅可以提高优化性能,还能更好地保护数据隐私。


2.4 整体框架

图1 所提FD-EMD的整体框架


为了缓解服务器端的客户端漂移并协调设备上的全局和本地模型,我们提出了一种新的联邦数据驱动优化算法,称为FD-EMD。该算法在服务器端执行集成模型蒸馏,在客户端执行数据驱动优化。如图1所示,FD-EMD算法的整体框架如下:
1. 服务器端初始化:
   - 随机生成一组无标签辅助数据Xa
   - 初始化全局RBFN模型wg0并广播给客户端
2. 客户端操作:
   - 同步全局模型
   - 使用本地数据训练本地模型wi
   - 基于全局和本地模型进行两阶段数据驱动优化:
     a. 利用预测的均值和方差来处理客户端特定任务
     b. 选择新样本并更新本地模型
   - 将更新后的本地模型返回服务器
3. 服务器端操作:
   - 接收客户端本地模型
   - 执行贝叶斯集成蒸馏生成单一全局模型wg
   - 将新的全局模型广播给客户端

这个过程在多个通信轮次中重复进行。


关于隐私保护的讨论:

FD-EMD与大多数现有FL方法一样,需要在服务器和客户端之间交换模型参数,这可能由于模型记忆等原因导致潜在的隐私风险。可以考虑添加差分隐私等保护机制来增强安全性。值得注意的是,如果服务器是良性的(这是联邦设置中的一般假设),使用非客户端收集的无标签数据不会削弱隐私保护。

计算复杂度分析:

FD-EMD的计算复杂度主要来自以下几个方面:

1. RBFN构建:O(K·h·d) + O(E·K·h)

   其中K为训练数据数量,d为搜索空间维度,h=2d+1为RBFN中心数,E为本地训练轮次数。

2. 服务器端集成模型蒸馏:O(E·J·h)

   其中J为辅助数据数量。

总体计算复杂度为:O(h·(K·d + K·E + E·J))

与基于GP的方法(如DP-FTS-DE和FMTBO)相比,FD-EMD的计算复杂度较低。这是因为GP的构建复杂度为O(K^3),且这些方法需要额外的随机傅里叶特征近似或基于预测排序的相似度计算。


三、实验结果


3.1 实验设置

3.1.1 测试函数

我们采用了两种类型的合成联邦数据驱动多任务优化问题(FD-MOPs),这些问题是由表I中列出的8个广泛使用的单目标基准问题构建而成。需要注意的是,FD-MOPs中的每个优化问题都被视为联邦学习系统中与一个客户端相关联的优化任务。此外,我们还在一个真实世界的昂贵优化问题上测试了算法的性能,即超参数优化问题。

表I:测试问题概述

表II:多任务优化测试函数


具体的测试问题设置如下:

1. FD-MOP1:这是一个典型的多任务优化基准问题,包含一组不同的基准问题。如表II所示,18个任务根据任务全局最优解的交叉程度和任务间相似度(Rs)被分为9个不同的组。完全交叉、部分交叉和无交叉场景分别用CI、PI和NI表示,而高、中、低任务间相似度分别用HS、MS和LS表示。
2. FD-MOP2:不同于使用不同的单目标问题来变化优化任务,FD-MOP2通过多个旋转矩阵变换同一个基准问题来生成不同的优化任务。选择的测试问题包括Ackley、Ellipsoid、Griewank、Rastrigin和Rosenbrock。
3. 地雷检测数据集:该数据集包含29个地雷区,每个地雷区属于一个客户端,用于调整支持向量机(SVM)分类器的两个超参数。这个SVM分类器用于预测某个位置是否含有地雷。
这种设置允许我们在各种复杂度和特征的问题上评估我们提出的FD-EMD算法的性能,从而全面测试其在不同场景下的有效性和鲁棒性。特别是,FD-MOP1和FD-MOP2提供了一个理想的测试平台,用于评估算法在处理多样化任务和非独立同分布(non-IID)数据时的性能,而地雷检测数据集则提供了一个真实世界应用的验证。

3.1.2 数据分布

为了验证FD-EMD的有效性,我们设置了独立同分布(IID)和非独立同分布(non-IID)两种数据分布。与现有的联邦数据驱动优化研究类似,在联邦数据驱动优化中,IID和non-IID数据分别指不同客户端具有相同和不同的搜索空间。

为了实现这一点,我们通过以下方式模拟non-IID数据:1) 将整个搜索空间的每个维度均匀划分为PI个间隔。2从这些划分的间隔中随机采样子空间。PI值越大,客户端之间的重叠程度就越小。在我们的实验中,PI分别设置为2、4和6。通过改变划分间隔数PI,我们可以构造不同程度的数据异质性。较大的PI值表示更高程度的non-IID设置,这通常会增加本地模型与全局模型之间的差异。


具体来说:

1. FD-MOP1和地雷检测应用本质上是non-IID分布。

2. 对于FD-MOP2,我们可以模拟IID设置,因为同一基本单目标函数的搜索空间可以相同。

这种设置允许我们全面评估FD-EMD在不同数据分布情况下的性能:

- IID设置:评估算法在理想条件下的基准性能。

- 不同程度的non-IID设置:测试算法在处理数据异质性时的鲁棒性和适应性。

通过这种方法,我们可以系统地研究数据异质性对算法性能的影响,并评估FD-EMD在各种实际场景中的适用性。这对于开发能在真实世界diverse数据环境中有效运作的联邦优化算法至关重要。


3.1.3 对比算法

基准求解器:

EMaTO-MKT:一种集中式多任务优化方法

三种最先进的联邦数据驱动优化方法:

DP-FTS-DE:具有差分隐私和分布式探索的联邦贝叶斯优化框架

FMTBO:基于相似度的超参数共享策略和联邦获取函数的贝叶斯优化框架

FDD-EA:基于RBFN的联邦数据驱动优化框架,使用排序平均方法注:我们修改了原始FDD-EA,允许每个客户端在客户端而非服务器端选择新样本,以保护新样本的隐私


三种FD-EMD变体:

FDM-EMD:仅在服务器端执行集成模型蒸馏,客户端通过最小化本地模型和全局模型预测的均值来识别新样本

FD-EM:在客户端优化LCB来识别新样本,集成模型作为全局模型广播给所有客户端

FD-Avg:在客户端优化LCB来识别新样本,全局模型通过FedAvg的常规平均方法构建


✔在Non-IID问题上的性能对比:

在这个小节中,我们研究了FD-EMD算法在非IID设置下的合成FD-MOPs问题上相对于其变体、中心化多任务优化方法以及最先进的联邦数据驱动优化方法的优越性。值得注意的是,FD-MOP1本质上是一个非IID问题,而FD-MOP2可以通过将分区间隔数设置为2、4和6来模拟不同的非IID水平。表III-IV分别展示了在两个测试套件上20次独立运行的统计和优化结果的平均值,其中突出显示了优越的性能。

                   表III:所提算法和SOTA算法在FD-MOP1上的结果对比


据此,我们可以得出以下观察结果:

1. 与中心化优化方法的比较:

   - 如表III所示,提出的FD-EMD相比EMaTO-MKT展现出显著优越的整体性能,表明了提出的策略能有效利用分布式客户端获得的知识。

   - 值得注意的是,虽然FD-EMD在大多数任务上都优于EMaTO-MKT,但在任务5、6、12、16和18上表现较差,这些任务的任务间相似度通常较低。


2. 与最先进的联邦数据驱动优化方法的比较:

   - FD-EMD优于两种突出的联邦贝叶斯优化技术DP-FTS-DE和FMTBO。

   - 这不仅显示了提出策略的有效性,还表明了在联邦数据驱动优化领域使用RBFNs作为代理模型的优势。

   - 使用RBFNs的一个显著优势是能够规避将非参数模型(如高斯过程)转换为参数模型时经常出现的复杂模型近似挑战。

   - 修改后的FDD-EA在测试实例上的整体性能明显劣于提出的FD-EMD。这种差异源于FD-EMD中提出的两种策略,它们在处理非IID问题时特别有效。


3. 与其变体的比较:

   - FD-EMD相比FDM-EMD、FD-EM和FD-Avg取得的显著性能提升验证了提出策略的有效性。

   - 通过比较FD-EMD和FDM-EMD,我们可以看到基于全局和本地模型进行新样本选择可以增强每个客户端上的优化。

   - 通过比较FD-EMD与FD-EM和FD-Avg,EMD的优势变得明显,这可以归因于一个稳健的全局模型。

   - 有趣的是,FD-EMD在具有更高数据异质性的FD-MOP2的大多数优化任务上表现出相当的性能,进一步验证了这一点。

这些观察结果突显了FD-EMD在处理非IID数据和多样化任务时的有效性和鲁棒性。EMD策略使得该方法能够从diverse客户端模型中提炼集体知识,从而增强全局模型的稳健性和探索能力。此外,客户端上全局和本地模型的协作有助于处理不同的优化任务,并最小化客户端之间的分歧风险。


             图2 所提算法和对比算法在FD-MOP1不同任务上的收敛曲线


为了更深入地了解每种算法的优化性能,我们研究了它们在每个通信轮次中的收敛情况。我们从FD-MOP1中选择了四个代表性任务T3、T8、T11和T17,并在图2中绘制了不同客户端获得的相应最优适应度值。图中的实线和符号表示20次运行的平均值,阴影区域表示标准差范围。

根据观察结果,我们可以得出以下结论:


  • . FD-EMD的优越性:

   - 与表III的结果一致,FD-EMD在所有比较算法中表现最佳。

   - FD-EMD始终比其他算法收敛更快,并在最终达到更好的最优适应度值。


  • . RBFN基础方法的表现:

   - 其他基于RBFN的方法在联邦优化初期表现出快速收敛速度。

   - 然而,从任务3和11的收敛曲线可以看出,它们容易陷入局部最优。

   - 这可能是由于全局模型的构建方式和客户端优化方法导致的。例如,FD-Avg和FDD-EA在聚合全局模型时忽略了客户端漂移,导致预测不可靠,进而误导客户端的数据驱动优化。


  • . 基于GP的算法:

   - 在联邦优化初期收敛较慢,但随着优化进行,收敛性能有所提升。

   - DP-FTS-DE使用Thomson采样促进联邦系统的探索,但也导致了较慢的收敛。

   - FMTBO的效率随着联邦优化的进行而提高,这是因为可用训练数据的增加提高了本地模型的质量,从而改善了知识转移的有效性。


  • DP-FTS-DE的表现:

   - 在所有任务上的收敛速度甚至比标准方法更慢。

   - 这可能是因为DP-FTS-DE使用随机傅里叶特征将GP模型近似为参数线性回归模型,导致代理模型性能下降。

   - 此外,我们的合成问题包含多个学习任务,参与客户端之间的关系复杂。DP-FTS-DE在不进行选择的情况下聚合近似客户端模型的参数,可能降低了在我们的合成模拟中客户端之间知识转移的效率。


总的来说,FD-EMD在处理复杂的联邦数据驱动优化问题时展现出了优越的性能和稳定性。它能够有效地平衡全局知识共享和本地任务特化,从而在diverse任务和非IID数据环境中取得更好的优化结果。


3.1.4 对比算法

本研究中,我们选择了以下算法进行比较:

基准求解器:

EMaTO-MKT:一种集中式多任务优化方法

三种最先进的联邦数据驱动优化方法:

DP-FTS-DE:具有差分隐私和分布式探索的联邦贝叶斯优化框架

FMTBO:基于相似度的超参数共享策略和联邦获取函数的贝叶斯优化框架

FDD-EA:基于RBFN的联邦数据驱动优化框架,使用排序平均方法注:我们修改了原始FDD-EA,允许每个客户端在客户端而非服务器端选择新样本,以保护新样本的隐私

三种FD-EMD变体:

FDM-EMD:仅在服务器端执行集成模型蒸馏,客户端通过最小化本地模型和全局模型预测的均值来识别新样本

FD-EM:在客户端优化LCB来识别新样本,集成模型作为全局模型广播给所有客户端

FD-Avg:在客户端优化LCB来识别新样本,全局模型通过FedAvg的常规平均方法构建

✔在Non-IID问题上的性能对比

在这个小节中,我们研究了FD-EMD算法在非IID设置下的合成FD-MOPs问题上相对于其变体、中心化多任务优化方法以及最先进的联邦数据驱动优化方法的优越性。值得注意的是,FD-MOP1本质上是一个非IID问题,而FD-MOP2可以通过将分区间隔数设置为2、4和6来模拟不同的非IID水平。表III-IV分别展示了在两个测试套件上20次独立运行的统计和优化结果的平均值,其中突出显示了优越的性能。


表III:所提算法和对比算法在FD-MOP1上的结果对比 


表IV:所提算法和对比算法在Non-IID情况下的结果对比


据此,我们可以得出以下观察结果:

1. 与中心化优化方法的比较:

   - 如表III所示,提出的FD-EMD相比EMaTO-MKT展现出显著优越的整体性能,表明了提出的策略能有效利用分布式客户端获得的知识。

   - 值得注意的是,虽然FD-EMD在大多数任务上都优于EMaTO-MKT,但在任务5、6、12、16和18上表现较差,这些任务的任务间相似度通常较低。

2. 与最先进的联邦数据驱动优化方法的比较:

   - FD-EMD优于两种突出的联邦贝叶斯优化技术DP-FTS-DE和FMTBO。

   - 这不仅显示了提出策略的有效性,还表明了在联邦数据驱动优化领域使用RBFNs作为代理模型的优势。

   - 使用RBFNs的一个显著优势是能够规避将非参数模型(如高斯过程)转换为参数模型时经常出现的复杂模型近似挑战。

   - 修改后的FDD-EA在测试实例上的整体性能明显劣于提出的FD-EMD。这种差异源于FD-EMD中提出的两种策略,它们在处理非IID问题时特别有效。

3. 与其变体的比较:

   - FD-EMD相比FDM-EMD、FD-EM和FD-Avg取得的显著性能提升验证了提出策略的有效性。

   - 通过比较FD-EMD和FDM-EMD,我们可以看到基于全局和本地模型进行新样本选择可以增强每个客户端上的优化。

   - 通过比较FD-EMD与FD-EM和FD-Avg,EMD的优势变得明显,这可以归因于一个稳健的全局模型。

   - 有趣的是,FD-EMD在具有更高数据异质性的FD-MOP2的大多数优化任务上表现出相当的性能,进一步验证了这一点。

这些观察结果突显了FD-EMD在处理非IID数据和多样化任务时的有效性和鲁棒性。EMD策略使得该方法能够从diverse客户端模型中提炼集体知识,从而增强全局模型的稳健性和探索能力。此外,客户端上全局和本地模型的协作有助于处理不同的优化任务,并最小化客户端之间的分歧风险。


根据图2观察结果,我们可以得出以下结论:

1. FD-EMD的优越性:

   - 与表III的结果一致,FD-EMD在所有比较算法中表现最佳。

   - FD-EMD始终比其他算法收敛更快,并在最终达到更好的最优适应度值。

2. RBFN基础方法的表现:

   - 其他基于RBFN的方法在联邦优化初期表现出快速收敛速度。

   - 然而,从任务3和11的收敛曲线可以看出,它们容易陷入局部最优。

   - 这可能是由于全局模型的构建方式和客户端优化方法导致的。例如,FD-Avg和FDD-EA在聚合全局模型时忽略了客户端漂移,导致预测不可靠,进而误导客户端的数据驱动优化。

3. 基于GP的算法:

   - 在联邦优化初期收敛较慢,但随着优化进行,收敛性能有所提升。

   - DP-FTS-DE使用Thomson采样促进联邦系统的探索,但也导致了较慢的收敛。

   - FMTBO的效率随着联邦优化的进行而提高,这是因为可用训练数据的增加提高了本地模型的质量,从而改善了知识转移的有效性。

4. DP-FTS-DE的表现:

   - 在所有任务上的收敛速度甚至比标准方法更慢。

   - 这可能是因为DP-FTS-DE使用随机傅里叶特征将GP模型近似为参数线性回归模型,导致代理模型性能下降。

   - 此外,我们的合成问题包含多个学习任务,参与客户端之间的关系复杂。DP-FTS-DE在不进行选择的情况下聚合近似客户端模型的参数,可能降低了在我们的合成模拟中客户端之间知识转移的效率。

总的来说,FD-EMD在处理复杂的联邦数据驱动优化问题时展现出了优越的性能和稳定性。它能够有效地平衡全局知识共享和本地任务特化,从而在diverse任务和非IID数据环境中取得更好的优化结果。


✔在高维问题上的性能对比


表V:所提算法和对比算法在50维FD-MOP1的结果对比


为了测试所提出方法的可扩展性,我们将FD-MOP1扩展到50维搜索空间。表V总结了所有比较算法的结果。值得注意的是,我们提出的FD-EMD在50维FD-MOP1的所有黑盒优化任务中都表现出优越的性能,这证实了所提出策略的有效性。具体来说:

1. 算法性能比较:

   - 基于GP的算法:DP-FTS-DE和FMTBO分别获得5.944和5.333的排名。

   - 基于RBFN的方法表现更佳,突显了使用RBFN作为代理模型在处理高维优化问题时的效率。

2. 维度增加对性能的影响:

   - 比较表III和表V的结果可以发现,随着搜索维度的增加,基于GP的方法(FMTBO)性能下降。

   - 相比之下,FD-EMD在更高维度的FD-MOP1上表现出改进的性能。这可能是因为每个客户端直接使用集成模型,能够更好地处理高维数据。

3. EmaTO-MKT的表现:

   - 除了客户端12的任务12外,EmaTO-MKT在所有任务中都表现不佳。

   - 这可以解释为EmaTO-MKT缺乏使用代理模型来提高其数据效率,因此在给定有限次数的函数评估条件下,难以解决计算昂贵的优化问题。


这些结果凸显了FD-EMD在处理高维优化问题时的优势:

1. 可扩展性:FD-EMD能够有效处理维度增加带来的挑战,表现出良好的可扩展性。

2. 代理模型选择的重要性:使用RBFN作为代理模型在高维问题中表现出明显优势,这为未来的联邦数据驱动优化研究提供了有价值的启示。

3. 集成模型的效果:FD-EMD中使用的集成模型策略在高维问题中表现出色,说明这种方法能够更好地捕捉复杂的高维空间结构。

4. 与传统方法的比较:FD-EMD相比于不使用代理模型的方法(如EmaTO-MKT)具有明显优势,特别是在计算资源有限的情况下。


✔在IID问题上的性能对比


表VI:所提算法和对比算法在FD-MOP2的IID情况下的结果对比


图3 所提算法和对比算法在不同分布的Ackley问题上的优化结果

图4 所提算法和对比算法在不同分布的Ellipsoid问题上的优化结果


图5 所提算法和对比算法在不同分布的Griewank问题上的优化结果

图6 所提算法和对比算法在不同分布的Rastrigin问题上的优化结果


为了深入了解这两种策略在异质数据分布上的工作机制,我们还在IID问题(即IID设置的FD-MOP2)上测试了比较算法,并展示了FD-MOP2所有测试问题在通信轮次中的平均优化性能。

图3、4、5、6和7分别展示了IID和非IID设置下获得的平均最优适应度值。根据表VI的结果,我们可以得出以下观察:

1. IID数据下的性能:

   - FDD-EA表现最佳,其次是FD-Avg。这是因为当局部和全局模型参数相似时,它们的聚合方法非常有效。

   - FD-EM的结果进一步证实了这一点,其中直接从高斯分布采样的集成模型表现出良好的性能。

   - FD-EMD与FDM-EMD的比较表明,在IID设置下,局部和全局预测的方差未能提供有用信息,失去了优势。

2. 收敛性能:

   - FD-EMD算法及其变体展现出快速的收敛速度。

   - 两种基于GP的方法在优化过程中保持稳定的收敛速度。

   - FDD-EA、FD-Avg和FD-EM在IID数据上快速收敛,但随着数据漂移的增加,其性能严重下降,可能是由于全局模型变得偏斜。

   - 相比之下,FD-EMD在不同程度数据偏斜的任务上表现更稳定,特别是在Non-IID-4和Non-IID-6设置下。

3. 非IID数据的处理能力:

   - FD-EMD在具有不同程度数据偏斜的任务上表现更稳定,特别是在Non-IID-4和Non-IID-6设置下。

   - 这表明我们提出的FD-EMD能够在非IID数据上找到潜在的更好解决方案。

这些观察结果突显了FD-EMD在处理异质数据分布时的优势:

1. 稳健性:FD-EMD在不同程度的数据异质性下都能保持稳定的性能。

2. 适应性:相比其他方法,FD-EMD能更好地适应数据漂移带来的挑战。

3. 泛化能力:FD-EMD在非IID数据上的良好表现表明它具有更强的泛化能力。

总的来说,这些结果证实了FD-EMD在处理实际中常见的异质数据分布问题时的有效性,为联邦学习在更复杂、更现实的场景中的应用提供了有力支持。


✔集成模型蒸馏分析

表VII: 所提算法和对比算法在不同分布的Rastrigin问题上的MSE和RBO结果


为了进一步研究FD-EMD中提出的集成模型蒸馏(EMD)的优势,我们使用FD-EMD提供的适应度预测的均方误差(MSE)来评估EMD在数据隐私保护方面的表现。值得注意的是,FD-EMD采用进化算法来优化LCB,它基于种群中个体的排名而非精确适应度值来选择新样本。因此,我们使用一种称为偏差重叠排名(RBO)的排名相似性度量来比较由适应度预测得出的排名列表与实际适应度值。RBO评估两个列表(均从1到整数N)在指定深度r处的一致性。较高的RBO得分表示两个排名列表之间的相似度更高。以10维Rosenbrock函数为例,我们进行了如下实验:

1. 在每个客户端上使用50个随机采样的数据训练RBFN,然后传输到服务器。
2. 服务器使用不同的聚合方法(EMD、EM和Avg)生成全局模型。
3. 另外,我们还使用本地模型作为集成的EMD(EMD-L)来验证提出的集成模型蒸馏。
4. 生成100个测试数据点,通过计算MSE和RBO来评估不同聚合策略的效率。
5. 实验重复20次,表VII记录了MSE和RBO的平均值。


观察结果:

1. EMD在非IID设置下持续产生与真实适应度排名非常相似的排名列表。
2. EM仅在IID设置下能达到较好的排名列表,这证实了EMD在处理FDO中数据异质性方面的优势。
3. EMD-L的表现不如EMD,这可能是因为概率模型能更有效地捕捉本地模型的分布,避免潜在的异常值,从而实现更通用的集成模型。
4. 有趣的是,MSE值较小的全局模型并不一定保证与真实排名更相似的排名列表。这可能是因为低MSE值可能源于全局模型对不同测试数据点提供非常相似的预测。

此外,这些结果还突显了EMD在处理异质数据时的优势:

1. 鲁棒性:EMD在非IID设置下表现稳定,说明它能有效处理数据异质性。
2. 排名一致性:EMD生成的排名与真实排名更为接近,这对于基于排名的优化策略尤为重要。
3. 适应性:EMD在不同数据分布下都能保持良好表现,显示出其广泛适用性。
4. 模型概括能力:EMD生成的模型能更好地概括不同客户端的数据特征,避免过拟合单个客户端的数据。


四、结论和展望


本文针对数据驱动的联邦优化提出了一个集成模型知识蒸馏的方法,着重解决客户端优化问题和数据异构的挑战。所提算法(FD-EMD)主要特点和创新点包括服务器端和客户端的处理。在服务器端,FD-EMD构建模型参数概率分布,以适应客户端间不同的数据分布,并从该分布中采样生成集成模型。为了提高模型质量并降低通信成本,通过知识蒸馏从集成模型中提炼出学生模型。在客户端,FD-EMD同时维护本地和全局模型,并利用两个模型预测的均值和方差来指导新样本的搜索过程。为验证FD-EMD的性能,我们采用了一系列具有非IID设置的数据驱动优化问题,包括合成问题和实际应用。我们将FD-EMD与中心化优化方法、最先进的联邦数据驱动优化方法及其变体进行了比较。实验结果经验性地验证了FD-EMD在非IID问题上的有效性。

研究发现,基于RBFN的联邦数据驱动优化在通信轮次初期表现出快速收敛,但容易陷入局部最优。因此,需要进一步研究搜索空间的探索策略。在非IID联邦设置中,探索来自客户端和全局模型的不确定性估计的效用,可能是进一步提高优化性能的一个有前景的方向。未来的研究方向包括改进搜索空间探索策略以避免陷入局部最优,深入研究如何更有效地利用客户端和全局模型的不确定性估计,探索FD-EMD在更复杂的实际应用场景中的表现,研究如何进一步减少通信成本同时保持优化性能,以及考虑将FD-EMD扩展到多目标优化问题。总的来说,FD-EMD为解决联邦环境下的数据驱动优化难题提供了一个新的有效方法,特别是在处理非IID数据时表现出色。这项研究为未来在保护数据隐私的同时提高分布式优化性能开辟了新的可能性。



参考文献:

[1] Dai, Zhongxiang, Bryan Kian Hsiang Low, and Patrick Jaillet. "Federated Bayesian optimization via Thompson sampling." Advances in Neural Information Processing Systems 33 (2020): 9687-9699.

[2] Rahimi, Ali, and Benjamin Recht. "Random features for large-scale kernel machines." Advances in neural information processing systems 20 (2007).

[3] Xu, Jinjin, Yaochu Jin, Wenli Du, and Sai Gu. "A federated data-driven evolutionary algorithm." Knowledge-based systems 233 (2021): 107532.

[4] Liu, Qiqi, Yuping Yan, Péter Ligeti, and Yaochu Jin. "A secure federated data-driven evolutionary multi-objective optimization algorithm." IEEE Transactions on Emerging Topics in Computational Intelligence (2023).

[5] Bonawitz, Keith, Vladimir Ivanov, Ben Kreuter, Antonio Marcedone, H. Brendan McMahan, Sarvar Patel, Daniel Ramage, Aaron Segal, and Karn Seth. "Practical secure aggregation for privacy-preserving machine learning." In proceedings of the 2017 ACM SIGSAC Conference on Computer and Communications Security, pp. 1175-1191. 2017.

[6] Dai, Zhongxiang, Bryan Kian Hsiang Low, and Patrick Jaillet. "Differentially private federated Bayesian optimization with distributed exploration." Advances in Neural Information Processing Systems 34 (2021): 9125-9139.

[7] Zhu, Hangyu, Xilu Wang, and Yaochu Jin. "Federated many-task Bayesian optimization." IEEE transactions on evolutionary computation (2023).

[8] Bhatt, Shrey, Aishwarya Gupta, and Piyush Rai. "Bayesian federated learning via predictive distribution distillation." arXiv preprint arXiv:2206.07562 (2022).

[9] Chen, Hong-You, and Wei-Lun Chao. "Fedbe: Making bayesian model ensemble applicable to federated learning." arXiv preprint arXiv:2009.01974 (2020).

[10] Liu, Qiqi, Yuping Yan, Yaochu Jin, Xilu Wang, Peter Ligeti, Guo Yu, and Xueming Yan. "Secure Federated Evolutionary Optimization—A Survey." Engineering (2023).






初稿 | 王曦璐

复审 | 颜学明

终审 | 金耀初




可信及通用人工智能实验室
金耀初实验室(可信及通用人工智能实验室)由欧洲科学院院士、IEEE Fellow,西湖大学人工智能讲席教授金耀初领导成立。实验室致力于应用驱动的可信人工智能研究,以及采用演化发育方法探索实现通用人工智能的新途径。
 最新文章