TPAMI 2024 | 联邦高斯过程:收敛性、自动个性化与多保真度建模

文摘   2024-07-11 19:01   中国香港  

点击上方“CVPaper”,选择加"星标"或“置顶

顶刊论文解读,第一时间分享

Federated Gaussian Process: Convergence, Automatic Personalization and Multi-Fidelity Modeling

题目:联邦高斯过程:收敛性、自动个性化与多保真度建模

作者:X. Yue; R. Kontar
源码:https://github.com/UMDataScienceLab/Federated_Gaussian_Process


摘要

本文提出了一种名为FGPR的联邦高斯过程(GP)回归框架,该框架采用模型聚合的平均策略和随机梯度下降用于本地计算。值得注意的是,所得到的全局模型在个性化方面表现出色,FGPR联合学习了所有设备共享的先验。然后通过利用这个共享的先验并结合特定数据集的本地数据来获得预测后验,这些本地数据编码了特定数据集的个性化特征。从理论上讲,我们证明了FGPR收敛到完整对数边缘似然函数的临界点,受统计误差的限制。这一结果提供了独立的价值,因为它将联邦学习的理论结果扩展到了相关的范式。通过在几个回归任务上的广泛案例研究,我们展示了FGPR在广泛的应用中表现出色,并有望成为保护隐私的多保真度数据建模的有前途的方法。

关键词

  • 收敛率

  • 联邦学习

  • 高斯过程回归

  • 多保真度建模

  • 个性化

I. 引言

现代计算时代正逐渐从数据存储在中央位置(通常是云或中央服务器)的集中式制度转变为允许设备在保持数据本地存储的同时协作学习模型的分散式范式。这一范式转变是由边缘设备计算资源的大幅增加推动的,基于一个简单的想法:与其在中央服务器上学习模型,不如让边缘设备执行小的本地计算,并且只共享学习模型所需的最少信息。这种现代范式通常被称为联邦学习(FL)。尽管FL的原型概念可以追溯到几十年前,Mangasarian和Solodov的早期工作,但它只是在McMahan等人的重要论文之后才被提升到深度学习的前沿。在他们的工作中,McMahan等人提出了Federated Averaging (FedAvg) 用于深度学习模型的分散式学习。在FedAvg中,中央服务器向选定的设备广播网络架构和全局模型(例如,初始权重);设备根据本地数据执行本地计算(使用随机梯度下降 - SGD)来更新全局模型,然后中央服务器取本地模型结果的平均值来更新全局模型。这个过程一直迭代,直到满足准确度标准。

尽管在深度学习中采用本地估计量的简单平均在FedAvg中取得了巨大成功,并从此在FL中产生了爆炸性的兴趣。到目前为止,FedAvg针对深度神经网络(NN)的分散式学习已被定制用于图像分类、文本预测、无线网络分析以及状态监测和故障检测。除此之外,在FedAvg的成功基础上,文献中提出了以下建议:(i)应对FL中的对抗性攻击;(ii)允许个性化,每个设备保留自己的个性化模型;(iii)确保设备在性能和参与方面的公平性;(iv)开发更复杂的聚合策略,以适应深度卷积网络;(v)加速FL算法以提高收敛速度或降低通信成本;(vi)通过模型集成提高泛化能力。

尽管上述联合学习(FL)的应用无处不在,但几乎所有的FL文献都处于经验风险最小化(Empirical Risk Minimization, ERM)框架之内。这一现象直接源于对深度学习的关注。至今,很少有论文研究超出ERM范围的FL,特别是当存在相关性时。在本文中,我们超越了ERM,专注于高斯过程(Gaussian Process, GP)回归。我们从理论和实证两个方面探讨了(i)在GPs中联合模型/参数估计的可行性,以及(ii)联合GPs可能极具价值的应用场景。不可否认,GPs固有的编码相关性、量化不确定性以及纳入高度灵活模型先验的能力,使其成为多保真度建模、实验设计、制造业、医疗保健、自动驾驶汽车和机器人技术等多个领域的关键推理工具。因此,FL在GPs中的成功可能有助于为FL进入许多新的应用领域铺平道路。

中心挑战在于,与经验风险最小化不同(见第三节的正式定义),GPs在所有数据点之间引入了相关性,以至于任何有限的数据点集合都具有联合高斯分布。因此,目标函数并不仅仅是简单地对各个数据点的损失求和。此外,当存在相关性时,小批量梯度变成了有偏估计。在这种情况下FL的性能尚待理解和探索。

为此,我们提出了FGPR(Federated Gaussian Process Regression,联合高斯过程回归)框架:该框架采用FedAvg(Federated Averaging,联合平均)策略进行模型聚合,并使用随机梯度下降(Stochastic Gradient Descent, SGD)进行本地计算。首先,我们展示了在某些条件下,FGPR能够收敛到完整对数边缘似然函数的临界点,并恢复真实参数(或最小化全局目标函数),直到依赖于设备小批量大小的统计误差。我们的结果适用于表现出指数衰减或多项式特征衰减的核函数,这被证明是满足于GPs中常用的Matérn和径向基函数(Radial Basis Function, RBF)核的广泛范围。我们的证明提供了独立的价值,因为它是第一个将FL的理论结果扩展到ERM之外,并应用于相关范式。反过来,这可能帮助研究人员进一步调查基于相关性的替代随机过程中的FL,例如Lévy过程。其次,我们在各种应用中探索FGPR,以验证我们的结果。最值得注意的是,我们提出FGPR作为一种隐私保护方法用于多保真度数据建模,并展示了其与现有最先进基准相比的优势属性。此外,我们发现了一个有趣但不足为奇的观察结果。FGPR中的全局模型在个性化方面表现出色。这一特性是由于FGPR最终学习了所有设备之间的共享先验。预测后验则是通过利用这个共享先验并对本地数据进行条件化来获得的,这些数据编码了特定设备上的个性化特征。这种自动个性化的概念与元学习密切相关,其目标是学习一个能够快速个性化的模型。

A. 贡献与发现摘要

我们简要总结以下贡献:

  • 收敛性:我们探讨了两种数据生成场景。

  1. 同质设置,其中本地数据由所有设备上的相同底层分布或随机过程生成;

  2. 异质设置,其中设备具有分布差异。在这两种场景下,对于足够大的批量大小M,我们证明了FGPR的信号方差和噪声参数收敛到完整对数边缘似然函数的临界点(来自所有数据),适用于表现出指数或多项式特征衰减的核。我们还提供了参数估计误差的统一误差界限,并强调了FGPR恢复底层噪声方差的能力。-有趣的是,我们导出的界限不仅依赖于迭代次数T,而且明确依赖于批量大小M,这是相关的直接后果。我们的结果不假设任何特定的函数结构,例如凸性、Lipschitz连续性或有界方差。

  • 自动个性化能力:我们展示了FGPR可以自动将共享全局模型个性化到每个本地设备。通过FGPR学习全局模型可以被视为联合学习全局GP先验。另一方面,GP的后验预测分布取决于这个共享先验和本地训练数据。后者可以被视为在GP模型中编码的个性化特征。这个重要的个性化特性允许FGPR在数据在每个本地设备之间是异质的场景中表现出色(第VI和VII节)。

  • 多保真度建模和其他应用:我们提出FGPR作为一种隐私保护方法用于多保真度数据建模,将不同保真度的数据集结合成一个统一的模型。我们发现,在这种情况下,FGPR不仅保护隐私,而且还可以提高泛化能力,跨越各种现有的最先进多保真度和分布式学习(Distributed Learning, DL)方法。我们还在各种模拟数据集和真实世界数据集上验证了FGPR,以展示其优势属性。

  • 本文的其余部分组织如下:第二节提供了详细的文献综述。第三节,我们介绍了FGPR算法。我们在第四节研究了FGPR的理论属性。在第五节、第六节、第七节和第七节中,我们在一系列模拟数据集和真实世界数据集上展示了几个实证结果。我们在第八节以简要讨论结束本文。代码可在以下GitHub链接上找到:https://github.com/UMDataScienceLab/Federated_Gaussian_Process。

    III. FGPR 算法

    在本节中,我们将描述第三节-a中的问题设置,并在第三节中介绍FGPR -一种针对全科医生的联邦学习方案-B.然后,我们在第三节中提供了关于FGPR的优势的见解-C。具体来说,我们将展示FGPR能够自动个性化每个本地设备的全局模型。这个特性允许FGPR在许多现实应用程序中表现出色,例如存在异构性的多保真度建模。本文的主要范围是关注回归任务,并提供严格的理论保证。

    A. 背景

    我们考虑的是高斯过程回归(Gaussian Process Regression, GPR)。在本文中,首先简要回顾一下集中式高斯过程模型。假设训练数据集表示为 ,这里 ,并且 表示观测值的数量。在这个上下文中, 是一个 维的输入,属于 ,而 是一个输出,属于实数集 。我们将输出分解为 ,其中 是服从高斯过程 的函数, 是独立同分布的噪声项,符合正态分布 。核函数 由核参数 参数化,先验核函数对数据生成过程进行了编码,并在所有数据点上引入了相关性。
    给定一个新的观测点 ,高斯过程回归的目标是预测 。根据高斯过程的定义,任何一组观测值都遵循多元正态分布。因此, 的联合分布可以表示为:
    其中 是协方差矩阵,其元素由核函数 确定。因此, 的条件分布(也称为后验预测分布)是:
    这里,
    通常用作 的点估计, 量化了预测的方差。可以看出,我们的预测将依赖于核参数,这些核参数通过参数化 来确定,以及噪声参数 。在本文中,我们用 来表示高斯过程模型的参数。因此,准确预测 的关键在于找到 的良好估计。估计 的最流行方法是最小化负对数边缘似然函数:
    这里 是先验密度函数。有许多优化器可以用于最小化 。在本文中,我们采用随机优化方法,比如随机梯度下降(SGD)或Adam优化器。

    备注1

    在FL中,边缘设备计算能力有限是一个关键挑战。SGD为解决GPs的计算复杂性问题提供了一个极好的可扩展性解决方案,GPs由于需要在优化过程的每次迭代中对协方差矩阵 求逆(见公式(2)),一直存在计算瓶颈,一般需要 的时间复杂度。在SGD中,每次迭代只取一个大小为 的小批量数据,这使得GPs能够扩展到大数据规模。除此之外,正如我们很快将看到的,我们的方法只要求边缘设备在它们本地数据上执行几步SGD。SGD的另一个显著优势是它提供了良好的泛化能力。在深度学习中,众所周知SGD可以将解决方案驱动到一个平坦的最小值,这通常意味着更好的泛化能力[59]。尽管这一说法在GPs中仍然是一个开放问题,但Chen等人[60]通过实证验证了SGD得到的解决方案比其他确定性优化器具有更好的泛化能力。
    在非联邦学习设置中,将随机推断应用于高斯过程(GP)并不是新事物。事实上,已有先前的工作[61]引入了小于训练样本数量 的诱导点 ,并采用了随机变分推断(Stochastic Variational Inference),该推断优化了对数边缘似然函数的下界。因此,计算负担降低至 。然而,[62]、[63]表明,当底层过程不平滑时,变分推断的效果并不理想,并且需要大量的诱导点来达到令人满意的性能。即使对于像径向基函数(RBF)这样的平滑核,也需要 个诱导点。另一方面,我们的工作直接将随机梯度下降(SGD)应用于确切的对数边缘似然函数,而不使用近似。在第四部分中,我们还用理论保证支持了我们的方法。现在,在集中式制度下,使用SGD对确切的对数边缘似然函数(2)进行优化,我们可以推导出给定小批量数据索引为 的随机梯度,其小批量大小为 表示为:
    这里, 是对应于具有小批量大小 的训练数据子集的索引集, 是由 索引的相应输入和输出子集。在每次迭代 时,取出一部分训练数据来更新模型参数,如下所示:
    其中 是迭代 时的学习率。这个过程重复多次,直到满足某个退出条件。
    虽然SGD是深度学习的关键推动力,但它在GPs中面临一个根本性的挑战。在深度学习中,经验风险函数给出为 ,其中 是训练数据集, 是要学习的神经网络, 是损失函数。因此,使用数据批次 计算的 的随机梯度是 。结果,,这意味着随机梯度是全梯度的无偏估计器。这是目标 作为训练数据的总和的事实的直接结果。另一方面,GPs 具有相关性,任何一组数据点都有一个联合的高斯分布。因此,要在GP中最小化的负对数似然函数 并不仅仅是简单地对每个数据点的损失进行求和。因此,当存在相关性时,随机梯度成为全梯度的有偏估计器。数学上,这意味着
    尽管存在这个挑战,我们将在后续章节中展示,我们为学习GP的联邦SGD方法收敛到 的一个临界点,受统计误差的影响。

    B. FGPR 框架

    假设存在 个本地设备。在本文中,我们将“边缘”设备和客户端交替使用。对于客户端 ,本地数据集定义为 ,其中数据集的大小为 。我们用 来表示所有设备数据点的总数。我们定义 作为设备 的负对数边缘似然函数,并定义 为该负对数边缘似然函数相对于小批量数据 的随机梯度,其中小批量数据的大小为
    在联邦学习(FL)中,我们的目标是协作学习一个全局参数 ,该参数最小化了全局目标函数,形式如下:
    其中 是设备 的权重参数,满足 。为了实现这一目标,在每个通信周期,每个本地设备 执行 步随机梯度下降(SGD)并更新模型参数:
    在每个通信周期结束时,中央服务器聚合模型参数:
    然后,聚合后的参数 被分发回本地设备。这个过程重复多次直到收敛。在这种训练框架中,每个通信周期所有设备都参与,我们定义这种框架为同步更新。然而在现实中,一些本地设备可能由于各种原因频繁离线或响应迟缓。为了解决这个问题,我们开发了一个异步更新方案。具体来说,在每个通信周期 的开始,我们根据采样概率 选择 个客户端,并记 为这些客户端的索引集。在通信周期中,中央服务器聚合模型参数为:
    详细的程序见算法1。尽管FGPR主要是一个回归框架,但它也可以扩展到分类任务。由于篇幅限制,我们在线附录1中推迟了细节。

    备注2

    算法1中使用的聚合策略是众所周知的FedAvg[3]。尽管FedAvg是为FL提出的第一种聚合方案,但在过去几年中,它已被证明是最健壮和最有竞争力的模型聚合方法之一。也就是说,也有可能将我们的算法扩展到不同的策略,例如不同的采样或加权方案。

    C. 单一全局GP模型为何有效?

    在本文中,我们将展示FGPR在数据跨设备是同质或异质的情况下的可行性。在异质设置中,通常开发个性化的FL方法,其中客户端最终保留自己的模型,同时从彼此那里借力。流行的个性化方法通常在基于本地数据微调全局模型的同时,鼓励本地权重保持在全局模型参数空间的一个小区域内[12]。这允许在客户端的共享知识和独特特性之间取得平衡。然而,这种文献主要关注深度学习。
    一个自然的问题是:为什么通过算法1学习到的单一全局模型在FGPR中有效?这里,与深度学习不同,估计GP中的 等同于通过最大化全局目标来学习先验,预测是通过条件化观察到的数据和学到的先验来获得的。通过“学习先验”,我们指的是通过估计高斯过程的超参数来最大化全局目标。
    更具体地说,在GP中,我们对 施加了一个先验,使得 。核函数由 参数化。因此,通过FGPR学习全局模型可以看作是学习所有 的公共模型先验 。另一方面,在测试点 处的后验预测分布给出为:
    这里 在公式(2)中定义,预测均值 和预测方差 在公式(1)中定义。从这个后验预测方程中,我们可以看到,设备 的GP预测轨迹(和方差)明确地受到先验分布和训练数据 的影响。对于特定设备,本地数据本身体现了个性化的角色。因此,FGPR能够自动地将共享的全局模型定制为每个本地设备的个性化模型。这个想法类似于元学习,其中的目标是学习一个能够快速适应新任务的全局模型。
    为了说明这一点,我们创建了一个简单且风格化数值示例。另一个示例可以在在线附录2中找到。假设有两个本地设备。设备1的数据遵循 ,而设备2的数据遵循 。每个设备在区间 [0,10] 上均匀分布有100个训练点。我们使用FedAvg训练一个2层神经网络。不幸的是,一个单一全局模型的神经网络简单地返回了一条直线,如图1所示。数学上,这个示例解决了以下优化问题:
    其中 是由 参数化的全局神经网络, 是在区间 [0, 10] 上定义的函数,
    通过对上述目标函数求导并设为零,我们可以找到解 。这意味着全局模型不能在两个设备上提供有意义的预测。图1中,黑色点表示原始数据,红线表示拟合曲线。
    为了解决这个问题,需要实施额外的个性化步骤,基于本地数据微调全局模型。这带来了其自身的挑战,例如从不良全局模型开始(就像上述情况),并引入额外的计算成本和参数。另一方面,通过FGPR学习到的单一GP模型可以为两个设备都提供良好的插值性能。这展示了FGPR内在的自动个性化优势。

    备注3

    尽管FGPR是一个全局建模方法,但在我们的实证部分,当数据分布是异质的时候,我们将与使用神经网络的个性化FL进行比较。

    IV. 理论结果

    由于相关性和模型估计的分散性,证明FGPR的收敛性带来了新的挑战。
    在高斯过程中,目标函数不能通过求和形式来近似,因为所有数据点都是相关的。这种相关性使得随机梯度成为全梯度的有偏估计。据我们所知,只有最近的一项工作[60]展示了在相关设置中集中式高斯过程的理论收敛性结果。此外,FGPR是在仅部分数据集上估计的参数上进行聚合的。
    在本节中,我们进一步理解了以分散方式估计的高斯过程的理论属性。具体来说,我们在同质和异质客户端条件下,以及在全设备参与和部分设备参与设置下,为FGPR提供了几个概率收敛结果。我们的理论结果建立在[60]的基础上,但这并不仅仅是[60]的简单扩展,因为在分散设置中,部分设备参与、非独立同分布数据、不频繁通信(多步SGD)、参数聚合以及高斯过程中固有的有偏随机梯度,这些都将进一步复杂化理论分析。据我们所知,这是第一篇研究存在相关性时FL的理论论文。
    为了进行分析,我们定义了,使得。这里,是信号方差参数,是噪声参数,而是长度参数。我们假设数据生成的真实参数为。我们对核函数施加了一种结构,使得,其中是一个已知函数。现在,我们定义作为一个协方差函数,其中是指示函数。这种形式的协方差函数非常普遍并被广泛采用。例如,Matérn协方差就是这种形式:
    其中是一个正标量,是第二类修正贝塞尔函数。另一个例子是RBF协方差:
    还有许多其他例子,比如Ornstein-Uhlenbeck协方差和周期协方差[64]。

    备注 4:

    一个更通用的设置是考虑复合核函数,形式为 。为了简化理论分析,我们假设 。然而,我们的证明技术可以很容易地扩展到 的场景。
    在理论分析中,我们将展示的显式收敛界限。然而,长度参数的收敛行为仍然是一个开放问题[60]。主要原因是需要对核函数应用特征分解技术,并仔细分析特征函数的上下界。然而,长度参数位于核函数的分母中。在这种情况下,将核函数写成特征值形式并对它们进行界定是极其具有挑战性的。据我们所知,即使是在集中式的情况下,研究的收敛结果的工作仍然是空缺的。

    A. 假设

    为了推导我们的收敛性结果,我们提出了以下假设:

    假设 1:

    参数空间Θ是一个紧凑且凸的的子集。此外,,其中 是集合Θ的内部。
    这个假设表明所有参数迭代都是有限的,并且全局最小化器 是存在的。不失一般性,我们假设每个参数空间维度的下界(或上界)是 (或 )。参数空间的凸性(而非目标函数)意味着任何在有界区域内的参数 ,它们的凸组合也落在相同的边界内。

    假设 2:

    随机梯度的范数是有界的。具体来说,对于所有的 ,有
    在这里,T 被定义为每个设备上的迭代次数的总和。数学上,T = RE − 1,[T] = {0, ..., T}。

    备注 5

    通常假设局部函数是L-平滑的、(强)凸的,或者随机梯度的方差是有界的。然而,我们并不做出这些假设。更具体地说,在假设 1 中,我们只假设参数空间(而不是目标函数)是一个紧凑且凸的子集。这个假设意味着SGD参数的迭代被限制在一个特定的区域内。否则,最小化器将不存在,SGD也将不收敛。假设2引入了与随机梯度的有界性相关的条件。这个假设与目标函数的l-平滑性无关。
    在GP设置中,显式收敛界取决于来自一个特定类型的核函数的特征值的衰减速率。在本文中,我们研究了两种类型的核函数:(1)具有指数特征衰减率的核函数;和(2)具有多项式特征衰减率的核函数。这些都可以转化为以下假设。

    假设 3a:

    对于每个 ,函数 关于概率测度 的特征值是 ,其中 。不失一般性,假设

    假设 3b:

    对于每个 ,函数 关于概率测度 的特征值是 ,其中 。不失一般性,假设

    备注6

    假设3a由光滑核如RBF核满足假设3a,假设3b由非光滑核如Matern核满足假设3b。

    B. 同质设置

    我们首先考虑所有设备的数据都是由相同的底层过程或分布生成的情况,即同质数据。数学上,这可以表示为:
    我们简要解释这个表达式。由于所有设备的数据分布是同质的,我们知道对于每个k,当趋于无穷大时,。因此,。在第IV节C和附录3中,我们将考虑异质数据设置,这在现实世界的应用中通常更加现实。
    为了推导收敛结果,我们将随机梯度的第i个分量除以一个常数因子进行缩放,其中。引入这些缩放因子是为了确保在理论分析中具有相同的量级。

    备注7:

    上述的缩放因子只需要用于收敛的结果。在实践中,我们观察到这些因子对模型性能的影响最小。
    我们的第一个定理表明,如果所有的设备都参与了训练,那么使用RBF核的FGPR是收敛的。

    定理 1: (RBF 核,同步更新)

    假设1至3a成立。在每次通信轮次,假设|S| = K。如果学习率(即,衰减学习率计划),那么对于一些常数,当,迭代T次后,以至少的概率,我们有:
    并且以至少的概率,我们有:
    在这里,常数仅取决于

    备注 8:

    回想一下,T是迭代次数。定理1意味着,当批量大小足够大时,以高概率,参数迭代以的速率收敛到全局最优参数。这归功于高斯过程目标函数的独特结构,我们称之为"放松的凸性"(见附录4中的引理4和引理5)。

    备注 9:

    在上界中,有一个项,这里E是每次局部SGD步数。为了确保这个项随着T的增加而减少,需要确保E不超过。否则,FGPR将不会收敛。例如,如果E = T,那么FGPR等同于一次性通信方法[44]。此外,由于T = RE − 1,我们也知道。这暗示通信轮次R应该大于E。

    备注 10:

    在上界中,除了与 成反比的 项外,还有一个统计误差项 。理论上,这表明较大的批量大小能够减少参数估计中的误差。

    备注 11:

    从定理 1 可以看出, 有较小的误差项 相比于 。这意味着噪声参数 相对于 更容易被准确估计。这是由于 所决定的不同的特征值结构直观上可以理解的。
    接下来,我们研究在异步更新(即部分设备参与)框架下的收敛行为。在这种情况下,每个通信轮次只有部分设备积极地将其模型参数发送到中央服务器。

    定理 2: (RBF 核,异步更新)

    假设 1-3a 成立。在每个通信轮次,假设有 个设备根据采样概率 被抽样。如果学习率 ,那么对于某些常数 ,当 时,在迭代 T 次后,以至少 的概率,我们有:
    并且以至少 的概率,我们有:
    其中期望是关于集合 S 取的,具体定义请参考附录 5.3。

    备注 12:

    在异步更新设置下,一个类似的收敛保证是成立的。唯一的区别是活跃设备的数量 在上界中起作用。从数值上看,比率 扩大了上界并阻碍了收敛速度。随着 的增长(即,更多的设备参与训练),比率 会减小。
    我们接下来提供 Matérn 核在同步和异步更新方案下的 FGPR 的收敛速率的明确结果。

    定理 3: (Matérn 核)

    假设 1-2 和 3b 成立,
    1. 在每个通信轮次,假设 。如果 ,那么对于一些常数 ,当 时,以至少 的概率,我们有:
    此外,
    1. 在每个通信轮次,假设 ,设备根据采样概率 被抽样。如果 ,那么对于某些常数 ,当 时,以至少 的概率,我们有:
    此外,

    备注 13:

    可以看出,使用Matérn核的FGPR比使用RBF核的FGPR有更大的统计误差。在RBF核中,统计误差部分受 (定理1,2)的影响,而这个项在Matérn核中变为 。后者较大,因为 。这种差异源于Matérn核比RBF核有更慢的特征值衰减率(由 决定,即多项式衰减与指数衰减的区别)。这种慢衰减率导致收敛速度变慢和更大的统计误差。当 变大时,衰减率变得更快, 的影响变小。在这种情况下,统计误差主要由 主导,这与RBF核中的项相同。

    备注 14:

    除了关于参数迭代的收敛界,我们还提供了关于全梯度 的上界。这个界与 的界以相同的方式缩放。

    备注 15:

    对于Matérn核,没有给出参数 的明确收敛保证。原因是对于Matérn核很难推导出SG的上下界。然而,定理3表明 和全梯度都以 的速率收敛,受到统计误差的影响。

    C. 异质设置

    除了同质设置外,我们还进一步考虑了所有设备的数据由几个不同的过程或分布生成的场景。等价地,这表明
    由于数据是异质的,我们知道 。因此, 的加权平均可能与 非常不同。我们这里指出,异质设置的收敛结果由于空间限制被移到了在线附录5.5。
    总的来说,在这个理论部分中,我们证明了FGPR可以保证在同构设置(第4.2节)和异构设置(附录5,在线提供)下收敛,无论是同步更新还是异步更新。

    V. 概念验证

    我们首先验证了第四节中获得的理论结果。我们还提供了一些样本实验,这些实验揭示了FGPR的关键属性。

    示例1:数据均衡的同质设置

    我们根据零均值的高斯过程生成数据,并使用RBF和Matérn-3/2核。我们考虑θ1 ∈ [0.1, 10],θ2 ∈ [0.01, 1]以及长度参数 。输入空间是中的d维单位立方体,其中d ∈ {1, ..., 10},输出的维度为一。我们进行了20次独立的实验。在每次实验中,我们首先随机采样θ1、θ2、l和d,以从高斯过程生成数据样本。在每种情况下,我们设置Nk = N/K。这种设置是同质和均衡的,因为K个客户端的每个客户端的数据点数量相等,并且它们都来自相同的底层随机过程。我们考虑了三种情况:(1) K = 20, N = 5000, (2) K = 50, N = 2000, (3) K = 100, N = 800。RBF核的结果在图2中提供。由于空间限制,Matérn核的图表被移到了在线附录7中。可以看出,收敛率遵循1/T的模式。在某些运行中,∥θ̄ - θ*∥^2_2的值在开始时非常大。这表明初始参数远离真实参数。然而,在20-40个通信轮次之后,这些值迅速减小。

    示例2:数据不平衡的同质设置

    我们使用与示例1相同的数据生成策略,但样本大小是不平衡的。具体来说,每个设备中的数据点数量在10到10,000之间变化。一个实验中的数据分布直方图在图4中给出。收敛曲线在图3中绘制。同样,收敛率与我们的理论发现一致。这个简单的例子揭示了FGPR的一个关键属性:FGPR可以帮助只有少量观测数据的设备恢复真实参数(受统计误差的限制)或减少预测误差。

    示例3:恢复对初始参数不良的GP的准确预测能力

    当训练FL算法时,模型参数θ通常被初始化在一个接近不良静止点的位置,这并不罕见。这里,我们提供了一个玩具示例。我们模拟数据来自y = sin(x) + ϵ,其中ϵ ~ N(0, 0.2),并创建两个客户端(K = 2)。每个客户端有100个训练数据点和1,000个测试数据点,这些数据点是从[0,1]中均匀采样的。我们人为地找到一个不良的初始参数θ,使得拟合曲线只是一条直线。这可以通过找到一个噪声参数θ2较大的θ来实现。在这种情况下,θ = (1, 10, 1),GP将所有数据都解释为噪声,并简单地返回一条直线。
    我们使用平均均方根误差(Root-Mean-Square Error, RMSE)指标评估FGPR的预测性能。每个设备的RMSE在本地测试数据上进行评估,平均RMSE是跨所有设备的平均RMSE。我们发现FGPR对参数初始化具有鲁棒性。我们在图5中绘制了平均RMSE与训练时代的演变。可以看出,即使参数初始设置不佳,FGPR仍然可以在几次通信轮次后纠正错误的初始化。这归功于SGD方法中的随机性。众所周知,在ERM中,SGD可以逃离不良的静止解,并收敛到具有良好泛化的解(通常是平坦的解)。

    示例4:对大数据的扩展性

    我们遵循Moreno-Munoz等人[41]在第4.1节(回归)中提出的设置。更具体地说,Moreno-Munoz等人[41]定义了一个生成函数f(x) = 9/2 cos(2πx/3 - 3π/2) - 3 sin(43πx/10 + 3π/10),并定义了客户端特定的数据生成函数fk(x) = f(x) + ϵ,其中ϵ ~ N(0, 2)。输入域是x ∈ [0, 5.5]。我们为每个设备k ∈ {1, ..., 50}生成了一百万个数据点。对于每个设备,我们随机选择了60%的数据点作为训练数据集(0.6百万个数据点),其余的数据点被包括在测试数据中(0.4百万个数据点)。这总共产生了三千万数据点。我们将批量大小设置为32,学习率设置为0.1,通信轮次设置为50。我们重复了30次实验。表II中报告了所有设备的平均RMSEs(第1行)和RMSEs的标准差(第2行),以及运行时间。
    可以看出,FGPR可以高效地处理大型数据集(总共三千万数据点),同时产生令人满意的预测性能。这归功于FGPR的两个属性:首先,FGPR采用小批量SGD,在每次迭代中只取数据的一个子集。这避免了需要对大型矩阵求逆的需求。其次,FGPR避免了使用随着样本大小而扩展的诱导点。

    VI. 应用 I: 多保真度建模

    对于许多计算机实验,复杂物理过程的高保真度数值模拟通常需要大量的时间和预算。这限制了研究人员可以收集的数据点数量,并由于数据不足而影响建模精度。为了克服这一障碍,提出了一种主要的工作趋势,即通过增加更便宜的替代品来增强昂贵的数据源。多保真度模型旨在融合少量但准确的观察结果(即高保真度,HF)与便宜且有偏差的近似值(即低保真度,LF),以提高HF模型的性能。
    为高保真度函数, 为低保真度函数。多保真度方法[66],[67],[68]的目标是使用 更好地预测 。在过去的几十年中,提出了许多多保真度模型来实现这一目标。我们参考[69]和[70]中的详细文献综述。在所有方法中,基于高斯过程(GP)的方法因其能够纳入先验信念、插值复杂函数模式和量化不确定性而受到最多关注[69]。最后一项能力对于在不同保真度下有效融合观察结果至关重要。
    在许多应用中,两个特定的模型已被证明非常有竞争力[68]:自回归(AR)模型和深度高斯过程(Deep GP)方法。两种方法都对 进行建模,如下所示:
    其中 是一个与空间相关的非线性变换, 是通过高斯过程建模的偏差项。
    更具体地,AR模型[71]将变换设置为线性映射,使得 ,其中 是一个常数。然后在 上施加一个GP先验,并相应地获得其后验 。因此,可以推导出闭式的后验分布 并得到高保真度模型的后验预测方程。另一方面,Deep模型[67]将 视为一个深度高斯过程,以揭示 之间的高度复杂关系。Deep是最先进的多保真度模型之一。有关更多详细信息,请参阅[68]。
    如今,随着数据隐私的重要性日益增加,访问多个保真度的数据往往变得不切实际,因为多个客户端可以拥有数据。这在多保真度建模方法中构成了一个关键挑战,因为对昂贵的高保真度模型进行有效的推断通常需要从其他信息源借用力量。幸运的是,在这种情况下,FGPR是一个潜在的候选方案,它可以在不共享数据的情况下学习GP先验。
    在本节中,我们测试了FGPR在多保真度建模中的可行性。我们使用不同保真度的数据包含在本地设备中的设置来测试我们的方法。然后,我们使用算法1来训练我们的FGPR算法。具体来说,每个设备运行几步SGD,然后将其模型参数发送到中央协调器。协调器随后聚合模型参数,并将聚合后的参数发送回每个设备。这个过程重复几次,直到满足某些退出条件。在估计模型参数后,我们使用预测公式(1)测试设备的本地预测精度。
    我们将FGPR与几种最先进的模型进行了基准测试。有趣的是,我们的结果(表III)显示FGPR不仅保护了隐私,而且还能提供比集中式多保真度方法更好的性能。
    下面我们将详细介绍基准测试模型:(1)分离的模型,它将单个GP适合于HF数据集,而无需进行任何通信。这意味着HF数据集不使用来自LF数据集的任何信息;(2)AR方法[71]。AR是最经典和最广泛使用的多保真度建模方法[66],[69],[72];(3)上面突出显示的深度模型[73];(4)模块化GP [41],建模每个保真度级别作为输出。对于该方法,我们为每个设备引入了20个诱导点和3个全局潜在变量。所有的输出值都被标准化为均值0和方差1。
    我们从[67]中的两个简单的说明性例子开始,然后在多保真度文献中的五个著名模型上对所有模型进行基准测试。

    Example 1: Linear Example

    我们首先介绍一个简单的一维线性示例,其中 。低保真度和高保真度模型分别定义为:
    其中 是来自低保真度模型的输出, 是来自高保真度模型的输出。我们模拟了来自LF模型的100个数据点和来自HF模型的20个数据点。测试数据点的数量是1000。

    Example 2: Nonlinear Example

    对于 的一维非线性示例,定义如下:
    我们使用与示例1相同的数据生成策略。
    这两个示例的结果展示在图6中。结果提供了一个简单证明,即学习的FGPR能够准确地预测HF模型,尽管观察结果稀疏。此外,FGPR也能够充分捕捉预测中的不确定性(图6中的灰色区域)。结果还证实了我们在第三节中关于自动个性化的见解,即单一全局模型能够充分拟合HF和LF数据集。在这里,我们对示例2进行了一个额外的比较研究。我们仅使用高保真度数据集训练了一个高斯过程模型。拟合曲线在图7中绘制。可以看出,如果没有从LF数据集借用任何信息,拟合的GP曲线将无法恢复真实的底层模式。这个示例进一步展示了FGPR的优势:共享的全局模型参数编码了从低保真度数据集中学习到的关键信息(例如趋势、模式),以便高保真度数据集可以利用这些信息来拟合一个更准确的代理模型。

    接下来,我们考虑在多保真度文献[67],[68]中广泛使用的一系列基准问题。我们将这些问题的完整规格推迟到可在网上提供的附录8中。对于每个实验,我们在输入域上均匀地生成1000个测试点。
    • CURRIN:CURRIN [33],[74]是一个二维函数,广泛应用于多保真计算机仿真模型。
    • PARK:PARK函数[74],[75]位于一个四维空间中(x∈(0,1]4)。该功能常用于参数校准的测试和实验设计。
    • BRANIN:BRANIN在计算机实验中被广泛用作元建模的测试函数。在这个例子中,有三个保真度级别[67],[76]。
    • Hartmann-3D:类似于BRANIN,这是一个3级多保真度数据集,其中输入空间为[0,1]3。
    • Borehole Model:钻孔模型是一个8维物理模型,模拟通过[74],[77],[78]钻孔的水流
    每个实验重复30次,我们报告了模型在真实高频模型上的性能的均方根误差,以及表三中的标准差。训练数据的大小在表中被突出显示。
    首先,如表III所示,FGPR一致地产生比“Separate”更小的均方根误差(RMSE),这证实了FGPR能够跨多保真度数据集借力。更重要的是,我们发现FGPR甚至能够实现比AR和Deep基准更好的性能。这意味着可以在不牺牲准确性的情况下避免集中式方法。最后,Modular GPs的性能较差,原因如下:(1) Modular GP优化的是对数边缘似然的下界而非确切似然。而FGPR直接在确切似然上执行随机优化;(2) Modular GP是一个一次性方法。例如,FedAvg的收敛界限遵循 ,其中 是局部步数, 其中 是通信轮数。显然,为了确保收敛, 应该小于通信轮数的某个阶。FGPR在第四节中展示了类似的结果。而我们的模型FGPR是一个协作过程,全局模型在 次通信轮中更新;(3) Modular GP需要一个额外的近似层,这牺牲了准确性[41]。作为边注,如表I所述,在Modular GP中,共享了局部数据的稀疏表示,这涉及到伪目标、变分密度、模型参数和下界值。显然,如果稀疏近似接近真实的局部后验,就会侵犯本地隐私。FGPR只共享模型参数。
    总之,结果表明FGPR可以作为现代统计学和机器学习中隐私保护多保真度建模的一个引人注目的候选方案。
    下面,我们还详细说明了一个有趣的技术观察。备注16:在我们的设置中,HF的权重系数 比LF低,因为HF客户端拥有较少的数据。例如,在CURRIN示例中,HF系数是 。因此,全局参数是与LF模型的更高权重平均的。然而,该模型在预测HF模型方面表现出色。这再次证明了FGPR的独特优势:与基于深度学习的FL方法不同,FGPR是在学习功能空间上的联合先验。单独的HF数据由于数量有限,无法学习到一个强大的先验,但在LF数据的帮助下,可以有效地学习到这样的先验。也就是说,可能有趣的是研究 的自适应分配,但这需要额外的理论分析。
    与备注17并列,我们使用CURRIN函数对 进行了消融研究。具体来说,我们使用相同的样本大小(即 ),但我们逐渐将 从0.17增加到1,并将 从0.83减少到0。我们在图8中绘制了RMSE与 的关系。可以看出,当我们适度增加 时,RMSE保持一致。然而,一旦 通过某个阈值,RMSE就会急剧增加。这再次说明,由于HF数据的稀缺性,增加对HF的权重可能会产生误导。

    VII. 应用II:机器人技术

    机器人技术中的应用

    我们现在在一个机器人数据集上测试了FGPR的性能。
    为了实现机器人的精确移动,需要控制关节扭矩[79]。关节扭矩可以通过许多现有的逆动力学模型来计算。然而,在现实世界的应用中,底层的物理过程极其复杂,通常难以使用第一性原理推导。数据驱动模型被提出作为一种吸引人的替代方案,以处理复杂的功能模式,更重要的是量化不确定性[80]。本节的目标是测试FGPR作为一种数据驱动方法,用于在不同的关节位置、速度和加速度下准确计算关节扭矩。
    为此,我们在SARCOS类人机器人臂的逆动力学问题上测试了FGPR,使用了Matérn-3/2核[64],[81]。这项任务包含21维的输入和7维的输出,共有44,484个训练点和4,449个测试点。由于FGPR是一个单输出的FL框架,我们一次只使用一个输出(见表IV)。我们的目标是在给定关节输入信息的情况下,准确预测不同关节处使用的力。我们将数据随机划分为25个设备。总体上,每个设备大约有1850个训练点和180个测试点。
    我们将FGPR与以下模型进行基准测试:(1)神经网络;(2)DGP[43],它使用产品专家近似并将学习任务分配给不同的专家(即节点);(3)DVI[42],执行分布式变分推断。
    我们发现,使用简单FedAvg训练的神经网络失败了。这是由于巨大的异质性造成的。为解决这个问题,我们使用Ditto[12],一个最先进的个性化FL框架,来训练神经网络。在Ditto中,每个本地设备解决两个优化问题。第一个与FedAvg相同,用于找到θ,而第二个为每个客户端k导出个性化参数vk,通过解决以下问题:
    其中λ是正则化参数,θ是共享的全局参数。Ditto背后的思想很明确:除了更新共享全局参数θ外,每个设备还维护自己的个性化解决方案vk。然而,正则化项确保这个vk应该接近θ,以便可以保留从全局模型中学到的有用信息。
    对于DVI和DGP,我们使用Matérn-3/2核,并为前者引入了1024个诱导点。
    在表IV中,我们为输出1、3、5和7提供了结果。这里,请注意DVI和DGP的RMSE是在中央位置使用所有测试数据评估的,而不是在每个节点上。这是因为DVI或DGP的目标是分布学习任务并加速训练,而不是提高每个本地节点上的模型性能。虽然对于FGPR和神经网络,我们还可以额外获得跨设备的RMSE的标准误差,因为预测是在本地设备上执行的。
    在异质设置下,FGPR仍然提供了比个性化神经网络、DGP和DVI基准模型更低的平均RMSE。这归功于:(1) GP回归中的灵活先验正则化,可以避免潜在的模型过拟合;(2) FGPR的内在个性化能力;(3) FGPR执行精确推断,而DVI和DGP分别使用下界和PoE近似目标;(4) DGP是一种一次性方法,并不最优,正如我们前面讨论的。这里,我们指出DVI要求每个设备在每个优化步骤后向服务器发送一个Nz × Nz × d维的张量。这会带来非常重的通信负载和高成本。另外,DGP共享本地预测输出到中央服务器,服务器可以从每个设备的模式中重构数据。这显然泄露了本地数据信息。
    由于空间限制,我们在附录0中推迟了一个额外的案例研究,该研究涉及使用NASA商用模块化航空推进系统模拟(C-MAPSS)工具数据集[82],该数据集涉及多个引擎。在这个案例研究中,我们也与联邦多项式回归模型进行了基准测试。

    VIII. 结论

    在本文中,我们将标准的高斯过程回归模型扩展到联合设置中,提出了FGPR。我们结合理论和广泛的实验来证明我们提出的框架的可行性。我们强调了FGPR提供自动个性化和在未训练设备上的强迁移性的独特能力。
    FGPR可能在元学习中具有价值,因为它为这一主题提供了一个内在的贝叶斯视角。其他有趣的研究方向包括:(1) 将当前框架扩展到多输出高斯过程模型。挑战在于在联合范式下捕获输出之间的相关性。(2) 对FGPR的理论视角进行启发。在这项工作中,我们只提供了关于噪声/方差参数和梯度范数的理论保证。研究长度参数的收敛行为是另一个关键但具有挑战性的未来研究方向。(3) 探索差分隐私FGPR。尽管联合学习绕过了共享数据的需要,但最近的工作[83]已经展示了数据重建的潜在风险。未来,我们打算系统地探索联合高斯过程中训练过程中的隐私保护和数据泄露预防。我们的目标是为这些隐私保护技术建立强大的理论保证。

    声明

    本文内容为论文学习收获分享,受限于知识能力,本文对原文的理解可能存在偏差,最终内容以原论文为准。本文信息旨在传播和学术交流,其内容由作者负责,不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题,请及时与我们联系,我们将在第一时间回复并处理。

    CVPaper
    这里有知识和乐趣,感悟和哲理,一起来嗨!!!
     最新文章