专题解读 | 自适应与拓扑感知:联邦图机器学习的新视角

科技   2024-12-31 15:31   北京  


自适应与拓扑感知:联邦图机器学习的新视角

一、简介

联邦图机器学习(Federated Graph Learning)作为一种结合联邦学习与图数据处理的新兴范式,正在逐步成为分布式图学习领域的研究热点。然而,现实场景中的数据和拓扑往往呈现出显著的异质性,为联邦图学习中的全局模型聚合和本地训练带来了巨大挑战。如何有效应对这些异质性问题成为了当前研究的核心目标。本文将介绍联邦图机器学习的两篇重要研究工作,这两篇论文分别从知识可靠性与拓扑异质性的视角出发,提出了针对性的解决方案,为联邦图机器学习的性能优化和实际应用提供了新的理论和实践指导。

二、FedTAD: Topology-aware Data-free Knowledge Distillation for Subgraph Federated Learning (IJCAI 2024)

子图联邦学习广泛存在异质性挑战,特别是存在由于节点标签分布和拓扑变化引起的类别级知识可靠性差异问题。FedTAD首先通过解耦多客户端节点和拓扑变化,对子图异质性问题提供了有价值的实证分析;其次,它提出了一种拓扑感知的无数据知识蒸馏框架,通过量化本地模型中各类别的知识可靠性,结合伪图生成技术,在服务器端实现可靠知识的传递,减轻子图异质性引起的不可靠类级别知识的负面影响。

2.1 节点和拓扑变化的解耦

节点变化:指的是各客户端的节点标签分布不同,例如某些客户端的子图中可能主要包含某些类别的节点,而其他类别的节点较少甚至缺失。

拓扑变化:指的是各客户端的子图拓扑结构差异,例如某些子图可能表现为强同配性,而另一些子图则可能为异配性。

在独立评估两种变化后,FedTAD得出了关键结论:

节点变化影响类别知识可靠性:某类别在子图中的标签占比越高,该类别的知识可靠性越强。

拓扑变化影响类别知识传递:当子图具有较高的同配性时,模型的类别知识传递更加可靠。

2.2 客户端:类级别知识可靠性度量

在每轮联邦学习的本地训练阶段,客户端需要对其子图进行处理,以计算每个类别的知识可靠性。这一步骤的核心在于拓扑感知的节点嵌入:通过随机游走的方式提取局部拓扑信息,并将其与节点特征拼接,形成混合嵌入:

基于混合嵌入,衡量每个类别节点与其邻居之间的相似性,统计每个类别中已标记节点的平均相似性,作为类别级知识可靠性指标:

每个客户端将其本地模型权重以及类别级知识可靠性指标上传到服务器。

2.3 服务器:伪图生成与拓扑感知知识蒸馏

1.伪图生成:通过噪声生成伪节点的特征。利用伪节点特征,通过K近邻策略生成伪图的邻接矩阵

2.知识蒸馏:得到伪图后,FedTAD利用该伪图进行知识蒸馏,将本地模型的可靠知识有效传递到全局模型。

  • 在每个伪节点上,计算全局模型的预测与可靠本地模型预测之间的交叉熵损失,确保伪节点的类别分布符合类别级知识可靠性。
  • 通过KL散度,衡量全局模型和本地模型在伪节点上的预测差异,约束全局模型的预测结果与本地模型一致。
  • 通过降低伪节点特征之间的余弦相似性来提升特征多样性。

FedTAD通过对抗式训练将上述三个损失函数结合起来,训练生成器和全局模型。最终的损失函数为:

2.4 实验效果

FedTAD在六个公共数据集上的实验表明,性能显著优于当前主流基线模型。

三、AdaFGL: A New Paradigm for Federated Node Classification with Topology Heterogeneity (ICDE 2024)

当前的联邦图学习方法通常假设各客户端的图结构保持一致(高同配性),然而,实际应用中各客户端图的拓扑可能存在显著差异,拓扑的异质性导致了现有方法表现不佳。为模拟和处理这一挑战,AdaFGL引入了一种名为struct Non-iid的全新划分方式。并提出了一种解耦的两步个性化方法。通过联邦协作训练获取全局联邦知识提取器,随后结合本地子图进行个性化优化,既保留全局知识的共享性,又提升模型对本地拓扑特性的适应性。

3.1 结构非独立同分布划分

设定一个图。首先在 上应用-客户端的 Metis 算法,将其划分为具有与拓扑一致性的联邦子图 。随后,在每个子图上执行二元选择,注入同配或异配边。最终,获得 形式的结构非独立同分布划分。

3.2 联邦协作训练

客户端基于本地数据训练本地模型,将权重上传到服务器,服务器使用标准联邦学习算法对本地模型进行聚合,聚合得到的全局模型被视为联邦知识提取器,广播给所有客户端。每个客户端接收到全局联邦知识提取器后,结合本地子图生成一个优化后的概率传播矩阵P:

并对其正则化:

3.3 本地个性化传播

使用优化后的获得知识嵌入:

随后进行本地的个性化传播,包括两种传播模块:

  1. 同配传播:通过知识嵌入提升预测的可靠性和一致性。
  2. 异配传播:综合拓扑无关的特征嵌入、全局相关的节点嵌入和可学习的消息传递嵌入生成最终的异配预测。

为了适应混合拓扑特性,AdaFGL引入了同配性置信度HCS来自适应地结合同配和异配传播结果。最终预测为:


3.4 实验结果

AdaFGL在社区划分和结构非独立同分布划分两种场景下,准确率均优于所有基线。

四、总结

在联邦图机器学习的研究中,数据和拓扑的异质性问题长期制约着模型的泛化性能和稳定性。本文介绍的两篇论文分别从可靠知识传递(FedTAD)和全局与本地的知识优化(AdaFGL)两方面提出了解决方案,为联邦图机器学习的进一步研究和实际应用提供了重要的理论支持和技术路径。

arXiv每日学术速递
工作日更新学术速递!官网www.arxivdaily.com。
 最新文章