当MoE邂逅图学习: AnyGraph解密图大模型的Scaling Law

科技   2024-09-13 08:02   新加坡  
嘿,记得给“机器学习与推荐算法”添加星标

TLDR: 针对传统图算法面临的结构异质性、特征异质性、快速适应性以及扩展定律等挑战,本文提出了基于混合专家架构的AnyGraph,旨在跨域场景中实现零样本预测的图基础模型。

论文:https://arxiv.org/pdf/2408.10700
代码:https://github.com/HKUDS/AnyGraph

一、背景

在当今时代,图结构数据在众多领域中的应用变得越来越普遍。随着关系型数据以图的形式不断增长,对能够有效处理这些数据并具备卓越泛化能力的图学习模型的需求变得愈发紧迫。在现实世界的各种应用中,如图社交网络、学术网络、交通运输系统以及生物网络等,图学习模型能否有效地应对数据分布的变化以及适应新的图领域,已成为至关重要的问题。

开发具有强大零样本学习性能和快速适应能力的模型,将为充分挖掘图数据中蕴含的丰富见解带来变革性的机遇。近年来,图学习领域取得了显著进展,这在很大程度上得益于图神经网络(GNNs)的强大功能。然而,当前的主流模型在真正的泛化性能方面往往存在不足。现有的方法通常严重依赖于繁琐的微调过程,这使得它们在处理实际应用中遇到的各种图结构和分布时显得力不从心。这种无法快速、无缝地适应新图领域的能力,成为了图学习技术广泛应用的关键障碍。因此,要想充分发挥基于图的洞察的变革潜力,解决这一挑战至关重要。

受到在理解视觉和语言数据方面成功的基础模型的启发,一个通用的图基础模型的概念具有巨大的潜力,可以开启图学习的新前沿。通过从多样化的图结构数据中学习丰富的、可转移的表示,这样的模型可以有效地适应广泛的图领域和任务。然而,构建一个有效且自适应的图基础模型并非易事,需要克服几个关键挑战。

二、研究动机

构建有效且自适应的图基础模型面临着以下几个关键挑战:

1. 结构异质性

  • 多样的结构特性:开发通用的图模型面临着处理不同图数据集中多样结构属性和数据分布的挑战。例如,图的节点度分布可能呈现出从均匀到高度倾斜的广泛差异,图结构的复杂度也可能从简单拓扑结构到复杂的层次结构各不相同。
  • 对性能和泛化的影响:这些结构上的变化会显著影响图学习算法的性能和泛化能力。因此,有效地应对这种多样性是开发能够在各种图结构数据中表现出色的统一模型的关键。

2. 特征异质性

  • 特征的多样性:图的节点和边特征呈现出显著的异质性,包括分类属性、连续数值数据以及多模态内容等。此外,这些特征的维度和语义在不同的图领域中往往差异巨大。
  • 具体示例:例如,一个社交互动图可能包含与节点相关的文本内容和人口统计信息,而一个分子图可能以原子组成和键类型为特征。有效地处理这种特征异质性对于构建能够在不同图领域中泛化的通用图模型至关重要。

3. 快速适应能力

  • 理想模型的能力:对于有效的图基础模型来说,能够高效地适应新的图数据集和领域是一项关键能力。理想情况下,模型不应需要大量的重新训练或微调,而应能够快速调整其参数和学习策略,以处理先前未见过的图数据集的结构和分布特征。
  • 广泛的应用场景:通过在从用户行为图到交通运输网络和生物系统等各种实际场景中实现无缝泛化和良好表现,这些适应性强的模型可以为处理不断扩展的图结构数据带来变革性的见解。

4. 扩展定律

  • 成功模型的特征:在计算机视觉(CV)和自然语言处理(NLP)等领域中,成功的基础模型的一个关键特征是它们能够展现出扩展定律,即模型的性能会随着模型规模或训练数据集的增加而系统地提升。
  • 对图模型的意义:通过利用这一涌现的扩展现象,图基础模型可以解锁前所未有的能力和泛化能力,远远超越固定容量架构的限制。随着图数据集规模和模型复杂性的增长,这些具有扩展意识的设计能够持续带来性能的提升。

三、解决方案

为应对这些挑战,论文提出了基于混合专家(MoE)架构的AnyGraph模型。

为了应对上述挑战,论文提出了基于混合专家(MoE)架构的AnyGraph模型,其解决方案主要包括以下几个方面:

1. MoE架构的AnyGraph

  • 解决跨域图异构性:AnyGraph采用MoE架构,由多个图专家模型组成,每个模型负责处理具有特定模式的图数据。通过设计自动化路由算法,将输入图数据分配给最适合的专家模型进行训练或预测,从而建模不同应用领域之间的异构图结构模式。
  • 图专家路由算法:基于图自监督学习任务的有效性,路由算法采用自监督的损失函数来衡量专家模型在输入图上的自监督损失大小,从而确定模型与输入数据的匹配程度。具体通过在输入图数据中采样正例和负例边,计算专家模型对两种边预测分数的差值来表示模型对正例的识别能力。
  • 基于训练频率的路由修正:为避免路由算法造成“赢者通吃”的次优结果,AnyGraph维护每个专家的训练次数信息,将其纳入匹配分数的计算中,为较少训练的专家模型提供更多训练机会,从而使每个模型能专注于处理特定类别的图数据。
  • AnyGraph的快速适应能力:基于MoE架构,AnyGraph在训练和测试中仅需激活1/K的模型参数,这大大优化了计算时间和存储开销,使其相比其他非MoE模型具有更高的效率和适应性。因此,AnyGraph在应对新数据时可以高效微调,在面对与原始训练数据差异较大的情况时,能避免新数据对原模型参数产生过大影响。

2. 自适应且高效的图专家模型

  • 解决域内图异构性:为处理不同图数据的邻接矩阵和特征的不同维度,AnyGraph的图专家模型进行结构和特征统一。利用奇异值分解(SVD)在提取重要隐特征方面的有效性,将不同维度的邻接矩阵和节点特征矩阵映射为具有固定维度的初始节点表征。具体通过对邻接矩阵和特征矩阵进行SVD特征分解,整合并归一化信息得到具有相同维度的节点初始特征矩阵,同时SVD的特性有助于规整不同数据集之间的特征,使后续模型更容易学习通用的预测网络。
  • 高效且强大的特征编码:为在保持效率的同时获得强大的图特征建模能力,AnyGraph的图专家模型采用多层感知机网络(MLP)进行可学习的预测。虽然每个专家模型采用的MLP网络简单,无法进行复杂的图关系建模,但AnyGraph在顶层采用MoE架构,通过多样化但简单的特征变换来处理复杂的图学习任务,集成多个特征变换MLP以达到强大的图预测能力。

3. 高效的跨域模型训练

  • 训练样本混合:为最大化AnyGraph的跨图泛化能力,训练样本来自不同数据集并进行混合和随机排序。每个批次的训练样本包含一个图、该图的一批边、图的预处理信息(初始节点表征和分配的最佳专家模型)。
  • 训练任务和损失函数:受链接式图预训练任务的启发,AnyGraph采用边预测任务作为训练任务,并使用交叉熵损失作为优化目标。
  • 特征和结构扩充:在训练过程中,AnyGraph会定期进行特征和结构扩充,包括重新进行基于SVD的表征初始化和在专家路由时进行结构采样。这有助于丰富训练数据,提高AnyGraph对表示异质性的泛化能力,增强模型对结构噪声的鲁棒性。

通过以上解决方案,AnyGraph旨在有效应对图模型中的各种挑战,提高模型的性能和泛化能力。

四、实验验证

下文介绍该算法涉及的详细实验设置以及实验结果分析。

1. 实验设置

  • 实验数据集:为了全面评估图模型的跨域泛化能力,实验采用了38个来自不同领域的图数据集,涵盖电商场景(用户的购买、浏览和评分行为,商品间的共现关系)、学术网络(论文的引用关系及学者的合作关系)、生物信息网络(药品、蛋白质之间的相互影响关系),以及邮件网络、网站之间的链接关系、道路网络等。
  • 数据集划分:将所有数据集划分为两个数据集集合Link1和Link2,它们在总体上和单个领域内都具有相近数量的边,但各自包含的数据集不具有相同来源和相同的特征构建方法。此外,还按照应用领域将所有数据集划分为电商、学术网络和其他三种类别,其他类别主要由生物信息网络组成,还包含了其他较小的类别。
  • 实验设置细节:遵循先前的研究进行数据集拆分和选择评估指标。AnyGraph模型和其他图基础模型在跨图零样本预测任务上进行评估,对于不能处理跨数据集转移的基线方法,评估其少样本性能。

2. AnyGraph的零样本预测(RQ1)

  • 实验结果:通过在38个图数据集上的评估,与现有GNN模型、预训练技术和基础模型的少样本能力相比,AnyGraph在不同领域展示出了卓越的零样本预测准确性,包括链接预测和节点分类任务。
  • 结果分析:AnyGraph能够有效处理结构级和特征级数据的异质性,通过专家模型中的统一结构和特征表示,发展出全面的建模功能,适用于不同图数据场景。此外,广泛的训练数据集使AnyGraph在图建模和预测方面具备深厚的专业知识。
  • 现有预训练GNNs的局限性:现有预训练和调优方法,如GPF、GraphPrompt和GraphCL,在跨域转移方面存在挑战,由于数据域之间的分布差异大,预训练难以带来显著改进。AnyGraph通过引入多个针对图数据子域的专家模型,有效管理来自不同领域的数据集,展示出强大的适应能力。

3. AnyGraph的扩展定律(RQ2)

  • 实验结果:通过使用18个不同版本的AnyGraph进行实验,发现随着模型规模和训练数据量的增加,AnyGraph的全样本性能会达到饱和,而零样本预测准确性持续提高,符合图基础模型的扩展定律。
  • 结果分析:任务难度是导致全样本性能饱和的部分原因,较简单的评估任务可能使模型在域内泛化时更容易达到性能瓶颈。AnyGraph的Mixture of Experts(MoE)架构使其能够有效管理和利用更广泛的知识,在零样本场景中应对分布差异时表现出色。此外,AnyGraph的整体零样本性能曲线显示,随着模型规模增加,性能会出现周期性停滞,但在参数进一步增加时会突然显著提升,体现出其涌现能力。同时,在训练数据增加的初始阶段,新数据集可能因与测试图的差异而对性能产生负面影响,但通过进一步扩大训练数据可以缓解这一问题。

4. 消融实验(RQ3)

  • 实验结果:通过比较AnyGraph的消融变体在零样本和全样本性能上的表现,发现-MoE变体(没有MoE架构的单专家模型)在其训练的数据集上表现不错,但零样本预测能力大幅下降,凸显了MoE架构对AnyGraph泛化能力的关键作用。-Feat变体(省略节点特征)导致零样本和全样本性能下降最显著,表明AnyGraph的统一结构和特征表示方法在学习特征方面的有效性,以及统一不同特征空间到单个模型的可行性。此外,-FreqReg和 -Aug变体分别去除了专家训练频率的路由调整和特征与结构扩充,这会导致模型训练出现偏差,降低AnyGraph处理多样数据集的鲁棒性。

5. 对专家路由的研究(RQ4)

  • 实验结果:通过分析AnyGraph的路由算法,发现具有共同特征(如收集来源或特征构建方法相同)的数据集通常会被分配给相同的专家模型。
  • 结果分析:这表明AnyGraph的路由机制能够有效地为各种数据集识别合适的专家模型,展示了其在揭示图之间相关性的可解释性。

6. 效率研究(RQ5)

  • 实验结果:在与GraphCL和GCN模型的比较中,AnyGraph在新数据集上进行微调时,能够快速达到高性能饱和点。例如,在某些情况下,如PPA数据集,GraphCL和端到端训练的GCN难以达到与AnyGraph相当的性能水平。
  • 结果分析:AnyGraph的优势在于其强大的跨域泛化能力带来的高起点,以及MoE架构的效率,仅需一个MLP网络进行高效建模和参数调整。此外,AnyGraph避免了在每个训练步骤进行全图传播的繁琐过程,利用通过非训练预处理方法得到的结构感知嵌入,大大减少了时间和内存需求。同时,MoE架构使AnyGraph在大多数预测和优化过程中只需使用1/K的计算资源,进一步降低了总体计算成本。

综上所述,实验验证了AnyGraph在零样本预测、扩展定律、模型各模块的有效性、专家路由的合理性以及效率等方面的优异性能。


欢迎干货投稿 \ 论文宣传 \ 合作交流

推荐阅读

CIKM2024 | 属性感知匹配的文本序列推荐算法
论文周报[0902-0908] | 推荐系统领域最新研究进展
「小而美」的EasyRec, 推荐系统迈入语言模型时代?

由于公众号试行乱序推送,您可能不再准时收到机器学习与推荐算法的推送。为了第一时间收到本号的干货内容, 请将本号设为星标,以及常点文末右下角的“在看”。

喜欢的话点个在看吧👇

机器学习与推荐算法
专注于分享经典的推荐技术,致力于传播基础的机器学习、深度学习、数据挖掘等方面的知识。
 最新文章