图基础模型最新研究进展
一、简介
图基础模型(Graph Foundation Model, GFM)是一个在广泛的图数据上预训练的模型,能够适用于在不同的下游图任务。为了实现跨域和跨任务的特性(cross-domain&cross-task),近来研究人员做了很多尝试。
二、AnyGraph: Graph Foundation Model in the Wild
2.1 研究背景与挑战
目前,图结构数据与相关应用在各个领域层出不穷,能否有效解决跨域问题是衡量图学习模型能力的关键点。尽管目前已经存在一些遵循“预训练,微调”范式的方法可以尝试解决这一问题,但是繁复的微调策略依然严重限制了模型的泛化能力。研究人员希望能够提出一种快速且无缝适应目标域的图基础模型。为了实现这一目标,具体来说,有以下挑战:
1、适应各种图数据的结构异质性和特征异质性
2、实现对不同领域数据集及各种下游任务的快速无缝适应
3、遵循基础模型的尺度定律
2.2 方法 - AnyGraph
AnyGraph不限定于单一网络,而是采用混合专家(MoE)架构,每个专家网络分别学习一个特定领域的图结构和特征知识。同时,AnyGraph提出一种轻量级图专家路由机制,当面对新的目标域数据集时,不需要任何微调策略,可以从混合专家中直接选择出与之相关性最高的专家,实现对目标数据集的快速无缝适应。如公式(1)所示,面对目标域图数据,AnyGraph首先利用专家路由机制,从中选择出“最有能力的”第个专家模型,之后将其用于预测。
2.3 实验
在38个图数据(包括电商网络、学术社交网络、生物信息网络等多种领域)中进行了跨域多任务(节点分类、链路预测、图分类)zero-shot实验。如下图所示,实验结果证实了AnyGraph的优越能力。
此外,实验发现,AnyGraph遵循尺度定律。如下图所示,随着模型参数和训练数据的增长,在full-shot场景下,AnyGraph逐渐饱和。但是在zero-shot场景下,AnyGraph在停滞一段时间后展现出“涌现”的能力,依然能够实现性能的持续提升。
三、OpenGraph: Towards Open Graph Foundation Models
3.1 研究背景与挑战
现有方法难以将模型泛化到具有不同属性的未知图数据(cross-domain&cross-task&zero-shot)。为了解决这一问题,具体来说,有以下挑战:
1、目标域数据集往往标签稀疏
2、实现在不同领域数据集的跨域适应
3、大规模图中的节点有复杂的依赖关系,需要一种高效的节点级依赖关系编码理解节点的局部和全局交互依赖关系。
3.2 方法 - OpenGraph
1、OpenGraph利用LLMs进行数据增强。具体来说,首先采用Tree-of-Prompt算法依据具体的场景和子类生成新的节点,再使用Gibbs采样算法决定节点间是否有连边。在图生成之后,训练GCN为合成图的节点重新生成节点嵌入。
2、为了使模型具备跨域的能力,OpenGraph设计了一种拓扑感知的graph tokenizer,可以为任意graph生成通用的graph tokens。如公式(2)和公式(3)所示,对graph的邻接矩阵进行平滑操作,之后利用SVD分解所得、、,将不同graph的维度统一。
3、OpenGraph利用graph transformer作为骨干架构。为了确保在大规模图上的可伸缩性和有效性:对token序列进行锚点采样。
3.3 实验
在8个数据集中进行了跨域多任务(节点分类和链路预测)zero-shot实验。如下图所示,实验结果证实了OpenGraph的优越能力。
四、总结
本文介绍了图基础模型的最新研究进展,重点分析了AnyGraph和OpenGraph两项研究。表明了图基础模型在解决图中cross-domain&cross-task&zero-shot挑战的潜在能力。