LoG2024速递 | 去芜存菁:经典GNN三次问鼎SOTA的反思
2024年11月26日-29日,图机器学习领域盛会LoG2024正在举办。其中,《Do We Really Need Complicated Graph Learning Models?– A Simple but Effective Baseline》这篇论文再次探讨了经典GNN算法的有效性。本文以此为契机,带领大家回顾近两年在该方向上的三篇代表性工作。这些工作表明,一些经典的GNN算法(如:GCN,GraphSAGE)效果有潜力超越最新的GNN方法和Graph Transformer方法,无论是同配图、异配图还是大规模图。论文列表如下:
【ICLR 2023】A Critical Look at Evaluation of GNNs under Heterophily: Are We really Making Progress? 【NeurIPS 2024】Classic GNNs are Strong Baselines: Reassessing GNNs for Node Classification 【LoG 2024】Do We Really Need Complicated Graph Learning Models?– A Simple but Effective Baseline
【ICLR 2023】A Critical Look at Evaluation of GNNs under Heterophily: Are We really Making Progress?
本文发现已有异配图数据集的几个缺点:
低多样性 小规模 一些数据集的极端类别不平衡 在Squirrel和Chameleon数据集中存在大量的重复节点,如表1。
本文通过删除所有重复的节点来进一步过滤这些数据集,在原始数据和过滤后的数据集上评估了几个模型。首先,本文看到许多模型的性能显著下降,特别是在chameleon数据集上。这种性能的下降证实了模型隐式地依赖于泄漏的数据来在未经过滤的数据集上获得强大的结果。此外,本文看到不同模型之间的性能的确切下降显著不同,因此模型在过滤数据集上的排名与原始数据集上的排名有很大的不同。为了更好地说明排名上的差异,本文在表2中报告了原始和过滤数据集上的模型排名。有些模型有特别强的性能变化。例如,FSGNN是两个原始数据集上最好的模型,但在过滤后的数据集上,它分别只获得了第10名和第4名。
由于目前异配图基准数据集的缺点,本文收集了一组不同的异配图,并建议使用它们作为更好的基准数据集。所提出的数据集来自不同的领域,并表现出不同的结构特性,如表3。
本文在提出的基准上评估了各类GNN,包括标准的GNNs和专为异配图设计的GNNs。在这样做的过程中,本文发现标准基线几乎总是优于异配图模型。
本文研究结果还表明,有一个对学习异配图有用的技巧:分离自我嵌入和邻居嵌入。这个技巧不断地改进基线,并允许模型获得最好的结果。
【NeurIPS 2024】Classic GNNs are Strong Baselines: Reassessing GNNs for Node Classification
本文回顾了经典GNN模型在节点分类任务上的表现,结果发现过去SOTA图学习模型(尤其是Graph Transformer)报告的性能优越性可能是由于经典GNN的超参数配置不佳。本文首先对经典GNN进行了超参数调整,并与SOTA模型(Polynormer)的超参数搜索空间保持一致。关键超参数包括normalization、dropout、residual connections和network depth。同时,所有基准模型也在相同的超参数搜索空间和训练环境下重新训练。本文采用的数据集见表1,在同配图、异配图和大规模图上的实验结果如表2、表3、表4所示。可以发现,通过适当的超参数调整,经典GNN模型在18个广泛使用的节点分类数据集中几乎都超越了最新的图学习模型。
此外,经过消融实验(见表5~表7),本文发现:
Normalization在大规模图的节点分类中非常重要,但在小规模图中则不太显著 Dropout对于节点分类始终是必要的 Residual Connections能够显著提升某些数据集上的性能,且在异配图上的效果比同质性图上更为显著 更深的网络通常在异配图上带来更大的性能提升,相较于同质性图表现更为明显
【LoG 2024】Do We Really Need Complicated Graph Learning Models?– A Simple but Effective Baseline
尽管图学习取得了进展,但越来越复杂的模型会带来巨大的开销,包括长时间的预处理和训练时间、过多的内存需求以及许多经常限制它们对大型数据集的可扩展性的超参数。因此,本文研究了基础模型和可扩展的模型是否可以在大型数据集上获得更好的质量。本文引入了邻居感知的跳跃连接(Neighbor Aware Skip Connections, NASC),这是一种与自适应加权策略的新型跳跃连接。评估表明,具有 NASC 的 GCN 在大型数据集上优于各种基线,包括 GNN 和 Graph Transformers (GT),开销可以忽略不计,并且从理论上和经验上分析了这一点。本文还证明了 NASC 可以集成到 GT 中,提高了 10 个具有各种属性和任务的基准数据集的性能。NASC 使研究人员能够为大型数据集建立稳健的基线性能,从而消除了对广泛超参数调整的需求,同时支持小批量训练和与流行的图学习库无缝集成。
图3以GraphSAGE为例,展示了本文引入的邻居感知的跳跃连接(NASC),它通过自适应加权策略将传播嵌入合并到 GNN 跳过连接中来调整残差项。这种方法可以与各种GNN、Graph Transformer模型无缝集成。
在实验部分,本文在大型基准数据集上分别评估了结合 NASC 的GCN和SGFormer的功效,如表1~表3所示。实验结果表明结合NASC的GCN和SGFormer可以超越最新的GNN和Graph Transformer模型。
总结
这三篇论文分别通过实验发现了经典GNN算法在合理的数据评估、公平的超参数微调、稍加改动的模型架构即可具有优越表现,启发读者重新审视GNN领域的研究进展。