GLBench: 面向大模型的图学习基准测试集
大家好,今天要介绍一篇关于图学习和大模型结合的重要研究工作。这篇论文提出了GLBench基准测试集,这是首个系统评估图-大模型(GraphLLM)方法的测试框架。GLBench在监督学习和零样本两种场景下,对不同类型的GraphLLM方法进行了全面深入的评估。这项工作第一次统一了GraphLLM领域的评估标准,为该领域的发展奠定了重要的方法论基础。
1. 基本信息
标题:GLBench: A Comprehensive Benchmark for Graph with Large Language Models 作者及机构: Yuhan Li (Hong Kong University of Science and Technology(Guangzhou)) Peisong Wang (Tsinghua University) Xiao Zhu (Hong Kong University of Science and Technology(GZ) Aochuan Chen (Hong Kong University of Science and Technology(Guangzhou)) Haiyun Jiang (Sun Yat-sen University) Deng Cai (Tencent AI Lab) Victor Wai Kin Chan (Tsinghua University) Jia Li (Hong Kong University of Science and Technology(Guangzhou)) 发表时间:2024年 arXiv链接:arXiv:2407.07457v2 代码链接:https://github.com/NineAbyss/GLBench
2. 研究背景
在图学习领域,图神经网络(GNN)和预训练语言模型(PLM)在处理文本属性图(TAG)方面已经取得了显著的研究进展。特别是随着大模型(LLM)技术的快速发展,研究开始探索将LLM的强大语义理解能力引入图学习领域,由此形成了GraphLLM这一崭新的研究方向。
根据LLM在模型架构中扮演的不同角色,目前的GraphLLM方法可以分为三类:第一类是将LLM作为增强器,通过提升节点的表示能力来改进模型性能;第二类是将LLM作为预测器,直接利用其强大的推理能力进行任务预测;第三类是将LLM作为对齐器,协调图神经网络和语言模型在表示空间上的一致性。
但是,当前GraphLLM领域面临着几个关键问题:首先,不同研究团队使用不同的数据处理方式和评估标准,导致研究结果难以进行公平比较;其次,零样本图学习作为一个重要的新方向,还没有统一的评估基准;最后,现有研究往往忽视了计算效率和资源消耗这些实际应用中的关键因素。
3. 研究方法
GLBench的核心架构包含三个关键组成部分:数据集的构建与整理、学习场景的设计以及评估方法的分类体系。
在数据集构建方面,作者首先对文本属性图进行了严格的数学定义:。在这个定义中,V代表包含N个节点的集合,A ∈ {0,1}^(N×N)是描述节点间连接关系的邻接矩阵, ∈ D^(L_n)表示节点n所对应的文本描述,其中D是词典空间,是文本序列的长度。基于这个数学框架,作者精心挑选了7个具有代表性的数据集,这些数据集涵盖了学术引文网络、网页链接结构和社交网络等多个重要领域,数据规模从数千节点到数十万节点不等,体现了良好的多样性。
在学习场景的设计上,GLBench构建了两种不同的评估场景。第一种是监督学习场景,这种场景要求源图与目标图完全相同,它们的标签空间和也必须保持一致。第二种是零样本学习场景,这种场景下要求∩=∅且∩=∅,也就是说源图和目标图之间没有重叠,模型需要处理特征维度不对齐和标签空间不匹配等一系列技术难题。
评估方法的分类体系是基于LLM在模型中发挥的具体作用而建立的:第一类是增强器型方法:这类方法主要利用LLM提升节点的表示质量。LLM通过对节点的文本信息进行深度语义理解,生成更有信息量的节点表示,从而提升下游任务的性能。第二类是预测器型方法:这类方法直接使用LLM进行分类预测。通过精心设计的提示模板,将图结构信息和节点特征转化为LLM可以理解的自然语言形式,让LLM直接输出预测结果。第三类是对齐器型方法:这类方法致力于解决GNN和LLM两种不同类型模型的表示空间融合问题。通过设计特定的对齐机制,使得两种模型能够在同一个语义空间中进行信息交互和特征融合。
4. 实验与发现
实验结果分为监督学习和零样本学习两个主要场景进行深入分析。在监督学习场景中,实验数据显示GraphLLM方法在6个数据集上都达到了最佳性能。
在Citeseer数据集上,采用OFA方法的准确率和F1分数分别比最佳GNN基线模型提升了3.20%和3.49%。在Pubmed数据集的测试中,PATTON方法表现更为突出,准确率提升5.18%,F1分数提升4.03%。这种性能优势在大规模数据集上表现得尤为明显,例如在Reddit数据集上,LLaGA方法的准确率和F1分数分别超出GNN基线4.00%和4.69%。
深入分析表明,将LLM作为增强器的方法展现出最稳定的性能。其中ENGINE方法在4个不同数据集上都取得了最佳或次佳的结果,充分证明了这类方法在处理不同规模和领域数据时的适应性。相比之下,将LLM作为预测器的方法表现相对欠佳,特别是在训练数据量有限的数据集上。此外,研究发现现有方法并未表现出明显的规模效应,也就是说,简单增加模型参数量并不能必然带来性能的提升。
在零样本学习场景中,实验揭示了三个重要发现:
首先,LLM展现出了强大的零样本学习能力,在3个数据集上都获得了最佳结果。但是这种表现可能受到了训练数据泄露的影响,因为LLM在预训练阶段可能已经接触过测试数据中的部分内容。 其次,结构信息和语义信息对零样本迁移都发挥着重要作用。单纯依赖结构信息的图自监督学习方法效果有限,而同时利用两种信息的方法(如OFA和ZeroG)则能显著提升性能。 最后,作者提出的一个简单基线方法取得了超出预期的效果。这个方法通过冻结的LLM编码节点文本和类别描述,结合迭代的邻居特征聚合,在无需训练的情况下就达到了比某些专门设计的零样本GraphLLM方法更好的性能。
效率分析:
现有GraphLLM方法的时间和空间复杂度普遍高于传统GNN LLM作为增强器的方法在保持较好性能的同时,复杂度增加相对较小 需要在性能和效率之间进行权衡
5. 参考文献
[1] Achiam, J., et al. GPT-4 technical report. arXiv preprint arXiv:2303.08774, 2023.
[2] Chen, Z., et al. Exploring the potential of large language models (LLMs) in learning on graphs. ACM SIGKDD Explorations Newsletter, 2024.
[3] Kipf, T. N., & Welling, M. Semi-supervised classification with graph convolutional networks. ICLR, 2017.
[4] Liu, Y., et al. RoBERTa: A robustly optimized BERT pretraining approach. arXiv preprint arXiv:1907.11692, 2019.