LLMs为零样本图学习器:GNN表示与LLM词元嵌入的对齐
大家好,今天给大家介绍一篇最新的研究论文。这篇论文提出了一种名为TEA-GLM的新型框架,通过将GNN表示与LLM词元嵌入对齐,实现了跨数据集和跨任务的零样本图机器学习。
这项工作不仅创新地解决了图神经网络泛化能力有限的问题,还展示了大语言模型在图学习领域的潜力,是图机器学习领域的一个重要突破。文章提出的方法在多个基准数据集上取得了显著的性能提升,展现了强大的泛化能力。
1. 基本信息
这篇论文题为"LLMs as Zero-shot Graph Learners: Alignment of GNN Representations with LLM Token Embeddings",由来自Beihang University的Duo Wang、Yuan Zuo、Fengzhi Li和Junjie Wu完成。
2. 研究背景
在图机器学习领域,图神经网络(GNNs)已经成为一个关键的框架,它能够有效捕获图结构中的复杂消息传递模式。近年来,研究者们提出了多种GNN架构,包括Graph Convolution Network (GCN)、Graph Attention Network (GAT)和GraphSAGE等。这些模型在特定任务上展现出了优秀的性能,但它们普遍存在一个显著的局限性:当需要在不同数据集或下游任务之间迁移时,模型的性能往往会显著下降。
为了缓解对标注数据的依赖并增强图模型的鲁棒性,自监督学习被广泛应用于GNN的训练过程中。例如,Deep Graph Infomax (DGI)通过互信息最大化,而GraphCL则利用对比学习来提升模型性能。然而,这些方法通常需要针对下游应用进行任务特定头部的微调,这不仅耗费资源,还限制了它们在多样化场景中的实用性。此外,图提示学习虽然通过使用统一的任务模板和元学习来增强GNN的泛化能力,但仍然需要大量的微调,且受限于任务类型的特殊性。
近年来,大语言模型(LLMs)展现出的卓越泛化能力引起了研究者在图机器学习领域的关注。一些方法尝试将图结构编码为文本输入给LLM,但这种方法往往会导致次优的结果。另一些研究者尝试使用LLM作为增强器来生成数据或节点文本表示,但这些方法仍然依赖于GNN进行预测。最近的一些工作尝试将LLM作为预测器,但由于难以产生可在不同任务和数据集之间有效迁移的图表示,其性能仍然不够稳定。
3. 方法
TEA-GLM框架的核心思想是通过对齐GNN表示与LLM的词元嵌入来实现零样本图学习。下面详细介绍该方法的技术细节。
3.1 问题定义
首先定义图 ,其中:
表示节点集合,总节点数为 表示边集合 是邻接矩阵,当 时 是特征矩阵,其中 是节点 的特征向量
3.2 词元嵌入对齐的图自监督学习
这部分包含两个关键组件:实例级对比学习和特征级对比学习。
3.2.1 实例级对比学习
为了生成图的不同视图,采用两种数据增强策略:
移除边(RE)策略:通过随机掩码矩阵 对邻接矩阵进行掩码:
其中 表示Hadamard积。
掩码节点特征(MF)策略:通过随机掩码向量 生成新的节点特征:
通过这两种策略得到两个视图 和 。使用图编码器获取节点表示:
其中 表示不同视图, 是节点表示的维度。
对比损失函数定义为:
其中 是余弦相似度函数, 是温度参数。总的实例级损失为:
3.2.2 特征级对比学习
为了打破实例间的独立性,引入特征级对比学习。对于特征矩阵 ,将不同视图中的列向量表示为 和 。特征级损失定义为:
为了将节点表示映射到LLM的语义空间,使用PCA获取LLM词元嵌入的 个主成分,记为 ,其中 是LLM词元嵌入的维度。节点表示映射为:
最终的总损失函数为:
3.3 对齐调优
3.3.1 统一指令设计
作者设计了包含图信息提供和任务描述两部分的统一指令模板。以引文网络为例,指令格式为:
"Given the representation of a paper/two papers/a paper set: ⟨graph⟩, with the following information:\nTitle: First Paper: {title_1} ...\n"
3.3.2 图词元嵌入
使用线性投影器将中心节点表示映射为K个图词元嵌入:
其中 , 是线性层。
3.4 训练和评估策略
训练过程分为三个阶段:
使用BERT模型编码原始文本,生成统一的节点特征 在单个数据集上使用对比学习预训练图模型 在特定任务上训练线性投影器
整个过程中,语言模型的参数保持固定。图编码器使用GraphSAGE,语言模型使用Vicuna-7B-v1.5。
这种设计不仅实现了有效的知识迁移,还通过减少可学习参数提高了模型的泛化能力。实验结果表明,该方法在跨数据集和跨任务的零样本学习场景中都取得了显著的性能提升。
4. 实验与发现
为了全面评估TEA-GLM的性能,作者在来自两个不同领域的八个数据集上进行了广泛的实验。在引文领域,使用了Arxiv(包含169,343个节点和1,166,243条边)、Pubmed(19,717个节点和44,338条边)以及扩展版本的Cora(25,120个节点和91,140条边)数据集。在电商领域,使用了来自TAG基准的数据集,包括Children、History、Computer、Photo和Sports等数据集。
实验结果表明,TEA-GLM在跨数据集零样本学习任务中显著优于现有方法。特别是在处理主题相关性较低的数据集时,TEA-GLM展现出了更强的泛化能力。在跨任务零样本评估中,TEA-GLM同样展现出优秀的性能,能够在没有任何微调的情况下将节点分类任务的知识迁移到链接预测任务中。
通过消融实验,作者验证了特征级对比学习和图词元嵌入对模型性能的重要性。实验发现,移除特征级约束虽然可能略微提高模型在训练任务上的性能,但会显著降低模型在未见数据集上的表现。同样,没有图词元嵌入时,大语言模型将缺乏来自图的关键信息,导致模型性能显著下降。
5. 结论与展望
这项研究的主要贡献可以总结为三个方面:首先,提出了TEA-GLM框架,通过对齐GNN表示与LLM词元嵌入,实现了跨数据集和跨任务的零样本学习;其次,设计了线性投影器将图表示映射为固定数量的图词元嵌入,并提出了统一的任务指令设计;最后,通过大量实验证明了TEA-GLM在未见数据集和任务上显著优于现有方法。