专题解读 | LLM与GNN的结合:数据增强的视角

文摘   2024-09-30 12:38   安徽  

一、简介

随着大语言模型(LLM)在自然语言处理中的应用不断深入,其在语义理解和生成方面的优势为多个领域带来了革新。在基于文本的图或节点特征依赖文本的场景中,传统的图神经网络(GNN)常常难以充分捕捉其中的语义信息。通过将LLM与GNN相结合,能够更好地处理文本特征和图结构间的复杂关系,增强GNN在各种任务中的表现。本文从数据增强的角度,聚焦两项利用LLM来提升GNN性能的最新研究:LLMRec 和 GAugLLM,分别在推荐系统和对比学习任务中展示了其效果。

二、LLMRec: Large Language Models with Graph Augmentation for Recommendation(WSDM 2024)

在现实推荐系统中,用户数据的缺失、噪声以及监督信号不足是常见挑战。这些问题影响了推荐模型的效果,导致对用户兴趣的建模不准确。LLMRec提出了一种通过用户-物品交互图进行边和节点增强的策略,旨在产生更多的监督信号,并解决数据缺失问题。同时,通过噪声消除机制,保障了增强数据的有效性。

2.1.用户-物品边增强策略

LLMRec的用户-物品边增强策略旨在通过利用大语言模型(LLM)生成更有效的监督信号,从而提升推荐系统的性能。具体而言,该策略通过以下方式实现:

首先,为每个用户收集其历史交互的物品及相关的辅助信息,如物品的年份、类型等。这些信息被输入到LLM中,LLM随后会在给定的候选物品中选择用户可能感兴趣的物品(正例)和不太可能感兴趣的物品(负例)。这种方式不仅能够生成正负样本,还能够利用LLM的语义理解能力,更准确地反映用户的偏好。

由于LLM存在输入长度限制,因此需要选定候选物品。这些候选物品是通过基础推荐模型(MMSSL、MICRO)预测的具有高预测得分的样本组成,它们可能是用户潜在的有价值的正例或负例。

2.2.用户/物品节点属性增强策略

LLMRec的用户/物品节点属性增强策略旨在通过充分利用大语言模型(LLM)的知识和推理能力,增强用户和物品的描述信息。LLM通过从用户的历史交互记录和物品信息中提取有价值的提示,生成用户/物品属性。生成的用户/物品信息随后被编码为特征,并与原始用户/物品嵌入结合。形式上,用户/物品节点属性增强策略可以表示为:

其中,是LLM生成的用户和物品文本属性。分别是用户和物品的文本提示。, 是LLM编码后的增强的用户和物品节点特征。

2.3.数据增强后的噪声消除

在进行数据增强后,LLMRec通过两种机制来消除增强数据中的噪声,以确保推荐系统的性能不受不可靠数据的影响:用户-物品边的剪枝和基于MAE的特征增强。

具体来说,用户-物品边的剪枝是在每次迭代后对预测的正负样本对的损失值进行排序,保留最小的N个负损失值对模型进行优化,使优化过程更加稳定和有效。对于增强后的节点属性,LLMRec引入了基于掩码自编码器(MAE)的特征增强方法,以减少噪声对特征表示的影响。MAE通过掩盖一部分节点特征,迫使模型在特征重建过程中学习更为鲁棒的表示。

2.4.实验效果

LLMRec在Netflix和MovieLens两个多模态数据集相对于其他方法有更好的效果。

三、GAugLLM: Improving Graph Contrastive Learning for Text-Attributed Graphs with Large Language Models(KDD 2024)

图对比学习通过为输入图创建两个增强视图,并训练GNN为两个视图中同一节点生成相似表示。但对于文本属性图进行特征增强时是基于节点文本的浅层编码的,图对比学习针对浅层编码进行特征扰动来得到增强视图这种特征增强方法是次优的。因为这种扰动方式没有考虑原始文本的语义信息。此外,对图结构进行扰动时如果不能考虑语义信息,可能会出现增强后的图结构与语义信息不匹配的问题。为了解决这两个问题,GAugLLM利用LLM对语义信息的理解分别得到增强的特征和增强的图结构,从而提升图对比学习的性能。

3.1.节点特征增强

为了在保持文本语义信息的同时扰动节点文本,GAugLLM设计了三个prompt生成三种增强文本。结构感知摘要利用LLM总结中心节点及邻居的文本信息;独立推理利用LLM仅根据中心节点文本对节点类别进行预测并提供解释;结构感知推理利用LL根据中心节点及邻居的文本对节点类别进行预测并提供解释。

在得到三种文本之后,将原始文本与三种增强文本通过另一个语言模型进行编码,得到四种文本嵌入,并通过注意力机制为这四种文本嵌入分配权重。

3.2.图结构增强

为了在图结构扰动的同时考虑节点的语义信息,GAugLLM首先通过网络嵌入算法(DeepWalk)得到每个节点的结构嵌入,并根据结构嵌入的相似度为每个节点得到可能添加的边候选集和可能需要删除的边候选集。之后,让LLM从候选集中根据语义信息得到应该增加和删除的边。这种图结构增强方法既考虑了图结构有考虑了节点的语义信息。

3.3.实验效果

GAugLLM在五个数据集上相对于浅层编码和GIANT方法在大部分情况下达到最优。

四、总结

本文从数据增强的视角介绍了LLM在GNN中的应用,重点分析了LLMRec和GAugLLM两项研究。这表明了LLM与GNN结合在未来图学习任务中的巨大潜力。


北邮 GAMMA Lab
北邮图数据挖掘与机器学习实验室
 最新文章