KDD 2024 | 图机器学习新纪元：大模型的创新与突破

文摘 2024-08-17 10:00 北京

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入！

点击阅读原文观看作者汤嘉斌直播讲解回放！

在即将到来的 KDD 2024 盛会上，由香港大学数据智能实验室的黄超教授指导的研究团队，将深度剖析大型模型推进下图机器学习领域面临的根本性挑战。随着图数据应用场景的复杂性日益加剧，图机器学习正在应对一系列挑战，这包括但不限于提升模型的泛化力、强化其鲁棒性，以及对复杂图结构数据的深度解析。

论文标题：

A Survey of Large Language Models for Graphs

文章地址：

https://arxiv.org/abs/2405.08011

开源资料库：

https://github.com/HKUDS/Awesome-LLM4Graph-Papers

港大数据智能实验室：

https://sites.google.com/view/chaoh

在过去几年中，依托于大型模型的图神经网络已经取得了突破性进展，并在众多应用场景中展现了其非凡的能力。本文将对当前图学习领域的技术挑战进行详尽的分析，并对未来大型模型技术在突破这些“未知边界”方面的潜力进行展望。我们坚信，大型模型将引领图机器学习进入一个崭新的时代，促进该领域实现更深层次和更广泛范围的应用发展。

在当今这个信息爆炸的时代，我们面临着从海量数据中挖掘深层次联系的挑战。来自香港大学等学者们，在他们最新的图学习和大型语言模型领域的综述中提供了解析。图，作为现实世界中各种关系的基本数据结构，其核心地位不言而喻。尽管图神经网络在处理图数据的任务中取得了显著成就，但数据稀疏性和模型泛化能力的局限仍是当前研究需要攻克的难题。

近期，大型语言模型在自然语言处理领域的突破性进展，特别是其卓越的语言理解与总结能力，已经吸引了全世界的目光。鉴于此，将大型语言模型与图学习技术相结合，以增强图学习任务的效率和效果，已经成为学术界和工业界的热点研究方向。

本综述深入回顾了应用于图学习中的大型语言模型（LLMs），并提出了一种创新的分类方法，根据框架设计对现有技术进行了系统的梳理和分类。文章详尽地分析了四种算法设计思路：基于图神经网络的方法、以大型语言模型为主导的方法、大语言模型与图数据集成的方法，以及仅依赖大型语言模型的方法。对于每一类方法，我们都深入探讨了其核心技术和方法论。

此外，该综述还全面评估了不同框架的优势与局限，并为未来的研究方向提供了指导和展望，为图学习领域的进一步探索和发展奠定了坚实的基础。

背景介绍

图（Graph）扮演着非线性数据结构的关键角色，由节点（V）和边（E）两大要素构成。边的存在使得节点间能够相互连接，它们可以是有向的——明确指出起点和终点，也可以是无向的——不指定具体方向。

特别值得关注的是，文本属性图（Text-Attributed Graph, TAG），作为图的一种特殊类型，为每个节点赋予了序列化的文本特征，例如句子。在大型语言模型盛行的今天，这种特性显得尤为重要。文本属性图可以被规范地定义为一个三元组 G* = (V, E, T)，其中 T 代表文本特征集。

图神经网络（Graph Neural Networks, GNNs）作为为图结构数据量身打造的深度学习架构。它们通过整合邻近节点的信息来不断优化节点的嵌入表示。简而言之，GNN 的每一层都会利用特定的函数来更新节点的嵌入状态 h，这个函数会综合考虑当前节点的嵌入状态和周围节点的嵌入信息，为下一层生成新的节点嵌入。

大型语言模型（Large Language Models, LLMs）大型语言模型（Large Language Models, LLMs）以其庞大的规模和强大的预测能力著称。最新的研究表明，这些包含数十亿参数的模型在处理各种自然语言处理任务时表现出色，如翻译、摘要生成和执行指令等。

目前，许多尖端的 LLMs 都是基于 Transformer 架构构建的，特别是利用查询-键-值（QKV）机制的 Transformer 块，这种机制能够高效地在词元序列中整合信息。根据注意力机制的运用和训练策略，语言模型主要分为两大类：

掩码语言建模（Masked Language Modeling, MLM）：这是一种流行的 LLMs 预训练方法。它通过在输入序列中随机掩盖一些词元，训练模型利用周围的上下文来预测这些被掩盖的词元，从而提高模型对语言结构的理解和预测能力。
因果语言建模（Causal Language Modeling, CLM）：这是另一种主要的 LLMs 预训练方法。它训练模型根据序列中已经出现的词元来预测下一个词元，模型只能利用当前词元之前的上下文信息来进行预测，这有助于提升模型对语言序列的因果理解。

图学习与大语言模型

在这篇深入的综述中，研究者们提出了一种创新的分类框架，用以梳理和理解模型如何通过其推理过程与大型语言模型（LLMs）交互，处理图数据和文本数据。这一分类基于模型架构的不同设计，具体分类如下：

GNNs as Prefix（GNNs 作为前缀）：模型架构将图神经网络定位为处理流程的起点。在这种设计中，GNNs 负责初步解析图数据，提取出关键的结构化信息，如节点、边或整个图的标记，并为后续的 LLMs 推理提供输入。
LLMs as Prefix（LLMs 作为前缀）：在这里，LLMs 率先对带有文本属性的图数据进行处理，为GNNs的训练阶段提供必要的节点嵌入或生成标签，从而为图数据的学习提供支持。
LLMs-Graphs Integration（LLMs 与图集成）：类别的方法着眼于实现LLMs与图数据的深度融合。这些方法通过联合训练或与 GNNs 的协同工作，加强了两者之间的交互。此外，还开发了基于 LLM 的智能体模型，用以与图数据进行更有效的信息交换。
LLMs-Only（仅使用 LLMs）：类别则完全依赖于 LLMs 的能力。这类方法通过精心设计的提示技术，将图数据的结构化信息嵌入到词元序列中，使得 LLMs 能够直接进行推理。一些方法甚至整合了多模态的标记，扩展了模型对不同类型数据的处理能力。

2.1 GNNs as Prefix

在探索图神经网络（GNNs）与大型语言模型（LLMs）结合的领域中，GNNs 扮演着至关重要的角色，它们作为结构编码器，极大地增强了 LLMs 解析图结构数据的能力。这种能力的提升为广泛的应用场景带来了显著的优势。具体来说，GNNs 在这里充当了将复杂的图数据转化为 LLMs 能够理解的图 token 序列的转换器，使得这些序列能够与自然语言处理流程无缝对接。

我们可以将这些方法分为两大类：首先是节点级别的 Token 化，这种方法将图中的每个节点独立地送入 LLM 进行处理。这样做的目的是为了让 LLM 能够深入地理解每个节点的细微结构信息，并准确地识别节点间的联系和差异。其次是图级别的 Token 化，这种方法通过特定的池化技术将整个图简化为一个固定长度的 token 序列，目的是为了捕捉整个图结构的宏观语义。

对于节点级别的 Token 化，这种方法特别适合于那些需要精细建模节点级别结构信息的图学习任务，例如节点分类和链接预测。在这些任务中，模型需要能够识别并区分不同节点之间的微妙差别。传统的 GNN 会为每个节点生成一个基于其邻居信息的独特表示，然后利用这些表示来进行进一步的分类或预测。而节点级别的 Token 化方法能够最大限度地保留每个节点的独特结构特征，这对于提升下游任务的性能至关重要。

另一方面，图级别的 Token 化则适用于那些需要从节点数据中提取全局信息的图级任务。在 GNN 作为前缀的框架下，通过各种池化操作，图级 Token 化能够将众多节点的表示合并成一个统一的图表示。这种方法不仅能够捕捉到图的全局语义，还能够显著提升各种下游任务的性能。通过这种方式，图级 Token 化为理解和预测图数据提供了一个更为宏观和综合的视角。

2.2 LLMs as Prefix

在图神经网络（GNNs）的训练领域，一种新兴的方法是利用大型语言模型（LLMs）的生成信息来增强学习过程。这种方法的核心在于利用 LLMs 的文本分析能力来丰富 GNNs 的训练数据集。具体来说，这种方法主要有两种应用形式：首先是将 LLMs 的嵌入技术应用于 GNNs 的节点表示学习；其次是将 LLMs 生成的标签信息作为训练信号，以提高 GNNs 的预测精度。

采用 LLMs 嵌入技术时，关键在于如何将这些嵌入信息有效地整合到 GNNs 的节点表示中。在不同的应用场景中，初始的节点嵌入可能在表达能力和信息丰富度上存在差异。

例如，在推荐系统领域，基于用户或物品 ID 的嵌入可能缺乏足够的描述性；在学术引文网络中，简单的词袋模型可能无法充分捕捉节点间的复杂关系。这种情况下，LLMs 的高级语言处理能力可以为 GNNs 提供更加精细和信息丰富的节点嵌入，从而为模型的训练提供强有力的支持。

另一方面，将 LLMs 生成的标签信息直接用于 GNNs 的训练，可以作为一种高级的监督学习信号。这些标签信息不仅包括传统的分类标签，还可能包括更复杂的结构化数据，如嵌入向量或图结构。

这种方法不是简单地将 LLMs 的输出作为输入数据，而是将它们转化为一种指导信号，用以指导 GNNs 的训练过程。这样的策略使得 GNNs 能够更加精准地学习图数据的全局结构和局部特征，进而在各种图分析任务中展现出更高的性能。通过这种方式，GNNs 不仅能够学习到图数据的表面特征，还能够深入理解其背后的复杂模式和关系。

2.3 LLMs-Graphs Integration

探索大型语言模型（LLMs）与图数据结合的新领域，研究者们已经开发出一系列创新方法，这些方法不仅增强了 LLMs 在图分析任务中的应用，还改进了图神经网络（GNNs）的学习效率。这些方法主要分为三个流派：首先是 LLMs 与 GNNs 的深度融合，目标是实现两者的协同优化；其次是两者在特征或任务层面的精准对齐；最后是创建基于 LLMs 的智能体，用以自动执行图相关的复杂任务。

在 LLMs 与 GNNs 的融合策略中，考虑到 GNNs 在处理结构化图数据和 LLMs 在处理文本数据方面的专长，两者在特征表达上存在差异。为了弥合这一差异并实现两者的互补学习，一些先进的技术如对比学习和期望最大化（EM）算法被用来调整和对齐它们的表达空间。这种对齐不仅提升了模型对图和文本数据的理解，也增强了它们在多样化任务中的表现。

进一步地，LLMs 与GNNs 的对齐工作虽然在特征层面实现了一致性，但在实际的推理过程中，两者通常还是独立运作。为了实现更深层次的整合，某些研究开始尝试将 LLMs 的 Transformer 架构与 GNNs 的图处理能力结合起来，通过联合训练，使得两个模型在图相关的任务中相互促进，实现优势互补。

至于基于 LLMs 的图智能体，这一新兴研究方向利用了 LLMs 在理解复杂指令和自主规划方面的先进能力。研究者们正在开发智能智能体，这些智能体能够独立处理与图相关的任务，如节点分类和链接预测。这些智能体通常具备记忆、感知和行动三大核心功能，形成了一个从观察到记忆再到行动的闭环系统，使得它们能够在图论的领域内与数据直接交互，执行复杂的图分析任务。

2.4 LLMs-Only

在这篇综述的 “LLMs-Only” 章节中，作者深入讨论了如何将大型语言模型（LLMs）独立应用于图相关的任务。这种方法的核心在于使 LLMs 能够直接处理图结构数据，并利用这些数据对多种任务进行推理。

这些方法主要分为两大类：首先是那些无需进一步训练即可使用的方法，它们通过设计合适的提示来引导预训练的 LLMs 执行图相关的任务；其次是需要通过微调来优化的方法，这些方法将图数据转换为序列，并与自然语言序列对齐。

无需微调的方法：研究者面临两大挑战-如何将图数据以自然语言的形式有效表达，以及 LLMs 是否能够准确理解这种表达。为了应对这些挑战，一些研究者提出了无需调整的方法，这些方法在纯文本空间内对图进行建模和推理，旨在挖掘预训练 LLMs 在提升结构理解能力方面的潜力。

需要微调的方法：由于纯文本表达图结构信息存在局限，当前的趋势是将图数据作为节点序列与自然语言序列对齐，以便输入到 LLMs 中。与之前提到的以 GNN 为前缀的方法不同，这些需要微调的 LLM 方法不依赖图编码器，而是采用特定的文本描述来表达图结构。这种方法通过精心设计的提示（prompts），在各种图相关的下游任务中展现出了有希望的性能。

这种方法论的转变，从依赖图编码器到利用 LLMs 的文本处理能力，标志着在图数据理解和推理方面的一种新探索。通过这种方式，研究者能够更直接地利用 LLMs 的强大语言理解能力，为图相关的任务提供更丰富的上下文和更准确的推理。

未来的研究方向

本综述深入探讨了大型语言模型（LLMs）在图论领域的一些未解之谜以及未来可能的研究方向：

多模态图数据与 LLMs 的整合：最新的研究揭示了 LLMs 在处理图像、视频等多模态数据时的卓越性能。这一进展为将 LLMs 与包含多种模态特征的图数据相结合提供了新的机遇。开发能够处理这类多模态图数据的 LLMs，将使我们能够综合考虑文本、视觉、听觉等多种数据类型，对图结构进行更精确、全面的推理。

提高计算效率与降低成本：LLMs 在训练和推理阶段的高计算成本是其广泛应用的主要障碍，尤其是在处理包含数百万节点的大规模图数据时。当尝试将 LLMs 与图神经网络（GNNs）结合时，这一挑战变得更加复杂。因此，寻找并实施有效策略以降低 LLMs和 GNNs 的训练成本变得尤为迫切。这不仅能够突破当前的限制，还将扩展 LLMs 在图相关任务中的应用，增强其在数据科学领域的应用价值和影响力。

拓展 LLMs 在图任务中的应用：尽管当前的研究主要集中在传统的图任务上，如链接预测和节点分类，但鉴于 LLMs 的强大处理能力，探索其在处理更复杂和生成性任务方面的潜力变得尤为重要。这包括图生成、图理解以及基于图的问题回答等任务。

通过将 LLMs 的方法扩展到这些复杂任务，我们将为 LLMs 在不同领域的应用打开新的可能性。例如，在药物发现中，LLMs 可以促进新分子结构的创造；在社交网络分析中，它们可以提供对复杂关系模式的深入理解；在知识图谱构建中，LLMs 可以帮助构建更全面、更准确的知识库。

基于图的智能体开发：目前，为图相关任务设计的基于 LLM 的智能体大多是为单一任务定制的，通常采用一次性解决问题的模式。然而，理想的基于 LLM 的智能体应该具备用户友好性，能够动态地在图数据中搜索答案，响应用户的多样化开放式问题。为了实现这一目标，我们需要开发一个既灵活又稳健的智能体，它能够与用户进行迭代交互，并熟练处理图数据的复杂性，提供准确且相关的回答。这要求智能体不仅要有高度的适应性，还要展现出强大的稳定性。

总结

本综述文章深入剖析了为图数据特别设计的大语言模型（LLMs），并提出了一种新颖的分类体系，该体系根据模型推理框架的不同，将现有模型划分为四种具有独特特点的类别。每类模型都具有其独到之处和潜在的短板。文章不仅详细讨论了这些模型的特性，还深入探讨了它们在处理图数据时各自的优势和面临的挑战。

此外，本综述的目的是为了给那些对应用大型语言模型解决图相关难题充满热情的研究者提供一个参考。通过这项研究，我们期望能够促进对 LLMs 与图数据结合的深入理解，并激发该领域的技术进步和创新。我们相信，这些努力将为图数据分析和理解带来新的视角和解决方案。

通过对这些框架的细致分类和深入分析，本综述揭示了每种设计在图数据应用中的潜力和可能遇到的难题。这种分类不仅有助于理解不同模型的工作原理，也为未来的研究提供了一些探索的方向，使得研究者能够更有针对性地选择或改进模型，以适应特定的图数据处理需求。我们期待这项工作能够激发更多关于 LLMs 在图数据领域的研究和探索，推动相关技术的发展。

往期精彩文章推荐

点击 阅读原文 观看作者直播讲解回放！

关于AI TIME

AI TIME源起于2019年，旨在发扬科学思辨精神，邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索，加强思想碰撞，链接全球AI学者、行业专家和爱好者，希望以辩论的形式，探讨人工智能和人类未来之间的矛盾，探索人工智能领域的未来。

迄今为止，AI TIME已经邀请了1800多位海内外讲者，举办了逾600场活动，超700万人次观看。

我知道你

在看

提出观点，表达想法，欢迎

留言

点击 阅读原文 观看作者直播讲解回放！

http://mp.weixin.qq.com/s?__biz=MzIzOTAxOTk3Nw==&mid=2247526928&idx=1&sn=fb66de02975739c2cb2f721876a082cb

AI TIME 论道

AI TIME是一群关注人工智能发展，并有思想情怀的青年学者创办的圈子，旨在发扬科学思辨精神，邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索，链接全球AI学者，以辩论的形式探讨人工智能领域的未来。