点击蓝字
关注我们
AI TIME欢迎每一位AI爱好者的加入!
点击阅读原文观看作者直播讲解回放
本文介绍香港大学数据智能实验室提出的最新图结构大语言模型(HiGPT),专门设计用于克服与泛化各种下游异质图学习任务相关的关键挑战。期待HiGPT能够吸引更多的开源社区开发者参与讨论和实践,进一步推动图结构与语言模型的有效结合。
论文:https://arxiv.org/abs/2402.16024
代码:https://github.com/HKUDS/HiGPT
主页:https://higpt-hku.github.io/
1. 导读
异质图在推荐系统、知识图谱、社交网络分析和生物网络等领域广受关注和应用。这些图结构囊括了千差万别的实体类型以及错综复杂的关联联系,使得它们得以充分展现复杂系统的内在本质。而对这些异质图的学习,则是通过提取节点和边的有意义表征,旨在深挖图结构内部错综复杂的语义关联,从而拨开迷雾,洞见底层结构的根源异质性。
近年来,人们愈加认识到异质图神经网络(HGNNs)在捕捉异质图结构复杂多样信息方面的巨大潜力。HGNNs运用高阶信息传播技术,能够高效建模图中错综复杂的关联联系、丰富多元的实体类型以及语义异质性。通过在各类节点和边上进行信息聚合与传播,HGNNs推动了对异质图内部错综复杂关联的更加深入的理解和分析。
当前的异质图学习框架已经展现出一定的有效性,但在泛化应用于不同异质图数据集方面仍存在局限。这些框架通常采用"预训练 - 微调"的范式:首先在特定数据集上进行预训练,然后针对同一数据集进行微调优化。然而,这种做法难以将模型迁移至全新的、未曾接触过的数据集。
这是因为这些框架过度依赖于原始训练数据集中的节点类型和关系类别。当遇到节点和关系类别分布完全不同的其他异质图数据时,它们的性能将受到明显制约。这种强烈的数据依赖性限制了它们在处理各种异质图数据时的普适性和鲁棒性。
鉴于当前异质图学习框架存在的局限性,本研究旨在解决一个基本问题,以此扩展异质图模型的边界:"是否可以开发出一种高度适应性的通用异质图模型,即使面对节点类型和关系类型分布发生偏移,也能有效地处理各种下游学习任务?" 换言之,就是追求"一个模型,能够建模任意关系类型"。为了应对这一挑战,本文将介绍香港大学数据智能实验室提出的最新图结构大语言模型(HiGPT),专门设计用于克服与泛化各种下游异质图学习任务相关的关键挑战。期待HiGPT能够吸引更多的开源社区开发者参与讨论和实践,进一步推动图结构与语言模型的有效结合。
2.概述
总得来说,我们将实现"一个模型,建模任意关系类型"的挑战归纳为以下三点,并给出了对应解决方案:
挑战1. 关系类型异质性偏移。我们需要面对的一个主要挑战是,不同异质图结构中关系类型的异质性差异。在这些图数据中,实体之间由各种类型的关系连接,而这些关系类型在不同数据集中可能存在显著差异。例如,在推荐系统中,异质图中可能包含用户和商品之间的"点击"、"收藏"、"评论"和"购买"等关系;而在学术图中,则可能涉及"论文-论文"、"作者-论文"和"论文-会议"等完全不同的关系语义。这突出了不同领域异质图的关系类型可能存在很大差异的问题。为了克服这一挑战,我们需要开发一种通用的建模方法,能够有效地捕捉和表示各种类型的语义关系,而不受具体数据集的限制。这将是我们需要重点解决的关键问题之一。
面对挑战1的方案. 通用的异质图Tokenizer。为了实现异质图场景下的通用性,我们提出了一种新的建模机制 - 通用的异质图Tokenizer。这种Tokenizer的核心在于,它能够以一种统一的方式捕捉不同异质图中存在的各种语义关系。具体来说,上下文异质图Tokenizer主要包括两个关键组件: 1)上下文参数化异质性投影器:这个模块可以利用语言knowledge对各种类型的节点和边进行编码表示,从而有效捕捉它们的语义特征。2)参数分配器:这个模块则能够动态地为Tokenizer分配定制的参数,以便适应不同异质图结构的需求。
为了优化Tokenizer的性能,并将其无缝集成到HiGPT框架中,我们采用了一种轻量级的文本-图对比对齐预训练方法。这种预训练过程可以直接将Tokenizer融入到HiGPT中,增强其语义建模能力,确保Tokenizer在整个模型架构中运行稳定高效。通过上下文异质图Tokenizer的引入,HiGPT得以跨越现有异质图学习模型的局限性,在捕捉各种语义关系的基础上,为不同领域和场景的下游任务提供更强大的泛化性能。这对于构建更加通用和适应性强的异质图学习框架具有重要意义。
挑战2. 理解异质图结构的语言模型。面临当前异质图学习模型泛化能力有限的挑战,本研究致力于探索将大语言模型(LLMs)高效融合的解决方案。我们的核心目标是开发一种专门针对图结构的语言模型,使其在理解复杂异质图的固有结构信息方面表现出色。具体而言,我们拟开发的图语言模型将具备以下两大能力: 1) 识别不同类型节点之间错综复杂的关系异质性。传统图模型往往仅关注单一类型的节点及其联系,而忽略了异质性带来的挑战。我们的模型将能够充分捕捉各类节点间错综复杂的语义联系。2) 捕捉属于同一类型实体的丰富特征。除了关系异质性,实体自身的特征也是异质图学习中的重要因素。我们的模型将具备深入理解同类实体内部复杂特征的能力。
面对挑战2的方案. 面向异质图指令微调。我们引入了一种新颖的异质图指令微调框架,该框架集成了跨类型和同类型token匹配任务来微调大语言模型(LLMs)。我们的框架专门针对提高LLMs对异质关系感知和同质关系感知的理解。通过这些任务,我们的目标是增强LLMs在以下方面的能力:(i)区分不同类型的图token,(ii)理解异质图内复杂的关系,(iii)保留同构图内实体的特定属性,以及(iv)在训练过程中有效利用各种图指令。
挑战3. 用于微调大模型的数据稀缺。在使用异质图学习的实际应用场景中,数据缺乏是一大难题。这给模型微调带来了重大障碍。以建模推荐系统中的冷启动用户或物品为例,由于用户交互数据稀缺,获取有监督训练信号十分困难。这种数据贫瘠的问题严重影响了下游任务模型的微调效果,急需新的技术突破来解决这一关键挑战。
面对挑战2的方案. Mixture-of-Thought指令增强。我们提出了一种新颖的机制,称为"Mixture-of-Thought"(MoT),用于增强图指令生成。这种机制融合了多种提示技术,能够生成一系列多样化且信息丰富的下游任务指令。通过将这些增强的图指令无缝集成到我们的框架中,有效解决了数据稀缺性带来的挑战。这种集成方法使我们能够利用多样的提示信息,从而克服数据不足的限制,提升下游任务的性能。
3. 模型框架
这一部分将介绍HiGPT图指令微调范式的技术细节。如图1所示,该方法的整体框架如下:
3.1 异质图Tokenizer
我们针对HiGPT设计了一种新颖的异质图Tokenizer机制,以适应各种拥有不同节点和边类型的场景。这种Tokenizer包含两大创新组件:上下文感知异质性投射器和自适应参数分配器。前者利用语义信息对异质图中的元素进行编码,增强了模型的适应性;后者则动态为Tokenizer分配定制参数,以优化其性能。为了将这种Tokenizer无缝嵌入到HiGPT框架中,我们采用了文本-图对比预训练的方法。这不仅提升了Tokenizer的能力,还确保了其高效协同整个模型架构。总的来说,这种上下文感知的异质图Tokenizer为HiGPT带来了强大的建模能力,适应了复杂多样的异质图场景。
3.1.1 带有元投影器的图Tokenization
给定一个异质图,其特征矩阵为,邻接矩阵为,我们的目标是对其隐式表示进行编码,表示为。
为此,我们设计了一种独特的异质图编码器,记为,它可以基于各种HGNN架构(如HetGNN、HAN或HGT)来实现。这个编码器能够捕捉异质图中不同类型节点及其关系的隐式语义表示,其中表示节点类型的隐式维度。通过这种异质图编码器,我们可以高效地将原始的图结构和特征信息转换为一种统一的隐式表示形式,为后续的HiGPT框架提供强大的输入。这种灵活的编码机制确保了HiGPT能够适应各种复杂的异质图场景。
表示一个全连接层,其参数为。其中,表示节点的类型,表示激活函数。具有个heads的和函数的具体形式:
为了提高HiGPT在处理各种异质图场景的适应性,我们设计了一种动态参数生成机制。这种机制能够自动根据图中节点和边的类型信息,生成合适的投射参数,从而有效地编码异质性关系。具体来说,该参数生成过程包含两个核心部分:类型感知投射参数,用于捕捉节点类型所蕴含的异质性特征;以及关系感知投射参数,用于编码边类型所反映的异质性语义。这种自适应参数生成方式,避免了预定义投射数量的限制,使HiGPT能够灵活地适应各种复杂的异质图结构。通过动态调整投射参数,HiGPT可以更好地发掘图中蕴含的丰富语义信息,从而提升在各种异质图应用场景下的性能。
为了实现自适应的异质性编码,我们采用了一种参数化投射机制。其中,是一个带有可学习参数的全连接层,负责将节点特征和边特征投射到隐式表征空间。值得注意的是,这种参数化投射方法可以灵活地集成到各种异质图神经网络框架中,如HGT。通过上下文特征感知的参数化投射,我们能够有效地捕捉图结构中复杂的异质性关系,从而提升模型在处理异质图数据的性能。这种通用的异质性编码机制,为异质图神经网络的进一步发展和应用提供了重要的支撑。
基于语言的异质性特征编码: 我们提出了一种利用自然语言描述来生成通用异质性特征的方法。通过将图中的节点和边类型用自然语言进行表述,我们可以充分利用预训练语言模型的能力,提取出富含语义信息的异质性特征表示。例如,在异质IMDB数据集中,我们可以将"movie"节点描述为"This node represents a movie",而边("movie", "to", "director")则可以表述为"The movie is directed by the director"。为了确保不同类型之间的可区分性和多样性,我们使用多种语言来描述同一类型。具体来说,我们使用预训练的Sentence-BERT模型对这些自然语言描述进行编码,得到节点类型表示和边类型表示。为了获得最终的特征表示,我们对由不同语言编码的结果进行平均聚合。
和分别表示节点类型和边类型的描述集。例如,考虑边("movie", "to", "director")的例子。一个可能的描述是:
3.1.2 文本与结构语义对齐
基于最近在跨模态语义对齐方面的进展,我们提出了一种轻量化的图-文对比对齐技术,用于预训练异质图tokenizer。这种方法旨在将语言建模能力与异质图结构的表示能力进行有效融合,使tokenizer和语言模型之间能够更好地协作。具体来说,我们使用一组原始文本内容来表示与异质图节点相关联的文本信息,其中为节点总数,为第个节点对应文本的长度。在这个框架下,我们设计了一种轻量化的文本-图对比对齐策略,通过同时优化文本和图表示的相似性,来增强tokenizer对跨模态语义的建模能力。这种方法不仅能够充分利用预训练语言模型的知识,还能有效地融合图结构信息,从而使tokenizer在处理异质图数据时表现更加出色。
我们使用对比标签和交叉熵函数。我们的实现使用多层普通Transformer来进行。
3.2 异质图指令微调
HiGPT的目标是使语言模型能够直接为具有未见过的异质图和相应指令的下游任务生成预测。首先,使用tokenizer对自然语言指令进行编码,得到文本嵌入,表示为。为了对齐维度,我们使用一个投影器将图tokens映射到与文本嵌入相同的维度,表示为,这可以是一个简单的线性层。对于长度为的序列,我们确定生成目标输出的概率:
其中表示HiGPT中的可学习参数。
3.2.1 基于异质图“语料库”的指令微调
为了使大型语言模型(LLM)能够根据自然语言指令有效地处理不同类型的异质图数据,我们采用了一种基于"语料库"的指令预训练方法。这种预训练过程中,我们收集了大量异质图结构与相关自然语言指令的配对数据,旨在增强模型对于复杂图结构的理解能力。通过这种指令预训练,我们成功训练了一个名为HiGPT的模型,它在同质和异质图结构的学习上都展现出了出色的性能。
异质关系感知:我们的目标是增强语言模型在异质上下文中区分特定类型节点方面的能力,同时考虑复杂的关系。这通过利用图tokens中编码的信息来实现。
我们旨在赋予模型识别并理解同类图结构的能力。具体而言,我们希望模型能够建立图tokens序列与其相应自然语言描述之间的紧密对应关系,以增强其对同构数据的认知水平。为此,我们设计了专门的训练方法,引导模型学习这种图-文关联,从而提升其在同类图数据分析中的性能。
异质图指令 为了增强模型理解异质图数据的能力,我们在图指令中采用了随机邻居采样的方式生成子图,并配以人类提出的相关问题。为了进一步拓展异质图语料的多样性,我们对不同类型的节点进行了多次采样。此外,我们在人类问题中引入了<graph> token作为图示意符。
这一过程中,我们设计了两项关键任务:i) 跨类型token匹配,要求模型区分不同类型的图tokens编码序列;ii) 同类型匹配,旨在使模型能够将特定类型的图tokens编码与相关描述建立对应关系。这些任务的设计有助于模型增强对异质关系和同构关系的理解。更多关于指令模板的详细信息,可参见表1。
3.2.2 异质性感知微调
为了提高语言模型在特定异构图下游任务中的推理性能,我们提出了一种"异构感知微调"的方法。这种方法建立在初始的异构图语料库预训练基础之上,通过利用针对目标任务的监督指令,对模型进行进一步的微调优化,使其更好地适应异构图数据上的特定需求。
在微调阶段,我们采用以目标节点为中心的随机采样技术,生成富含异构特性的子图样本。同时,我们设计了一系列人类生成的相关问题,以此作为监督信号。考虑到预训练阶段模型已经具备了对异构和同构关系的感知能力,我们设计了更加复杂多样的问题,涉及不同类型的图token序列,由多个<graph>标记表示。此外,这些问题还包含与目标节点相关的辅助信息。这种个性化的指令设计如表1所示。
我们相信,这种针对性的异构感知微调方法,能够进一步增强语言模型在异构图分析任务中的表现,为实际应用场景提供更加精准高效的解决方案。相比传统的泛化方法,它能够更好地捕捉异构数据中的复杂语义关联,从而提升模型在特定任务上的推理能力。
3.3 Mixture-of-Thought (MoT) 增强式微调
在实际应用异构图学习时,数据稀缺通常是一大挑战。特别是在使用异构图为推荐系统的冷启动用户/物品建模时,稀疏的用户交互数据限制了可用的监督信号。为了解决这一数据稀缺问题,我们提出了一种通过将增强的图指令合并至HiGPT模型来提升其性能的方法。在异构图指令微调的背景下,我们引入了一种全新的指令增强技术。该方法利用了提示工程技巧,特别是Mixture-of-Thought(MoT)策略,生成多样化且信息丰富的指令,从而有效克服了数据稀缺带来的挑战。
通过将这些增强的图指令融入我们的模型训练中,我们期望HiGPT能够更好地学习异构图数据中的复杂语义关联,从而在数据稀缺场景下仍能保持出色的性能。相比传统方法,这种指令增强技术为我们提供了一种有效的解决方案,突破了数据稀缺对模型泛化能力的限制。
3.3.1 Mixture-of-Thought (MoT) 提示
丰富的提示工程技术可以有效地利用语言模型的功能。其中一些关键策略包括:
Chain-of-Thought (CoT)提示引入中间步骤,使复杂的推理和高级能力成为可能。Tree-of-Thought (ToT)则保持一棵由一致的语言序列组成的树状结构,称为Thought,这些Thought可作为系统的中间步骤用于问题解决。PanelGPT在语言模型之间引入讨论板块,通过协作来增强提示工程过程。而Generated Knowledge Prompting (GKP)则涉及将额外的知识合并到提示中以进行增强。
通过利用这些技巧,我们的目标是增强异质图指令,特别是在数据有限可用性的场景中。这种提示工程方法有助于充分发挥语言模型的功能,提高其在各种复杂任务中的性能和适应性。
3.3.2 带有先验知识的指令增强
为了增强指令,我们采用了七种不同的策略,为每个问题-答案对生成七个增强后的指令。这些策略融合了Mixture-of-Thought(MoT)的特点,以期提高指令的效果。但是,使用闭源语言模型(如ChatGPT)可能会导致错误答案的生成,从而影响指令质量。
为了解决这一问题,我们提出将先验知识(即正确答案)融入到提示中。这使得语言模型能够模拟生成正确答案,并采用不同的MoT方法产生中间推理步骤。最终,经过MoT增强的指令与原始指令一并用于指令微调,在不增加监督信号的情况下,有效扩展了指令集。
4. 实验
4.1 模型性能验证
在少样本学习场景下,我们的HiGPT模型始终优于最新基线方法,即使每个类别只有一个样本。这得益于我们在大规模异质图语料库上进行的有效指令微调。这使得语言模型能够从图tokens中提取有价值且可传递的异质结构信息,从而在下游任务中取得显著性能提升。此外,我们提出的Mixture-of-Thought (MoT)图指令增强方法赋予了语言模型各种混合推理能力,无需额外的监督信号,有效缓解了数据稀缺问题的影响。
在零样本学习设置下,我们的HiGPT也明显优于基线方法。与传统模型受困于训练图类型的局限性不同,我们的方法利用了一个上下文敏感的图tokenizer。该tokenizer能够根据输入图进行动态tokenization,使语言模型能够无缝结合捕捉高阶结构特征的图tokens。因此,我们的模型有效克服了图异质性偏移的限制,即使在跨域场景下也展现出优异的泛化性能。
通过采用Mixture-of-Thought (MoT)技术,我们将强大的语言模型(如GPT-3.5)的各种推理能力无缝集成到规模较小的模型中。这种集成有助于增强模型在数据稀缺情况下的推理能力,并提高其在有限监督信号条件下的性能。MoT技巧在生成动态和多样的指令方面发挥了关键作用,弥补了数据不足,使我们的模型能够在监督和零样本设置下做出高准确的预测。
4.2 关键模块有效性探索
异质图指令微调的影响。为了验证在大规模异质图语料上进行指令微调的重要性,我们创建了一个"w/o S1"变体,只在下游任务数据上进行微调。通过实验不同的微调epoch数(15、50和100),我们发现仅在下游数据上微调的模型在所有情况下都无法给出完整和准确的答案。相比之下,我们的HiGPT在只需15个epoch的情况下就达到了最新水平。这是因为HiGPT从广泛的异质图上下文语料中学习,使其能够理解和提取重要的结构信息。因此在第二阶段,HiGPT只需很少的监督数据(甚至1-shot)就能快速适应下游任务。这突出了直接将LLMs与稀疏监督数据对齐的挑战性。
异质图Tokenizer的影响。我们测试了引入异质图结构信息的必要性。不引入图tokens,仅在下游数据上训练LLM嵌入权重的变体"w/o HG"始终不如HiGPT,尤其是在样本有限的场景中。这说明图tokens的引入使LLM能从上下文图tokenizer中提取高维异质结构信息,从而显著提高了在稀疏监督下的准确性。
指令增强的作用。为了验证MoT图指令增强策略的价值,我们训练了一个仅使用直接回答指令的变体"-IA"。结果表明,缺乏指令增强,模型性能大幅下降,突出了其在解决标签稀缺问题方面的重要性。此外,HiGPT在零样本设置下的优异性能得益于训练过程中获得的增强推理能力,这种能力是通过使用各种推理指令获得的。这使HiGPT能够有效地进行跨数据集和跨域的转移。
4.3 Graph In-Context Learning (Graph ICL)
使用HiGPT中的Graph ICL,1-shot模型超过60-shot模型: 实验结果显示,即使只有单个图示例,使用Graph ICL的1-shot模型在各场景下都优于不用Graph ICL的60-shot模型。这得益于HiGPT强大的图文理解能力。提供图tokens问答示例,让模型更好把握图文关系。分析和模仿这些示例,导致更准确回答。相比大量训练样本,少量图例就能发挥更强大效果,证明了Graph ICL赋予HiGPT的"零样本魔力"。只需少量指导,HiGPT便能迁移学习,发挥超出预期的性能。
使用Graph ICL增强HiGPT的迁移性:HiGPT在零样本迁移场景下的出色表现,突显了Graph ICL方法的显著价值。无需优化模型参数,Graph ICL就能大幅提升HiGPT的跨域泛化能力。不同于单一数据集的过度拟合,HiGPT发展出了全面的分析能力 - 它不仅擅长文本,更能灵活运用异构图知识。通过融合图示例,HiGPT实现了这种分析能力的无缝迁移,展现出卓越的跨界转移学习能力。这不仅增强了模型泛化性,还大幅缩短了适应新任务的周期。
使用无关图例的好处:在Graph ICL实验中,我们尝试使用完全不相关的DBLP问答示例来测试ACM数据集。结果出人意料 - 使用DBLP图示例取得了最佳效果。这表明,尽管目标任务不同,HiGPT仍能有效利用异构图tokens中蕴含的上下文信息,从而提升下游任务的整体性能。这证实了HiGPT不仅依赖于文本,还能从异质图结构中学习到宝贵的知识。相比之下,使用ACM自有示例的效果并不理想。这是因为在预训练和对齐阶段,我们并未针对ACM数据进行专门建模,缺乏针对性。然而,DBLP示例在一定程度上弥补了这一不足。
4.4 模型案例研究
我们测试了HiGPT在不同提示策略下的表现。具体来说,我们利用各种提示技巧,对在10-shot IMDB数据集上训练的HiGPT模型进行了评估,获得了六种不同的响应(详见表1,正确答案以粉色高亮)。这一系列实验,让我们做出了几点有趣的观察: 第一,使用MoT图指令增强策略对模型进行调整后,HiGPT表现出非凡的提示适应能力,能够动态准确地回应各种不同形式的提示。第二,表1中的CoT提示尽管未经格式化,但仍然显示出一定程度的结构化(以黄色高亮)。这表明,即便提示形式不规范,模型也能从中获取有用信息。第三,在测试案例中,HiGPT在完成我们设计的两阶段图指令调整后,会主动从图像的角度分析问题(绿色高亮)。这说明,该模型不仅具备出色的文本理解能力,还掌握了跨模态的感知与推理技能。
5. 总结
我们提出了一个名为HiGPT的通用图神经网络模型,它能够从各种异构图数据中学习,无需繁琐的下游微调。为应对异构图间分布差异的挑战,我们设计了一种上下文感知的异构图token编码器,可捕捉不同异构图中的语义联系,使模型能够快速适应新的图数据。通过将这种异构感知的图指令纳入HiGPT的训练中,该模型得以精通于理解复杂的异构图拓扑关系,并精准识别各类型的图token。我们在广泛的应用场景下评估了这一框架,结果显示其具有出色的泛化性能。
点击 阅读原文 观看作者直播讲解回放!
往期精彩文章推荐
关于AI TIME
AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。
迄今为止,AI TIME已经邀请了1800多位海内外讲者,举办了逾600场活动,超700万人次观看。
我知道你
提出观点,表达想法,欢迎
点击 阅读原文 观看作者直播讲解回放!