图表示学习作为图任务中的关键技术而发展迅速。早期的图表示学习方法通常基于端到端的训练设置,其效果高度依赖于大量的标注数据。然而现实世界中的标注数据往往难以获得,这促使了图少样本学习的出现,用于解决只有少量可用标注数据的图任务。 本综述总结分类了现有的图少样本学习文献,对比了不同方法,并指出了该领域未来的研究方向。具体地,我们从以下两个类别探讨了相关研究:1)问题分类:探讨不同类型的数据稀缺问题及其现实应用;2)技术分类:介绍解决这些数据稀缺的少样本问题的关键策略。 这些技术可以分为元学习、预训练和混合方法。我们在每个类别中进行了更细致的分类,分析这些方法之间的关系,并比较它们的优缺点,以帮助读者选择合适的方法。最后,我们总结了图少样本学习的未来研究方向,以促进该领域的持续创新发展。本综述的相关论文可在 GitHub 仓库中获取。
这些技术可以分为元学习、预训练和混合方法。我们在每个类别中进行了更细致的分类,分析这些方法之间的关系,并比较它们的优缺点,以帮助读者选择合适的方法。最后,我们总结了图少样本学习的未来研究方向,以促进该领域的持续创新发展。本综述的相关论文可在 GitHub 仓库中获取。
论文标题:
A Survey of Few-Shot Learning on Graphs: from Meta-Learning to Pre-Training and Prompt Learning
论文链接:
https://arxiv.org/pdf/2402.01440
Github仓库链接:
https://github.com/smufang/fewshotgraph
一、引言
现有的图表示学习方法,例如图神经网络(GNNs)和图 Transformer,其有效性依赖于丰富的图结构信息和大量的标注数据。然而,图数据稀缺是普遍存在于现实世界的应用,从而严重影响了图表示学习方法的准确性。
由于上述数据稀缺问题,图少样本学习方法 [20][21] 在各个领域引起了广泛关注,如社交网络分析 [22][23]、推荐系统 [24][25] 和分子研究 [21][26],如图 1(c,d,e) 所示。这些方法往往从图中学习通用的、任务无关的先验知识,然后将其适应到标签稀缺或图结构稀缺的下游任务。
由于现实世界图数据中广泛存在的数据稀缺问题,图少样本学习成为了一个重要的研究问题。根据数据稀缺的类型,我们将图上的少样本学习问题分为两类:标签稀缺和结构稀缺。
2.1 标签稀缺问题
2.1.1 类别级别的标签稀缺
2.1.2 实例级别的标签稀缺
2.3 结构稀缺问题
与标签稀缺不同,标签稀缺源于获取标注困难或成本很高,而结构稀缺则源于图拓扑结构的稀疏性,例如其中许多节点仅连接极少的边。由于图表示学习的有效性本质上依赖于节点之间拓扑结构的丰富性,结构稀缺为有效学习图表示带来了重大障碍。
三、元学习
3.1 基于结构的增强方法
3.2 基于迁移的增强方法
四、预训练
由于预训练方法能处理多种领域中未标注数据并灵活迁移到多种下游任务,它成为了另一种流行方法 [37]。图预训练阶段通常利用未标注的图数据,通过无监督方法来预训练图编码器,旨在捕捉图的与任务无关的内在属性,如节点特征和局部或全局结构。随后,作为先验知识的一种形式,预训练的图编码器可以知识迁移来解决各种下游任务。图 6 展示了预训练和知识迁移。
4.1 预训练策略
4.1.1 基于对比策略的方法
4.1.2 基于生成策略的方法
生成方法为图预训练提供了新的视角。这些方法旨在重建图的部分内容,例如邻接矩阵 [43]、边掩码 [39] 或节点特征掩码 [163]。这些目标涉及结构重建或特征重建,许多研究采用了这两类目标,如表 VII 所总结的。此外,类似于对比方法,各种类型的图上也提出了多样的生成方法。
4.2 基于微调的知识迁移方法
4.3 参数高效的知识迁移方法
4.3.1 提示学习
源自自然语言处理领域的提示学习,已经证明了其在将预训练语言模型适应到多样化语言任务中的有效性 [177]。提示学习引入一个提示向量来修改或重新表述预训练模型的原始输入,使下游任务在统一模板下更接近预文本任务。值得注意的是,提示向量的规模相对于预训练参数规模而言微不足道。
4.3.2 参数高效微调
这些方法仅调整来自原始预训练模型或新添加模块的部分参数。因此,需要更新的参数数量显著减少,这对于少样本学习来说更加高效和可行。著名的参数高效微调(PEFT)技术包括适配器微调 [188] 和低秩适应(LoRA)[189]。
适配器微调 [188] 在预训练模型的某些层中插入称为适配器的小型神经网络模块,而 LoRA [189] 则利用低秩矩阵来近似参数更新。在这两种技术中,微调过程中仅更新新模块的参数,而原始的预训练权重保持冻结。
五、混合方法
如前所述,元学习和预训练体现了学习先验知识的两种不同范式,每种范式都有其独特的优点和缺点。在同时拥有大量用于预训练的未标注数据和大量的有标注基础集用于元学习的情况下,采用融合两种范式的混合方法是一种有效的策略。
六、未来方向
6.1 图少样本学习的问题场景
6.2 图少样本学习的技术
七、结论
在本综述中,我们对图上的少样本学习文献进行了系统性的回顾。具体地,我们按照两个类别总结了图少样本学习文献,即根据问题和技术对现有研究进行分类。
基于问题,我们将这些研究分为标签稀缺问题和结构稀缺问题。对于每一类,我们总结了它们的问题定义及各自的应用。基于技术,我们将文献分类为元学习、预训练和混合方法。对于每个类别,我们介绍了具有代表性的工作,并讨论了它们的优点和缺点。最后,我们概述了有前景的未来方向,旨在促进这一快速发展的领域的进一步探索。
作者:于星橦 来源:公众号【PaperWeekly】
扫码观看!
“AI技术流”原创投稿计划
TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。
投稿内容
// 最新技术解读/系统性知识分享 //
// 前沿资讯解说/心得经历讲述 //
投稿须知
稿件需要为原创文章,并标明作者信息。
我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励
投稿方式
发送邮件到
melodybai@thejiangmen.com
或添加工作人员微信(yellowsubbj)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。