NeurIPS 2024 || GLBench: 面向大模型的图学习基准测试集

学术 2024-11-27 17:03 北京

来源：深度图学习与大模型LLM
本文约2100字，建议阅读5分钟
本文为你介绍一篇关于图学习和大模型结合的重要研究工作。

GLBench: 面向大模型的图学习基准测试集

大家好，今天要介绍一篇关于图学习和大模型结合的重要研究工作。这篇论文提出了GLBench基准测试集，这是首个系统评估图-大模型(GraphLLM)方法的测试框架。GLBench在监督学习和零样本两种场景下，对不同类型的GraphLLM方法进行了全面深入的评估。这项工作第一次统一了GraphLLM领域的评估标准，为该领域的发展奠定了重要的方法论基础。

1. 基本信息

标题：GLBench: A Comprehensive Benchmark for Graph with Large Language Models
作者及机构：

Yuhan Li (Hong Kong University of Science and Technology(Guangzhou))
Peisong Wang (Tsinghua University)
Xiao Zhu (Hong Kong University of Science and Technology（GZ）
Aochuan Chen (Hong Kong University of Science and Technology(Guangzhou))
Haiyun Jiang (Sun Yat-sen University)
Deng Cai (Tencent AI Lab)
Victor Wai Kin Chan (Tsinghua University)
Jia Li (Hong Kong University of Science and Technology(Guangzhou))

发表时间：2024年
arXiv链接：arXiv:2407.07457v2
代码链接：
https://github.com/NineAbyss/GLBench

2. 研究背景

在图学习领域，图神经网络(GNN)和预训练语言模型(PLM)在处理文本属性图(TAG)方面已经取得了显著的研究进展。特别是随着大模型(LLM)技术的快速发展，研究开始探索将LLM的强大语义理解能力引入图学习领域，由此形成了GraphLLM这一崭新的研究方向。

根据LLM在模型架构中扮演的不同角色，目前的GraphLLM方法可以分为三类：第一类是将LLM作为增强器，通过提升节点的表示能力来改进模型性能；第二类是将LLM作为预测器，直接利用其强大的推理能力进行任务预测；第三类是将LLM作为对齐器，协调图神经网络和语言模型在表示空间上的一致性。

但是，当前GraphLLM领域面临着几个关键问题：首先，不同研究团队使用不同的数据处理方式和评估标准，导致研究结果难以进行公平比较；其次，零样本图学习作为一个重要的新方向，还没有统一的评估基准；最后，现有研究往往忽视了计算效率和资源消耗这些实际应用中的关键因素。

3. 研究方法

GLBench的核心架构包含三个关键组成部分：数据集的构建与整理、学习场景的设计以及评估方法的分类体系。

在数据集构建方面，作者首先对文本属性图进行了严格的数学定义：。在这个定义中，V代表包含N个节点的集合，A ∈ {0,1}^(N×N)是描述节点间连接关系的邻接矩阵， ∈ D^(L_n)表示节点n所对应的文本描述，其中D是词典空间，是文本序列的长度。基于这个数学框架，作者精心挑选了7个具有代表性的数据集，这些数据集涵盖了学术引文网络、网页链接结构和社交网络等多个重要领域，数据规模从数千节点到数十万节点不等，体现了良好的多样性。

在学习场景的设计上，GLBench构建了两种不同的评估场景。第一种是监督学习场景，这种场景要求源图与目标图完全相同，它们的标签空间和也必须保持一致。第二种是零样本学习场景，这种场景下要求∩=∅且∩=∅，也就是说源图和目标图之间没有重叠，模型需要处理特征维度不对齐和标签空间不匹配等一系列技术难题。

评估方法的分类体系是基于LLM在模型中发挥的具体作用而建立的：第一类是增强器型方法：这类方法主要利用LLM提升节点的表示质量。LLM通过对节点的文本信息进行深度语义理解，生成更有信息量的节点表示，从而提升下游任务的性能。第二类是预测器型方法：这类方法直接使用LLM进行分类预测。通过精心设计的提示模板，将图结构信息和节点特征转化为LLM可以理解的自然语言形式，让LLM直接输出预测结果。第三类是对齐器型方法：这类方法致力于解决GNN和LLM两种不同类型模型的表示空间融合问题。通过设计特定的对齐机制，使得两种模型能够在同一个语义空间中进行信息交互和特征融合。

4. 实验与发现

实验结果分为监督学习和零样本学习两个主要场景进行深入分析。在监督学习场景中，实验数据显示GraphLLM方法在6个数据集上都达到了最佳性能。

在Citeseer数据集上，采用OFA方法的准确率和F1分数分别比最佳GNN基线模型提升了3.20%和3.49%。在Pubmed数据集的测试中，PATTON方法表现更为突出，准确率提升5.18%，F1分数提升4.03%。这种性能优势在大规模数据集上表现得尤为明显，例如在Reddit数据集上，LLaGA方法的准确率和F1分数分别超出GNN基线4.00%和4.69%。

深入分析表明，将LLM作为增强器的方法展现出最稳定的性能。其中ENGINE方法在4个不同数据集上都取得了最佳或次佳的结果，充分证明了这类方法在处理不同规模和领域数据时的适应性。相比之下，将LLM作为预测器的方法表现相对欠佳，特别是在训练数据量有限的数据集上。此外，研究发现现有方法并未表现出明显的规模效应，也就是说，简单增加模型参数量并不能必然带来性能的提升。

在零样本学习场景中，实验揭示了三个重要发现：

首先，LLM展现出了强大的零样本学习能力，在3个数据集上都获得了最佳结果。但是这种表现可能受到了训练数据泄露的影响，因为LLM在预训练阶段可能已经接触过测试数据中的部分内容。
其次，结构信息和语义信息对零样本迁移都发挥着重要作用。单纯依赖结构信息的图自监督学习方法效果有限，而同时利用两种信息的方法（如OFA和ZeroG）则能显著提升性能。
最后，作者提出的一个简单基线方法取得了超出预期的效果。这个方法通过冻结的LLM编码节点文本和类别描述，结合迭代的邻居特征聚合，在无需训练的情况下就达到了比某些专门设计的零样本GraphLLM方法更好的性能。

效率分析：

现有GraphLLM方法的时间和空间复杂度普遍高于传统GNN
LLM作为增强器的方法在保持较好性能的同时，复杂度增加相对较小
需要在性能和效率之间进行权衡

5. 参考文献

[1] Achiam, J., et al. GPT-4 technical report. arXiv preprint arXiv:2303.08774, 2023.

[2] Chen, Z., et al. Exploring the potential of large language models (LLMs) in learning on graphs. ACM SIGKDD Explorations Newsletter, 2024.

[3] Kipf, T. N., & Welling, M. Semi-supervised classification with graph convolutional networks. ICLR, 2017.

[4] Liu, Y., et al. RoBERTa: A robustly optimized BERT pretraining approach. arXiv preprint arXiv:1907.11692, 2019.

欢迎向本公众号投稿文献解读类原创文章，以及海内外招生、访学、招聘等稿件，投稿邮箱：gnnllm@outlook.com，或者请联系微信：GNN4AI

编辑：于腾凯

校对：梁锦程

关于我们

数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博：@数据派THU

微信视频号：数据派THU

今日头条：数据派THU

数据派THU

清华大数据研究中心官方平台，发布团队科研、教学等最新动态及大数据领域的相关信息~

最新文章

深入理解多重共线性：基本原理、影响、检验与修正策略

类GPT化学语言模型，9秒生成100种化合物，微软AI药物设计平台登Nature子刊

【阿姆斯特丹博士论文】优化、博弈与泛化界

独家｜ChatGPT搜索如何为AI代理铺路

普林斯顿王梦迪团队提出蛋白水印方法，助力AI蛋白生成的版权保护与安全

【NeurIPS2024】注意力迁移对视觉Transformer的惊人有效性研究

报名 | 揭秘AI科研神器，解锁跨学科创新密码！

独家｜在大型语言模型中对于 “涌现属性 ”的合理性检查

清华软件论坛 | 清华大学杰出访问教授樊文飞院士分享“AI = 机器学习 + 逻辑推理”

【博士论文】基于车载3D LiDAR的几何与语义场景理解深度学习研究

NeurIPS 2024 || GLBench: 面向大模型的图学习基准测试集

Token化一切，甚至网络！TokenFormer，Transformer从来没有这么灵活过！

【阿姆斯特丹博士论文】科学模拟的机器学习：推理与生成模型

基于LLM Graph Transformer的知识图谱构建技术研究：LangChain框架下的文本-图谱双模式转换机制实践

为什么卷积现在不火了：CNN研究热度降温的深层原因分析

【NeurIPS2024】SAFE: 慢速与快速参数高效调优用于基于预训练模型的持续学习

TSMamba：基于Mamba架构的高效时间序列预测基础模型

【阿姆斯特丹博士论文】在视觉挑战条件下的多模态学习

大数据系统软件国家工程研究中心共同主办首届北京数字人才发展大会

NeurIPS 2024 | 重新审视时间戳信息在时序预测中的作用

通过pin_memory 优化 PyTorch 数据加载和传输:工作原理、使用场景与性能分析

【牛津大学博士论文】通过贝叶斯实验设计实现自动化数据采集

基于MCMC的贝叶斯营销组合模型评估方法论：系统化诊断、校准及选择的理论框架

当视觉大模型陷入认知失调，马里兰大学构建了一个幻觉自动生成框架

【NeurIPS2024】通过超球面能量最小化 CKA 增强贝叶斯深度学习中的多样性

数据派志愿者招募 | 寻找最志同道合的你！

综述 | 时空图神经网络模型在时间序列预测和分类中的应用

LoRA、完全微调到底有何不同？MIT 21页论文讲明白了

【NeurIPS2024】强化学习梯度作为在线微调决策变换器的维生素

报名 | 全球证书项目Innovation and Entrepreneurship for the Al Economy

NeurIPS 2024 | 经典GNNs是强有力的节点分类基线模型

从哈佛哲学系到蛋白质设计大师，David Baker：AlphaFold令我深刻认识到深度学习的力量

【CMU博士论文】交错离散搜索与连续优化用于运动规划中的动力学运动规划

IoTDB 航空航天解决方案：从制造到试飞，助力国之重器翱翔长空

深度学习工程实践：PyTorch Lightning与Ignite框架的技术特性对比分析

【CMU博士论文】使用数据不确定解释的可信学习

通知 | 清华大学大数据能力提升项目“RONG”奖学金开始申请啦！

一文解读：时序基础模型的缩放定律

基于Liquid State Machine的时间序列预测:利用储备池计算实现高效建模

【NeurIPS2024】通过分解编码和条件控制增强文本到视频生成中的运动效果

原创 | 展望大语言模型在AGI时代的发展前景

10种数据预处理中的数据泄露模式解析:识别与避免策略

【阿姆斯特丹博士论文】缓解多任务学习中的偏差

清华软件论坛 | 樊文飞：AI = 逻辑推理 + 机器学习

勾股定理还能这样证明？高中生一连发现10种证明方法，陶哲轩点赞

基于PyTorch的大语言模型微调指南：Torchtune完整教程与代码示例

【CELL】用AI智能体推动生物医学发现

科普之旅｜大语言模型与量子计算的融合

Github上的十大RAG(信息检索增强生成)框架

【NeurIPS2024】将连续潜在变量模型扩展为概率积分电路

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉