NeurIPS 2024 || GLBench: 面向大模型的图学习基准测试集

文摘 2024-11-27 21:45 山西

GLBench: 面向大模型的图学习基准测试集

大家好，今天要介绍一篇关于图学习和大模型结合的重要研究工作。这篇论文提出了GLBench基准测试集，这是首个系统评估图-大模型(GraphLLM)方法的测试框架。GLBench在监督学习和零样本两种场景下，对不同类型的GraphLLM方法进行了全面深入的评估。这项工作第一次统一了GraphLLM领域的评估标准，为该领域的发展奠定了重要的方法论基础。

1. 基本信息

标题：GLBench: A Comprehensive Benchmark for Graph with Large Language Models
作者及机构：

Yuhan Li (Hong Kong University of Science and Technology(Guangzhou))
Peisong Wang (Tsinghua University)
Xiao Zhu (Hong Kong University of Science and Technology（GZ）
Aochuan Chen (Hong Kong University of Science and Technology(Guangzhou))
Haiyun Jiang (Sun Yat-sen University)
Deng Cai (Tencent AI Lab)
Victor Wai Kin Chan (Tsinghua University)
Jia Li (Hong Kong University of Science and Technology(Guangzhou))

发表时间：2024年
arXiv链接：arXiv:2407.07457v2
代码链接：
https://github.com/NineAbyss/GLBench

2. 研究背景

在图学习领域，图神经网络(GNN)和预训练语言模型(PLM)在处理文本属性图(TAG)方面已经取得了显著的研究进展。特别是随着大模型(LLM)技术的快速发展，研究开始探索将LLM的强大语义理解能力引入图学习领域，由此形成了GraphLLM这一崭新的研究方向。

根据LLM在模型架构中扮演的不同角色，目前的GraphLLM方法可以分为三类：第一类是将LLM作为增强器，通过提升节点的表示能力来改进模型性能；第二类是将LLM作为预测器，直接利用其强大的推理能力进行任务预测；第三类是将LLM作为对齐器，协调图神经网络和语言模型在表示空间上的一致性。

但是，当前GraphLLM领域面临着几个关键问题：首先，不同研究团队使用不同的数据处理方式和评估标准，导致研究结果难以进行公平比较；其次，零样本图学习作为一个重要的新方向，还没有统一的评估基准；最后，现有研究往往忽视了计算效率和资源消耗这些实际应用中的关键因素。

3. 研究方法

GLBench的核心架构包含三个关键组成部分：数据集的构建与整理、学习场景的设计以及评估方法的分类体系。

在数据集构建方面，作者首先对文本属性图进行了严格的数学定义：。在这个定义中，V代表包含N个节点的集合，A ∈ {0,1}^(N×N)是描述节点间连接关系的邻接矩阵， ∈ D^(L_n)表示节点n所对应的文本描述，其中D是词典空间，是文本序列的长度。基于这个数学框架，作者精心挑选了7个具有代表性的数据集，这些数据集涵盖了学术引文网络、网页链接结构和社交网络等多个重要领域，数据规模从数千节点到数十万节点不等，体现了良好的多样性。

在学习场景的设计上，GLBench构建了两种不同的评估场景。第一种是监督学习场景，这种场景要求源图与目标图完全相同，它们的标签空间和也必须保持一致。第二种是零样本学习场景，这种场景下要求∩=∅且∩=∅，也就是说源图和目标图之间没有重叠，模型需要处理特征维度不对齐和标签空间不匹配等一系列技术难题。

评估方法的分类体系是基于LLM在模型中发挥的具体作用而建立的：第一类是增强器型方法：这类方法主要利用LLM提升节点的表示质量。LLM通过对节点的文本信息进行深度语义理解，生成更有信息量的节点表示，从而提升下游任务的性能。第二类是预测器型方法：这类方法直接使用LLM进行分类预测。通过精心设计的提示模板，将图结构信息和节点特征转化为LLM可以理解的自然语言形式，让LLM直接输出预测结果。第三类是对齐器型方法：这类方法致力于解决GNN和LLM两种不同类型模型的表示空间融合问题。通过设计特定的对齐机制，使得两种模型能够在同一个语义空间中进行信息交互和特征融合。

4. 实验与发现

实验结果分为监督学习和零样本学习两个主要场景进行深入分析。在监督学习场景中，实验数据显示GraphLLM方法在6个数据集上都达到了最佳性能。

在Citeseer数据集上，采用OFA方法的准确率和F1分数分别比最佳GNN基线模型提升了3.20%和3.49%。在Pubmed数据集的测试中，PATTON方法表现更为突出，准确率提升5.18%，F1分数提升4.03%。这种性能优势在大规模数据集上表现得尤为明显，例如在Reddit数据集上，LLaGA方法的准确率和F1分数分别超出GNN基线4.00%和4.69%。

深入分析表明，将LLM作为增强器的方法展现出最稳定的性能。其中ENGINE方法在4个不同数据集上都取得了最佳或次佳的结果，充分证明了这类方法在处理不同规模和领域数据时的适应性。相比之下，将LLM作为预测器的方法表现相对欠佳，特别是在训练数据量有限的数据集上。此外，研究发现现有方法并未表现出明显的规模效应，也就是说，简单增加模型参数量并不能必然带来性能的提升。

在零样本学习场景中，实验揭示了三个重要发现：

首先，LLM展现出了强大的零样本学习能力，在3个数据集上都获得了最佳结果。但是这种表现可能受到了训练数据泄露的影响，因为LLM在预训练阶段可能已经接触过测试数据中的部分内容。
其次，结构信息和语义信息对零样本迁移都发挥着重要作用。单纯依赖结构信息的图自监督学习方法效果有限，而同时利用两种信息的方法（如OFA和ZeroG）则能显著提升性能。
最后，作者提出的一个简单基线方法取得了超出预期的效果。这个方法通过冻结的LLM编码节点文本和类别描述，结合迭代的邻居特征聚合，在无需训练的情况下就达到了比某些专门设计的零样本GraphLLM方法更好的性能。

效率分析：

现有GraphLLM方法的时间和空间复杂度普遍高于传统GNN
LLM作为增强器的方法在保持较好性能的同时，复杂度增加相对较小
需要在性能和效率之间进行权衡

5. 参考文献

[1] Achiam, J., et al. GPT-4 technical report. arXiv preprint arXiv:2303.08774, 2023.

[2] Chen, Z., et al. Exploring the potential of large language models (LLMs) in learning on graphs. ACM SIGKDD Explorations Newsletter, 2024.

[3] Kipf, T. N., & Welling, M. Semi-supervised classification with graph convolutional networks. ICLR, 2017.

[4] Liu, Y., et al. RoBERTa: A robustly optimized BERT pretraining approach. arXiv preprint arXiv:1907.11692, 2019.

想要了解更多资讯，请扫描下方二维码，关注机器学习研究会

转自：数据派THU

http://mp.weixin.qq.com/s?__biz=MzU1NTUxNTM0Mg==&mid=2247576978&idx=3&sn=8f7723a5d859fc537cb03ea247b085f1

机器学习研究组订阅

机器学习研究会由百度七剑客雷鸣先生创办，旨在推动AI的技术发展和产业落地。参与组织北大、清华”AI前沿与产业趋势“公开课，广泛的和高校、企业、创业、VC开展合作，自身也参与优秀AI项目的投资和孵化。

最新文章

十年再登巅峰！刚刚，Ilya和GAN之父斩获NeurIPS 2024时间检验奖

数字孪生心脏全球首次实现0.84秒超实时模拟！智源突破计算极限，180倍性能提升

代码模型自我进化超越GPT-4o蒸馏！UIUC伯克利等提出自对齐方法 | NIPS 2024

AI卷翻科研！DeepMind 36页报告：全球实验室被「AI科学家」指数级接管

Sora半夜泄露3小时，物理效果惊人！奥特曼急拔网线，艺术家抗议被白嫖

NeurIPS 2024 || GLBench: 面向大模型的图学习基准测试集

AI视频两巨头开战！Runway秒生现实大片，Luma动嘴创作电影

打破LLM数据孤岛！Anthropic革命性MCP让大模型解锁全网数据，AGI要来了？

基于LLM Graph Transformer的知识图谱构建技术研究：LangChain框架下的文本-图谱双模式转换机制实践

GAN之父新冠后惊传罹患双重顽疾！听力减退心动过速，全网求医

OpenAI怒斥Scaling撞墙论！o1已产生推理直觉潜力巨大

【阿姆斯特丹博士论文】在视觉挑战条件下的多模态学习

Claude 3.5两小时暴虐50多名专家，编程10倍速飙升！但8小时曝出惊人短板

新晋AI编程神器干翻Cursor！首创实时感知无限用，估值12.5亿华人初创震惊AI界

NeurIPS 2024 | 重新审视时间戳信息在时序预测中的作用

美国教授痛心：UC伯克利GPA 4.0计算机本科生，毕业即失业？ML博士直呼太卷后悔转行

英特尔错失AI芯片浪潮，从放弃收购英伟达开始

基于MCMC的贝叶斯营销组合模型评估方法论：系统化诊断、校准及选择的理论框架

续命Scaling Law？世界模型GPT-4o让智能体超级规划，OSU华人一作

5年浴火，800余岁巴黎圣母院重生！马斯克激动转发，AI数字建模创奇迹

综述 | 时空图神经网络模型在时间序列预测和分类中的应用

宝可梦GO「偷家」李飞飞空间智能？全球最强3D地图诞生，150万亿参数解锁现实边界

预定下一个诺奖级AI？谷歌量子纠错AlphaQubit登Nature，10万次模拟实验创新里程碑

OpenAI薪酬大曝光！奥特曼身价145亿，年薪只有55万

逼真到离谱！1000个人类「克隆」进西部世界，AI相似度85%细节太炸裂

Mistral放大招！124B多模态巨无霸登场，免费版ChatGPT震撼突袭

一文解读：时序基础模型的缩放定律

OpenAI「23个黑手党」出走创业，融资近百亿！华人科学家约占1/3

10种数据预处理中的数据泄露模式解析:识别与避免策略

「谍战」开启！基建狂魔马斯克122天交付10万卡超算，对手大恐慌派间谍飞机侦查

14天速成LLM高手！大佬开源学习笔记，GitHub狂揽700星

Nature:「人类亲吻难题」彻底难倒LLM，所有大模型全部失败！LLM根本不会推理，只是工具

过程奖励模型PRM成版本答案！谷歌DeepMind全自动标注逐步骤奖励PAV，准确率提升8%

Github上的十大RAG(信息检索增强生成)框架

斯坦福伯克利重磅发现DNA Scaling Law，Evo荣登Science封面！AI设计DNA/RNA/蛋白质再突破

ChatGPT深夜两弹更新！macOS版联动三款IDE无缝编程，Windows版全量上线

RAPTOR：多模型融合+层次结构 = 检索性能提升20%，结果还更稳健

国产地表最强视频模型震惊歪果仁，官方现场摇人30s直出！视觉模型进入上下文时代

又一OpenAI研究员离职！不相信OpenAI能造福世界，AGI使命无比困难

LLM4Rec最新重磅工作：字节跳动序列推荐分层大模型HLLM

OpenAI总裁出走3月终于归来！Greg结束「最长假期」专注重大技术挑战，每周狂肝100小时代码

Transformer打破三十年数学猜想！Meta研究者用AI给出反例，算法杀手攻克数学难题

FoundTS：首个覆盖多场景的时序预测基础模型评测基准

Ilya认错，Scaling Law崩了？自曝SSI秘密技术路线取代OpenAI

AlphaFold3重磅开源，诺奖级AI颠覆世界！GitHub斩获1.8k星，本地即可部署

扩散模型失宠？端侧非自回归图像生成基础模型Meissonic登场，超越SDXL！

Scaling Law撞墙，AI圈炸锅了！OpenAI旗舰Orion被曝遭遇瓶颈，大改技术路线

陶哲轩联手60多位数学家出题，世界顶尖模型通过率仅2%！专家级数学基准，让AI再苦战数年

三种Transformer模型中的注意力机制介绍及Pytorch实现：从自注意力到因果自注意力

奥特曼专访自曝OpenAI掌握AGI密钥，2025年降临！1人1万块GPU缔造十亿独角兽

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉