文本图格式大一统！首个大规模文本边基准TEG-DB发布 | NeurIPS 2024

科技 2024-11-08 12:12 北京

新智元报道

编辑：LRST

【新智元导读】最近，来自上海大学、山东大学和埃默里大学等机构的研究人员首次提出了文本边图的数据集与基准，包括9个覆盖4个领域的大规模文本边图数据集，以及一套标准化的文本边图研究范式。该研究的发表极大促进了文本边图图表示学习的研究，有利于自然语言处理与图数据挖掘领域的深度合作。

文本属性图Text-Attributed Graphs（TAGs）是一种在节点上有丰富文本信息的图结构， TAGs 广泛应用于社交网络（social network）、引用网络（citation network）和推荐系统（recommendation system）等实际场景中。由于其强大且通用的表达能力，该领域近年来得到了快速发展。

然而目前TAGs面临三大挑战：

1. 现有的TAGs数据集一般仅在节点上包含文本信息，而边的信息往往被简化为二元或分类属性。边文本（edge text）的缺乏限制了对文本实体间复杂语义关系的表达和理解（比如一个实体局部的一些概念如何与另一实体的局部相关），阻碍了图数据挖掘技术的进一步发展；

2. 文本图数据格式和实验设置不统一，难以进行模型之间的比较；

3. 由于缺乏全面的基准测试和分析，对图模型处理边文本信息能力仍然了解的很欠缺。

论文地址：https://arxiv.org/abs/2406.10310

代码地址：https://github.com/Zhuofeng-Li/TEG-Benchmark

数据集地址：https://huggingface.co/datasets/ZhuofengLi/TEG-Datasets

为了解决这一问题，上海大学、山东大学、埃默里大学等学术机构的研究人员联合推出了TEG-DB，一个全面的基于文本边的图数据集和基准测试（A Comprehensive Dataset and Benchmark of Textual-Edge Graphs）。

目前，论文已被NeurIPS Datasets and Benchmark Track 2024接收。

其主要有三个特点：

1. TEG-DB datasets提供了涵盖4个领域9个统一格式的TEG数据集，规模从小到大不等，均包含丰富的节点和边的原始文本数据，这些数据集填补了TEGs领域的空白，旨在为相关研究提供重要数据集资源。

2. 研究人员开发了TEGs研究的标准化流程，涵盖数据预处理、加载和模型评估等关键阶段。

3. 研究人员进行了广泛的基准实验，并对基于TEGs的方法进行了全面分析，深入探讨了不同模型及不同规模pre-trained language models（PLMs）生成的嵌入的效果、在GNNs中使用分离和交织嵌入方法（seperate and entangled embedding methods）的影响、边文本的作用以及不同领域数据集的影响。

TEG Datasets

为了构建同时满足节点和边具有丰富文本信息的数据集，研究人员选择了来自不同领域和规模的9个数据集。

具体包括4个来自Goodreads的图书推荐领域用户-书籍评论网络，2个来自Amazon的电商购物网络，1个来自Semantic Scholar的学术引用网络，以及 2个来自Reddit和Twitter的社交网络。数据集统计请见下表：

TEG Methods

基于 PLM 的范式

PLM通过大规模文本训练，能够理解词语、短语和句子的语义关系和上下文。

基于PLM的方法首先将TEG中节点和边的文本通过PLM进行嵌入表示 (embed)，例如对于节点u，通过embed其自身以及所连接的边文本，可以得到 embedding 作为节点u初始化特征 (feature) 。之后使用多层感知器（MLP）整合TEG中的语义信息，获得最终的节点表征。公式如下：

其中，表示第k层MLP中节点u的表示，T_u和分别为节点u和连接节点v与u边e_v,u的原始文本，节点v是u的邻居，ψ为MLP的可训练参数。

尽管PLM显著提升了节点的表征能力，但由于未考虑TEG拓扑结构，限制了其对TEG中完整语义信息的捕捉。

基于 Edge-aware GNN 的范式

GNN通过消息传递（message passing）来提取图结构中有意义的表征信息，具体定义如下：

其中，表示GNN第k层中节点u的表征，初始特征向量通过使用PLM对节点的原始文本进行embed获得。从节点v到节点u的边，其特征e_v,u同样由PLM对于边的原始文本进行embed得到。k代表GNN的层数，N表示邻居节点集合，u为目标节点，ω为GNN中的学习参数。

然而，这种方法存在两个主要问题：

1. 现有的图机器学习方法如GNN对于边通常基于连通性（即二元属性表示是否有连接）和边属性（如类别或数值属性）进行操作，而非基于文本属性。然而在TEG中，边包含了丰富的文本，这便导致GNN远不足以处理这些复杂的文本信息所产生的语义关系。

2. 基于GNN的方法在捕捉节点以及边文本的上下文语义方面存在局限性。在TEG中，边和节点的文本通常交织在一起，在嵌入过程中将它们分别进行嵌入表示（seperate embedding），可能导致相互依赖关系信息的丢失，从而削弱GNN在整个消息传递过程中的有效性。

基于Entangled GNN的范式

传统GNN方法将边和节点文本分离进行嵌入（seperate embedding），可能导致大量信息损失，特别是在TEG中。

例如，在一个citation network中，每个节点表示一篇论文，一条边可能表示某篇论文引用、批评或使用了另一篇论文的某一部分。

因此，边文本是不能独立于论文节点存在的，这便对节点以及边seperate embedding方法提出了挑战。

为避免文本嵌入后节点和边交互时的信息丢失，提出了一种新的方法 Entangled GNN，先将边文本和节点文本Entangle在一起，再进行embed，作为节点的初始化embedding。随后对节点进行消息传递操作。

该方法的公式如下：

其中，表示GNN第k层中节点u的表示。T_v、T_u和分别表示节点v、节点u及其连接边的原始文本。k为GNN的层数，N表示邻居节点集合，u为目标节点，ω为GNN中的学习参数。

相比于现有方法，该方法的优势在于能够有效保留节点与边之间的语义关系，更适合捕捉复杂的关系。

LLM as Predictor 的范式

利用LLM强大的文本理解能力，LLM可以直接被用于解决图级别问题。具体而言，为每个数据集采用一个包含相应的节点和边文本的text prompt，从而让LLM回答特定问题，例如节点分类或链接预测。

可以正式定义如下：

其中，f是提供图信息的prompt，G表示一个TEG，Q为问题。

TEG实验结果

Baselines

在基于PLM的范式中，使用三种不同规模的PLM对节点文本进行编码，以生成节点的初始嵌入。三种模型分别是：大模型GPT-3.5-TURBO，中型模型Bert-Large，以及小型模型Bert-Base。

在基于Edge-aware GNN的范式中，选择了五种流行的Edge-aware GNN模型：GraphSAGE、GeneralConv、GINE、EdgeConv和GraphTransformer。使用与PLM范式相同的三种规模的PLM对节点和边的文本进行编码，之后这些文本嵌入作为节点和边的初始特征。

在基于Entangled GNN的范式中，实验设置与Edge-aware GNN相同除了使用Entangled方式通过GPT-3.5-TURBO对于节点和边的文本进行编码。

在LLM as Predictor的范式中，选择通过API访问GPT-3.5-TURBO和GPT-4，以平衡性能和成本。

Node Classification

下表展示了不同数据集上节点分类在中的效果：

Link Prediction

下表展示了不同数据集上链接预测的效果：

总结

研究人员推出了首个Textual-Edge Graph基准，TEG-DB，旨在深入研究TEG上的图表示学习。

与传统的仅包含节点文本信息的TAG不同，TEG涵盖了节点和边的文本内容。

研究人员收集并提供了9个全面的TEG数据集，以促进NLP和GNN社区对于TEG的合作与探索，其Benchmark对各种学习方法进行了全面评估，确认了它们的有效性和局限性。

此外，研究人员计划继续挖掘和构建更多研究导向的TEG，以推动该领域的持续发展。

团队介绍

文章第一作者为上海大学的本科生李卓风，通讯作者为埃默里大学计算机系的赵亮教授。

共同作者包括埃默里大学的博士生胡云桐、张铮、凌辰，本科生 Sirui Li，中国石油大学本科生刘众源，约翰·霍普金斯大学硕士生 Xiangnan Zhang，山东大学本科生 Zixing Gou。

参考资料：

https://arxiv.org/abs/2406.10310

http://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&mid=2652537164&idx=3&sn=fa6f40bf074165fb7f6191080c318c05

新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

最新文章

周鸿祎黑客短剧震撼首秀，直接带火纳米搜索！搜学写创，开启AI搜索3.0时代

数字孪生心脏全球首次实现0.84秒超实时模拟！智源突破计算极限，180倍性能提升

代码模型自我进化超越GPT-4o蒸馏！UIUC伯克利等提出自对齐方法 | NIPS 2024

当AI创造AI，就是库兹韦尔「奇点」临近时？人类正处于自我改进AI爆炸边缘

招人！新智元邀你勇闯ASI之巅

十年再登巅峰！刚刚，Ilya和GAN之父斩获NeurIPS 2024时间检验奖

AI卷翻科研！DeepMind 36页报告：全球实验室被「AI科学家」指数级接管

AI造芯Nature论文遭围攻，谷歌发文硬刚学术抹黑！Jeff Dean怒怼：你们连模型都没训

不是RNN的锅！清华团队深入分析长上下文建模中的状态崩溃，Mamba作者点赞

一文看尽Meta开源大礼包！全面覆盖图像分割、语音、文本、表征、材料发现、密码安全性等

招人！新智元邀你勇闯ASI之巅

Sora半夜泄露3小时，物理效果惊人！奥特曼急拔网线，艺术家抗议被白嫖

逃回大厂！谷歌天才科学家Yi Tay——639天创业血泪史

打破LLM数据孤岛！Anthropic革命性MCP让大模型解锁全网数据，AGI要来了？

AI视频两巨头开战！Runway秒生现实大片，Luma动嘴创作电影

「学术版ChatGPT」登场！Ai2打造科研效率神器OpenScholar，让LLM帮你搞定文献综述

揭示Transformer「周期建模」缺陷！北大提出新型神经网络FAN，填补周期性特征建模能力缺陷

UC伯克利：给大模型测MBTI，Llama更敢说但GPT-4像理工男

招人！新智元邀你勇闯ASI之巅

GAN之父新冠后惊传罹患双重顽疾！听力减退心动过速，全网求医

OpenAI怒斥Scaling撞墙论！o1已产生推理直觉潜力巨大

指令跟随大比拼！Meta发布多轮多语言基准Multi-IF：覆盖8种语言，超4500种任务

世界模型挑战赛，单项奖金10000美元！英伟达全新分词器助力下一帧预测

招人！新智元邀你勇闯ASI之巅

Claude 3.5两小时暴虐50多名专家，编程10倍速飙升！但8小时曝出惊人短板

新晋AI编程神器干翻Cursor！首创实时感知无限用，估值12.5亿华人初创震惊AI界

扩散模型=进化算法！生物学大佬用数学揭示本质

招人！新智元邀你勇闯ASI之巅

美国教授痛心：UC伯克利GPA 4.0计算机本科生，毕业即失业？ML博士直呼太卷后悔转行

英特尔错失AI芯片浪潮，从放弃收购英伟达开始

一只暹罗猫竟是论文作者！谷歌学术20岁，创始人首次公开最魔幻学术故事

招人！新智元邀你勇闯ASI之巅

续命Scaling Law？世界模型GPT-4o让智能体超级规划，OSU华人一作

5年浴火，800余岁巴黎圣母院重生！马斯克激动转发，AI数字建模创奇迹

首个可保留情感的音频LLM！Meta重磅开源7B-Spirit LM，一网打尽「音频+文本」多模态任务

机器人训练数据不缺了！英伟达团队推出DexMG：数据增强200倍

招人！新智元邀你勇闯ASI之巅

全面进攻谷歌！OpenAI被曝打造浏览器，已挖Chrome创始大牛

预定下一个诺奖级AI？谷歌量子纠错AlphaQubit登Nature，10万次模拟实验创新里程碑

宝可梦GO「偷家」李飞飞空间智能？全球最强3D地图诞生，150万亿参数解锁现实边界

OpenAI薪酬大曝光！奥特曼身价145亿，年薪只有55万

世界最大AI Agent生态系统！微软推出全新「自主AI智能体」，10万企业工作流被改变

招人！新智元邀你勇闯ASI之巅

OpenAI看好的方向，文心智能体技术抢先爆发！

「全球最严榜单」，阶跃拿下中国TOP 1！杀入世界前五，超过GPT-4o紧跟o1-mini

收敛速度最高8倍，准确率提升超30%！华科发布MoE Jetpack框架 | NeurIPS 2024

405B大模型也能线性化！斯坦福MIT最新研究，0.2%训练量让线性注意力提分20+

招人！新智元邀你勇闯ASI之巅

美国AI曼哈顿计划793页文件曝光！全力研发AGI，十大战略直指中国

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉