图结构转文本序列，大模型直接读懂！图推理性能大涨

科技 2024-12-04 09:01 吉林

MLNLP社区是国内外知名的机器学习与自然语言处理社区，受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。

社区的愿景是促进国内外自然语言处理，机器学习学术界、产业界和广大爱好者之间的交流和进步，特别是初学者同学们的进步。

转载自 | 量子位

作者 | 西风

大语言模型直接理解复杂图结构的新方法来了：

将图（Graph）转换为适合Transformer架构的线性token序列。

belike：

这种最新图线性化方法，反映了自然语言中局部依赖性和全局对齐性两个关键属性，即：

不仅需要保留基于前文上下文预测下一个token的能力（局部依赖性），而且不同图的token序列应该从具有相似特征的token开始或结束（全局对齐性），就像自然语言文本经常以特定词语开头或结尾。

如此一来，在海量文本数据上训练的LLM也能更好地理解图结构中的关系和属性，如节点计数、最大度数计算和图式形状分类等图推理任务都能完成。

具体如何实现？

机器学习工程师Rohan Paul发帖推荐论文并做了个总结。

用多种技术开发了图线性化方法：图中心性（PageRank和度）、图退化（k-core分解）、节点重标记方案
基于节点重要性创建了边排序策略
应用节点重标记以保持全局对齐

作者使用GraphWave合成数据集进行评估，结果表明他们提出的线性化方法相比基线方法取得了更好的性能，特别是基于度中心性和PageRank的方法在多个任务中表现突出。

有网友已经迫不及待集成到RAG中了：

我一直在寻找这方面的论文。

多种基于图论的线性化方法

在具体方法上，图线性化涉及将图的节点和边转换为线性token序列。

研究团队提出了几种基于图论的图线性化方法。

一种是根据图中心性（Graph centrality）对节点进行排序。

这里的中心性可以是节点的度（Degree centrality），即与节点直接相连的边的数量；也可以是更为复杂的PageRank值，它不仅考虑节点的连接数，还考虑连接到它的节点的重要性。

研究人员根据排序结果选择与重要性最高的节点相连的边，并随机排列这些边，然后对下一个重要性节点重复此过程。如果多个节点具有相同的中心性值，则随机选择它们的顺序。

另一种是基于图退化性（Graph degeneracy）的方法，即通过图的核编号（Core Number）来排序节点。

利用k-core分解,将图分解为一系列嵌套的子图。核编号是指节点在图中最高核的编号。通过这种方式，能够捕捉到图中最核心的部分，并将这些信息线性化。

除了基于节点属性的排序，作者们还考虑了直接对边进行排序的方法。

他们将每个图转换为其对应的线图（Linegraph），将原图的每条边转换为线图中的节点，如果原图中两条边相邻，则在线图中对应节点相连。然后，应用与核编号相同的过程来对Linegraph中的节点进行排序。

为了实现全局对齐性，作者还提出了节点重命名策略。

在这个策略中，不同图中具有最高核编号的节点被重新标记为索引0，以此类推。这样做的目的是让LLM能够将节点索引与其重要性属性之间建立一致的联系。

中心性方法总体优于退化性方法

为了测试上述方法的有效性，作者使用GraphWave生成器构建了合成数据集。

首先构造基础图（循环或链式结构），然后附加预定义形状的图案（motifs）。

研究人员选择了五种基本形状（团、星形、扇形、菱形和树），并包含了这些形状的组合，总共生成了3000个图，平均每个图包含32.33个节点和43.72条边。

实验中设计了三个评估任务：

节点计数：要求模型从边列表推断节点数量
最大度计算：确定图中最大节点度数
图案形状分类：给定详细的图案定义，识别图中存在的图案

实验采用了Llama 3 Instruct 8B模型，使用4bit量化版本。为确保输出的确定性和一致性，temperature参数设为1e-3，sampling参数设为1e-1。

包括zero-shot和one-shot两种设置，并与两个基线方法比较：MotifAware基线，保持图生成过程中的默认边序；Random基线，完全随机的边列表排序和节点标签。

结果显示了以下几个重要发现。

首先，在节点计数任务中，所有方法都显示较低的平均误差，但准确率表现各异。基于度中心性和PageRank的方法表现最好，超过了基线方法。

在最大度计算任务中，由于需要更复杂的计算过程，整体性能低于节点计数任务。使用默认节点标签时，度中心性和PageRank方法在one-shot设置下取得最佳效果。

节点重标记策略的效果因任务而异，在节点计数中，除了zero-shot的度中心性方法外，大多导致准确率下降，但在平均误差上通常有改善。

one-shot设置的性能普遍低于zero-shot，这表明示例可能并不总是有助于提高性能。

基于中心性的方法（度中心性和PageRank）总体上优于基于退化性的方法。

参考链接：https://x.com/rohanpaul_ai/status/1863014451827655118
论文链接：https://arxiv.org/pdf/2410.19494

技术交流群邀请函

△长按添加小助手

扫描二维码添加小助手微信

请备注：姓名-学校/公司-研究方向（如：小张-哈工大-对话系统）即可申请加入自然语言处理/Pytorch等技术交流群

关于我们

MLNLP 社区是由国内外机器学习与自然语言处理学者联合构建的民间学术社区，目前已经发展为国内外知名的机器学习与自然语言处理社区，旨在促进机器学习，自然语言处理学术界、产业界和广大爱好者之间的进步。

社区可以为相关从业者的深造、就业及研究等方面提供开放交流平台。欢迎大家关注和加入我们。

机器学习算法与自然语言处理

关注AI前沿技术，助力AI学者进步

最新文章

人大教授张鸣：退休之际，讲点废话（这也太敢言了）

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物

3B模型长思考后击败70B！HuggingFace逆向出o1背后技术细节并开源

近期必看的多模态大模型进展：从Qwen2-VL到Pixtral

Tokenization不存在了？Meta最新研究，无需Tokenizer的架构来了

田渊栋团队论文火了！连续思维链优于CoT，打开LLM推理新范式

《一书解决几乎所有机器学习问题》.PDF下载

16种新型RAG最新进展

李飞飞：World Labs这样实现「空间智能」

Ilya宣判：预训练即将终结！NeurIPS现场沸腾

OpenAI发布49页长文，讲述o1的安全机制

谷歌Willow量子芯片逆天出世！5分钟颠覆10亿亿亿计算极限，马斯克奥特曼惊叹

微软高剑峰、哈工大（深圳）张民等四位华人入选，2024 ACL Fellow名单公布

Sora开服被挤爆！支持中文/编剧模式/作品分享，145块就能玩

今日最佳 AI 论文：简单蒸馏训练，就能超越 o1-preview？

5分钟完成最强超算10^25年工作，谷歌量子芯片重大突破，马斯克、奥特曼齐祝贺

困扰数学家近60年的搬沙发难题疑似被解决！119页论文证明最优解，百万网友围观

英伟达提出全新Star Attention，10倍加速LLM推理！登顶Hugging Face论文榜

LLM不会CoT隐性推理，只会显性推理！

中科院院士：青年科学家 5 年内拿不出成果就面临淘汰，有的单位已现「马太」效应，重复给某一人奖励

LeCun团队新作：在世界模型中导航

刚刚，2025 IEEE Fellow名单出炉：戴琼海、姜大昕、尹首一、翟广涛、褚晓文等人入选

复旦大学，上海创智院等多家单位联合发布大模型社交智能体综述

OpenAI直播第二弹！奥特曼2024年最大惊喜竟来自字节？强化微调让o1-mini逆袭o1

o1满血版最鲜测！这¥1500花得值吗？

从答案到问题：一种新的学习目标让LLM更擅长推理

满血版o1深夜震撼上线，奥特曼怼脸演示超强推理！终极Pro版每月1450元

GAN作者追忆往事：论文是DDL前一周开始写的，最初在NeurIPS大会无人问津

刚刚，谷歌ViT核心骨干集体投奔OpenAI：他们为Sora打下基础

1-bit大模型还能再突破！新一代BitNet架构启用4位激活值

北大字节VAR获最佳论文、厦大清华获亚军，NeurIPS 2024最佳论文出炉

ICLR'25 惊现[10,10,10,10]满分论文，ControlNet 一作张吕敏新作，Github 5.8k 颗星

Text-to-SQL新SOTA！华科团队提出双向模式链接新方法RSL-SQL

纽约大学十四年精华《机器学习基础》第二版免费下载

北京理工AI教育服务上线！DirectionAI：大模型驱动的个性化教学方式

图结构转文本序列，大模型直接读懂！图推理性能大涨

翁荔离职OpenAI后第一个动作：万字长文探讨RLHF的漏洞，网友们抢着传看

DeepMind用语言游戏让大模型学AlphaGo自我博弈，数据限制不存在了

图结构转文本序列，大模型直接读懂！图推理性能大涨

马斯克全力阻止OpenAI转盈利！已向法院申请禁令，奥特曼：我和爱人休假盖树屋

Token化一切！北大、谷歌等提出TokenFormer，Transformer从未这么灵活过

Andrej Karpathy：神奇大模型不存在的，只是对人类标注的拙劣模仿

陶哲轩新论文“太反直觉”：再战Erdős问题，证明44年数学猜想是错的

自我反思助力VLM推理！南大清华提出VLM自训练框架，支持Inference Scaling

惊天反转！LeCun竟与奥特曼达成共识：承认AGI 5到10年降临，但LLM注定死路一条

和梁朝伟同获港科荣誉博士，黄仁勋与沈向洋对谈Scaling Law、后训练、机器人和爱情

惊天反转！LeCun竟与奥特曼达成共识：承认AGI 5到10年降临，但LLM注定死路一条

强推理模型书生InternThinker开放体验：自主生成高智力密度数据、具备元动作思考能力｜通专融合探索新进展

AI卷翻科研！DeepMind 36页报告：全球实验室被「AI科学家」指数级接管

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉