专题解读｜大语言模型在图学习中的中段信息丢失现象

科技 2025-01-06 13:26 浙江

专题解读｜大语言模型的中段信息丢失现象

一、简介

近年来，以大语言模型为代表的“预训练-微调”、“预训练-适配”范式得到了广泛的认可，其不仅能通过大量的预训练获得通用性能力，还能通过下游的适配单元适应各式的下游任务。但随着大语言模型的输入文本量的增长，大语言模型出现了对长文本的中段信息丢失问题。即对输入文本的中段信息给予更少的关注与记忆，模型训练时出现信息的丢失，导致模型性能的降低。更严重的是，该问题还会广泛存在于大语言模型与其他领域结合的过程中。下面我们将展示中段信息丢失问题在大语言模型以及与图学习结合过程中的实例，分析产生原因，并给出一些针对该问题的改进方法。最后探讨针对该问题未来可能的研究方向，以期望对大家有所启发。

二、背景及实例

在论文《Lost in the Middle: How Language Models Use Long Contexts》中，明确提及了大语言模型对长文本的输入存在中段信息丢失问题。通过针对长文本的不同位置的信息设计专门问题，测试大语言模型对不同位置信息的记忆能力。

经过实验验证，作者发现模型的性能呈现一种“U型”的表现，即对于前段与后段的信息有着较强的关注与记忆能力，能较好地解决问题，而对于中段信息的利用则有所逊色。

类似地，该问题也存在于大语言模型与其他领域的结合过程中，论文《Lost-in-Distance: Impact of Contextual Proximity on LLM Performance in Graph Tasks》中具体讨论了大语言模型与图学习结合过程中的中段信息丢失问题。

在大语言模型与图学习的结合过程中，出现了一种使用文本化语言描述图结构，并将其输入给大语言模型处理的范式。但在将图结构以文本化语言描述后输入大语言模型的过程中，大多数是以节点对或邻接表的形式描述图的结构信息，而该类方法随着图规模的增大，节点数与边数随之增加，描述全图的文本长度会达到难以想象的数量。

为了验证中段信息丢失问题会明确影响大语言模型对图结构信息的记忆，将任务相关的信息放在prompt的不同位置以测试模型性能。具体方法如下图所示。

实验结果也验证了该现象确实存在，大语言模型对图结构信息在中段的部分记忆较差，将明显影响模型性能。

除此之外，考虑到任务相关的节点间距离可能对大语言模型的记忆能力有所影响，有学者发现了“Lost—In—Distance”的现象，说明节点信息在prompt中的相隔距离也会影响模型对图结构信息的记忆能力。

从实验结果上来看，大语言模型对图结构信息的记忆，一方面受任务相关信息的绝对位置影响，另一方面受任务相关信息之间的相对位置影响，两者共同作用影响其记忆能力。

三、改进方法论文《Make Your LLM Fully Utilize the Context》

FILM认为大语言模型的中段信息丢失问题主要是源自于训练数据隐藏的无意识偏差。在监督与微调的过程中，主要影响输出的文本信息来自于开头与结尾，导致训练过程中引入了位置偏差，暗示重要信息在开头与结尾。因而作者提出了一种数据驱动的增强方法，通过生成两类型的问题数据来训练模型。

3.1.两类型问题数据

对单一短文本片段：生成细粒度的关注问题数据

对多个短文本片段：生成信息的整合和推理的问题数据

3.2.改进方法

通过对单一短文本片段设计专门的“问题-答案对”，以及针对多个短文本片段设计关联信息推理的“问题-答案对”，形成了专门的数据集，使用该数据集进行模型的训练改进。

从实验性能上来看，该方法不仅对中段信息丢失问题有着缓解作用，还提升了整体的模型性能。

四、改进方法论文《GRAPHINSIGHT: UNLOCKING INSIGHTS IN LARGELANGUAGE MODELS FOR GRAPH STRUCTURE UNDERSTANDING》

graphinsight针对中段信息丢失的问题，提出了两级别的任务，通过重排图结构信息的描述文本顺序与针对记忆薄弱的中段信息进行类似RAG的增强以得到更好地性能。

4.1.两级别任务

宏观层面：涉及与整体图结构相关的粗粒度推理（例如节点总数、连通性检测等）

微观层面：设计与局部图结果相关的细粒度推理（例如节点度数、邻居检测等）

4.2.改进方法

认为pagerank值高的节点在网络中的重要性更高，同时对宏观层面的推理任务有着更大的帮助，因而将这些节点及其关联信息放在图结构信息描述文本的开头与结尾，保持其较好的记忆能力，让模型在宏观层面的推理任务上性能不会明显下降。

同时针对微观层面的推理任务，因为可能涉及放在中段的节点信息，因而将中段的节点信息组织成简易的RAG库，仅记录些简单的连接信息，并与微观层面的问题一同输入给大语言模型进行推理。希望通过外接简易知识库的方法，变相地拓展大语言模型的记忆存储空间，以增强细粒度查询的性能。

从实验性能上来看，通过重排文本顺序与外接简易知识库，不仅缓解了中段信息丢失的问题，同时还增强了宏观层面与整体的模型性能。

五、总结与展望

1、大语言模型对长文本输入有着中段信息丢失的问题，其不仅存在于NLP领域中，还会随着大语言模型与其他领域的结合而影响其他领域（诸如图学习领域）。因此，本文介绍了FILM和graphinsight两种方法来缓解大语言模型在NLP与graph领域的中段信息丢失问题。

2、两篇改进论文都是希望大语言模型对输入信息有着关注能力的弥补，来解决中段信息丢失问题。FILM通过显示指导大语言模型关注各个位置的信息，来减缓无意识偏差的影响，是一种以数据为驱动的预训练方法。而graphinsight则通过对输入数据使用重排模块以及外接知识库来提高数据的利用效率，是一种以模型为驱动的适应方法。

3、FILM这类方法需要考虑该类预训练方法是否能很好地适配各类数据与任务，基于不同目的设计、不同质量、不同粒度的训练数据将严重影响模型的性能。同时在这种数据驱动的改进过程中，是否会引入新的偏见也是值得思考的问题。

4、同样的，graphinsight这类使用重排文本的方法需要考虑如何评估文本信息的任务相关度。通过设计更合理的任务相关度指标或许能提高重排后文本的质量。

5、除此之外，graphinsight通过外接知识库的方法来拓展大语言模型的记忆存储空间是一种巧妙的方法，但该类方法依旧会随着文本量的继续增长而达到极限阈值，如何精简输入文本量仍然是需要探索的部分。

6、以及在图机器学习与大语言模型结合的过程中，将图结构信息以文本描述的方式输入给大语言模型的方法确实存在着中段信息丢失问题，针对该问题是否有着较好的解决方案，或者该类方法因为中段信息丢失问题在根本上存在缺陷。

六、参考文献

1、Liu N F, Lin K, Hewitt J, et al. Lost in the middle: How language models use long contexts, 2023[J]. URL https://arxiv. org/abs/2307.03172.

2、Firooz H, Sanjabi M, Jiang W, et al. Lost-in-Distance: Impact of Contextual Proximity on LLM Performance in Graph Tasks[J]. arXiv preprint arXiv:2410.01985, 2024.

3、An S, Ma Z, Lin Z, et al. Make Your LLM Fully Utilize the Context[J]. arXiv preprint arXiv:2404.16811, 2024.

4、Cao Y, Han S, Gao Z, et al. Graphinsight: Unlocking insights in large language models for graph structure understanding[J]. arXiv preprint arXiv:2409.03258, 2024.

arXiv每日学术速递

工作日更新学术速递！官网www.arxivdaily.com。

最新文章

全球首个ChatGPT爆炸案！AI教特种兵造炸弹，特朗普酒店遭自杀袭击

arXiv每日学术速递2025.1.9

NeurIPS 2024 | 基于拓扑同构的分布外鲁棒性: 重建与匹配

AAAI25 | 从稀疏聚合视角重新审视联邦推荐中的拜占庭鲁棒性

【附复现代码】基于PINN的论文创新思路

arXiv每日学术速递2025.1.8

七大任务SOTA！北大&清华GPD-1：专为智驾设计的生成式预训练

小乐数学科普：计算机科学家如何重新构想数学证明——《量子杂志》每周数学随笔

CES 2025：AMD锐龙9000新品亮相，游戏、创作力表现超Intel旗舰

arXiv每日学术速递2025.1.7

解放人工标注！理想多模态框架UniPLV：开放3D场景理解新SOTA~

注意力计算减少99.5%，端侧文生图扩散模型成功范式！CLEAR：类卷积线性扩散Transformer

【IEEE官方会议征稿】2025年IEEE第七届软件工程和计算机科学国际会议(CSECS 2025)

arXiv每日学术速递2025.1.6

专题解读｜大语言模型在图学习中的中段信息丢失现象

陶哲轩自述被拒稿是常事，「大牛名字」不是通行证！

1.4s 即可生成1024px图像！SnapGen：轻量化架构和训练策略实现端侧文生图

抑郁6个月后，DeepMind两万引科学家离世，万字绝笔谈在AI行业工作的压力

arXiv每日学术速递2025.1.3

从0到1构建RLHF系统——小红书大模型团队的探索与实践

即插即用，轻松涨点！把大牛的模块缝合到自己的paper里

世界模型再进化！DrivingWorld：通过视频GPT构建自动驾驶世界模型（港科技&地平线）

五战蛋白质结构预测风向标CASP，南开大学郑伟：竞争性与难度提升，关注实际生物问题

奇点临近！美国47%工作岗位将被ASI卷走，大佬急发「逃生攻略」

从核心零部件到人形本体 2025年这几家机器人代表企业值得重点关注

苹果布局人形机器人：“自我为中心”感知系统动态避障，比英伟达cuRobo计算效率提升26倍

arXiv每日学术速递2024.12.31

专题解读 | 自适应与拓扑感知：联邦图机器学习的新视角

更真实的协同感知！EI-Drive：协同感知和融合通信特征的智驾平台

稚晖君开源百万机器人真机数据集

arXiv每日学术速递2024.12.30

大模型轻量化系列解读 (三)：LLM-QAT：无需数据的 LLM 量化感知训练

期刊副主编网上挂中国学者贿赂邮件！结局却疑似神反转！

MambaDETR: 基于查询的时间建模，使用状态空间模型进行多视图 3D 对象检测 !

横扫2024各大顶会，用Mamba发Paper真的很轻松！

AAAI 2025 | 合成数据助力自驾点云异常检测新SOTA

EMNLP2024 | 示例越多性能反而越差？大模型注意力分散是关键

Karpathy力荐博客：写代码的时候，请心疼一下读代码的同事

arXiv每日学术速递2024.12.25

NeurIPS 2024 | 用高斯邻域最小化提升视觉提示词微调在长尾视觉识别上的性能

MambaDETR: 基于查询的时间建模，使用状态空间模型进行多视图 3D 对象检测 !

arXiv每日学术速递2024.12.25

我发现了找顶会创新点的最强公式，真的不需要脑子

了解世界还是预测未来？一场关于自动驾驶世界模型的祛魅（清华最新综述）！

小乐数学科普：陶哲轩长文阐述机器辅助证明——译自美国数学会通讯AMS Notice 202501

唤醒企业沉睡的知识，元脑企智EPAI三步高效创建大模型RAG

arXiv每日学术速递2024.12.24

专题解读 | 图增强大语言模型研究进展

MSRA | 2025年六大AI趋势展望

EMNLP顶会最佳论文解读！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉