专题解读|大语言模型的中段信息丢失现象
一、简介
近年来,以大语言模型为代表的“预训练-微调”、“预训练-适配”范式得到了广泛的认可,其不仅能通过大量的预训练获得通用性能力,还能通过下游的适配单元适应各式的下游任务。但随着大语言模型的输入文本量的增长,大语言模型出现了对长文本的中段信息丢失问题。即对输入文本的中段信息给予更少的关注与记忆,模型训练时出现信息的丢失,导致模型性能的降低。更严重的是,该问题还会广泛存在于大语言模型与其他领域结合的过程中。下面我们将展示中段信息丢失问题在大语言模型以及与图学习结合过程中的实例,分析产生原因,并给出一些针对该问题的改进方法。最后探讨针对该问题未来可能的研究方向,以期望对大家有所启发。
二、背景及实例
在论文《Lost in the Middle: How Language Models Use Long Contexts》中,明确提及了大语言模型对长文本的输入存在中段信息丢失问题。通过针对长文本的不同位置的信息设计专门问题,测试大语言模型对不同位置信息的记忆能力。
经过实验验证,作者发现模型的性能呈现一种“U型”的表现,即对于前段与后段的信息有着较强的关注与记忆能力,能较好地解决问题,而对于中段信息的利用则有所逊色。
类似地,该问题也存在于大语言模型与其他领域的结合过程中,论文《Lost-in-Distance: Impact of Contextual Proximity on LLM Performance in Graph Tasks》中具体讨论了大语言模型与图学习结合过程中的中段信息丢失问题。
在大语言模型与图学习的结合过程中,出现了一种使用文本化语言描述图结构,并将其输入给大语言模型处理的范式。但在将图结构以文本化语言描述后输入大语言模型的过程中,大多数是以节点对或邻接表的形式描述图的结构信息,而该类方法随着图规模的增大,节点数与边数随之增加,描述全图的文本长度会达到难以想象的数量。
为了验证中段信息丢失问题会明确影响大语言模型对图结构信息的记忆,将任务相关的信息放在prompt的不同位置以测试模型性能。具体方法如下图所示。
实验结果也验证了该现象确实存在,大语言模型对图结构信息在中段的部分记忆较差,将明显影响模型性能。
除此之外,考虑到任务相关的节点间距离可能对大语言模型的记忆能力有所影响,有学者发现了“Lost—In—Distance”的现象,说明节点信息在prompt中的相隔距离也会影响模型对图结构信息的记忆能力。
从实验结果上来看,大语言模型对图结构信息的记忆,一方面受任务相关信息的绝对位置影响,另一方面受任务相关信息之间的相对位置影响,两者共同作用影响其记忆能力。
三、改进方法论文《Make Your LLM Fully Utilize the Context》
FILM认为大语言模型的中段信息丢失问题主要是源自于训练数据隐藏的无意识偏差。在监督与微调的过程中,主要影响输出的文本信息来自于开头与结尾,导致训练过程中引入了位置偏差,暗示重要信息在开头与结尾。因而作者提出了一种数据驱动的增强方法,通过生成两类型的问题数据来训练模型。
3.1.两类型问题数据
对单一短文本片段:生成细粒度的关注问题数据
对多个短文本片段:生成信息的整合和推理的问题数据
3.2.改进方法
通过对单一短文本片段设计专门的“问题-答案对”,以及针对多个短文本片段设计关联信息推理的“问题-答案对”,形成了专门的数据集,使用该数据集进行模型的训练改进。
从实验性能上来看,该方法不仅对中段信息丢失问题有着缓解作用,还提升了整体的模型性能。
四、改进方法论文《GRAPHINSIGHT: UNLOCKING INSIGHTS IN LARGELANGUAGE MODELS FOR GRAPH STRUCTURE UNDERSTANDING》
graphinsight针对中段信息丢失的问题,提出了两级别的任务,通过重排图结构信息的描述文本顺序与针对记忆薄弱的中段信息进行类似RAG的增强以得到更好地性能。
4.1.两级别任务
宏观层面:涉及与整体图结构相关的粗粒度推理(例如节点总数、连通性检测等)
微观层面:设计与局部图结果相关的细粒度推理(例如节点度数、邻居检测等)
4.2.改进方法
认为pagerank值高的节点在网络中的重要性更高,同时对宏观层面的推理任务有着更大的帮助,因而将这些节点及其关联信息放在图结构信息描述文本的开头与结尾,保持其较好的记忆能力,让模型在宏观层面的推理任务上性能不会明显下降。
同时针对微观层面的推理任务,因为可能涉及放在中段的节点信息,因而将中段的节点信息组织成简易的RAG库,仅记录些简单的连接信息,并与微观层面的问题一同输入给大语言模型进行推理。希望通过外接简易知识库的方法,变相地拓展大语言模型的记忆存储空间,以增强细粒度查询的性能。
从实验性能上来看,通过重排文本顺序与外接简易知识库,不仅缓解了中段信息丢失的问题,同时还增强了宏观层面与整体的模型性能。
五、总结与展望
1、大语言模型对长文本输入有着中段信息丢失的问题,其不仅存在于NLP领域中,还会随着大语言模型与其他领域的结合而影响其他领域(诸如图学习领域)。因此,本文介绍了FILM和graphinsight两种方法来缓解大语言模型在NLP与graph领域的中段信息丢失问题。
2、两篇改进论文都是希望大语言模型对输入信息有着关注能力的弥补,来解决中段信息丢失问题。FILM通过显示指导大语言模型关注各个位置的信息,来减缓无意识偏差的影响,是一种以数据为驱动的预训练方法。而graphinsight则通过对输入数据使用重排模块以及外接知识库来提高数据的利用效率,是一种以模型为驱动的适应方法。
3、FILM这类方法需要考虑该类预训练方法是否能很好地适配各类数据与任务,基于不同目的设计、不同质量、不同粒度的训练数据将严重影响模型的性能。同时在这种数据驱动的改进过程中,是否会引入新的偏见也是值得思考的问题。
4、同样的,graphinsight这类使用重排文本的方法需要考虑如何评估文本信息的任务相关度。通过设计更合理的任务相关度指标或许能提高重排后文本的质量。
5、除此之外,graphinsight通过外接知识库的方法来拓展大语言模型的记忆存储空间是一种巧妙的方法,但该类方法依旧会随着文本量的继续增长而达到极限阈值,如何精简输入文本量仍然是需要探索的部分。
6、以及在图机器学习与大语言模型结合的过程中,将图结构信息以文本描述的方式输入给大语言模型的方法确实存在着中段信息丢失问题,针对该问题是否有着较好的解决方案,或者该类方法因为中段信息丢失问题在根本上存在缺陷。
六、参考文献
1、Liu N F, Lin K, Hewitt J, et al. Lost in the middle: How language models use long contexts, 2023[J]. URL https://arxiv. org/abs/2307.03172.
2、Firooz H, Sanjabi M, Jiang W, et al. Lost-in-Distance: Impact of Contextual Proximity on LLM Performance in Graph Tasks[J]. arXiv preprint arXiv:2410.01985, 2024.
3、An S, Ma Z, Lin Z, et al. Make Your LLM Fully Utilize the Context[J]. arXiv preprint arXiv:2404.16811, 2024.
4、Cao Y, Han S, Gao Z, et al. Graphinsight: Unlocking insights in large language models for graph structure understanding[J]. arXiv preprint arXiv:2409.03258, 2024.