随着大语言模型(LLM)的能力不断提升,研究人员开始关注如何使这些模型更好地处理和理解大规模的私有数据库。RAG(Retrieval-Augmented Generation)系统通过从私有数据库中高效、准确地检索相关信息,增强了大模型的语境知识和生成效果。尽管现有的RAG方法在整合外部知识源方面取得了一定进展,但仍面临以下挑战:
- 扁平的向量化表示:这种方法限制了模型对外部数据的深入理解和检索准确性。
- 缺乏对实体间联系的探索:现有方法难以处理复杂问题,无法有效结合多方面的信息进行综合分析。
为了解决这些问题,北京邮电大学和香港大学的研究人员提出了一种基于图结构数据的RAG系统——LightRAG。通过利用图结构对复杂关系的精确表示,LightRAG显著提升了检索和生成的效果,解决了现有方法的不足。
为了提高信息检索的全面性、效率以及加强对新数据的快速适应能力,LightRAG系统进行了一系列关键改进。
#基于图数据结构的文本索引
LightRAG首先通过对外部数据库进行预处理,以及采用图数据结构来增强对实体间关系的理解来提升查询的高效性和准确性。 这一阶段主要包括以下步骤:
1.实体和关系抽取:使用大语言模型识别文本中的实体及其关系。
2.键值对生成:生成每个实体和关系的检索键和检索值,用于快速索引和详细信息检索。
3.去重:通过大语言模型去除重复的实体和关系。
4.增量更新:设计增量方法,仅对新增数据进行处理,提升系统适应能力。
#LightRAG的双层检索范式
为了提升模型的全面性,考虑具体查询和抽象查询的不同需求,LightRAG采用了一种双层检索范式:
1.底层检索:基于实体的具象语义键值进行检索和召回。
2.高层检索:识别查询涉及的抽象概念,与关系中的抽象检索键进行匹配。这种双层检索范式结合了特定查询和抽象查询的处理方式,整合图和向量进行检索,既能精确检索到与特定实体相关的详细信息,又能获取更广泛主题的相关知识,确保系统为用户提供全面且相关的回答,满足不同用户需求。
研究人员使用LightRAG与多种基线模型在四个选定的数据集(Agriculture、CS、Legal、Mix)上进行了比较,以评估它们在不同维度下的性能表现。通过分析实验结果,可以发现LightRAG优势明显,主要体现在以下两方面:1. 性能优势:基于图的RAG系统在处理大规模语料和复杂查询时表现出色。LightRAG和GraphRAG等模型利用图结构捕获复杂语义依赖关系,随着数据集规模的增加,这种优势更加明显。
例如,在规模最大的Legal数据集上,基线方法的胜率仅约为20%,而LightRAG显著领先,表明图增强的RAG系统能更好地理解和整合知识,提高模型的泛化能力。2. 多样性优势:LightRAG在提供丰富、多样化的回答方面表现突出。特别是在大型数据集如Legal数据集上,LightRAG的双层检索策略从低级别(具体细节)和高级别(宏观主题)两个层次全面检索信息,充分利用基于图的文本索引,捕获查询的完整上下文,生成更为丰富的回答。 综合而言,LightRAG在信息检索效率、成本效益和动态环境适应性方面表现出色。这使其在处理大量数据和频繁更新的实际应用场景中更具优势和竞争力。 结合大模型通用知识及在交通、社会治理、安全生产、自然资源等行业领域的知识,深入业务场景,精确捕获用户意图,为用户提供智能问答、数据分析、报表生成、工作任务理解与执行等一系列服务
📞若您有相关需求,欢迎点击下方链接与我们沟通洽谈
🗨️也可以在公众号后台给我们留言