论文笔记分享,标题LIGHTRAG: SIMPLE AND FAST RETRIEVAL-AUGMENTED GENERATION,代码开源:https://github.com/HKUDS/LightRAG
文章的核心出发点还是如何把图谱融合到文本检索中,然后用到了一种双层架构。
对用户问题先进行一个大概的归类:
具体的,如:24年的诺贝尔物理学奖是谁? 抽象的,如:人工智能如何影响到现代的教育?
基于这点,所以我们的索引是要有区分的,在graphrag中,针对local search,一切的出发点都是entity,这是不合理的。 因为抽象的问题很难找到合适的entity。
所以双层架构出来了:
低层次索引:实体为索引的key,绑定一堆的相关的entity,relation,text,与graphrag中一致 高层次索引:从实体边中抽象出主题概念,这些主题概念为主题key,同样绑定上面那些作为上下文。
完整的retrieval架构如下:
query同样也会进行低层次的实体提取,以及高层次的概念抽取。prompt完成
图构建出来,也是一个prompt提取出上面提到的三元组,以及高级概念
推理阶段就是,高低阶的对应搜上下文就好了,然后拼接起来rag。
文中的实验结果如下,看起来很好,但是看完的第一映像感觉一般。