三个最新RAG前沿思路分解：从Astute RAG减少检索噪声到Retriever-and-Memory自适应检索迭代生成

文摘 2024-10-17 11:30 北京

今天是2024年10月17日，星期四，北京，天气阴。

来回顾下昨日大模型早报，社区日常互动，欢迎加入。

我们来看看最近的三个RAG进展，包括Astute RAG、StructRAG、Retriever-and-Memory等几个工作，有些思路很有趣，可看看。

供大家一起参考并思考。

一、Astute RAG减少检索噪声

不太好的检索结果可能引入无关、误导甚至恶意信息；LLMs内部知识与外部知识之间的潜在冲突；如何在RAG的后检索阶段有效解决这些冲突。

对于这类问题，之前已有一些工作，例如提高RAG系统鲁棒性的各种方法，如训练LLMs以应对噪声上下文、过滤无关段落、重排段落、动态和迭代检索、查询重写等。

最近的工作《Astute RAG: Overcoming Imperfect Retrieval Augmentation and Knowledge Conflicts for Large Language Models》(https://arxiv.org/abs/2410.07176)，提到一个自适应的方式，来看看其实现思路：

1、自适应生成内部知识

首先，从LLMs的内部知识中自适应地生成信息，以补充检索到的段落。这部分利用LLM生成与给定问题相关的准确、相关且无幻觉的段落。

为了确保生成的段落具有高可靠性和准确性，ASTUTE RAG提供宪法原则来指导生成过程，强调生成的段落应该是准确的、相关的且无幻觉的。

M表示LLM，pgen是提示模板，q是问题，m^是生成的最大段落数。

此外，LLM可以自行决定生成多少段落，而不是固定数量的段落，这允许LLM在内部知识有限时生成较少的段落，而在有多个可行答案时生成更多段落。

2、源感知的知识整合

其次，将内部和外部知识进行整合。初始时，将检索到的段落和内部生成的段落合并，并为每段提供来源信息。

然后，通过提示LLM识别一致的信息、检测冲突信息并过滤无关信息。

3、答案的最终确定

最后，根据每组一致段落的可靠性生成最终答案。通过比较不同段落组的答案，选择最可靠的一个作为最终答案。

不过，在最坏情况下，ASTUTE RAG的表现接近于无检索增强（No RAG）的情况。

二、StructRAG引入结构化分流处理

现有的RAG方法在处理知识密集型推理任务时面临挑战，因为这些任务所需的信息分散在文档中，导致模型难以准确识别关键信息并进行全局推理。

《StructRAG: Boosting Knowledge Intensive Reasoning of LLMs via Inference-time Hybrid Information Structurization》，https://arxiv.org/abs/2410.08815

先说不足，这个工作YY现象很严重，因为在实际场景中很难会说这个东西应该使用来自于哪个数据，这个路由可能本身就不成立，并且还需要针对不同的类型做处理，这个时延性是很难接受的。

由于缺乏用于选择最佳结构类型的偏好数据，虽然设计了一种合成-模拟-判断的方法来构建训练数据。这种方法虽然有效，但在实际应用中可能面临数据质量和多样性的问题。

此外，尽管混合结构路由器在选择最佳结构类型方面表现良好，但原始LLM在没有特殊训练的情况下仍然难以选择最优的知识类型。

最后，使用单一的固定结构类型（如表格、图表、文本块等）在多样化的任务中表现不佳。这验证了混合信息结构化的重要性，但也增加了系统的复杂性。

之后，我们来看看其具体实现细节，StructRAG包括一个混合结构路由器、一个分散知识结构化器和一个结构化知识利用器，其中，混合结构路由器用于根据任务需求选择最优的结构类型；分散知识结构化器：将原始文档转换为所选结构类型的结构化知识；结构化知识利用器：分解复杂问题并使用结构化知识进行答案推断。

1、混合结构路由器

首先，混合结构路由器，用于根据任务需求选择最合适的结构类型。

该路由器利用问题和文档的核心内容来决定最佳结构类型。

其中，q 是问题，C 是文档的核心内容容，t是选择的结构类型。

可以看其具体实现策略：

首先，从文档中提取每篇文档的核心内容，通常是标题或前几个句子。

然后，根据提取的核心内容和问题，混合结构路由器选择最适合的结构类型。结构类型包括表格（用于统计任务）、图表（用于长链任务）、算法（用于规划任务）、目录（用于总结任务）和文本块（用于简单单跳任务）。

此外，为了提高混合结构路由器的选择能力，基于DPO进行训练。

2、分散知识结构化器

其次，使用基于LLM的分散知识结构化器将原始文档转换为结构化知识。

该结构化器利用LLM的理解和生成能力，从文档中提取结构化知识。

其中，q是问题，t是选择的结构类型，d (i)是第i篇文档，kt(i)是提取的结构化知识，bt(i)是结构化知识的描述。

具体实现上，

首先，分散知识结构化器接收问题、选择的结构类型和每篇原始文档作为输入。

其次，利用LLM的强大理解和生成能力，结构化器从文档中提取结构化知识。不同类型的信息（如表格、图表、算法等）需要不同的处理方式。例如，表格可以通过解析Markdown格式生成，图表可以通过提取实体-关系三元组生成，算法可以通过伪代码表示，目录可以通过分层编号表示。这里涉及到不同的文档的结构化处理prompt，简单粗暴：

1）Prompts in Constructing Table

2）Prompts in Constructing Graph

3）Prompts in Constructing Algorithm

4）Prompts in Constructing Catalogue

最后，除了提取结构化知识外，结构化器还会生成结构化知识的描述，以便于后续的利用和推理。

3、结构化知识利用器

最后，使用基于LLM的结构化知识利用器将复杂问题分解为简单的子问题，

并通过结构化知识进行精确的知识提取和最终答案推理。

对应的prompt如下：

三、Retriever-and-Memory自适应检索迭代生成

现有的RAG方法在复杂问答任务中往往无法收集到足够的信息。Adaptive RAG（ARAG）尝试通过自适应地决定“何时何地检索”来捕捉更多有价值的知识，但仍存在一些局限性。

最近的工作《Retriever-and-Memory: Towards Adaptive Note-Enhanced Retrieval-Augmented Generation》，http://arxiv.org/pdf/2410.08821v1。

先说存在不足的点：

首先，在自适应过程中，检索次数被限制在15次以内，这可能会影响在某些情况下获取更多有用信息的能力。

其次，虽然实验中使用了默认的参数设置，但自适应记忆审查器的触发条件（如无效更新次数、收集迭代次数和去重检索段落数）可能需要进一步调整以优化性能。

最后，长尾知识的处理，某些查询可能对应于语料库中的大量长尾知识片段，这些片段在多次迭代后可能会增加笔记的信息量，但也可能导致不必要的噪声。

我们再来看看实现细节，可以看其构成模块。

1、迭代信息收集器（IIC）

初始阶段，基于查询和检索到的段落生成初始笔记作为初始记忆。

迭代阶段，利用当前最优记忆和原始查询生成新的查询，并检索新的段落更新笔记。

首先，使用BM25或DPR检索器从语料库中检索与问题相关的段落，并将其作为初始记忆存储在LLM中。

然后，迭代地利用当前记忆和原始问题生成新的查询，并检索新的参考段落，更新记忆。

这几个部分，对应的prompt如下：

2、自适应记忆评审器（AMR）

评估更新后的笔记和当前最优记忆的内容质量，决定是否将更新后的笔记替换为新的最优记忆。同时，设置停止条件以控制信息收集的迭代次数。

涉及到两个子问题：

对于决定存储什么作为最优记忆：AMR通过多维评估当前笔记和最优记忆的内容质量，决定是否需要更新记忆。具体来说，AMR比较笔记和记忆的内容质量，如果笔记内容更优，则替换记忆内容。

评估标准包括：信息是否包含与问题直接相关的关键信息、信息是否具有多个方面、信息是否包含足够的细节、信息是否实用

对应的prompt:

对于，决定何时停止检索：AMR建立了三个停止条件来控制信息收集的进程：无效更新次数、最大信息收集步数和最大去重检索段落数。满足任意一个条件都会触发迭代过程的终止。

3、任务导向生成器（Generator

利用最优记忆作为上下文，通过LLM的零样本上下文学习（ICL）生成最终答案。

最后，生成器根据最优记忆生成最终答案。针对不同任务的输出风格，设计了相应的提示模板，确保生成高质量的答案。

4、一个具体实例

我们可以看看一个具体实例，看下执行过程：

总结

本文主要看了最近的三个RAG进展，包括Astute RAG、KRAG Framework、StructRAG、Retriever-and-Memory等几个工作，可以看到，这些工作很臆想，实操性和落地性并不强，但思路可供阅读，清一色的拟合思路。

批判的看，会更有收获。

参考文献

1、https://arxiv.org/abs/2410.07176

2、http://arxiv.org/pdf/2410.08821v1

3、https://arxiv.org/abs/2410.08815

关于我们

老刘，NLP开源爱好者与践行者，主页：https://liuhuanyong.github.io。

对大模型&知识图谱&RAG&文档理解感兴趣，并对每日早报、老刘说NLP历史线上分享、心得交流等感兴趣的，欢迎加入社区，社区持续纳新。

加入会员方式：关注公众号，在后台菜单栏中点击会员社区->会员入群加入

http://mp.weixin.qq.com/s?__biz=MzAxMjc3MjkyMg==&mid=2648415065&idx=1&sn=8efd8f9443d1e691309f080dc09aac61

老刘说NLP

老刘，NLP开源爱好者与践行者。主页：https://liuhuanyong.github.io。老刘说NLP，将定期发布语言资源、工程实践、技术总结等内容，欢迎关注。

最新文章

文档多模态RAG应该如何做？解析式orDocVQA式两类实现思路漫谈

最强总结！复盘kaggle大模型竞赛！附top方案

如何识别文档的层级结构：Detect-Order-Construct、HRDoc、DocParser三个方案

杀疯了｜AI辅助科研论文、NLP与数据处理代码能力，太强大了…

如何解决文档处理中的顺序错误问题：文档阅读顺序及OCR阅读顺序代表应对方案

RAG文档处理中的数值图表和流程图如何解析？从表示方式到代表解决方案

文档解析之表格结构预测获奖方案及开源数据集总结

值得一看的小模型技术全面总结及RAG文档处理及切分小模型工具

RAG前沿再跟进：HtmlRAG、分块策略、GraphRAG-DRIFT及多样性生成

GraphRAG系列范式冷思考：GraphRAG、KAG框架思考及E2E-AFG自适应过滤端到端思路

爆了，多模态杀疯了

RAG中的代表性上下文压缩方案总结：从RECOMP、CompAct到COCOM

大模型prompt压缩技术总结：从硬提示到软提示代表方案实现思路

长文本RAG中上下文压缩思路FlexRAG：兼看昨日大模型产研进展

RAG、知识图谱、大模型都有了：老刘的小课堂全集发布

重大更新！大模型、知识图谱、RAG、文档智能等前沿技术及落地跟进：老刘说NLP技术社区持续对外纳新

RAG新思路之引入知识图谱规则及文档解析技术路线总结

大模型与知识图谱结合用于推荐及LLM驱动分块ChunkRAG实现策略解读

大模型、知识图谱、RAG、文档智能等前沿技术及落地跟进：老刘说NLP技术社区持续对外纳新

GPTs 上线！AI 应用开发再次爆发

ChunkRAG文本分块排序新思路:兼看大模型与知识图谱结合用于推荐框架KGLA

也看大模型操作手机实现机理及前置基础：苹果Ferret-UI、微软OmniParser屏幕理解实现思路

RAG总结之知识检索与选择影响分析：兼看知识图谱关系建模技术总结

20241025大模型产研进展回顾：兼看知识图谱与RAG结合用于代码生成

AIOps RAG竞赛优秀方案EasyRAG解读：兼看SimRAG:自适应检索增强微调思路

RAG前沿之RAG–知识图谱构建框架Graphusion：兼看LongRAG双视角检索增强生成范式

RAG、知识图谱、大模型都有了：老刘的小课堂全集发布

又一本开源免费的大模型书来了，449页pdf！

再看RAG何时触发检索之ProbingRAG：兼看RAG引文生成的三阶段新思路

RAG总结及前沿之Meta-Chunking切分思路及VisRAG多模态实现机制解读

VB-LoRA高效登顶！仅需0.4%参数量，极限超越LoRA！

知识图谱与RAG结合之KAR查询扩展思路解读：兼看RAG前沿阶段性不完全归纳

文档处理之10种PDF解析工具测评：兼看知识图谱遇见Chart图表的有趣实现思路

大模型、知识图谱、RAG、文档智能等前沿技术及落地跟进：老刘说NLP技术社区持续对外纳新

RAG、知识图谱、大模型都有了：老刘的小课堂全集发布

大模型的数据合成与增强技术总结：兼看文档版式分析及RAG今年进展

前沿之大模型与知识图谱结合新思路：Pyramid Alignment知识推理实现逻辑剖析及理解

大模型微调数据随意选择会更有效？兼看渐进式检索FunnelRAG实现思路

轰动NLP自然语言处理界｜硕博士利用ChatGPT-4o做科研、自动编程、写论文，太方便了...

Baichuan-Omni多模态模型及KV Cache换速度的TurboRAG方案

大模型、知识图谱、RAG、文档智能等前沿技术及落地跟进：老刘说NLP技术社区持续对外纳新

突破了LLM极限，GPT-o1深度揭秘

23个大模型推理框架及量化技术总结：兼看大模型信息抽取框架EDC

再看长文本大模型遇见RAG：长输入的RAG方案挑战及其缓解实证分析

老刘的RAG小课堂开始啦！从朴素RAG到KG增强RAG再到文档解析三阶段

LLM-based SPARQL生成思路及Natural Language to SQL综述

RAG前沿之CoV-RAG验证链增强及面向PDF文档的多模态RAG方案简析

国庆期间5大RAG前沿进展总结：从表格RAG-TableRAG到引入图、树结构优化的RAG框架

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉