吴恩达DeepLearning.AI课程系列 - 大模型检索增强生成（四）：检索优化进阶

科技 2024-11-14 20:37 广东

SmartFlowAI

点击上方蓝字关注我们

作者：李剑锋
全文约 4000 字，预计阅读时间 8 分钟

在上一节课中，我们探讨了几种信息检索方法，包括 Similarity Search（相似度搜索） 和 Maximum Marginal Relevance (MMR)，还介绍了如何利用 元数据（Metadata） 提高检索精度。这些方法帮助我们理解如何在向量数据库中进行高效的检索，既保证结果的相关性，又兼顾多样性。

这节课我们继续深入信息检索的世界，介绍三种更高级的工具：自查询检索器（SelfQueryRetriever）、大型语言模型辅助检索（LLM Aided Retrieval） 和 压缩（Compression）。

自查询检索器 可以自动从用户的自然语言查询中生成元数据过滤条件，让检索过程更加精准和高效。
大型语言模型辅助检索 利用大型语言模型的理解能力，将复杂查询转化为有效的检索策略，进一步提高检索结果的精确性。
压缩则帮助我们从冗余的原始信息中提取出最有价值的部分，使得在有限的上下文中包含更多有用内容，提升生成质量。

那下面就让我们开始更深入的学习吧。

自查询检索器（SelfQueryRetriever）

虽然在上节课我们通过元数据的方式提升了检索的精度。但是，在实际的应用中，我们面临一个有趣的挑战：元数据过滤条件往往需要我们从查询中推断出来，也就是说，我们需要根据用户的查询来自动决定应该应用哪些元数据过滤条件。这时就需要用到一种叫做自查询检索器（SelfQueryRetriever）的方法，即利用大型语言模型（LLM）从查询本身中提取信息的工具。这些信息包括：

用于向量检索的查询字符串：也就是用户实际的查询内容。
用于向量检索的元数据过滤条件：例如，应该从哪个文档中检索，是否有特定的页码等。

这种方法的优势在于，用户无需明确地指出元数据的过滤条件。SelfQueryRetriever可以根据用户的自然语言查询自动推断出这些条件。例如，当用户询问"第三讲的回归分析"时，系统可以自动判断出用户只对第三讲的内容感兴趣，从而为检索过程加上相应的元数据过滤条件。

自查询检索器依赖于大型语言模型（例如GPT-4o）来解析用户的查询。在这一过程中，模型会先对查询进行理解，然后根据查询的内容生成适当的元数据过滤条件，并将这些条件与原始查询结合，传递给向量数据库进行检索。

例如，在前述的例子中，SelfQueryRetriever会分析查询中的关键词"第三讲"和"回归分析"，然后生成一个适用于向量检索的元数据过滤条件：

source：指向特定的讲次文档，例如"docs/cs229_lectures/MachineLearning-Lecture03.pdf"。
page：如果用户提到了具体的页码，检索器也可以根据上下文自动提取出来。

这种方式的好处显而易见：它可以帮助用户在无需了解具体技术细节的情况下，自动得到最相关的检索结果。这种方法特别适用于那些查询意图明确，但并不一定使用技术语言来描述的用户场景。

通过结合向量检索与元数据过滤，SelfQueryRetriever可以最大程度地实现对用户查询的精确理解和对检索结果的精准控制，从而为用户提供更加符合需求的答案。这种方式使得整个检索过程不仅能够理解语义，还能充分利用上下文中的各种信息，大大提升了用户体验。

总结来说，利用元数据以及SelfQueryRetriever，我们能够更加有效地处理那些对检索内容有明确限定的查询。在实际应用中，这意味着我们可以显著减少无关内容的干扰，为用户提供更加精准的答案，从而提高检索的质量和用户的满意度。

大型语言模型辅助检索(LLM Aided Retrieval)

在检索领域中，除了传统的相似度检索和最大边际相关性（MMR）之外，大型语言模型（LLM）辅助检索也是一种强有力的工具，能够进一步提升检索的智能化水平。LLM Aided Retrieval 的优势在于它能够理解自然语言查询的深层语义，并将这些语义信息转换为复杂的检索表达式，使得查询变得更具针对性和有效性。

为什么我们需要 LLM Aided Retrieval ？

传统的相似度检索方法，虽然在大多数情况下能够找到与用户查询最为相关的内容，但在面对复杂的查询时，效果往往受到限制。例如，当用户提出的查询包含多个层次或需要结合上下文信息来理解时，简单地将查询向量化再进行相似度匹配，可能会导致精度下降。这时候就需要利用大型语言模型的强大能力来辅助检索，理解查询背后的意图，并生成更为有效的检索策略。

例如，用户可能会询问 "1980年有哪些关于外星人的电影？"，这个问题不仅包含了具体的主题 "外星人"，还包含了时间限制 "1980年"。通过 LLM 的辅助，我们可以将这个查询解析为两个部分：过滤条件（filter）和检索主题（search term）。这样，过滤条件可以用于筛选数据集中的特定年份，而检索主题则用于匹配相关内容，提升整体检索的精准度和有效性。

LLM Aided Retrieval 的工作流程

LLM Aided Retrieval 的核心是通过大型语言模型来解析用户的自然语言查询，将其转换为结构化的查询，结合向量检索或传统的关键字检索方法来提高检索效果。以下是其基本的工作流程：

用户查询解析

用户输入一个自然语言查询，如 "有哪些外星人电影是1980年制作的？"。
LLM 会解析这个查询，提取出其中包含的意图、约束条件和主题关键词。

生成结构化查询

在解析查询后，LLM 将生成一个结构化的查询表达式。例如，将 "1980年" 作为一个过滤条件，而 "外星人电影" 作为一个检索关键词。
这个结构化查询表达式可以是一个 SQL 查询、API 查询参数，或者是向量检索时的元数据过滤条件。

结合元数据进行查询执行

在执行查询时，可以结合元数据进行过滤，例如来源文档、时间戳、页码等。通过在检索时应用这些元数据，可以进一步提高检索的精度。例如，当用户的查询中包含特定的来源或时间限制时，可以利用这些元数据过滤掉不相关的内容。
将生成的结构化查询传递给底层的数据库或者向量存储进行检索。
通过对查询条件的严格匹配和对向量空间中相似内容的查找，系统返回与用户查询最为相关的结果。

虽然 SelfQueryRetriever 和 LLM Aided Retrieval 都利用了大型语言模型来解析和理解用户的查询，提高检索的精准度，但两者在应用范围、处理复杂度和实现方式上有所不同。SelfQueryRetriever 更侧重于在向量检索中自动提取元数据过滤条件，适用于较为直接的查询。而 LLM Aided Retrieval 则是一个更广泛的框架，利用 LLM 的强大理解和生成能力，处理复杂的查询，生成更有效的检索策略，可能涉及多种检索技术的融合。

总的来说，LLM Aided Retrieval 为信息检索带来了新的可能性，特别是在处理复杂、模糊的用户查询时，能够显著提升检索的精度和用户的满意度。然而，在实际应用中，如何权衡计算资源的开销与检索质量，如何处理 LLM 可能带来的误判，仍然是我们需要进一步探索的问题。

压缩方法（Compression）

在信息检索的过程中，我们经常会遇到一个现实的问题：在面对海量的候选数据时，如何在有限的上下文空间中放入尽可能多的有用信息？特别是当我们需要处理的大型语言模型（LLM）的上下文长度有限时，比如llama2模型的上下文长度就只有4096，如何从原始信息中提取出最具价值的部分显得尤为关键。为了解决这一挑战，Compression（压缩） 方法应运而生。

Compression 方法的动机与作用

在用户提出问题时，系统会从存储中检索出一系列与查询相关的文本片段，这些片段可以称为“相关切片（Relevant Splits）”。然而，这些切片中包含的信息往往非常丰富，甚至有些切片并不是完全相关或者存在信息重复的情况。如果直接把这些原始切片输入到大型语言模型中进行处理，会面临几个主要问题：

上下文长度限制：大型语言模型处理信息时，能够接收的上下文长度是有限的，这意味着如果信息量太大，模型可能无法完全处理所有内容，从而导致重要信息的丢失。
信息冗余与低效：许多切片中可能包含重复的信息，这些冗余内容会占据有限的上下文空间，影响模型生成的效率和准确性。

为了解决这些问题，Compression LLM 被用来对这些初步检索到的文本片段进行压缩处理，提取出最核心的、与用户查询最直接相关的信息。通过压缩，我们可以有效地减少输入的信息量，从而在有限的上下文空间中放入更多有价值的内容，这样不仅提高了模型的整体性能，还能确保模型为用户提供的答案更加全面和准确。

Compression 的工作流程

为了更好地理解 Compression 方法的实际操作，我们可以将整个过程分为以下几个步骤：

初步检索相关切片

当用户提出查询时，系统首先会通过向量数据库等方法，从存储中找到所有与该查询相关的文本片段。这些片段被称为“相关切片”，其中可能包含丰富的信息，但并不总是直接回答用户的问题。

压缩模型的应用（Compression LLM）

系统会将这些“相关切片”输入到Compression LLM（压缩语言模型）中。Compression LLM 是专门用于对长文本进行压缩和提炼的模型，它的目标是剔除不必要的细节，只保留与用户问题紧密相关的内容。在这个过程中，系统会分析每个切片的内容，找出冗余、不相关或者过于详细的部分，将其删除或合并，以得到更加精简的文本片段。

构建压缩后的上下文输入

经 Compression LLM 处理过后，所有的切片都会被转换成一个精炼版的“压缩切片（Compressed Relevant Splits）”。这些切片会被重新组织和合并，形成最终传入大型语言模型进行处理的输入上下文。

通过这种方式，系统可以将更多有效的信息放入大型语言模型中，而不必担心因上下文过长而丢失关键信息。同时，由于去除了冗余和不相关的内容，系统的处理效率也得到了显著提升。

Compression 的优势与实际应用

Compression 方法的优势在于它能够极大地提升大型语言模型的上下文信息量利用率，让有限的上下文能够承载更多的有效信息，进而使得模型生成的答案更加精准和全面。这一方法特别适合于以下场景：

复杂信息的提炼：在用户的查询涉及多个方面或者需要从大量文档中找到答案时，Compression 可以有效提炼出最相关的内容，确保模型回答时不遗漏重要细节。
节省计算资源：压缩后的上下文信息更加精简，这意味着系统在处理这些信息时可以更高效地进行计算，减少了时间和资源的浪费。

例如，当用户查询某个复杂问题时，系统首先会通过初步检索找到大量的相关文档，这些文档中包含的信息非常庞杂且繁多。通过 Compression LLM 的压缩处理，系统将提取出这些文档中最有助于回答问题的部分，从而使得最终传递给大型语言模型的内容更加精炼，回答也更加贴近用户的需求。

Compression 的应用在许多信息检索和智能问答系统中扮演着重要角色。它有效地连接了初步检索和深度理解的过程，确保模型在信息丰富性和处理效率之间达成了良好的平衡，最大程度地利用了大型语言模型的强大推理能力，来为用户提供高质量的回答。

Compression 方法的劣势

虽然 Compression 方法在提升上下文利用率和处理效率方面有显著的优势，但它也存在一些劣势：

信息丢失的风险：在压缩的过程中，可能会丢失一些对用户问题虽然不是核心但仍有帮助的信息，导致模型的回答缺少细节或者关键的背景信息。
复杂性的增加：引入 Compression 模型使得整个检索和生成的流程变得更加复杂，增加了系统的开发和维护成本。同时，压缩模型本身的效果对最终结果有很大影响，如果压缩不当，可能反而降低回答的质量。
压缩误差：压缩过程中的算法选择和模型性能对最终保留的信息质量至关重要。如果 Compression LLM 在提炼过程中产生误差，可能会误删一些重要信息，进而影响回答的准确性。
依赖上下文理解：Compression 方法依赖于模型对上下文的准确理解。如果模型对文本的理解不够深入，可能会错误地去掉一些实际上对回答有帮助的内容，导致最终生成的答案不够完善

总结

这节课中，我们介绍了如何利用高级检索工具来优化信息检索的过程。自查询检索器、LLM Aided Retrieval 和 Compression 各自发挥作用，共同提升了信息检索的精度和效率。同时，我们也讨论了 Compression 方法的一些潜在劣势，理解这些劣势有助于我们在实际应用中更好地利用这些工具。

下节课我们将进入问题回复部分，探讨如何在检索的基础上结合生成模型，提供更加智能和高质量的答案。那我们下节课见啦！

往期 · 推荐

FastChat（二）：负载均衡策略

FastChat（一）：200 行代码实现 Mini FastChat

简单聊聊人工评测

Google 论文 | 数据集关系大揭秘：基于用户任务的全面分析

🌠 番外：我们期待与读者共同探讨如何在 AI 的辅助下，更好地发挥人类的潜力，以及如何培养和维持那些 AI 难以取代的核心技能。通过深入分析和实践，我们可以更清晰地认识到 AI 的辅助作用，并在 AI 时代下找到人类的独特价值和发展空间。“机智流”公众号后台聊天框回复“cc”，加入机智流大模型交流群！

一起“点赞”三连👇

http://mp.weixin.qq.com/s?__biz=Mzg2NzU4MDgzMA==&mid=2247526268&idx=1&sn=026c23371f73b46c74a913cb3726285f

机智流

共赴 AI 时代浪潮~涉及涵盖计算机视觉、大语言模型、多模态模型等AI领域最新资讯知识分享~

「学术趋势」EMNLP 24 知识图谱 Top15 被引盘点

「学术趋势」EMNLP 24 多模态 TOP15 被引论文盘点

AI周报：Perplexity 推出 AI 购物功能 | Mistral AI 发布 1240 亿参数多模态图像模型

大会日程公布｜PyCon China 2024 周末上海见！

第一次用书生大模型，我做出了《黑神话：悟空》通关助手！

「学术趋势」EMNLP 24 智能体 TOP15 被引论文盘点

「学术趋势」EMNLP 24 复杂推理 Top15 被引盘点

「学术趋势」EMNLP 24 评测领域 Top15 被引盘点

速报：Scaling law已终结？｜阿里云发布重磅AI编程模型：Qwen2.5-Coder

「学术趋势」EMNLP 24 最佳论文盘点

多个中国团队斩获EMNLP'24最佳论文！UCLA华人学者中三篇杰出论文，明年顶会落户苏州

吴恩达DeepLearning.AI课程系列 - 大模型检索增强生成（四）：检索优化进阶

「学术趋势」EMNLP 24 高引用 TOP 15

AI周报：AlphaFold 3开源 | Qwen 2.5-Coder性能媲美GPT-4o

FastChat（二）：负载均衡策略

R-CoT: 利用反向思维链弥补合成数据与实际数据之间的GAP，实现多模态几何数据生成能力突破

早鸟优惠即将截止！PyCon China 2024 即将到来

奥特曼专访自曝OpenAI掌握AGI密钥，2025年降临！1人1万块GPU缔造十亿独角兽

简单聊聊人工评测

Meta宣布举办Llama黑客马拉松，总奖金高达1.5万美元 || 混元开源新400B MoE模型

早鸟优惠即将截止！PyCon China 2024 即将到来

Google 论文 | 数据集关系大揭秘：基于用户任务的全面分析

DeepMind：CoT推理无需prompt也可进行，一文回顾CoT推理及其发展（上）

Google：推出MDAgents提升医疗决策的AI协作能力，本周AI周报来了

Meta：通过触摸感知、灵活性和人机交互的进步来推进嵌入式人工智能

Llama版o1来了，来自上海AI Lab，强化学习代码已开源，基于AlphaGo Zero范式

鹅厂版AI笔记悄悄上线，微信公众号优质内容秒变专属知识库，实测在此

时间地点公布｜PyCon China 2024 上海见！

中国自动驾驶时代记：技术、理想和“真经路”｜产业家特稿

DocLayout-YOLO，让多样性文档布局检测更快、更准、更强

课程升级、资源加码！万人共学的书生大模型实战营第4期正式起航！

你的第一张AI认证——亚马逊云科技正式推出「AI 从业者认证」

一文带你了解具身智能的学习进化架构技术路线

AI周报：LangChain开始商业化，LlamaIndex开发AI Agent课程，Github Copliot支持多家模型

你的第一张AI认证——亚马逊云科技正式推出「AI 从业者认证」

LLM101N：原理到代码，从零带你读懂ngram算法

课程升级、资源加码！万人共学的书生大模型实战营第4期正式起航！

你的第一张AI认证——亚马逊云科技正式推出「AI 从业者认证」

吴恩达DeepLearning.AI课程系列 - 大模型检索增强生成（四）：向量数据库中的检索优化

课程升级、资源加码！万人共学的书生大模型实战营第4期正式起航！

你的第一张AI认证——亚马逊云科技正式推出「AI 从业者认证」

咋做一个自己的评测数据集呢

免费 | 万人共学的书生大模型实战营公益课程来啦!

你的第一张AI认证——亚马逊云科技正式推出「AI 从业者认证」

FastChat（一）：200 行代码实现 Mini FastChat

你的第一张AI认证——亚马逊云科技正式推出「AI 从业者认证」

免费 | 万人共学的书生大模型实战营公益课程来啦!

落地分享：来看 UFH AI 医疗大模型如何助力国际化诊疗场景

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉