再见RAG，你好Agentic RAG！

科技 2024-11-26 08:02 北京

在2023年，检索增强型生成（RAG）技术占据了主导地位，而在2024年，智能体工作流程正在推动巨大的进步。使用AI智能体为构建更强大的、健壮的、多功能的大型语言模型（LLM）驱动的应用开辟了新的可能性。其中一个可能性是在智能体RAG流程中增强RAG流程中的AI智能体。

智能体RAG的基础知识

什么是检索增强型生成（RAG）

检索增强型生成（RAG）是一种构建LLM驱动应用的技术。它利用外部知识源为LLM提供相关上下文，减少幻觉现象。

一个简单的RAG流程包括一个检索组件（通常由一个嵌入模型和一个向量数据库组成）和一个生成组件（一个LLM）。在推理时，用户查询用于在索引文档上运行相似性搜索，检索与查询最相似的文档，并为LLM提供额外的上下文。

典型的RAG应用有两个相当大的局限性：

简单的RAG流程只考虑一个外部知识源。然而，一些解决方案可能需要两个外部知识源，一些解决方案可能需要外部工具和API，例如网络搜索。
它们是一次性解决方案，这意味着上下文只检索一次。没有对检索到的上下文的质量进行推理或验证。

AI系统中的智能体是什么

随着LLM的流行，AI智能体和多智能体系统的新范式已经出现。AI智能体是具有角色和任务的LLM，它们可以访问内存和外部工具。LLM的推理能力帮助智能体规划所需的步骤并采取行动来完成手头的任务。

因此，AI智能体的核心组件包括：

LLM（具有角色和任务）
内存（短期和长期）
规划（例如，反思、自我批评、查询路由等）
工具（例如，计算器、网络搜索等）

一个流行的框架是ReAct框架。ReAct智能体可以在保持状态（在内存中）的同时处理顺序多部分查询，通过将路由、查询规划和工具使用结合为一个单一实体。

ReAct = 推理 + 行动（使用LLM）

这个过程包括以下步骤：

思考：在接收到用户查询后，智能体推理下一步行动
行动：智能体决定行动并执行它（例如，工具使用）
观察：智能体观察行动的反馈
这个过程一直迭代，直到智能体完成任务并响应用户。

什么是Agentic RAG？

Agentic RAG描述了基于AI智能体实现的RAG。具体来说，它将AI智能体纳入RAG流程中，以协调其组件并执行超出简单信息检索和生成的额外行动，以克服非智能体流程的局限性。

Agentic RAG描述了基于AI智能体实现的RAG。

Agentic RAG如何工作？

尽管智能体可以被纳入RAG流程的不同阶段，智能体RAG最常用于检索组件中的智能体。

具体来说，检索组件通过使用具有访问不同检索工具的检索智能体而变得智能体化，例如：

向量搜索引擎（也称为查询引擎），它在向量索引上执行向量搜索（像典型的RAG流程中一样）
网络搜索
计算器
任何用于以编程方式访问软件的API，例如电子邮件或聊天程序
等等。

然后RAG智能体可以在以下示例检索场景中进行推理和行动：

决定是否检索信息
决定使用哪个工具检索相关信息
制定查询本身
评估检索到的上下文，并决定是否需要重新检索。

Agentic RAG架构

与顺序的简单RAG架构相比，智能体RAG架构的核心是智能体。智能体RAG架构可以有不同程度的复杂性。在最简单的形式中，单智能体RAG架构是一个简单的路由器。然而，你也可以将多个智能体添加到多智能体RAG架构中。本节讨论了两个基本的RAG架构。

单智能体RAG（路由器）

在其最简单的形式中，智能体RAG是一个路由器。这意味着你至少有两个外部知识源，智能体决定从哪一个检索额外的上下文。然而，外部知识源不必局限于（向量）数据库。你也可以从工具中检索更多信息。例如，你可以进行网络搜索，或者你可以使用API从Slack频道或你的电子邮件账户中检索额外的信息。

多智能体RAG系统

正如你可以猜到的，单智能体系统也有其局限性，因为它仅限于一个智能体进行推理、检索和答案生成。因此，将多个智能体链入多智能体RAG应用是有益的。

例如，你可以有一个主智能体，它协调多个专业检索智能体之间的信息检索。例如，一个智能体可以从专有的内部数据源检索信息。另一个智能体可以专门从你的个人账户（如电子邮件或聊天）检索信息。另一个智能体也可以专门从网络搜索中检索公共信息。

超越检索智能体

上述示例显示了使用不同的检索智能体。然而，你也可以使用智能体用于检索之外的其他目的。智能体在RAG系统中的可能性是多种多样的。

Agentic RAG与（普通）RAG

虽然RAG（发送查询、检索信息、生成响应）的基本概念保持不变，但工具使用扩展了它，使其更加灵活和强大。

可以这样想：普通的（普通）RAG就像在图书馆（在智能手机出现之前）回答一个具体问题。另一方面，智能体RAG就像手中有一部带有网络浏览器、计算器、电子邮件等的智能手机。

普通RAG智能体RAG访问外部工具否是查询预处理否是多步骤检索否是验证检索到的信息否是

实施智能体RAG

如前所述，智能体由多个组件组成。要构建智能体RAG流程，有两种选择：具有函数调用的语言模型或智能体框架。两种实现都能达到相同的结果，只是取决于你想要的控制和灵活性。

具有函数调用的语言模型

语言模型是智能体RAG系统的主要组件。另一个组件是工具，它们使语言模型能够访问外部服务。具有函数调用的语言模型提供了一种构建智能体系统的方法，允许模型与预定义的工具进行交互。语言模型提供商已将此功能添加到他们的客户端中。

2023年6月，OpenAI为gpt-3.5-turbo和gpt-4发布了函数调用。它使这些模型能够可靠地将GPT的能力与外部工具和API连接起来。开发人员迅速开始构建应用程序，将gpt-4插入代码执行器、数据库、计算器等。

Cohere进一步推出了他们的连接器API，为Command-R模型套件添加工具。此外，Anthropic和Google为Claude和Gemini发布了函数调用。通过为这些模型提供外部服务，它可以访问并引用网络资源，执行代码等。

函数调用不仅适用于专有模型。Ollama为流行的开源模型如Llama3.2、nemotron-mini等引入了工具支持。

要构建一个工具，你首先需要定义一个函数。在这个片段中，我们正在编写一个使用Weaviate的混合搜索从数据库检索对象的函数：

def get_search_results(query: str) -> str:    """Sends a query to Weaviate's Hybrid Search. Parses the response into a {k}:{v} string."""        response = blogs.query.hybrid(query, limit=5)        stringified_response = ""    for idx, o in enumerate(response.objects):        stringified_response += f"Search Result: {idx+1}:\n"        for prop in o.properties:            stringified_response += f"{prop}:{o.properties[prop]}"        stringified_response += "\n"        return stringified_response

然后我们将函数通过`tools_schema`传递给语言模型。该模式然后在提示中用于语言模型：

tools_schema=[{    'type': 'function',    'function': {        'name': 'get_search_results',        'description': 'Get search results for a provided query.',        'parameters': {          'type': 'object',          'properties': {            'query': {              'type': 'string',              'description': 'The search query.',            },          },          'required': ['query'],        },    },}]

由于你直接连接到语言模型API，你需要编写一个循环，该循环在语言模型和工具之间进行路由：

def ollama_generation_with_tools(user_message: str,                                 tools_schema: List, tool_mapping: Dict,                                 model_name: str = "llama3.1") -> str:    messages=[{        "role": "user",        "content": user_message    }]    response = ollama.chat(        model=model_name,        messages=messages,        tools=tools_schema    )    if not response["message"].get("tool_calls"):        return response["message"]["content"]    else:        for tool in response["message"]["tool_calls"]:            function_to_call = tool_mapping[tool["function"]["name"]]            print(f"Calling function {function_to_call}...")            function_response = function_to_call(tool["function"]["arguments"]["query"])            messages.append({                "role": "tool",                "content": function_response,            })        final_response = ollama.chat(model=model_name, messages=messages)    return final_response["message"]["content"]

然后你的查询将如下所示：

ollama_generation_with_tools("How is HNSW different from DiskANN?",                            tools_schema=tools_schema, tool_mapping=tool_mapping)

智能体框架

DSPy、LangChain、CrewAI、LlamaIndex和Letta等智能体框架的出现，为使用语言模型构建应用程序提供了便利。这些框架通过将预构建的模板组合在一起，简化了构建智能体RAG系统的过程。

DSPy支持ReAct智能体和Avatar优化。Avatar优化描述了使用自动化提示工程来描述每个工具的使用。
LangChain为使用工具提供许多服务。LangChain的LCEL和LangGraph框架进一步提供了内置工具。
LlamaIndex进一步引入了QueryEngineTool，这是一个用于检索工具的模板集合。
CrewAI是开发多智能体系统的领先框架之一。用于工具使用的一个关键概念是智能体之间共享工具。
Swarm是由OpenAI构建的多智能体协调框架。Swarm同样专注于智能体之间如何共享工具。
Letta将反映和提炼内部世界模型作为函数。这意味着可能使用搜索结果来更新聊天机器人用户的智能体内存，除了回答问题。

https://weaviate.io/blog/what-is-agentic-rag

来源 | PaperAgent

http://mp.weixin.qq.com/s?__biz=MzIxNDgzNDg3NQ==&mid=2247551202&idx=2&sn=3c5bc50e6471a0f3a135b44afc7d2601

深度学习与NLP

专注深度学习、NLP相关技术、资讯，追求纯粹的技术，享受学习、分享的快乐。

最新文章

10W+下载，2025最新中文版《大模型基础》教程pdf免费分享

某副教授相亲100多场总结出来的经验，网友：建议开源，发表论文...

【独家专访】诺奖得主Hinton 首次系统阐述：为何说接下来十年AI将颠覆人类社会运行方式

宇宙最强-清华大学《大模型研讨课》课程视频分享

2024年，做大模型增量预训练（continue pretrain）的注意事项！！！

微软LazyGraphRAG：新一代超低成本RAG

喜提AAAI一作顶会：没算法没实验，全靠idea思路好...

面试了一个参加Kaggle比赛的同学，当场想给她offer！

创业一年半，胖了30斤，AI大佬感叹：还是回谷歌好

大模型分布式训练学习过程总结（万字长文）

快手用大模型搞推荐，拿到收益了

Transformer王者归来，再登Nature！！！

再见RAG，你好Agentic RAG！

和梁朝伟同获港科荣誉博士，黄仁勋与沈向洋对谈Scaling Law、后训练、机器人和爱情

ChunkRAG：比CRAG提升10个点准确率

离谱！裁员裁出新高度了。。

斯坦福大学教授李飞飞团队：关于 2024 年人工智能发展报告总结

多模态大模型技术点总结

中科院院士：青年科学家 5 年内拿不出成果就面临淘汰，有的单位已现「马太」效应，重复给某一人奖励

[送5本]《科技论文写作指南》理工科学生福音

o1圈杀疯了，阿里又开源Marco-o1

吴恩达力荐，100%好评-《LangChain大型语言模型(LLM)应用开发》免费分享

这才是真・开源模型！公开「后训练」一切，性能超越Llama 3.1 Instruct

新一轮高校裁员潮，来了！

[送5本]《动手学自然语言处理》大模型改变了NLP的游戏规则了吗

LLM逻辑推演策略选择：推理时计算 vs 训练时计算

仅仅一天，Gemini就夺回了GPT-4o拿走的头名

教育部公布！25考研人数，再降50万！

大模型代肝，自动刷《崩铁》升级材料，Claude操纵计算机还能这么用！

一篇小型语言模型技术最新全面综述

M3DocRAG：文档问答用哪个多模态大模型效果最好？

已公示！“东方理工大学”，来了

聊一聊做角色扮演大模型的经验

绝对顶流！清华博导倾力编写的《图神经网络导论》pdf免费分享

最高9.0分！这16篇最高分ICLR2025论文必看！从生成模型到MOE等

ICLR 高分：深入研究多模态大模型的对齐策略

谷歌大佬编写，我唯一熬夜看完的机器学习神作pdf分享！

双非二战字节算法岗，拿下70k offer.....

猫猫运动方程，首次被物理学家破解！ |《美国物理学杂志》正经研究

o1的风又吹到多模态，直接吹翻了GPT-4o-mini

谷歌大佬编写，我唯一熬夜看完的机器学习神作pdf分享！

微调图像大模型的经验分享

昨夜， LLM 已经彻底凉凉了...

Karpathy后悔了：2015年就看到了语言模型的潜力，却搞了多年强化学习

微软开源角色Agents，直接模拟了整个世界~

2024最新神书-《大模型应用程序构建指南》免费pdf分享

2024最新,李宏毅深度学习教程pdf免费分享！绝对值得反复阅读的神书！

已注销！985新校区，不建了

RAG黑盒被打开了，可视化RAGViz闪亮全场

LLM性能优化中的一些概念扫盲

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉