从0到1开发AI Agent(智能体)(八)| 智能体3:通过Llamalndex实现检索增强生成(RAG)

科技   2025-01-08 18:00   山西  

-推荐关注-

-正文-

通过一个具体的业务场景,使用Llamalndex的思路来实现检索增强生成(RAG),通过RAG查看商品的供应状况和销售趋势,同时对两家公司的业绩做出对比

  • 1. 业务需求
  • 2. 什么是RAG
  • 3. Agent+RAG
  • 4. 代码实现
    • 4.1 加载财报文件
    • 4.2 将财报文件的数据转换为向量数据
    • 4.3 构建查询引擎
    • 4.4 构建查询工具
    • 4.5 创建 ReAct Agent
    • 4.6 执行任务
  • 5.执行结果

-- 领取学习资料大礼包,见文末

智能体是一种能够感知环境、做出决策并采取行动的系统。这些系统能够执行被动的任务,也能够主动寻找解决问题的方法,适应环境的变化,并在没有人类直接干预的情况下做出决策。

我们现在通过使用Llamalndex来实现检索增强生成(RAG),结合ReAct Agent完成财报分析的功能

智能体见 : 一文说清楚什么是AI Agent(智能体)

1. 业务需求 

现在有一个生意很好的鲜花店

鲜花店的合作伙伴是东南亚的两家鲜花商品经销商(电商),它们均为上市公司。每个月需要对这两家公司的财务报表进行分析,目的是查看鲜花商品的供应状况和销售趋势,同时对这两家公司的业绩进行比较。

这个工作需要耗费团队的大量人力。有时需要外聘商业分析师来完成。

现在通过Llamalndex的RAGAgent组件来帮助我们做到这一点。

Llamalndex和LangChain框架同时具有 Conversational Agent(或称为Conversational Retrieval Agent)的概念。顾名思义,这种 Agent 就是具有检索功能的智能对话式 Agent。

这个概念结合了几个关键趋势 - RAG、聊天界面以及先进的Agent认知框架,以提供更优的用户对话体验。通过Llamalndex提供的 ReAct RAGAgent,用户可以很轻松地完成信息检索、内外部知识整合以及文本生成工作。

2. 什么是RAG 

RAG,即检索增强生成(Retrieval-Augmented Generation),是一种结合了信息检索(Retrieval)和文本生成(Generation)的人工智能技术。

RAG是生成式AI领域的重大进展,它通过整合外部知识源来增强传统的大语言模型 (LLM)。这种方法拓宽了人工智能的视野,使其能够访问和利用除初始训练数据之外的大量信息。可以将 RAG 想象为一位学者,除了拥有自己的知识外,还可以即时访问到一座全面的图书馆。

RAG的核心在于结合检索与生成两个步骤,利用检索结果来指导生成过程,从而提高模型的准确性和多样性。

RAG架构

RAG参考:本地知识库,通过RAG来解决信息的精准生成

微软公司在论文《RAG vs Fine-tuning: Pipelines, Tradeoffs, and a Case Study on Agriculture》中专门给出了在基于农业领域的一个应用案例中 RAG 与微调的评估结果

该论文指出,在这个农业问答案例研究中,回答的准确率方面,微调大于 RAG,但差异并不明显。准确率最高的应用方法是“RAG+微调”,但相应付出的成本也大得多。考虑到 RAG的应用成本较低,在成本有限的情况下,建议选择RAG作为该问答应用的解决方案。

论文:https://arxiv.org/abs/2401.08406

3. Agent+RAG 

Agent是一个能够自主操作和做出决策的系统。RAG当然可以作为Agent的技术架构的一个重要部分。

包含RAG功能的Agent可以更高效地处理用户的查询提供有用和准确的信息。

这类Agent通过检索(在知识库中搜索信息)和生成(利用大模型来生成回答)处理复杂的用户需求。它不仅能回答简单的问题,而且能处理复杂且更具探索性的查询。


4. 代码实现 

4.1 加载财报文件

SimpleDirectoryReader 是将数据从本地文件加载到 LlamaIndex 的最简单方法

默认情况下, SimpleDirectoryReader 会尝试读取它找到的任何文件,将它们全部视为文本。除了普通文本外,它还明确支持以下文件类型,这些文件类型是根据文件扩展名自动检测的:

  • .csv - 逗号分隔值
  • .docx - Microsoft Word
  • .epub - EPUB 电子书格式
  • .hwp - Hangul Word Processor
  • .ipynb - Jupyter Notebook
  • .jpeg, .jpg - JPEG 图片
  • .mbox - MBOX 电子邮件档案
  • .md - Markdown
  • .mp3, .mp4 - 音频和视频
  • .pdf - PDF文档格式
  • .png - Portable Network Graphics
  • .ppt, .pptm, .pptx - Microsoft PowerPoint

如果文件类型是 JSON,建议使用 JSON 加载器

import os

# OpenAI 环境变量
# 设置 OpenAI API 的基础 URL
os.environ['OPENAI_API_BASE'] = "https://api.openai-hk.com/v1"
# 设置 OpenAI API 密钥
os.environ['OpenAI_API_KEY'] = 'hk-iwtb1e427'

# 1.加载电商财报数据
from llama_index.core import SimpleDirectoryReader

# 读取 A 公司的财报数据
A_docs = SimpleDirectoryReader(
    input_files=["电商A-Third Quarter 2023 Results.pdf"]
).load_data()
# 读取 B 公司的财报数据
B_docs = SimpleDirectoryReader(
    input_files=["电商B-Third Quarter 2023 Results.pdf"]
).load_data()

4.2 将财报文件的数据转换为向量数据

向量存储是增强生成(RAG)中检索的关键组成部分,因此在使用 LlamaIndex 创建几乎每个应用时,您将直接或间接地使用它们。

使用向量存储的最简单方法是加载一组文档并使用 VectorStoreIndex.from_documents(documents) 构建索引

当你使用 from_documents 时,你的文档会被分割成块并解析成 Node 对象,这些对象是对文本字符串的轻量抽象,用于跟踪元数据和关系

默认情况下,VectorStoreIndex 将所有内容存储在内存中

# 2. 从文档中创建索引
from llama_index.core import VectorStoreIndex
from llama_index.core import Settings

# 创建自定义 OpenAI 客户端
from llama_index.llms.openai import OpenAI
llm = OpenAI(api_base=os.environ['OPENAI_API_BASE'])
# 将创建的 OpenAI 客户端设置为默认的大模型
Settings.llm = llm

# 为 A 公司的文档创建索引
A_index = VectorStoreIndex.from_documents(A_docs,show_progress=True)
# 为 B 公司的文档创建索引
B_index = VectorStoreIndex.from_documents(B_docs,show_progress=True)

4.3 构建查询引擎

我们为电商 A和电商 B各创建一个查询引擎,同时设置最高相似度返回的结果数目。这里设置 similarity top_k为 3,也就是抽取 3 个相似度最高的文本块。

查询引擎(Query engine)是一个通用接口,允许您对数据进行提问

查询引擎接受自然语言查询,并返回详细的回应。它可以基于一个或多个检索器构建的索引。可以组合多个查询引擎以实现更高级的能力

如果你想与数据进行对话(多次来回互动,而不是单一的问题和答案),可以使用聊天引擎(Chat Engine)

# 3. 创建查询引擎
# 为 A 公司的索引创建查询引擎
A_engine = A_index.as_query_engine(similarity_top_k=3)
# 为 B 公司的索引创建查询引擎
B_engine = B_index.as_query_engine(similarity_top_k=3)

4.4 构建查询工具

QueryEngine 工具封装现有的查询引擎,允许Agent对数据源执行复杂查询。这些工具与各种数据库和 API 集成,使Agent能够高效地检索和操作数据。

# 4. 配置查询工具
from llama_index.core.tools import QueryEngineTool
from llama_index.core.tools import ToolMetadata
# 创建查询引擎工具列表
query_engine_tools = [
    QueryEngineTool(
        query_engine=A_engine,
        metadata=ToolMetadata(
            name="A_Finance",
            description=(
                "用于提供A公司的财务信息 "
            ),
        ),
    ),
    QueryEngineTool(
        query_engine=B_engine,
        metadata=ToolMetadata(
            name="B_Finance",
            description=(
                "用于提供B公司的财务信息 "
            ),
        ),
    ),
]

4.5 创建 ReAct Agent

至此,一切准备工作就绪。查询引擎作为工具,大模型作为Agent的大脑,将它们分配给即将创建的 ReAct RAG Agent。

ReAct框架正是这个自我反思环节使用到的一个框架,用于指导大模型完成复杂任务的结构化思考和决策过程。

通过 ReAct 框架,Agent获得了动态决策能力。当遇到自己内部知识无法解决的问题时,Agent先搜索或调用工具,拓展自己的知识面。Agent还利用工具的灵活性,协调使用各种工具,在多个数据点之间进行切换,以获得最终的决策数据。Agent在执行每一步后会观察结果,并将新信息用于接下来的决策过程,这体现了Agent出色的学习能力与适应性。

从0到1开发AI Agent(智能体)(二)| 智能体推理引擎ReAct框架的快速入门
# 5.创建 ReAct Agent
from llama_index.core.agent import ReActAgent
# 使用查询工具和大模型创建 ReAct Agent
agent = ReActAgent.from_tools(query_engine_tools, llm=llm, verbose=True)

4.6 执行任务

这个 Agent 可以使用两种“工具”,分别用于查询电商 A 和电商 B 的财务信息。 其次,和 Agent聊天,让它帮助我们进行财务分析。

# 6. 让 Agent 完成任务
# 发送查询请求给 Agent
result = agent.chat("比较一下两个公司的销售额,用中文告诉我结果")
# 打印结果
print(result)

5.执行结果 

Agent输出:

根据提供的信息,B公司在2023年第三季度的销售额为人民币242,031百万元(折合美元33,173百万元),较2022年同期的人民币221,849百万元增长了9%。而A公司在2023年第三季度的销售额为33亿美元,较2022年同期的32亿美元增长了4.9%。通过比较,可以看出B公司的销售额增长率更高,因此B公司的经营状况在这方面更好。

执行过程


Llamalndex提供了一些出色的组件来实现RAG。这些组件可以作为构建基于Agent的应用的核心工具。一方面,Llamalndex中的某些组件具有“Agent式”自动化决策功能,以帮助特定用例来处理数据;另一方面,Llamalndex也可以作为另一个Agent 框架中的核心工具。





往日文章:

有需要的,在公众号「AI取经路」发消息「学习资料」即可获取。

--END--

点亮“赞”“在看”“分享”好友一起看


AI取经路
踏上取经路,比抵达灵山更重要! AI技术、 AI知识 、 AI应用 、 人工智能 、 大语言模型
 最新文章