制作个人的第一个RAG demo！

科技 2024-12-18 16:55 浙江

检索增强生成（Retrieval-Augmented Generation, RAG）是一种结合了信息检索和大模型（LLM）的技术，用于构建更强大和准确的问答或生成系统。RAG通过将大模型与外部知识库相结合，可以动态检索相关信息并利用生成模型对查询进行更准确的回答。

RAG在对抗大模型幻觉、高效管理用户本地文件以及数据安全保护等方面具有独到的优势，因而目前基于大模型应用专门做RAG赛道的企业不在少数。

构建一个RAG的核心流程包括索引（indexing）和检索生成（Retrieval and generation）两大块。索引部分主要是数据工程，涉及到各类文档数据的导入（load）、解析（extract）、分割（split）、嵌入（embed）和存储（store）等，检索生成部分主要是基于大模型对用户查询进行检索和生成最终回复。RAG流程如图1所示。

图1 RAG流程

随着大模型几轮浪潮下来，RAG技术本身也经历了多个版本的迭代，主要包括原始RAG版本（Naive RAG）、高级RAG（Advanced RAG）和模块化RAG（Modular RAG）。高级RAG在原始RAG基础上添加了预检索（pre-retrieval）和后检索（post-retrieval）部分，而模块化RAG则是通过模块化设计，可以更容易地集成不同类型的检索器、生成器、知识源、以及融合机制，从而实现更高的灵活性和性能。三种不同的RAG如图2所示。

图2 三种RAG

RAG虽然实现逻辑简单，但从工程上来看却是一个非常的系统性工程。在生产环境下，想要实现一套稳定、可靠、精准的RAG系统是一件难度非常大的任务。但从学习者的角度来看，我们可以基于成熟的大模型应用模块快速搭建一个RAG demo。本文笔者以LangChain框架为例，快速搭建一个基于甲状腺癌的医疗RAG demo。

模型方面，笔者直接使用OpenAI的gpt-4o-mini，文本嵌入模型用的是text-embedding-3-large，向量数据库用的是In-Memory，当然也可以用Milvus、FAISS、chroma等向量数据库。

第一步，先做一些预备工作，指定好LLM、嵌入模型和向量数据库。

### setup chatmodelfrom langchain_openai import ChatOpenAIos.environ["OPENAI_API_KEY"] = "你的GPT api"llm = ChatOpenAI(model="gpt-4o-mini")
# setup embedding modelfrom langchain_openai import OpenAIEmbeddingsembeddings = OpenAIEmbeddings(model="text-embedding-3-large")
# setup vector storefrom langchain_core.vectorstores import InMemoryVectorStorevector_store = InMemoryVectorStore(embeddings)

第二步，准备好外部文档并导入。笔者准备的是2022年版本的甲状腺癌诊疗规范文件，该规范文件是甲状腺癌和甲状腺结节的诊疗指南。

然后我们通过LangChain的PyPDFLoader导入该PDF文件，并进行分块（chunks）、嵌入和存储到向量库。

from langchain.document_loaders import PyPDFLoaderfrom langchain.text_splitter import RecursiveCharacterTextSplitter
# 加载PDF文件 loader = PyPDFLoader("thyroid_cancer.pdf" )# 提取所有文本documents = loader.load()  
# 使用RecursiveCharacterTextSplitter进行分块text_splitter = RecursiveCharacterTextSplitter(    chunk_size=500,  # 每个chunk的最大字符数    chunk_overlap=50  # chunk之间的重叠字符数)
# 分割后的文本chunkschunks = text_splitter.split_documents(documents)
# 查看分割结果for i, chunk in enumerate(chunks[:3]):  # 仅展示前3个chunk    print(f"Chunk {i+1}:\n{chunk.page_content}\n")
# Index chunks_ = vector_store.add_documents(documents=chunks)

上述部分就是RAG构建流程中的Indexing部分。然后我们再来构建检索和生成模块。

from langchain import hubfrom typing_extensions import List, TypedDictfrom langchain_core.documents import Document
# 使用LangChain prompt hub的prompt范式prompt = hub.pull("rlm/rag-prompt")
# 为RAG应用定义stateclass State(TypedDict):    question: str    context: List[Document]    answer: str
# 定义检索过程def retrieve(state: State):    # 基于语义相似性搜索    retrieved_docs = vector_store.similarity_search(state["question"])    return {"context": retrieved_docs}
# 定义生成过程def generate(state: State):    docs_content = "\n\n".join(doc.page_content for doc in state["context"])    messages = prompt.invoke({"question": state["question"], "context": docs_content})    response = llm.invoke(messages)    return {"answer": response.content}

最后使用LangGraph将检索和生成步骤整合到一个应用程序中。

from langgraph.graph import START, StateGraph# Compile application and testgraph_builder = StateGraph(State).add_sequence([retrieve, generate])graph_builder.add_edge(START, "retrieve")graph = graph_builder.compile()

这样，一个简单的RAG demo应用就搭建好了。我们来测试一下效果：

response = graph.invoke({"question": "甲状腺癌体征有哪些？"})print(response["answer"])

最后，我们在LangSmith上也可以追踪每一个查询的实际运行情况：

文本完结。

参考资料：

1. https://python.langchain.com/docs/tutorials/rag/

2. Gao Y, Xiong Y, Gao X, et al. Retrieval-augmented generation for large language models: A survey[J]. arXiv preprint arXiv:2312.10997, 2023.

3. 甲状腺癌诊疗指南（2022版）

深度学习图像分割，我准备了103篇SOTA论文合集

机器学习实验室

专注于机器学习和深度学习技术与实践。

最新文章

245个目标检测开源项目合集，建议收藏！

制作个人的第一个RAG demo！

谷歌版Sora发布：最大对手竟是「可灵」，OpenAI反而最拉胯

NeurIPS 2024 | Ilya重磅演讲：预训练将结束，接下来是超级智能「自我意识」

多模态融合，顶会超神了！

今夜凌晨，OpenAI Sora炸裂登场！网页版已经挤爆

LSTM卷土重来！xLSTM和Vision-LSTM共同引领文艺复兴

“让AI不再难学"，知名UP主梗直哥的《破解深度学习》来了！

全球五大巨头GPU总量曝光！谷歌第一微软第二！

245个目标检测开源项目合集，建议收藏！

《深度学习图像分割》第4章：基于编解码结构的分割网络

RAG还是微调，怎么选？

吴恩达：每个AI从业者都应该关注Agent！

Flux已成当下最火热的文生图模型？

计算机视觉顶尖期刊和会议有哪些？

被导师放养，后果可能很严重。。。

两张3090复现SearchGPT！

啥工作量？！60天就卷出一篇CCF-A顶会...

AlphaFold3重磅开源，诺奖级AI颠覆世界！GitHub斩获1.8k星，本地即可部署

《深度学习图像分割》第3章：图像分割关键技术组件

涨点神器！100个即插即用缝合模块【合集下载】

导师一个idea都没有，怎么发CCF-A？

《深度学习图像分割》第2章：传统图像分割算法

ChatGPT变身AI搜索引擎免费用！

大模型可解释性怎么搞？(附代码)

新扩散模型OmniGen一统图像生成！

国内首本大模型推荐系统著作来了！

只要敢捞“偏门”，篇篇都是顶会顶刊！

245个目标检测开源项目合集，建议收藏！

NeurIPS'24大模型LoRA超级变体！仅需参数0.4%达微调效率巅峰！

Windows用户也能使用桌面版ChatGPT了！

发论文别太老实，用对方法篇篇都是顶会顶刊！！！

OpenAI王炸来了！强化学习也有scaling law？

预告 | 《深度学习图像分割》将在GitHub逐步内容开源！

算法岗和开发岗有什么区别？

算法岗就业，Kaggle金牌和CCF-A一作哪个更有用？

82个即插即用的深度学习缝合模块！

Llama 3.2 来了！支持图像推理，还有可在手机上运行的版本

张俊林详细拆解o1：OpenAI o1完整训练过程逆向推演

对标Claude Artifacts！OpenAI canvas一夜封神！

首个Mamba+Transformer混合架构多模态大模型来了！

在深度学习中，是否应该打破正负样本1:1的迷信？

首个工业级异常检测的大模型AnomalyGPT！AAAI 2024已开源！

Claude工程师聊prompt：不要把模型当小孩子、不需要角色扮演、实话实说

张俊林：OpenAI o1的价值意义及强化学习的Scaling Law

ECCV'24最强多模态检测器！详解Grounding DINO：创新架构、训练代码！

Sora年内发布无望？视频生成还有戏吗？

KAN 2.0来了！会是AI+Science的答案吗？

基于YOLO v8融合CLIP！CVPR 2024多模态检测神器！

GPT-4结合SAM 2：免训练多模态分割的全新解决方案！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉