书生大模型实战营L1：第四关：InternLM + LlamaIndex RAG 实践

科技 2024-11-22 00:06 山东

InternLM/Tutorial: LLM&VLM Tutorial 教程在这里

今天学习第四关，目标是用最小的代价，让大模型能运用一些私有的知识库回答问题。这也是非常经济实惠的方案，那就是RAG。

一、检索增强生成（Retrieval Augmented Generation，RAG）的概念

给模型注入新知识的方式，可以简单分为两种方式：

一种是内部的，即更新模型的权重，另一个就是外部的方式，给模型注入格外的上下文或者说外部信息，不改变它的的权重。第一种方式，改变了模型的权重即进行模型训练，这是一件代价比较大的事情，大语言模型具体的训练过程，可以参考InternLM2技术报告。

第二种方式，并不改变模型的权重，只是给模型引入格外的信息。类比人类编程的过程，第一种方式相当于你记住了某个函数的用法，第二种方式相当于你阅读函数文档然后短暂的记住了某个函数的用法。

RAG 能够让基础模型实现非参数知识更新，无需训练就可以掌握新领域的知识。本次课程选用了 LlamaIndex 框架。LlamaIndex 是一个上下文增强的 LLM 框架，旨在通过将其与特定上下文数据集集成，增强大型语言模型（LLMs）的能力。它允许您构建应用程序，既利用 LLMs 的优势，又融入您的私有或领域特定信息。

举个例子：由于xtuner是一款比较新的框架，浦语 API 训练数据库中并没有收录到它的相关信息。左图中问答均未给出准确的答案。右图未对浦语 API 进行任何增训的情况下，通过 RAG 技术实现的新增知识问答。

二、LlamaIndex+InternLM API 实践

这种方式直接调用API，在 Intern Studio 服务器上部署LlamaIndex。用免费的算力学习真是不错。

开发机申请好后进入

1.创建新的conda环境

conda create -n llamaindex python=3.10

查看conda环境

conda env list

运行 conda 命令，激活 llamaindex环境

conda activate llamaindex

安装python 依赖包

pip install einops==0.7.0 protobuf==5.26.1

2.2 安装 Llamaindex

安装 Llamaindex和相关的包

conda activate llamaindex

pip install llama-index==0.11.20

pip install llama-index-llms-replicate==0.3.0

pip install llama-index-llms-openai-like==0.2.0

pip install llama-index-embeddings-huggingface==0.3.1

pip install llama-index-embeddings-instructor==0.2.1

pip install torch==2.5.0 torchvision==0.20.0 torchaudio==2.5.0 --index-url https://download.pytorch.org/whl/cu121

好不容易依次装完了

2.3 下载 Sentence Transformer 模型

选用开源词向量模型 Sentence Transformer （也可以用其他模型）运行以下指令，新建名为download_hf.py的python文件

cd ~

mkdir llamaindex_demo

mkdir model

cd ~/llamaindex_demo

touch download_hf.py

打开download_hf.py 贴入以下代码

import os

#设置环境变量

os.environ['HF_ENDPOINT'] = 'https://hf-mirror.com'

#下载模型

os.system('huggingface-cli download --resume-download sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2 --local-dir /root/model/sentence-transformer')

然后，在 /root/llamaindex_demo 目录下执行该脚本即可自动开始下载：

cd /root/llamaindex_demo

conda activate llamaindex

python download_hf.py

更多关于镜像使用可以移步至 HF Mirror 查看。

推荐用户从modelscope下载

https://modelscope.cn/models/Ceceliachenen/paraphrase-multilingual-MiniLM-L12-v2/summary

git lfs install

git clone https://www.modelscope.cn/Ceceliachenen/paraphrase-multilingual-MiniLM-L12-v2.git

2.4 下载 NLTK 相关资源

在使用开源词向量模型构建开源词向量的时候，需要用到第三方库的一些资源。正常情况下，其会自动从互联网上下载，但可能由于网络原因会导致下载中断，此处我们可以从国内仓库镜像地址下载相关资源，保存到服务器上。我们用以下命令下载 nltk 资源并解压到服务器上：

cd /root

git clone https://gitee.com/yzy0612/nltk_data.git --branch gh-pages

cd nltk_data

mv packages/* ./

cd tokenizers

unzip punkt.zip

cd ../taggers

unzip averaged_perceptron_tagger.zip

之后使用时服务器即会自动使用已有资源，无需再次下载。

3. LlamaIndex RAG效果对比

3.1 不使用 LlamaIndex RAG（仅API）

我们从浦语官方 API：https://internlm.intern-ai.org.cn/api/document 申请API调用，拿到API KEY

创建一个测试用python文件

cd ~/llamaindex_demo

touch test_internlm.py

文件中填入内容：

from openai import OpenAIbase_url = "https://internlm-chat.intern-ai.org.cn/puyu/api/v1/"api_key = "此处填写自己的KEY"model="internlm2.5-latest"base_url = "https://api.siliconflow.cn/v1"api_key = "sk-请填写准确的 token！"    model="internlm/internlm2_5-7b-chat"client = OpenAI(api_key=api_key ,base_url=base_url,)chat_rsp = client.chat.completions.create(model=model,messages=[{"role": "user", "content": "xtuner是什么？"}],)for choice in chat_rsp.choices:print(choice.message.content)

然后运行python文件

conda activate llamaindex

cd ~/llamaindex_demo/

python test_internlm.py

回答结果是他不知道

显然，对于超过大模型能力范围的新知识，它也是无能为力

3.2 使用 API+LlamaIndex

现在尝试用LlamaIndex RAG方案。

运行以下命令，获取关于Xtuner的知识，其实就是从github上面把xtuner的中文readme文件当成知识库处理了。

cd ~/llamaindex_demo

mkdir data

cd data

git clone https://github.com/InternLM/xtuner.git

mv xtuner/README_zh-CN.md ./

运行以下指令，新建一个python文件

cd ~/llamaindex_demo

touch llamaindex_RAG.py

打开llamaindex_RAG.py贴入以下代码

import osos.environ['NLTK_DATA'] = '/root/nltk_data'from llama_index.core import VectorStoreIndex, SimpleDirectoryReaderfrom llama_index.core.settings import Settingsfrom llama_index.embeddings.huggingface import HuggingFaceEmbeddingfrom llama_index.legacy.callbacks import CallbackManagerfrom llama_index.llms.openai_like import OpenAILikeCreate an instance of CallbackManagercallback_manager = CallbackManager()api_base_url =  "https://internlm-chat.intern-ai.org.cn/puyu/api/v1/"model = "internlm2.5-latest"api_key = "填写自己的API Key"api_base_url =  "https://api.siliconflow.cn/v1"model = "internlm/internlm2_5-7b-chat"api_key = "请填写 API Key"llm =OpenAILike(model=model, api_base=api_base_url, api_key=api_key, is_chat_model=True,callback_manager=callback_manager)    #初始化一个HuggingFaceEmbedding对象，用于将文本转换为向量表示embed_model = HuggingFaceEmbedding(#指定了一个预训练的sentence-transformer模型的路径model_name="/root/model/sentence-transformer")#将创建的嵌入模型赋值给全局设置的embed_model属性，#这样在后续的索引构建过程中就会使用这个模型。Settings.embed_model = embed_model#初始化llmSettings.llm = llm#从指定目录读取所有文档，并加载数据到内存中documents = SimpleDirectoryReader("/root/llamaindex_demo/data").load_data()#创建一个VectorStoreIndex，并使用之前加载的文档来构建索引。此索引将文档转换为向量，并存储这些向量以便于快速检索。index = VectorStoreIndex.from_documents(documents)创建一个查询引擎，这个引擎可以接收查询并返回相关文档的响应。query_engine = index.as_query_engine()response = query_engine.query("xtuner是什么?")print(response)

大模型还真的学会了回答新问题！

4. LlamaIndex web

运行之前首先安装依赖

pip install streamlit==1.39.0

运行以下指令，新建一个python文件

cd ~/llamaindex_demo

touch app.py

打开app.py贴入以下代码

import streamlit as stfrom llama_index.core import VectorStoreIndex, SimpleDirectoryReader, Settingsfrom llama_index.embeddings.huggingface import HuggingFaceEmbeddingfrom llama_index.legacy.callbacks import CallbackManagerfrom llama_index.llms.openai_like import OpenAILike           # Create an instance of CallbackManagercallback_manager = CallbackManager()           api_base_url =  "https://internlm-chat.intern-ai.org.cn/puyu/api/v1/"model = "internlm2.5-latest"api_key = "填写你的API Key"           # api_base_url =  "https://api.siliconflow.cn/v1"    # model = "internlm/internlm2_5-7b-chat"# api_key = "请填写 API Key"           llm =OpenAILike(model=model, api_base=api_base_url, api_key=api_key, is_chat_model=True,callback_manager=callback_manager)st.set_page_config(page_title="llama_index_demo", page_icon="🦜🔗")st.title("llama_index_demo")           # 初始化模型@st.cache_resourcedef init_models():    embed_model = HuggingFaceEmbedding(        model_name="/root/model/sentence-transformer"    )    Settings.embed_model = embed_model               #用初始化llm    Settings.llm = llm               documents = SimpleDirectoryReader("/root/llamaindex_demo/data").load_data()    index = VectorStoreIndex.from_documents(documents)    query_engine = index.as_query_engine()               return query_engine           # 检查是否需要初始化模型if 'query_engine' not in st.session_state:    st.session_state['query_engine'] = init_models()           def greet2(question):    response = st.session_state['query_engine'].query(question)    return response                # Store LLM generated responsesif "messages" not in st.session_state.keys():    st.session_state.messages = [{"role": "assistant", "content": "你好，我是你的助手，有什么我可以帮助你的吗？"}]                   # Display or clear chat messagesfor message in st.session_state.messages:    with st.chat_message(message["role"]):        st.write(message["content"])           def clear_chat_history():    st.session_state.messages = [{"role": "assistant", "content": "你好，我是你的助手，有什么我可以帮助你的吗？"}]           st.sidebar.button('Clear Chat History', on_click=clear_chat_history)           # Function for generating LLaMA2 response    def generate_llama_index_response(prompt_input):    return greet2(prompt_input)           # User-provided promptif prompt := st.chat_input():    st.session_state.messages.append({"role": "user", "content": prompt})    with st.chat_message("user"):        st.write(prompt)           # Gegenerate_llama_index_response last message is not from assistantif st.session_state.messages[-1]["role"] != "assistant":    with st.chat_message("assistant"):        with st.spinner("Thinking..."):            response = generate_llama_index_response(prompt)            placeholder = st.empty()            placeholder.markdown(response)    message = {"role": "assistant", "content": response}    st.session_state.messages.append(message)

运行

streamlit run app.py

这里得设置好端口映射，我vscode连开发机，自动转发

访问http://localhost:8501，等待一会就出现这个界面了，可以，他真的学会了

再下面我们尝试一下，教教大模型一点自己的知识吧。

还是先运行test_internlm.py,把问大模型的问题改成专业一点的

大模型给的回答是这样的，这属于看起来挺专业的，实际答非所问

现在就用RAG大法试一试。我把现有电子数据取证标准的列表放到data2文件夹下，修改一下llamaindex_RAG.py文件，继续问他同样的问题，他能找到一个答案了

毕竟我只给他一个名字列表，取证标准的内容我还没列上呢，这个完全可以做个不错的向导了，除了速度属实有点慢啊。看来知识库的质量是决定性的。

我又给他提供了公安部发布的电子数据取证规则，效果还真是不错啊，值得探索。晚安了。

l扫二维码报名一起学吧

网安杂谈

关注电子数据取证与网络犯罪调查

最新文章

会议预告 | 第四届数字取证与分析技术研讨会（DFA 2025）

寒冬里，请大家一起守护网络安全的光

书生大模型实战营L1：第五关：用XTuner 微调一个“网安杂谈小助手”

书生大模型实战营L1：第六关：使用OpenCompass 评测大模型

书生大模型实战营L1：第四关：InternLM + LlamaIndex RAG 实践

Kubernetes（K8S）集群服务器取证详解

书生大模型实战营L1：第三关：浦语提示词工程实践

L1：第二关：玩转书生「多模态对话」和「AI搜索」产品

《虚拟币硬件钱包使用攻略及实战指南》，信息获取、资产固定...一册搞定！（限量200份）

书生大模型训练营L1-第1关.书生大模型全链路开源体系

从攻防对抗看白环境：如何提前布局安全防线？

书生大模型实战营闯关第四关玩转Hugging Face

书生大模型实战营闯关第二关：Python 基础知识

书生大模型实战营闯关第三关：Git基础知识

书生大模型实战营闯关第一关：Linux 基础知识

【转】穿透虚拟币犯罪迷雾丨资金研判分析高级班报名倒计时！

【赠书2本】APP安全实战指南：Android/iosApp安全攻防与合规

【仅限20个名额】传统资金&虚拟币案件技术支持开放免费咨询通道！

【工具】介绍一款数据在线提取利器：小C浏览器

蓄能作战力！成都链安“战法训练营”开课啦！

【2025合作伙伴巡礼】文达电子：专注加密领域的安全态势感知

【2025合作伙伴巡礼】中锐电子—数智配侦解决方案提供商

【2025合作伙伴巡礼】中科链源：业内首家“资金&虚拟币”全链条犯罪数智查控平台

【2025合作伙伴巡礼】歆仁信息科技：让数据说话，揭开案件背后的秘密！

【2025合作伙伴巡礼】中科链安：如何精准打击涉虚拟币新型犯罪？点击查看解决方案

【2025合作伙伴巡礼】（内含赠书）成都链安：开启虚拟币案件打击新纪元，链必追战法版革新上线

【2025合作伙伴巡礼】专刊抢先锁定！美亚柏科：取证行业龙头，重磅产品一览

【2025合作伙伴巡礼】无糖信息："大狗"涉网案件线索分析研判工具介绍

【2025合作伙伴巡礼】拓界科技—具备侦察思维的综合电子数据取证厂商

【2025合作伙伴巡礼】好礼相赠！平航科技-深耕电子数据取证与侦查

【2025合作伙伴巡礼】弘连网络—互联网取证专家，与您共筑网络安全防线！

【致谢】《电子数据取证与网络犯罪调查》专刊（第七辑）合作伙伴名录一

【致谢】《电子数据取证与网络犯罪调查》专刊（第七辑）合作伙伴名录二

网络黑灰产物料供应之公民个人信息

“链上调查分析师”实战培训硬核开班！少量席位余留，报名从速！

【赠书两本】《2024网络犯罪趋势研究报告》及Telegram情报分析工具介绍

当520遇到小满《电子数据取证与网络犯罪调查》专刊（第七辑）启动！

【直播预热】一线智慧民警手把手教你创造实战资金分析机器人，百倍提升研判效率！

转【直播预约】揭秘公安部经侦“十大战役”：大咖直击158亿特大地下钱庄案

【抽奖赠书2本】渗透测试宝典《内网安全攻防：红队之路》

[赠书两本]取证人员进阶必读《ARM汇编与逆向工程　蓝狐卷基础知识》

重磅！成都链安2023全球虚拟货币犯罪态势与打击研究报告发布

实战丨虚拟币案件打击无从下手？独家《警囊妙计》纸质版免费送！

【赠书2本】《X-SDP：零信任新纪元》钓鱼攻击为什么这么难防范？让零信任给出答案

关于专刊文章《基于Trim机制的固态硬盘数据恢复取证技术研究》作者调整的声明

【福利赠书2本】安全高手养成宝典《内网渗透实战攻略》

第六辑专刊抽奖赠礼|110警察节致敬每一位平凡中不凡的你

感谢2024合作伙伴 | 坚持公益知识分享，共建取证技术生态

你好，警察节丨@100位幸运粉，点进来赢好礼-《电子数据取证与网络犯罪调查》专刊第六辑等你来领！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉