大模型之RAG：关键字检索的认识与实战（混合检索进阶储备）

科技 2024-11-08 17:33 上海

点击蓝字，立即关注

前言

按照我们之前的分享《大模型之RAG：如何做好文档切分，长上下文是否替代了RAG？》

RAG系统搭建的基本流程：

准备对应的垂域资料；
文档的读取解析，进行文档切分；
将分割好的文本灌入检索引擎（向量数据库）；
封装检索接口；
构建流程：Query -> 检索 -> Prompt -> LLM -> 回复。

今天我们分享一个实现的场景：基于ES实现的关键字检索，

为什么还要了解关键字检索？

看到本文，可能有的jy会问，现在不都是在讲基于向量数据库的向量检索么，还需要专门再学习关键字检索么。

随着RAG的发展，单纯的关键字检索或者向量检索都很难满足我们面临的复杂场景，了解关键字检索是为了后面更好的去了解混合检索，以及为什么会出现混合检索。

关键字检索的概念

关键字检索是通过匹配查询中的关键字与文档中的关键字来进行检索的。当用户输入一个查询时，系统会在文档集合中查找包含这些关键字的文档，并将它们返回给用户。

传统的一种检索方式，RAG所使用的外挂数据库不只是狭义的数据库，搜索引擎也可以成为真实数据的一种来源，对于部分数据，使用关键词检索会高效快速得多。

关键字检索可能会受到一些问题的影响，例如同义词、拼写错误等，这可能会导致一些相关的文档被漏掉或者一些不相关的文档被检索到。

搭建一个简单关键字检索

安装必要环境

# 安装ES客户端!pip install elasticsearch7
# 安装 NLTK（文本处理方法库）!pip install nltk

文本的处理

这里要注意，针对英文文本和中文文本的处理方法是不一样的。

针对英文文本的处理实现

from elasticsearch7 import Elasticsearch, helpersfrom nltk.stem import PorterStemmerfrom nltk.tokenize import word_tokenizefrom nltk.corpus import stopwordsimport nltkimport re
import warnings# 屏蔽 ES 的一些Warningswarnings.simplefilter("ignore")  
# 英文切词、词根、切句等方法nltk.download('punkt')  # 英文停用词库nltk.download('stopwords')  
def to_keywords(input_string):    '''（英文）文本只保留关键字'''    # 使用正则表达式替换所有非字母数字的字符为空格    no_symbols = re.sub(r'[^a-zA-Z0-9\s]', ' ', input_string)    word_tokens = word_tokenize(no_symbols)    # 加载停用词表    stop_words = set(stopwords.words('english'))    ps = PorterStemmer()    # 去停用词，取词根    filtered_sentence = [ps.stem(w)                         for w in word_tokens if not w.lower() in stop_words]    return ' '.join(filtered_sentence)

针对中文文本的处理实现

import reimport jiebaimport nltkfrom nltk.corpus import stopwords
nltk.download('stopwords')  
def to_keywords(input_string):    """将句子转成检索关键词序列"""    # 按搜索引擎模式分词    word_tokens = jieba.cut_for_search(input_string)    # 加载停用词表    stop_words = set(stopwords.words('chinese'))    # 去除停用词    filtered_sentence = [w for w in word_tokens if not w in stop_words]    return ' '.join(filtered_sentence)
def sent_tokenize(input_string):    """按标点断句"""    # 按标点切分    sentences = re.split(r'(?<=[。！？；?!])', input_string)    # 去掉空字符串    return [sentence for sentence in sentences if sentence.strip()]

将文本灌入检索引擎

import os, time
# 引入配置文件ELASTICSEARCH_BASE_URL = os.getenv('ELASTICSEARCH_BASE_URL')ELASTICSEARCH_PASSWORD = os.getenv('ELASTICSEARCH_PASSWORD')ELASTICSEARCH_NAME= os.getenv('ELASTICSEARCH_NAME')
# tips: 如果想在本地运行，请在下面一行 print(ELASTICSEARCH_BASE_URL) 获取真实的配置
# 1. 创建Elasticsearch连接es = Elasticsearch(    hosts=[ELASTICSEARCH_BASE_URL],  # 服务地址与端口    http_auth=(ELASTICSEARCH_NAME, ELASTICSEARCH_PASSWORD),  # 用户名，密码)
# 2. 定义索引名称index_name = "teacher_demo_index"
# 3. 如果索引已存在，删除它（仅供演示，实际应用时不需要这步）if es.indices.exists(index=index_name):    es.indices.delete(index=index_name)
# 4. 创建索引es.indices.create(index=index_name)
# 5. 灌库指令actions = [    {        "_index": index_name,        "_source": {            "keywords": to_keywords(para),            "text": para        }    }    for para in paragraphs]
# 6. 文本灌库helpers.bulk(es, actions)
# 灌库是异步的time.sleep(2)

实现关键字检索

def search(query_string, top_n=3):    # ES 的查询语言    search_query = {        "match": {            "keywords": to_keywords(query_string)        }    }    res = es.search(index=index_name, query=search_query, size=top_n)    return [hit["_source"]["text"] for hit in res["hits"]["hits"]]    results = search("how many parameters does llama 2 have?", 2)for r in results:    print(r+"\n")

LLM 接口封装

from openai import OpenAIimport os# 加载环境变量from dotenv import load_dotenv, find_dotenv_ = load_dotenv(find_dotenv())  # 读取本地 .env 文件，里面定义了 OPENAI_API_KEY
client = OpenAI()
def get_completion(prompt, model="gpt-3.5-turbo"):    '''封装 openai 接口'''    messages = [{"role": "user", "content": prompt}]    response = client.chat.completions.create(        model=model,        messages=messages,        temperature=0,  # 模型输出的随机性，0 表示随机性最小    )    return response.choices[0].message.content

Prompt 模板

def build_prompt(prompt_template, **kwargs):    '''将 Prompt 模板赋值'''    inputs = {}    for k, v in kwargs.items():        if isinstance(v, list) and all(isinstance(elem, str) for elem in v):            val = '\n\n'.join(v)        else:            val = v        inputs[k] = val    return prompt_template.format(**inputs)

prompt_template = """你是一个问答机器人。你的任务是根据下述给定的已知信息回答用户问题。
已知信息:{context}
用户问：{query}
如果已知信息不包含用户问题的答案，或者已知信息不足以回答用户的问题，请直接回复"我无法回答您的问题"。请不要输出已知信息中不包含的信息或答案。请用中文回答用户问题。"""

一个简单的RAG Pipeline就产生了

什么是Pipeline

首先，RAG不是一个单项技术，它是一个流水线，行话叫pipeline。只有对流水线上的每一步骤都进行精细打磨，最后才能出来效果，我们的目标就是努力使每个环节都达到尽可能准确。

让我们根据RAG的搭建基本流程来看这个demo

user_query = "how many parameters does llama 2 have?"
# 1. 检索search_results = search(user_query, 2)
# 2. 构建 Promptprompt = build_prompt(prompt_template, context=search_results, query=user_query)print("===Prompt===")print(prompt)
# 3. 调用 LLMresponse = get_completion(prompt)
print("===回复===")print(response)

再看下效果

===Prompt===
你是一个问答机器人。你的任务是根据下述给定的已知信息回答用户问题。
已知信息: 1. Llama 2, an updated version of Llama 1, trained on a new mix of publicly available data. We also increased the size of the pretraining corpus by 40%, doubled the context length of the model, and adopted grouped-query attention (Ainslie et al., 2023). We are releasing variants of Llama 2 with 7B, 13B, and 70B parameters. We have also trained 34B variants, which we report on in this paper but are not releasing.§
 In this work, we develop and release Llama 2, a collection of pretrained and ﬁne-tuned large language models (LLMs) ranging in scale from 7 billion to 70 billion parameters. Our ﬁne-tuned LLMs, called Llama 2-Chat, are optimized for dialogue use cases. Our models outperform open-source chat models on most benchmarks we tested, and based onour human evaluations for helpfulness and safety, may be a suitable substitute for closed source models. We provide a detailed description of our approach to ﬁne-tuning and safety improvements of Llama 2-Chat in order to enable the community to build on our work and contribute to the responsible development of LLMs.
用户问：how many parameters does llama 2 have?
如果已知信息不包含用户问题的答案，或者已知信息不足以回答用户的问题，请直接回复"我无法回答您的问题"。请不要输出已知信息中不包含的信息或答案。请用中文回答用户问题。
===回复===Llama 2有7B, 13B和70B参数。

总结

本文我们对关键字检索做了讲解以及从实战的角度做了讲解。

首先我们应该认识到RAG的核心在于外部知识库，这个外部知识库甚至可以是基于关系型数据库的sql查询。

而本文基于ES的关键字检索也是一个比较传统和基础的检索方式，他比较简单，也有它适用的场景。

关键字检索的局限性最关键的就在于：关键字检索可能会受到一些问题的影响，例如同义词、拼写错误等，这可能会导致一些相关的文档被漏掉或者一些不相关的文档被检索到。

关键字检索通常在简单的检索场景下使用，例如在搜索引擎中用户输入关键字进行网页检索。

这样我们就引出了向量检索，在下一篇文章中我们再进行分享。

最后，随着RAG的发展，单纯的关键字检索或者向量检索都很难满足我们面临的复杂场景，了解关键字检索是为了后面更好的了解混合检索。

END

链接：https://juejin.cn/post/7387316089160073257

本文为51Testing经授权转载，转载文章所包含的文字来源于作者。如因内容或版权等问题，请联系51Testing进行删除

点点赞

点分享

点在看

http://mp.weixin.qq.com/s?__biz=MjM5NTU0MDg0MA==&mid=2651323460&idx=2&sn=ef2f47fd9b8bbc85341bad28c49a0b84

51Testing软件测试网

博为峰20周年，青春正当燃，一起向未来！博为峰51Testing软件测试网提供各种线上招聘、线上课程等网络服务，出版软件测试系列丛书及电子杂志，组织线上技术交流活动；同时还举办多种线下公益活动，如软件测试沙龙、软件测试专场招聘会等。

最新文章

【小米招聘专场】月薪最高60K*14薪，雷军喊你速投简历！

开启RAG进阶：混合检索（关键字&向量）+重排序（原理讲解与示例体验）

从菜鸟到月薪2W+的测试经理，分享我10年的职业规划路线…

网红博主“羊毛月”嘲讽00后找不到工作，软件测试行业躺枪？

车载激光雷达的特点——【新书连载2】智能驾驶之激光雷达算法详解

用例自动化！测试人应对需求频繁变化的5大策略！

MobSF移动安全扫描平台本地化部署「本地部署方案」

书写简历的难点总结（内附获奖名单）

淘宝为什么能抗住90秒100亿？软件测试工程师必看！（二）

测试江湖：聊聊职场情绪管理

这7个最强Appium替代工具，移动应用自动化测试必备！

MobSF移动安全扫描平台本地化部署「docker方案」

埋点数据对不对？5步轻松搞定埋点测试！

产品需求交付质量保证的“七重门”

“初识激光雷达”——【新书连载1】智能驾驶之激光雷达算法详解

【腾讯招聘专场】月薪最高60K*16薪，新一轮扩张开始！

大模型之RAG：基于向量检索的理论与实战，对比关键字检索方案

“我，95后，毕业七年换了3份软件测试工作”，工资翻倍了……

揭秘游戏测试：《黑神话：悟空》如何成为现象级大作

学会这些，扔掉测试人常背的3口“锅”！

从5.6秒到1秒！Nginx性能调优实战之1秒内响应千并发！

Faker：自动化测试数据生成利器

团队和个人选择缺陷管理工具的4点区别（内附获奖名单）

淘宝为什么能抗住90秒100亿？软件测试工程师必看！

测试江湖：从阿里P8大牛征婚聊起

测试人面试的底层逻辑：10条潜规则让你脱颖而出！

Java中的负载测试：从单元测试到集成测试的完整覆盖策略

网络性能测试神器：iperf3工具全攻略

【AI大模型】在健康睡眠监测中的深度融合与实践案例

Python自动化操作：简单、有趣、高效！解放你的工作流程！

【小鹏汽车招聘专场】月薪13~50K，抢抓AI汽车新风口！

从 ROI 出发探究自动化测试

初入测试界，3年后薪资翻倍：聊聊我的测试进阶历程，值得借鉴

解锁AI测试新技能：模型算法测试之模糊测试

测试人世纪难题：如何写“好”测试用例？

比Locust好用！推荐一款高并发场景下的稳定性压测利器

深度解析：李彦宏“不要卷模型，要卷应用”

选择无代码测试工具时必须要考虑的7点因素（内附获奖名单）

压箱底神器：9个你必会的测试效率提升工具！

测试江湖：为什么大多数人宁愿吃生活的苦，也不愿意吃学习的苦

这7款主流的测试缺陷管理工具，你必须知道！

大模型之RAG：关键字检索的认识与实战（混合检索进阶储备）

快速指南 | 如何搭建一个高效的UI自动化测试平台

打造专属手机助手：用 PyQt6 玩转 ADB

14年测试人最近的面试经历，值得借鉴√

【华为招聘专场】月薪最高60K*18薪，7大热门城市招人！

Web 页面性能衡量指标-以用户为中心的效果指标（下）

迷茫了3年：做完这个测试项目，我终于决定辞职！

数据正确性测试全攻略：核心方法与实例剖析

自动化横行的今天，手工测试如何杀出一条血路？

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉