大模型之RAG：基于向量检索的理论与实战，对比关键字检索方案

科技 2024-11-20 12:01 上海

点击蓝字，立即关注

前言

RAG系列的讲解，我们之前和大家分享了RAG的流程、文档切分、基于关键字检索的方案。

在关键字检索的认识与实战一文中，我们讲到了基于关键字检索的局限性：关键字检索可能会受到一些问题的影响，例如同义词、拼写错误等，这可能会导致一些相关的文档被漏掉或者一些不相关的文档被检索到。

今天再来和大家一起分享基于向量检索的方案与实战，再结合关键字检索方案做一下多维度的对比。

让我们对RAG的实现方案能够加深一些理解，在面对不同场景中，选择合适的方案。

向量检索的定义与原理

什么是向量

向量是一种有大小和方向的数学对象。它可以表示为从一个点到另一个点的有向线段。例如，二维空间中的向量可以表示为 (𝑥,𝑦)(𝑥,𝑦)，表示从原点 (0,0)(0,0) 到点 (𝑥,𝑦)(𝑥,𝑦) 的有向线段。

以此类推，我可以用一组坐标 (𝑥0,𝑥1,…,𝑥𝑁−1)(𝑥0,𝑥1,…,𝑥𝑁−1) 表示一个 𝑁𝑁 维空间中的向量，𝑁𝑁 叫向量的维度。

文本向量（Text Embeddings）

将文本转成一组 𝑁𝑁 维浮点数，即文本向量又叫 Embeddings
向量之间可以计算距离，距离远近对应语义相似度大小

文本向量是怎么得到的

构建相关（正立）与不相关（负例）的句子对儿样本；
训练双塔式模型，让正例间的距离小，负例间的距离大；

向量间的相似度计算

我们用检索关键词和一组文本的样例来看下效果

余弦距离和欧氏距离的核心逻辑

def cos_sim(a, b):    '''余弦距离 -- 越大越相似'''    return dot(a, b)/(norm(a)*norm(b))

def l2(a, b):    '''欧氏距离 -- 越小越相似'''    x = np.asarray(a)-np.asarray(b)    return norm(x)    def get_embeddings(texts, model="text-embedding-ada-002", dimensions=None):    '''封装 OpenAI 的 Embedding 模型接口'''    if model == "text-embedding-ada-002":        dimensions = None    if dimensions:        data = client.embeddings.create(            input=texts, model=model, dimensions=dimensions).data    else:        data = client.embeddings.create(input=texts, model=model).data    return [x.embedding for x in data]    # query = "国际争端"
# 且能支持跨语言query = "global conflicts"
documents = [    "联合国就苏丹达尔富尔地区大规模暴力事件发出警告",    "土耳其、芬兰、瑞典与北约代表将继续就瑞典“入约”问题进行谈判",    "日本岐阜市陆上自卫队射击场内发生枪击事件 3人受伤",    "国家游泳中心（水立方）：恢复游泳、嬉水乐园等水上项目运营",    "我国首次在空间站开展舱外辐射生物学暴露实验",]

执行并输出结果

query_vec = get_embeddings([query])[0]doc_vecs = get_embeddings(documents)
print("Query与自己的余弦距离: {:.2f}".format(cos_sim(query_vec, query_vec)))print("Query与Documents的余弦距离:")for vec in doc_vecs:    print(cos_sim(query_vec, vec))
print()
print("Query与自己的欧氏距离: {:.2f}".format(l2(query_vec, query_vec)))print("Query与Documents的欧氏距离:")for vec in doc_vecs:    print(l2(query_vec, vec))

我们来看下执行的效果：

Query与自己的余弦距离: 1.00Query与Documents的余弦距离:0.7622749944010915（越大越相似）0.75630381064935840.74266658025790380.70792736996080060.7254355321045072
Query与自己的欧氏距离: 0.00Query与Documents的欧氏距离:0.6895288502682277（越小越相似）0.69813496379987690.71740287464922770.76429398336368290.7410323668625171

向量数据库

向量数据库（Vector Database），也叫矢量数据库，主要用来存储和处理向量数据。

再结合刚才我们对向量定义的描述，图像、文本和音视频这种非结构化数据都可以通过某种变换或者嵌入学习转化为向量数据存储到向量数据库中，从而实现对图像、文本和音视频的相似性搜索和检索。

这意味着您可以使用向量数据库根据语义或上下文含义查找最相似或相关的数据，而不是使用基于精确匹配或预定义标准查询数据库的传统方法。也就是我们提到的关键字检索的局限性。

向量数据库的特点

这里我们为了方便使用向量数据库完成向量检索的方案，简单介绍下向量数据库的特点：

向量数据库的主要特点是高效存储与检索。利用索引技术和向量检索算法能实现高维大数据下的快速响应。

向量数据库也是一种数据库，除了要管理向量数据外，还是支持对传统结构化数据的管理。实际使用时，有很多场景会同时对向量字段和结构化字段进行过滤检索，这对向量数据库来说也是一种挑战。

严格来说数据向量化本不属于向量数据库，但是数据向量化又是一项很重要的工作，为了流程的完整性暂且放进去。

区别与传统数据库主要有以下几个地方不相同：数据向量化，向量检索和相似度计算。

chromadb的简单介绍

之所以介绍一下chromadb，下面我们的实战demo就是基于chromadb来实现。

Chroma的目标是帮助用户更加便捷地构建大模型应用，更加轻松的将知识（knowledge）、事实（facts）和技能（skills）等我们现实世界中的文档整合进大模型中。

Chroma提供的工具：

存储文档数据和它们的元数据：store embeddings and their metadata
嵌入：embed documents and queries
搜索：search embeddings

流向量数据库功能对比

由于大模型的火热，现在市面上的向量数据库众多，主流的向量数据库对比如下所示：

一个基于文档向量检索的RAG实战例子

我们再回顾RAG的基本流程，对照如下例子，大家就可以更好理解了。

RAG系统搭建的基本流程

准备对应的垂域资料
文档的读取解析，进行文档切分
将分割好的文本灌入检索引擎（向量数据库）
封装检索接口
构建流程：Query -> 检索 -> Prompt -> LLM -> 回复
文档加载

def extract_text_from_pdf(filename,page_numbers=None,min_line_length=10):    """从 PDF 文件中（按指定页码）提取文字"""    paragraphs = []    buffer = ''    full_text = ''    # 提取全部文本    for i, page_layout in enumerate(extract_pages(filename)):        # 如果指定了页码范围，跳过范围外的页        if page_numbers is not None and i not in page_numbers:            continue        for element in page_layout:            if isinstance(element, LTTextContainer):                full_text += element.get_text() + '\n'    # 按空行分隔，将文本重新组织成段落    lines = full_text.split('\n')    for text in lines:        if len(text) >= min_line_length:            buffer += (' '+text) if not text.endswith('-') else text.strip('-')        elif buffer:            paragraphs.append(buffer)            buffer = ''    if buffer:        paragraphs.append(buffer)    return paragraphs

文档切割（交叠切割防止问题的答案跨两个片段，使上下文更完整）

def split_text(paragraphs,chunk_size=300,overlap_size=100):    """按指定 chunk_size 和 overlap_size 交叠割文本"""    sentences = [s.strip() for p in paragraphs for s in sent_tokenize(p)]    chunks = []    i= 0    while i < len(sentences):        chunk = sentences[i]        overlap = ''        prev_len = 0        prev = i - 1        # 向前计算重叠部分        while prev >= 0 and len(sentences[prev])+len(overlap) <= overlap_size:            overlap = sentences[prev] + ' ' + overlap            prev -= 1        chunk = overlap+chunk        next = i + 1        # 向后计算当前chunk        while next < len(sentences) and len(sentences[next])+len(chunk) <= chunk_size:            chunk = chunk + ' ' + sentences[next]            next += 1        chunks.append(chunk)        i = next    return chunks

向量化（这里使用openai的向量化模型）

def get_embedding(text, model="text-embedding-ada-002"):    """封装 OpenAI 的 Embedding 模型接口"""    return openai.Embedding.create(input=[text], model=model)['data'][0]['embedding']

灌入向量库（使用chromadb）

def __init__(self, name="demo"):        self.chroma_client = chromadb.Client(Settings(allow_reset=True))        self.chroma_client.reset()        self.name = name        self.collection = self.chroma_client.get_or_create_collection(name=name)
def add_documents(self, documents):        self.collection.add(            embeddings=[get_embedding(doc) for doc in documents],            documents=documents,            metadatas=[{"source": self.name} for _ in documents],            ids=[f"id_{i}" for i in range(len(documents))]        )

检索向量数据库

def search(self, query, top_n):        """检索向量数据库"""        results = self.collection.query(            query_embeddings=[get_embedding(query)],            n_results=top_n        )        return results['documents'][0]

将检索数据带入提示词

def build_prompt(template=prompt_template, **kwargs):    """将 Prompt 模板赋值"""    prompt = template    for k, v in kwargs.items():        if isinstance(v, str):            val = v        elif isinstance(v, list) and all(isinstance(elem, str) for elem in v):            val = '\n'.join(v)        else:            val = str(v)        prompt = prompt.replace(f"__{k.upper()}__", val)    return prompt

调用大模型

def get_completion(prompt, context, model="gpt-3.5-turbo"):    """封装 openai 接口"""    messages = context + [{"role": "user", "content": prompt}]    response = openai.ChatCompletion.create(        model=model,        messages=messages,        temperature=0,  # 模型输出的随机性，0 表示随机性最小    )    return response.choices[0].message["content"]

向量检索与关键字检索的对比

总的来说，向量检索更适合处理复杂的语义匹配问题，而关键字检索则更适合简单的关键字匹配需求。

总结

本文的分享结束，也代表着我们对向量检索的RAG如何实现，向量化以及向量数据库，同时用一个实战的例子讲解了向量检索的RAG如何完成。

再结合之前的文章我们对于关键字检索的RAG的讲解，我们能够充分的了解RAG的两种实现方式，以及他们之间的对比。

RAG的核心在于检索增强，而检索增强的主要手段是知识库，我们引入外部知识库可以是ES类似的关键字检索，也可以是Chroma类似的向量检索。

RAG已经是AIGC当中热门又尤为重要的一个方向，希望我们对于我们提高我们大模型的性能有所帮助。

END

链接：https://juejin.cn/post/7388025457822744586

本文为51Testing经授权转载，转载文章所包含的文字来源于作者。如因内容或版权等问题，请联系51Testing进行删除

点点赞

点分享

点在看

http://mp.weixin.qq.com/s?__biz=MjM5NTU0MDg0MA==&mid=2651324032&idx=2&sn=8e4a75d1e1004546a3d1ca7c6adec79a

51Testing软件测试网

博为峰20周年，青春正当燃，一起向未来！博为峰51Testing软件测试网提供各种线上招聘、线上课程等网络服务，出版软件测试系列丛书及电子杂志，组织线上技术交流活动；同时还举办多种线下公益活动，如软件测试沙龙、软件测试专场招聘会等。

最新文章

【小米招聘专场】月薪最高60K*14薪，雷军喊你速投简历！

开启RAG进阶：混合检索（关键字&向量）+重排序（原理讲解与示例体验）

从菜鸟到月薪2W+的测试经理，分享我10年的职业规划路线…

网红博主“羊毛月”嘲讽00后找不到工作，软件测试行业躺枪？

车载激光雷达的特点——【新书连载2】智能驾驶之激光雷达算法详解

用例自动化！测试人应对需求频繁变化的5大策略！

MobSF移动安全扫描平台本地化部署「本地部署方案」

书写简历的难点总结（内附获奖名单）

淘宝为什么能抗住90秒100亿？软件测试工程师必看！（二）

测试江湖：聊聊职场情绪管理

这7个最强Appium替代工具，移动应用自动化测试必备！

MobSF移动安全扫描平台本地化部署「docker方案」

埋点数据对不对？5步轻松搞定埋点测试！

产品需求交付质量保证的“七重门”

“初识激光雷达”——【新书连载1】智能驾驶之激光雷达算法详解

【腾讯招聘专场】月薪最高60K*16薪，新一轮扩张开始！

大模型之RAG：基于向量检索的理论与实战，对比关键字检索方案

“我，95后，毕业七年换了3份软件测试工作”，工资翻倍了……

揭秘游戏测试：《黑神话：悟空》如何成为现象级大作

学会这些，扔掉测试人常背的3口“锅”！

从5.6秒到1秒！Nginx性能调优实战之1秒内响应千并发！

Faker：自动化测试数据生成利器

团队和个人选择缺陷管理工具的4点区别（内附获奖名单）

淘宝为什么能抗住90秒100亿？软件测试工程师必看！

测试江湖：从阿里P8大牛征婚聊起

测试人面试的底层逻辑：10条潜规则让你脱颖而出！

Java中的负载测试：从单元测试到集成测试的完整覆盖策略

网络性能测试神器：iperf3工具全攻略

【AI大模型】在健康睡眠监测中的深度融合与实践案例

Python自动化操作：简单、有趣、高效！解放你的工作流程！

【小鹏汽车招聘专场】月薪13~50K，抢抓AI汽车新风口！

从 ROI 出发探究自动化测试

初入测试界，3年后薪资翻倍：聊聊我的测试进阶历程，值得借鉴

解锁AI测试新技能：模型算法测试之模糊测试

测试人世纪难题：如何写“好”测试用例？

比Locust好用！推荐一款高并发场景下的稳定性压测利器

深度解析：李彦宏“不要卷模型，要卷应用”

选择无代码测试工具时必须要考虑的7点因素（内附获奖名单）

压箱底神器：9个你必会的测试效率提升工具！

测试江湖：为什么大多数人宁愿吃生活的苦，也不愿意吃学习的苦

这7款主流的测试缺陷管理工具，你必须知道！

大模型之RAG：关键字检索的认识与实战（混合检索进阶储备）

快速指南 | 如何搭建一个高效的UI自动化测试平台

打造专属手机助手：用 PyQt6 玩转 ADB

14年测试人最近的面试经历，值得借鉴√

【华为招聘专场】月薪最高60K*18薪，7大热门城市招人！

Web 页面性能衡量指标-以用户为中心的效果指标（下）

迷茫了3年：做完这个测试项目，我终于决定辞职！

数据正确性测试全攻略：核心方法与实例剖析

自动化横行的今天，手工测试如何杀出一条血路？

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉