RAG 应用落地常见的三个挑战及解决思路

文摘 2024-07-21 23:21 北京

简单用于原型展示的Rag应用并不复杂，但真要落地生产就会有很多现实的挑战，《AI工程化》在前面的文章里也介绍过很多领域内的一些解决思路和实践方案。这篇文章我们将介绍来自Florian June有关RAG落地时面临的三个常见挑战以及解决思路。

不规范的查询和短查询

在生产环境中，用户Query非常多样，也不一定标准；许多Query语义不完整、表述不清晰或表达多种意图。另外，用户的Query越短，就越难处理。比如，像 "推荐酒店"、"告诉我足球新闻和今天的天气 "或 "苹果的好处 "这样的查询，RAG 系统会很难处理。

通常有三种方法可以处理：

1）意图分析：确定一个或多个用户意图，缩小召回范围。

如图所示，意图分析包括将用户的查询归类为一个或多个预定义的意图，从而缩小搜索范围。

意图分析主要有以下四种方法：

a.基于预定义的规则或关键字，通过正则表达式进行匹配；

b.使用经典小模型分类，例如 Naive Bayes 分类器或 BERT。首先，我们需要训练一个分类器，BERT 的示例代码片段如下所示。然后，我们就可以用它对查询进行分类。

c.Query相似性检索。为预定义意图生成embedding，然后使用相同的嵌入模型为用户查询生成embedding。通过向量相似性计算出最接近用户查询的前 k 个意图，如图所示。

d. LLM分类。构建一个提示，并利用 LLM 做出决策。此外，还可以提供用户的历史语境，以获得更准确的意图，如下图所示。

You are an advanced AI language model tasked with identifying the intent behind user queries. Given a user input, you need to classify the intent into one of the predefined categories. 

## Categories
1. Fruit: The user is asking about fruits, their benefits, types, or any other fruit-related information.2. Technology: The user is inquiring about technology-related topics, including gadgets, software, hardware, or tech news.3. Entertainment: The user is seeking information related to entertainment, such as movies, music, games, or celebrities.4. Sports: The user is asking about sports-related topics, including scores, teams, players, or sporting events.5. Other: Any other intent not covered by the above categories.
Please provide the user input and the identified intent category.

## Example
### Example 1
User Input: "How many calories are in an orange?"
Historical Context: "Give me some low-calorie fruits."
Identified Intent: Fruit

### Example 2
User Input: "What were the results of last night's NBA game?"
Historical Context: "I like basketball very much"
Historical Context: "What are the rules of basketball"
Identified Intent: Sports

## Now it's Your Turn
Please provide the identified intent for each user input based on the historical context.
User Input: {user_input}
Historical Context: {historical_context}
Identified Intent:

通过确定问题的意图，我们可以缩小需要检索的知识库范围。这样就能减少容易混淆的查询的影响，提高检索的准确性。这里介绍一个开源项目可以参考：https://github.com/answerlink/IntelliQ 。

2）关键词提取：确定查询的关键词，并根据关键词进行检索。

关键词提取的目的是从给定文本中识别出最具代表性和意义的单词或短语，如图所示。

这些关键词反映了文本的主题、内容或重要信息。如图，在 RAG 中使用关键词提取的目的是从用户查询和文档中提取关键词，以方便检索。在图中，可以看到两个虚线框：红色虚线框代表通过关键词检索获得的原始信息块，蓝色虚线框代表通过普通检索获得的原始信息块。在获得这两个虚线框后，我们可以执行重新排序或其他后处理方法。很明显，关键词检索可以辅助普通检索。

有以下三种方法从原始数据块或用户查询中获取关键词。

a.TF-IDF：首先，进行标记化和停止词去除。然后，计算每个标记的反文档频率（IDF）和每个标记的 TF-IDF 分数。最后，根据计算出的 TF-IDF 分数对词语进行排序。标记词的排名越靠前，说明它在文档中的重要性越高。

b.训练Bert模型或使用现有模型，如 KeyBERT：直接提取关键词，形成最终的关键词列表。

c.使用 LLM 提取关键词。流程如下图。

3）澄清和询问：主动向用户提问，以获取更多信息。例如，对于 "苹果的好处 "这一查询，系统可以提问："您是指水果还是技术公司？

澄清和询问是一种重要的策略，尤其是在处理模糊、不完整或含糊的用户询问时。例如，如果用户直接询问 "推荐酒店"，我们就可以通过澄清和询问收集用户的首选地点、价格范围和其他偏好等信息，从而提供更准确的回复。

a.传统方法。首先，检测用户输入中的模糊或不清晰部分。这可以通过关键词提取来实现，即找出常见的模棱两可或不清楚的词语。另外，也可以使用意图分析技术来分析输入的含义和上下文。生成澄清或询问回复，这可以通过预定义模板或使用生成模型来实现。处理用户的后续输入，并根据新输入更新理解和任务执行。

b.使用 LLM。可以在提示中加入以下内容："如果您无法根据背景知识回答用户的询问，那么您可以向用户提出后续问题，但仅限于 4 个问题"。

针对于不规范的查询和短查询处理的三种方法并不是孤立的，可以相互结合。例如，可以通过关键词提取实现意图分析，澄清和查询可以与意图分析相结合。

2.集成结构化数据

通常RAG处理的都是一些非结构化的文档数据，比如 markdown，PDF等。之前也有一些关于pdf解析的文章，大家可以翻阅，如：gptpdf：一个简单巧妙的复杂pdf解析工具，提升RAG效果

但在实际生产环境中，仅使用非结构化数据完成整个业务流程是很少见的。一般来说，有需求将公司现有关系数据库甚至 Excel 文件中的信息整合到 RAG 流程中。

将结构化数据整合到 RAG 流程中有三种方法：

a.将关系数据库中每个表的每一行视为一个块，然后进行嵌入。但这种方法忽略了表的整体信息，破坏了表内的相关性，往往会导致检索结果不佳。

b.与其将表中每一行的信息向量化不如嵌入元数据，如表描述、视图描述和字段信息。在对用户的查询进行向量化后，使用嵌入来查找相应的表、视图或字段。然后使用一些预先编写的 SQL 函数进行查询。这种方法在事先编写 SQL 函数时工作量较大，但与其他方法相比，执行起来相对稳定。

c.Text2SQL。使用 LLM 将用户的问题转换为 SQL 语句。然后，它将数据库查询结果发送给 LLM，生成最终答案。这种方法相对优雅，对于简单的查询效果很好。但是，如果用户的查询比较复杂，结果就会不稳定。

3.私有化部署

在 RAG 的实际应用中，有些客户对数据的保密性要求很高，因此需要在企业内部进行私有部署。需要注意以下三点：

1）模型参数的选择：如果 LLM 的主要功能是归纳和生成，那么 7B 或 13B 等较小的规模是可以接受的。如果对知识推理、逻辑推理、多步骤推理等有较高要求，则参数越多越好，如 33B 或 70B。

2）如果客户端处于没有外部互联网接入的环境，则有必要提前下载 PyTorch 和 Transformers 等 Python 库的所有依赖项。

3）容器化（如 Docker）可以简化环境配置和管理。为了提高推理速度并减少资源消耗，我们可以对模型进行量化。此外，为确保高效的请求处理和响应，应选择高效的 LLM 服务框架来部署 RAG 系统。如果某些开源框架无法满足您的需求，请自行编写必要的模块。

小结

前面介绍了生产RAG常见的三个挑战，并给出了相应的解决思路。有关RAG落地过程中的痛点会有很多，可以查阅本号之前的文章以及关注后续文章。

原文：https://ai.gopubby.com/three-practical-challenges-of-rag-and-their-mitigation-ideas-5cc8e6dd7e30

http://mp.weixin.qq.com/s?__biz=MzA5MTIxNTY4MQ==&mid=2461146191&idx=1&sn=36981311e404e530f9770237acaeca2a

AI工程化

专注于AI领域（大模型、MLOPS/LLMOPS 、AI应用开发、AI infra）前沿产品技术信息和实践经验分享。

最新文章

AirLLM：突破显存限制，让 4GB GPU 也能运行 70B 大模型

超越v0chat，开源的AI前端开发神器——screenshot-to-code

Anthropic提出的Contextual RAG开源实现Open Contextual RAG来了

Claude 3.5 Sonnet登陆Github，Cursor亚历山大

chromem-go：零依赖嵌入式向量数据库，Go 开发者的新宠！

RAGChecker:显著超越RAGAS，一个精细化评估和诊断 RAG 系统的创新框架

微软 OmniParser：超越GPT4V的视觉屏幕界面解析利器

为什么大模型会算错“9.11与9.8谁大？”，这个可观测工具帮你一探究竟

Meta 发布 Llama 3.2 1B和3B版本：推理速度翻倍，模型更轻

探索 Claude Artifacts 的无限可能：一周内构建的14个实用工具

最快体验 Claude 3.5 Sonnet 控制电脑方法来了！

国内首部AI知识产权标准启动编制，诚邀科技企业、律所律师、知产服务机构参编！

Transformers.js v3震撼发布：WebGPU加速、120种架构支持，开发者必备神器！

mPLUG-DocOwl 1.5：无需 OCR 原生理解解析各种结构文档

开源向量数据库性能对比: Milvus, Chroma, Qdrant

重磅消息：Claude 3.5 系列模型大更新及革命性增加计算机使用能力

AIGC利器ComfyUI V1 发布：简化安装，跨平台支持，非技术用户福音

每天写代码：Jquery作者John Resig透露程序员高产秘诀

超简单！手把手从零构建神经网络

StructRAG：超越GraphRAG，知识密集型 RAG 性能提升的新思路

一个 Python 文件实现 Perplexity 搜索?

Agora 协议:打造Agent互联网的第一步

Zerox：gpt-4o-mini 加持的零配置高效 OCR 神器

OpenAI：AI不仅仅对你名字有偏见，这些方面也差别对待

Google AI 助手 NotebookLM 正式发布：多模态理解能力大幅提升

Mistral AI 发布革命性边缘模型 Ministral 3B 和8B：性能与隐私双料俱佳

NVIDIA 发布 Llama 3.1 70B 模型：性能超越 Claude 3.5 和GPT-4o

Ollama 平台新功能：轻松运行 Hugging Face Hub 上的 GGUF 模型

AI 能自查幻觉了！谷歌苹果联手打造“真话检测器”

AutoGen: 我也能实现OpenAI Swarm中的handoff

Mem0上架chrome插件商店，把记忆交给AI！

A16Z：导出"你的大脑"给AI,你将收获什么？

Meta：无需人工标注，LLM 评估器也能自我提升？

非广告免费使用Qwen2.5 72B等付费模型的方法来了，很实用！

为什么 AI 在数学题前抓瞎？苹果研究揭示 AI 推理能力的局限性

Swarm：一个OpenAI开源的multiAgent框架，简单哲学的代表

Python 3.13.0 震撼发布：性能飞跃，AI 项目迎来新机遇

Dario Amodei 最新博文预言我们这代人将有可能活到150岁！

Anthropic CEO 撰文《慈爱机器》，畅谈他的低调策略与宏伟愿景

红杉年度文章解读：生成式AI进入第二阶段，应用层价值凸显以及商业模式将重塑

回忆录（3）：从 Hinton 到你们——AI 时代的科学革命

如何管理各种GPU构建企业私有LLM服务——GPUStack

回忆录（2）：从诺贝尔奖到 AI 新纪元

回忆录（1）：从"人类之父"到"AI 之源"：Geoffrey Hinton 与我们的起源

看哭了！“从学生到大师：AI 的诺奖之旅与 Hinton 的传奇”

将代码库或网站一键转成单个文件供给LLM，这些项目你应该知道！

AI交互不再是Chat：OpenAI推出Canvas功能，应对Claude崛起，头狼竞争白热化

众大佬出走后的OpenAI DevDay发布了什么新内容？实时API可能颠覆CallCenter市场格局

国庆礼物来了！参与就有机会获得畅销书《AI提示工程必知必会》

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉