RAG九大痛点全解析:从技术选型到成本优化

旅行   2024-11-05 09:00   北京  

RAG实践中的坑,你踩过几个?

构建RAG系统时总会遇到各种各样的问题,让人头疼不已。来自@GregKamradt的RAG实践经验分享,为我们揭示了九大常见痛点及其解决方案。

Prompt拆分:简单就是力量

面对复杂任务时,很多人喜欢把所有要求都塞进一个prompt里:「计算这些数字,然后判断它们是否为质数,最后用markdown格式输出JSON」。

这种做法看似方便,实则大错特错

模型承担的任务越多,每个任务的完成质量就越差。正确的做法是将复杂任务拆分成多个简单步骤,让模型专注处理单一任务。

表格处理:结构化是关键

当表格超过5x5时,模型的处理能力就开始打折扣了。虽然大部分时候还能正确处理,但谁也不想把结果交给运气。

解决方案?将表格预处理为结构化数据

  • 转换为CSV或JSON格式

  • 生成概要或摘要

  • 创建embedding

  • 通过工具调用进行结构化查询

PDF图片:混合处理才是王道

PDF文件往往包含文字、表格和图片的混合内容,这种复杂格式最容易让模型「晕头转向」。

处理这类文档需要结合结构化解析OCR技术

值得注意的是,每种情况都很特殊,没有放之四海而皆准的解决方案。

长文档处理:图结构显神通

处理法律文件或税收规定等长篇文档时,最好将其转换为可遍历的结构化数据。

虽然目前还没有广泛认可的最佳实践,但图结构显示出了巨大潜力。

分块与嵌入:多向量是趋势

一旦突破了1:1的分块-嵌入关系,跟踪管理就变得异常复杂。虽然多向量检索、父文档引用等高级技术能提升性能,但也带来了更多调试难度。

GregKamradt 建议:在大多数RAG系统中采用多向量方案

延迟问题:异步来救场

单次模型调用的延迟通常可以接受,但多个调用叠加就会造成严重延迟。虽然建议拆分prompt,但也要适可而止。

尽可能使用异步处理。如果不想自己开发框架,可以考虑使用LangGraph。

安全护栏:验证保平安

如何确保模型不会「失控」?

对普通场景来说问题不大,但面对用户输入时要格外小心。

建议使用gpt-4o-mini或flash进行简单验证,确保安全后再输出结果。

评估系统:投入终有回报

创建标准数据集确实费时费力,但这项工作值得投入。

建议团队花一个周末时间,标注100个数据点作为测试基准。理想情况下,RAG系统的每个环节都应该有相应的评估标准。

成本控制:三板斧

成本优化主要有三个方向:

  • 精简prompt:仔细筛选传入的上下文

  • 利用批处理API:处理延迟无关的查询

  • 启用prompt缓存

虽然服务商宣称可节省50-90%查询成本,但实际中能达到15%就算不错了。

最后分享一个额外建议:为你的数据块添加尽可能多的上下文元数据

比如在处理文档时,为每个分块添加页码、章节标题等信息,这样能大大提升检索质量。

你还遇到过哪些RAG问题呢?欢迎分享!

👇

👇

👇

👇

本文同步自知识星球《AGI Hunt》

星球实时采集和监控推特、油管、discord、电报等平台的热点AI 内容,并基于数个资讯处理的 AI agent 挑选、审核、翻译、总结到星球中。

  • 每天约监控6000 条消息,可节省约800+ 小时的阅读成本;

  • 每天挖掘出10+ 热门的/新的 github 开源 AI 项目;

  • 每天转译、点评 10+ 热门 arxiv AI 前沿论文。

星球非免费。定价99元/年,0.27元/天。(每+100人,+20元。元老福利~)

  • 一是运行有成本,我希望它能自我闭环,这样才能长期稳定运转;

  • 二是对人的挑选,鱼龙混杂不是我想要的,希望找到关注和热爱 AI 的人。

欢迎你的加入!

AGI Hunt
关注AGI 的沿途风景!
 最新文章