7 月初,微软发布最强 RAG 知识库开源方案 GraphRAG,项目上线即爆火,现在星标量已经达到 16.5 k。
究其火爆的原因,主要还是 LLM 虽然强大,但存在一些明显缺点,比如幻觉问题、可解释性差、抓不住问题重点、隐私和安全问题等。而 RAG 恰好可以大幅提升 LLM 的生成质量和结果有用性。
RAG,可以说是 AI 领域一个非常大的创新突破了。它把信息检索和文本生成巧妙结合起来,可以让 AI 更聪明地工作。简单来说,就是在生成答案或内容之前,AI 会先快速搜寻大量的资料库,找到最有用的信息,然后依据这些信息来创造回答或内容。而且相对于其他 AI 相关项目, RAG 的入门门槛更低,为普通开发者提供了更为友好的学习路径。
但是,最近跟不少对 RAG 感兴趣的同学交流下来,才发现大家在学习的过程中可是踩了不少坑,比如:
- 刚开始接触时,缺乏明确的入手点和实践项目,难以实际操作;
- 很少有资料能讲清楚技术的缺点、局限性和适用场景,总要应用到项目才能发现,又得从头来一遍;
- 不知道怎么去考量项目的业务价值,一上来就挑战了高难度的,结果根本坚持不下来;
- 还有一些国内特有场景,总是等到项目落地了才能发现 bug;
在这儿,分享给你一张「RAG 学习知识地图」,能帮助你清晰地掌握 RAG 的学习路线,跟着这个“路径”能够更高效的按图索骥一步步学习、掌握和提升 RAG 技术。而且,在学习的过程中,你还可以结合自己的实践经验不断完善它。这样一来,积累越多,画像就越丰富。这张图出自于极客时间刚刚上线的专栏《RAG 系统实战课》,我第一时间就订阅了。这个专栏可以说是最适合初学者的一门 RAG 实战课程了,通过一个个实战项目带着你攻克 RAG 里的核心原理与关键技术,最终实现通过 RAG 提升你转型 AI 赛道的可能性,可以说,都是实打实的硬货。这儿特别介绍下「叶伟民」老师,他目前担任盛安德人工智能应用研究院总工程师,RAG 技术专家。在软件开发领域可以说是一名老兵了,已经有将近 15 年的经验。他在 AI 应用开发方面也是颇有建树,曾经为银行、私募资金、翻译公司、外贸公司等开发过不少 AI 应用,也是在这个过程中,叶老师在 RAG 技术上,沉淀下了非常深厚的理论知识,还积累了丰富的实战经验。值得一提的是,他还是大模型时代PDF解析工具 PDF4AI.cn 的创立者。具体讲哪些内容?
为了能让你在学习过程中少一些迷茫困惑,叶老师以 RAG 的学习难点出发,特别将课程分为了四个部分,分别是热身赛、初级篇、中级篇和马拉松,从章节名字就能看出,课程会循序渐进地带你掌握 RAG。热身赛—夯实基础
这一部分我们学习 RAG 最基础的两个概念——对话模式和返回结构化数据,就可以引入 RAG 改造传统MIS 系统了。这个案例业务价值比较高,同时技术难度最低,能帮助你消除畏难心理,马上获得成就感,激起继续学习的兴趣。
初级篇—触类旁通
初级篇我们会从 0 到 1 开启一个全新的 RAG 项目,一起开发一个 AI 读报小助手。AI 读报小助手对于我们的日常工作生活比较实用,从而能让我们更有动力持续改进。这个部分会在第一章基础上增加三个重要概念——元数据、文本摘要、机器翻译。中级篇—举一反三
这一部分我们还会再学习 RAG 的三个重要概念:向量与嵌入模型、向量数据库、通过相似度来检索知识。之后我们来打造一个支持模糊检索的工单辅助系统。其实这个项目相当于面向公司内部的客服系统,这样既充分锻炼了我们的 RAG 开发能力,又可以产出一定的业务价值。马拉松—运筹帷幄
最后一部分会带着大家结合自己的 RAG 开发、优化经验,带你了解 RAG 应用的评估改进方法,再结合两个具体例子讲解 RAG 应用的优化方案。特别值得说一下,在课程中,除了会培养你的 RAG 应用开发实战能力,还会涉及 LangChain、LlamIndex 等 RAG 框架,以及 GraphRAG 等 13 种 RAG 前沿技术。俗话说的好,授人以鱼,不如授人以渔,我们需要学习的更重要的是掌握如何借鉴先进技术的长处,持续提升自己的 RAG 应用质量。
就像老师说的,这门课程我们追求的不是面面俱到,而是学以致用,带你用最简单省力的方式,快速上手RAG 应用开发。