大模型 RAG 入门与实战宝典

科技   2024-10-14 16:47   江苏  

大家好,这里是 Lucifer三思而后行,公众号赠书福利活动。  

本次赠书福利 10.18 号开奖

大模型应用开发:RAG入门与实战

后续更多福利赠书活动 💬

🔥 群内不定期开启抽奖活动,请添加号主微信 Lucifer-0622 进群参与(备注:赠书活动进群

编者荐语:Hi,大家好,今天我给大家推荐一本 AI 大模型相关的书籍《大模型应用开发:RAG入门与实战》,为什么会推荐这本书呢?也是因为最两年向量数据库火遍全球,那么向量数据库与 RAG 又有什么关系呢?我们能从这本书中学到如何应用 RAG 技术,值得推荐给大家阅读,文末还有 DBA 圈的 4 位大佬联合赠书活动,感兴趣的朋友可以来参加一下。
那么,什么是向量?什么是向量数据库,RAG 与其又有何关系呢?借助本文,我们来一起了解一下。
RAG自2020年由Facebook AI Research推出后,一下子就窜红了。
毕竟,它是真的帮了大忙,在解决大语言模型的“幻觉”问题上起到了关键作用
如今,Google、AWS、IBM、微软、NVIDIA等科技巨头都在支持RAG应用的开发。微软还在7月开源了一个基于图的问答系统GraphRAG,在GitHub上迅速获得了超多的star。Notion的CEOIvan Zhao大胆预测:“我认为 RAG 会彻底改变知识管理的方式,让人们摆脱烦琐的信息组织工作。”英伟达的人工智能软件副总裁 Kari Briski也看好其未来:“随着企业在2023年采用这些人工智能框架,预计我们会听到更多有关RAG的信息。”
为了让想进入大模型研究领域的同学能顺利入门,小异带来了一本全面的入门和实践指南《大模型应用开发:RAG入门与实战》,从基础概念到实战操作,手把手教你构建功能齐全的RAG项目。

Part.1

RAG面面观

在动手之前,咱们先来弄清楚,专补大模型短板的RAG是个什么?
RAG,即检索增强生成(Retrieval-Augmented Generation),是一种重要的基于深度学习的大模型文档搜索框架。它通过从外部知识库中检索相关信息,并将其作为提示(Prompt)输入给大型语言模型(LLM),以增强模型处理知识密集型任务的能力,如问答、文本摘要、内容生成等,有效地避免了大模型的“一本正经的胡说八道”行为。
那么,RAG模型是如何实现这一过程的呢?它的基本原理是利用深度学习技术对文档进行表示和建模,从而实现文档检索和生成的端到端处理。而要构建这样一个高效的RAG系统,我们需要三大核心组件协同工作:检索器(Retriever)、生成器(Generator)和排序器(Ranker)
再说详细点,各个组件是这样工作的:

· Retriever:是RAG模型的第一阶段,负责从候选文档集合中检索出与查询相关的文档。它可以利用各种检索技术和算法,如基于关键词匹配、语义相似度等,来快速过滤出潜在相关的文档。

· Generator:是RAG模型的第二阶段,负责根据检索到的候选文档生成与查询相关的摘要或答案。它通常采用生成式模型,如语言模型或生成对抗网络(GAN),以自然语言的形式生成文本。

· Ranker:是RAG模型的最后阶段,负责对生成的文本进行排序和评分,以确定最终输出的文档顺序。它可以利用各种排名算法,如机器学习、深度学习等,来对文档进行评分和排序。

技术上的表现确实令人满意,咱们用起来,也是好处多多:

(1)支持多样化的搜索需求,包括文档检索、问题回答、摘要生成等。

(2)支持多语言和多媒体搜索,包括文本、图片、音频、视频等多种形式的信息。

(3)能够充分利用深度学习技术对文档进行表示和建模,从而提高了搜索结果的准确性和相关性。

(4)能够根据用户的查询和历史搜索记录,提供个性化的搜索服务,从而提升了用户的搜索体验。

RAG模型不光听起来厉害,实际用起来更有价值,比如:

· 企业知识管理系统中的应用:智能化知识检索与共享、智能问答与问题解决、知识图谱构建与智能推荐、情报分析与决策支持;

· 在线问答系统中的应用:自动问答与客户服务、内部知识分享与协作、教育与学习辅助;

· 情报检索系统中的应用:快速信息检索与分析、多样化信息资源的整合利用、情报分析与决策支持。

......

RAG在提供高效的文档搜索和问答服务上真是大显身手,而它背后的大功臣就是PyTorch,这个深度学习框架超灵活,功能强大,帮助开发者轻松搞定复杂的模型搭建和算法优化,让RAG的表现更出色。
想要深入玩转RAG,PyTorch的基础知识必须掌握。虽然现在RAG越来越火了,但想学好它还挺难的,因为资料到处都有,但是不够集中。别急,这本书就是你的救星,它把RAG的知识和PyTorch的编程技巧都打包好了,为你勾勒出了一条高效的学习路径。
现在,就让这本书带着我们动手玩转RAG开发吧。

Part.2

动手玩转RAG

这本书分为9章,内容按照“基础入门——技术深入——实战应用”的结构来布局,全面覆盖了RAG大模型技术的各个方面,包括工作内容、技术细节以及在不同领域的应用实践。

基础入门

这本书先给你讲了AI和NLP的大背景,然后聚焦到RAG技术怎么在文档搜索上大显身手。
在第3章中,从感知机到多层感知机、卷积神经网络、循环神经网络,再到Transformer、BERT和GPT,都给你讲透了。
在第4章中,用ChatGPT当例子,让你看看现在处理文本都先进成啥样了。

技术深入

这本书还涵盖了一系列实用技术,从文档的分块与向量化,到利用深度学习模型进行向量检索,再到结合Prompt技术实现精准响应,每个环节都有易懂的讲解和实际例子。书中还介绍了如何用Streamlit和Gradio这些工具来做出好看的Web界面,让你能直观地看到RAG技术的效果。
(书中讲解PyTorch 提供了torchsummary 等工具来帮助我们可视化模型的结构)

实战应用

这本书可不是那种只讲理论不动手的教科书。从基础章节开始,咱们就边学边练。
比如,第2章就带你动手,从PyTorch的基础编程开始,慢慢深入深度学习的精髓。这里不光讲了怎么安装PyTorch,还有张量操作、自动微分这些基本技能,更有模型搭建、训练评估这些实战技巧,保证你能从理论到实践,把深度学习的精髓都学到手。
到了RAG技术部分,详细聊了文档分块与向量化技术,以及怎么把文本变成机器能理解的样子。比如说,用词袋、词嵌入,甚至预训练模型等多种方法。
再往后,深入RAG的向量检索技术,不光讲了向量检索是啥,还讲了怎么计算,特别是局部敏感哈希(Locality Sensitive Hashing,LSH)算法,帮你解决大规模文档检索的问题。在第8章中,你将重点学习怎么给大模型下指令,从指令设计到模板,再到代理模式和思维链提示,这些都是为了让你能更有效地和大模型交流,激发你的创造力。
最后还提供了一个动手项目,教你怎么实现一个PDF阅读器,把之前学的所有理论和技术都结合起来,让你亲自体验一下RAG技术在实际应用中的强大魅力。

Part.3

结语
这本书的独到之处在于:

①全面涵盖:带你从文档提取一路学到相似度搜索,覆盖文档搜索的每个核心环节,确保你能全面掌握关键技术。

②深入剖析:每个环节都不是浅尝辄止,而是深入技术核心,还有实际案例让你看到怎么在项目中运用。

③技术前沿:不只教你老一套,还带你了解大模型问答等前沿技术在文档搜索中的应用,让你紧跟技术趋势。

④简单易懂:讲的都是大白话,专业术语和复杂数学都靠边站,新手也能一看就懂,一学就会。

实用又易懂!无论你是想提升搜索效率与准确度的搜索引擎工程师,还是想探索NLP技术前沿的研究者,或者是寻找数据分析新方法的数据科学家与分析师,甚至是想拓展AI知识视野的爱好者和希望提高文档处理效率的文档管理从业者,都能在这本书中找到你需要的内容!

那么说了这么多,大家也大概知道了 RAG 这些弯弯绕绕了吧,今天呢和各位公众号号主以及人民邮电出版社联合举行《RAG 入门与实战》抽奖送书活动,以下公众号都参与此次活动,关注下方对应公众号,在公众号后台回复“抽奖”,完成指定的阅读任务,即可参与抽奖活动,完成指定浏览文章任务,中奖概率可提升最高10倍!!!可以 4 个公众号同时参与,中奖几率更高。

单篇文章阅读量达到 300 以上则送书 3 本,最终解释权归各公众号号主所有。

送书福利

包邮赠送 3 本《大模型应用开发:RAG入门与实战》(无签名)


赠书规则:需要一直关注本公众号,浏览本文约 15 秒,然后在公众号后台回复关键字【抽奖】获取抽奖码,开奖前没有关注本公号中奖无效,中奖后 24h 内添加微信,联系我填写收货地址包邮到家,超过 24h 视为无效


开奖时间:2024 年 10 月 18 日 15:30(周五)
没关系,如果觉得中奖概率过低,下面也联合其他号主一起来送书,最多 12 本《大模型应用开发:RAG入门与实战》一起送,中奖概率高了 4 倍,快来参与吧。

『JiekeXu DBA之路』JiekeXu:Oracle ACE-Pro,获 Oracle OCP/OCM 及 MySQL OCP 认证,墨天轮 MVP,利用闲时间记录菜鸟 DBA 学习成长之路,所发布文字属于个人观点和学习笔记,如有错误及不当之处,敬请批评指正!点击下方卡片,后台回复【抽奖】获取抽奖码参与,并完成浏览本文章 15 秒,提高中奖率。

『徐sir的IT之路』青学会 MOP 技术社区联合创始人之一,Oracle ACE,致力于 MySQL、Oracle、PostgreSQL 数据库技术分享。点击下方卡片,后台回复【抽奖】获取抽奖码参与,并完成浏览本文章 15 秒,提高中奖率。

『青年数据库学习互助会』
青学会 MOP 技术社区,致力于 MySQL、Oracle、PostgreSQL 数据库技术分享。MOP 社区由 JiekeXu、徐sir、会长三位 ACE 联合创立,点击下方卡片,后台回复【抽奖】获取抽奖码参与,并完成浏览本文章 15 秒,提高中奖率
注意事项:本活动由人民邮电出版社和各公众号号主赞助,纯属粉丝福利,与其他公司和个人无关,最终活动解释权由本公众号所有,开奖前没有关注本公号中奖无效,中奖后 24h 内添加微信,微信联系填写收货地址包邮到家,超过 24h 视为无效,谢谢。

—END—

Lucifer三思而后行
不积跬步,无以至千里;不积小流,无以成江海。一位籍籍无名的数据库爱好者!
 最新文章