专补大模型短板的RAG入门与实战书来了！

科技 2024-09-27 12:11 北京

文末赠书

RAG自2020年由Facebook AI Research推出后，一下子就窜红了。

毕竟，它是真的帮了大忙，在解决大语言模型的“幻觉”问题上起到了关键作用。

如今，Google、AWS、IBM、微软、NVIDIA等科技巨头都在支持RAG应用的开发。微软还在7月开源了一个基于图的问答系统GraphRAG，在GitHub上迅速获得了超多的star。Notion的CEOIvan Zhao大胆预测：“我认为 RAG 会彻底改变知识管理的方式，让人们摆脱烦琐的信息组织工作。”英伟达的人工智能软件副总裁 Kari Briski也看好其未来：“随着企业在2023年采用这些人工智能框架，预计我们会听到更多有关RAG的信息。”

为了让想进入大模型研究领域的同学能顺利入门，小异带来了一本全面的入门和实践指南《大模型应用开发：RAG入门与实战》，从基础概念到实战操作，手把手教你构建功能齐全的RAG项目。

▼点击下方，即可5折购书，前200人

跟着书中的步骤，迅速点亮你的AI技能树！

Part.1

RAG面面观

在动手之前，咱们先来弄清楚，专补大模型短板的RAG是个什么？

RAG，即检索增强生成（Retrieval-Augmented Generation），是一种重要的基于深度学习的大模型文档搜索框架。它通过从外部知识库中检索相关信息，并将其作为提示（Prompt）输入给大型语言模型（LLM），以增强模型处理知识密集型任务的能力，如问答、文本摘要、内容生成等，有效地避免了大模型的“一本正经的胡说八道”行为。

那么，RAG模型是如何实现这一过程的呢？它的基本原理是利用深度学习技术对文档进行表示和建模，从而实现文档检索和生成的端到端处理。而要构建这样一个高效的RAG系统，我们需要三大核心组件协同工作：检索器（Retriever）、生成器（Generator）和排序器（Ranker）。

再说详细点，各个组件是这样工作的：

· Retriever：是RAG模型的第一阶段，负责从候选文档集合中检索出与查询相关的文档。它可以利用各种检索技术和算法，如基于关键词匹配、语义相似度等，来快速过滤出潜在相关的文档。

· Generator：是RAG模型的第二阶段，负责根据检索到的候选文档生成与查询相关的摘要或答案。它通常采用生成式模型，如语言模型或生成对抗网络（GAN），以自然语言的形式生成文本。

· Ranker：是RAG模型的最后阶段，负责对生成的文本进行排序和评分，以确定最终输出的文档顺序。它可以利用各种排名算法，如机器学习、深度学习等，来对文档进行评分和排序。

技术上的表现确实令人满意，咱们用起来，也是好处多多：

（1）支持多样化的搜索需求，包括文档检索、问题回答、摘要生成等。

（2）支持多语言和多媒体搜索，包括文本、图片、音频、视频等多种形式的信息。

（3）能够充分利用深度学习技术对文档进行表示和建模，从而提高了搜索结果的准确性和相关性。

（4）能够根据用户的查询和历史搜索记录，提供个性化的搜索服务，从而提升了用户的搜索体验。

RAG模型不光听起来厉害，实际用起来更有价值，比如：

· 企业知识管理系统中的应用：智能化知识检索与共享、智能问答与问题解决、知识图谱构建与智能推荐、情报分析与决策支持；

· 在线问答系统中的应用：自动问答与客户服务、内部知识分享与协作、教育与学习辅助；

· 情报检索系统中的应用：快速信息检索与分析、多样化信息资源的整合利用、情报分析与决策支持。

......

RAG在提供高效的文档搜索和问答服务上真是大显身手，而它背后的大功臣就是PyTorch，这个深度学习框架超灵活，功能强大，帮助开发者轻松搞定复杂的模型搭建和算法优化，让RAG的表现更出色。

想要深入玩转RAG，PyTorch的基础知识必须掌握。虽然现在RAG越来越火了，但想学好它还挺难的，因为资料到处都有，但是不够集中。别急，这本书就是你的救星，它把RAG的知识和PyTorch的编程技巧都打包好了，为你勾勒出了一条高效的学习路径。

现在，就让这本书带着我们动手玩转RAG开发吧。

Part.2

动手玩转RAG

这本书分为9章，内容按照“基础入门——技术深入——实战应用”的结构来布局，全面覆盖了RAG大模型技术的各个方面，包括工作内容、技术细节以及在不同领域的应用实践。

基础入门

这本书先给你讲了AI和NLP的大背景，然后聚焦到RAG技术怎么在文档搜索上大显身手。

在第3章中，从感知机到多层感知机、卷积神经网络、循环神经网络，再到Transformer、BERT和GPT，都给你讲透了。

在第4章中，用ChatGPT当例子，让你看看现在处理文本都先进成啥样了。

技术深入

这本书还涵盖了一系列实用技术，从文档的分块与向量化，到利用深度学习模型进行向量检索，再到结合Prompt技术实现精准响应，每个环节都有易懂的讲解和实际例子。书中还介绍了如何用Streamlit和Gradio这些工具来做出好看的Web界面，让你能直观地看到RAG技术的效果。

（书中讲解PyTorch 提供了torchsummary 等工具来帮助我们可视化模型的结构）

实战应用

这本书可不是那种只讲理论不动手的教科书。从基础章节开始，咱们就边学边练。

比如，第2章就带你动手，从PyTorch的基础编程开始，慢慢深入深度学习的精髓。这里不光讲了怎么安装PyTorch，还有张量操作、自动微分这些基本技能，更有模型搭建、训练评估这些实战技巧，保证你能从理论到实践，把深度学习的精髓都学到手。

到了RAG技术部分，详细聊了文档分块与向量化技术，以及怎么把文本变成机器能理解的样子。比如说，用词袋、词嵌入，甚至预训练模型等多种方法。

再往后，深入RAG的向量检索技术，不光讲了向量检索是啥，还讲了怎么计算，特别是局部敏感哈希（Locality Sensitive Hashing，LSH）算法，帮你解决大规模文档检索的问题。在第8章中，你将重点学习怎么给大模型下指令，从指令设计到模板，再到代理模式和思维链提示，这些都是为了让你能更有效地和大模型交流，激发你的创造力。

最后还提供了一个动手项目，教你怎么实现一个PDF阅读器，把之前学的所有理论和技术都结合起来，让你亲自体验一下RAG技术在实际应用中的强大魅力。

Part.3

结语

这本书的独到之处在于：

①全面涵盖：带你从文档提取一路学到相似度搜索，覆盖文档搜索的每个核心环节，确保你能全面掌握关键技术。

②深入剖析：每个环节都不是浅尝辄止，而是深入技术核心，还有实际案例让你看到怎么在项目中运用。

③技术前沿：不只教你老一套，还带你了解大模型问答等前沿技术在文档搜索中的应用，让你紧跟技术趋势。

④简单易懂：讲的都是大白话，专业术语和复杂数学都靠边站，新手也能一看就懂，一学就会。

实用又易懂！无论你是想提升搜索效率与准确度的搜索引擎工程师，还是想探索NLP技术前沿的研究者，或者是寻找数据分析新方法的数据科学家与分析师，甚至是想拓展AI知识视野的爱好者和希望提高文档处理效率的文档管理从业者，都能在这本书中找到你需要的内容！

▼点击下方，即可5折购书，前200人

—END—

分享你对RAG的看法

在留言区参与互动，并点击在看和转发活动到朋友圈，我们将选1名读者赠送e读版电子书1本，截止时间10月15日。

http://mp.weixin.qq.com/s?__biz=MzA3NTIzMzIxNQ==&mid=2652925065&idx=1&sn=dffdd7f3f5a36f16d7f69524661052a8

异步图书

人民邮电出版社IT专业图书品牌，发布最新纸书、电子书资讯，分享深度技术文章，与作译者互动交流。

最新文章

软考报名人数越来越多，技术人到底该如何选择科目？

从0入门C语言，看这5本经典书就够了！

AI图像生成：创作新纪元，开启个性化创作之旅

隔壁工位的算法大神说：学习深度学习这几本就够了！

发现Web API漏洞居然能赚到400w刀，看懂这本书你也可以！

Bob大叔：在职业生涯的前几年，甚至应该逐渐减少使用AI

为什么越来越多的IT人考软考管理类证书？

拍脑门做的决定又失策了？软件开发做最佳选择的秘诀全在这本书里

清华大学刘知远团队新作，未出版就爆火，28位AI天才们的热血传奇，比番剧更燃！

从0到1，如何用AI工具开启你的高效能人生？

Python稳居第一，Go 持续攀升TIOBE 11 月榜单发布！

AI热潮一波接一波，架构师门槛会变高还是变低？

AI是银弹吗？AI时代开发软件要看懂这本书

双十一怎么买更划算？程序员购书攻略！

智人之上，智能崛起，人类智能是怎么进化出来的？

如何在AI的协助下，写出高质量文章？

备考宝典来啦！华为ICT大赛实践赛真题解析丛书出版

如何用ChatGPT做软件测试？（内附实操案例）

Python编程三剑客，一套就够用！

2024年诺贝尔物理学奖颁给“AI教父”，他开创的深度学习改变了世界

星标7.9k的开源工作流引擎，这本书讲透如何用它为企业打造自动化“发动机”

豆瓣9.0分的流式数据处理神书，终于有阿里大佬翻译出中文版了！

豆瓣8.5，被李宏毅大神点赞，这本开源书为啥这么受欢迎？

数据管理佳作《数据湖仓》《数据要素化时代的数据治理》亮相DAMA中国数据管理峰会

iOS/Android不再是唯一选择，华为原生鸿蒙成全球第三大移动操作系统！

“让AI不再难学",知名UP主梗直哥的《破解深度学习》来了！

我社科技出版中心成功举办“AI+”图书选题研讨会

编程大神推荐的20本经典书|1024程序员节

网络战场硝烟弥漫，看懂这本书，铸就网络安全之盾

来了！全来了！！全来到了一个APP里！！！

前三季度图书销售额增长超20% ，我们花7年打造了这条“吸金”产品线！

有限元分析领域又一力作，周炬老师新书业已出版！

星标19.8k的Apache顶级项目，助你做好云计算时代数据库管理

把力扣算法题刷熟了就能稳进大厂吗？还得学会这一招才能高枕无忧

理工科学生福音：“故事思维”写出让人眼前⼀亮的论文

美亚 5.0，O'Reilly动物书又一火爆新作上市了！

Rust 即将冲进 Top10，TIOBE 10 月榜单来了！

HarmonyOS NEXT纯血鸿蒙正式公测，这个书单让你快人一步！

超900万次观看，大学生没有经过任何论文写作训练，应该如何写论文？

2024年诺贝尔化学奖，AI赋能生命科学

2024年诺贝尔物理学奖颁给了“AI教父”，他推荐的2本经典书值得一读再读！

还没出版就爆火，7位院士推荐，强推！

超越人类博士，OpenAI在o1模型中使用了什么独门秘技？

前作豆瓣9.1，工作流领域备受期待的全新力作，终于上市！

2024年了，软件测试的坑还能入吗？

专补大模型短板的RAG入门与实战书来了！

端侧AI爆发元年如何不错过下一代入口？来这场端侧大模型论坛入局

C 语言首次跌出 Top3，Java 重回第三！TIOBE 9 月榜单发布

深度学习如何入门？跟着“沐神”李沐和李宏毅大神学就对了

华为举办ICT学院年会2024，华为ICT大赛真题集、华为ICT学院指定教材基础软件丛书正式发布

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉