大模型必备技能 -- RAG

教育 2024-11-11 16:35 四川

RAG自2020年由Facebook AI Research推出后，一下子就窜红了。

毕竟，它是真的帮了大忙，在解决大语言模型的“幻觉”问题上起到了关键作用。

如今，Google、AWS、IBM、微软、NVIDIA等科技巨头都在支持RAG应用的开发。微软还在7月开源了一个基于图的问答系统GraphRAG，在GitHub上迅速获得了超多的star。Notion的CEOIvan Zhao大胆预测：“我认为 RAG 会彻底改变知识管理的方式，让人们摆脱烦琐的信息组织工作。”英伟达的人工智能软件副总裁 Kari Briski也看好其未来：“随着企业在2023年采用这些人工智能框架，预计我们会听到更多有关RAG的信息。”

为了让想进入大模型研究领域的同学能顺利入门，小异带来了一本全面的入门和实践指南《大模型应用开发：RAG入门与实战》，从基础概念到实战操作，手把手教你构建功能齐全的RAG项目。

▼点击下方，即可购书

跟着书中的步骤，迅速点亮你的AI技能树！

Part.1

RAG面面观

在动手之前，咱们先来弄清楚，专补大模型短板的RAG是个什么？

RAG，即检索增强生成（Retrieval-Augmented Generation），是一种重要的基于深度学习的大模型文档搜索框架。它通过从外部知识库中检索相关信息，并将其作为提示（Prompt）输入给大型语言模型（LLM），以增强模型处理知识密集型任务的能力，如问答、文本摘要、内容生成等，有效地避免了大模型的“一本正经的胡说八道”行为。

那么，RAG模型是如何实现这一过程的呢？它的基本原理是利用深度学习技术对文档进行表示和建模，从而实现文档检索和生成的端到端处理。而要构建这样一个高效的RAG系统，我们需要三大核心组件协同工作：检索器（Retriever）、生成器（Generator）和排序器（Ranker）。

再说详细点，各个组件是这样工作的：

· Retriever：是RAG模型的第一阶段，负责从候选文档集合中检索出与查询相关的文档。它可以利用各种检索技术和算法，如基于关键词匹配、语义相似度等，来快速过滤出潜在相关的文档。

· Generator：是RAG模型的第二阶段，负责根据检索到的候选文档生成与查询相关的摘要或答案。它通常采用生成式模型，如语言模型或生成对抗网络（GAN），以自然语言的形式生成文本。

· Ranker：是RAG模型的最后阶段，负责对生成的文本进行排序和评分，以确定最终输出的文档顺序。它可以利用各种排名算法，如机器学习、深度学习等，来对文档进行评分和排序。

技术上的表现确实令人满意，咱们用起来，也是好处多多：

（1）支持多样化的搜索需求，包括文档检索、问题回答、摘要生成等。

（2）支持多语言和多媒体搜索，包括文本、图片、音频、视频等多种形式的信息。

（3）能够充分利用深度学习技术对文档进行表示和建模，从而提高了搜索结果的准确性和相关性。

（4）能够根据用户的查询和历史搜索记录，提供个性化的搜索服务，从而提升了用户的搜索体验。

RAG模型不光听起来厉害，实际用起来更有价值，比如：

· 企业知识管理系统中的应用：智能化知识检索与共享、智能问答与问题解决、知识图谱构建与智能推荐、情报分析与决策支持；

· 在线问答系统中的应用：自动问答与客户服务、内部知识分享与协作、教育与学习辅助；

· 情报检索系统中的应用：快速信息检索与分析、多样化信息资源的整合利用、情报分析与决策支持。

......

RAG在提供高效的文档搜索和问答服务上真是大显身手，而它背后的大功臣就是PyTorch，这个深度学习框架超灵活，功能强大，帮助开发者轻松搞定复杂的模型搭建和算法优化，让RAG的表现更出色。

想要深入玩转RAG，PyTorch的基础知识必须掌握。虽然现在RAG越来越火了，但想学好它还挺难的，因为资料到处都有，但是不够集中。别急，这本书就是你的救星，它把RAG的知识和PyTorch的编程技巧都打包好了，为你勾勒出了一条高效的学习路径。

现在，就让这本书带着我们动手玩转RAG开发吧。

Part.2

动手玩转RAG

这本书分为9章，内容按照“基础入门——技术深入——实战应用”的结构来布局，全面覆盖了RAG大模型技术的各个方面，包括工作内容、技术细节以及在不同领域的应用实践。

基础入门

这本书先给你讲了AI和NLP的大背景，然后聚焦到RAG技术怎么在文档搜索上大显身手。

在第3章中，从感知机到多层感知机、卷积神经网络、循环神经网络，再到Transformer、BERT和GPT，都给你讲透了。

在第4章中，用ChatGPT当例子，让你看看现在处理文本都先进成啥样了。

技术深入

这本书还涵盖了一系列实用技术，从文档的分块与向量化，到利用深度学习模型进行向量检索，再到结合Prompt技术实现精准响应，每个环节都有易懂的讲解和实际例子。书中还介绍了如何用Streamlit和Gradio这些工具来做出好看的Web界面，让你能直观地看到RAG技术的效果。

（书中讲解PyTorch 提供了torchsummary 等工具来帮助我们可视化模型的结构）

实战应用

这本书可不是那种只讲理论不动手的教科书。从基础章节开始，咱们就边学边练。

比如，第2章就带你动手，从PyTorch的基础编程开始，慢慢深入深度学习的精髓。这里不光讲了怎么安装PyTorch，还有张量操作、自动微分这些基本技能，更有模型搭建、训练评估这些实战技巧，保证你能从理论到实践，把深度学习的精髓都学到手。

到了RAG技术部分，详细聊了文档分块与向量化技术，以及怎么把文本变成机器能理解的样子。比如说，用词袋、词嵌入，甚至预训练模型等多种方法。

再往后，深入RAG的向量检索技术，不光讲了向量检索是啥，还讲了怎么计算，特别是局部敏感哈希（Locality Sensitive Hashing，LSH）算法，帮你解决大规模文档检索的问题。在第8章中，你将重点学习怎么给大模型下指令，从指令设计到模板，再到代理模式和思维链提示，这些都是为了让你能更有效地和大模型交流，激发你的创造力。

最后还提供了一个动手项目，教你怎么实现一个PDF阅读器，把之前学的所有理论和技术都结合起来，让你亲自体验一下RAG技术在实际应用中的强大魅力。

Part.3

结语

这本书的独到之处在于：

①全面涵盖：带你从文档提取一路学到相似度搜索，覆盖文档搜索的每个核心环节，确保你能全面掌握关键技术。

②深入剖析：每个环节都不是浅尝辄止，而是深入技术核心，还有实际案例让你看到怎么在项目中运用。

③技术前沿：不只教你老一套，还带你了解大模型问答等前沿技术在文档搜索中的应用，让你紧跟技术趋势。

④简单易懂：讲的都是大白话，专业术语和复杂数学都靠边站，新手也能一看就懂，一学就会。

实用又易懂！无论你是想提升搜索效率与准确度的搜索引擎工程师，还是想探索NLP技术前沿的研究者，或者是寻找数据分析新方法的数据科学家与分析师，甚至是想拓展AI知识视野的爱好者和希望提高文档处理效率的文档管理从业者，都能在这本书中找到你需要的内容！

▼点击下方，即可购书

🏴‍☠️宝藏级🏴‍☠️ 原创公众号『数据STUDIO』内容超级硬核。公众号以Python为核心语言，垂直于数据科学领域，包括可戳👉 Python｜MySQL｜数据分析｜数据可视化｜机器学习与数据挖掘｜爬虫等，从入门到进阶！

长按👇关注- 数据STUDIO -设为星标，干货速递

http://mp.weixin.qq.com/s?__biz=Mzk0OTI1OTQ2MQ==&mid=2247586390&idx=1&sn=c4d2c381be167763ae8919a10c1f4887

数据STUDIO

点击领取《Python学习手册》，后台回复「福利」获取。『数据STUDIO』专注于数据科学原创文章分享，内容以 Python 为核心语言，涵盖机器学习、数据分析、可视化、MySQL等领域干货知识总结及实战项目。

最新文章

新式爬虫利器！太好用了！

我把 Python 中 zip() 函数玩出花了！

大模型，可以这么学！

Python Lambda 函数的 9 种玩法

再用 `print` 进行 Python调试，你就OUT啦！

李子柒回归! 用Python下载她的YouTube视频！

20 个 Python 非常实用的自动化脚本

码住！12 种生产级 Python 代码风格

大模型必备技能 -- RAG

72k！一个前景被严重低估的方向！

最强图解微型神经网络--多层感知器

看完再也不担心数据预处理中的数据泄露了

信息论、机器学习的核心概念：熵、KL散度、JS散度和Renyi散度的深度解析及应用

三种Transformer模型中的注意力机制介绍及Pytorch实现：从自注意力到因果自注意力

贝叶斯线性回归：概率与预测建模的融合

珊瑚书出版！从零开始，万行代码自制向量数据库

关于你不知道的 Python import 10 件事

Python 3.13 中的 7 个新类型特性

10万字、近20家企业BI智能分析决策合集

什么是莱文斯坦距离？

RAG系统的7个检索指标：信息检索任务准确性评估指南

YYDS！哈工大博士的PyTorch笔记火了！！

LLM预训练从0到1

后悔没早点知道 Python 异常的这 9 个事

用ChatGPT做数据分析与挖掘，爽！

一文读懂蒙特卡洛算法：从概率模拟到机器学习模型优化的全方位解析

数据库简史

Ko！交叉验证还有陷阱？

Scikit-Learn 四个神级处理数据的技巧

OpenAI发布最强模型o1，大模型杀疯了！

GPT-4o vs Claude 3.5 哪个更牛？

《图解线性代数》中文版.PDF

算法修炼：深度遍历

PySimpleGUI：简化 Python 中的 GUI 开发

时间序列特征提取：从理论到Python代码实践

全球最大在线盗版影视网站关闭

启发式方法给K-Means选择较好的初始质心

数万字BI数字化转型案例.pdf免费下载

解释模型还只看特征重要性？那你就 OUT 咯！

Python 中 9 种关键文件类型你了解几个？

李沐重返母校上海交大，从LLM聊到个人生涯，这里是演讲全文

python中_init_.py 到底有啥用？

《黑神话：悟空》开发者被猎头疯抢，联创发声求放过：你们不缺人才，别搞我们

知乎：我不玩游戏，为什么《黑神话：悟空》这么火？

ChatGPT-4o已经进步成这样了吗？恐怖如斯！！！

LoRA（Low-Rank Adaptation）详解

Python 隐藏的高级技术

数据治理的六大核心准则，终于有人讲明白了

心脏病预测机器学习实战

数据治理的六大核心准则，终于有人讲明白了

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

大模型必备技能 -- RAG

🏴‍☠️宝藏级🏴‍☠️ 原创公众号『数据STUDIO』内容超级硬核。公众号以Python为核心语言，垂直于数据科学领域，包括可戳👉 Python｜MySQL｜数据分析｜数据可视化｜机器学习与数据挖掘｜爬虫 等，从入门到进阶！

🏴‍☠️宝藏级🏴‍☠️ 原创公众号『数据STUDIO』内容超级硬核。公众号以Python为核心语言，垂直于数据科学领域，包括可戳👉 Python｜MySQL｜数据分析｜数据可视化｜机器学习与数据挖掘｜爬虫等，从入门到进阶！