专补大模型短板的RAG入门与实战书来了！

文摘 2024-10-13 09:02 宁夏

RAG自2020年由Facebook AI Research推出后，一下子就窜红了。

毕竟，它是真的帮了大忙，在解决大语言模型的“幻觉”问题上起到了关键作用。

如今，Google、AWS、IBM、微软、NVIDIA等科技巨头都在支持RAG应用的开发。微软还在7月开源了一个基于图的问答系统GraphRAG，在GitHub上迅速获得了超多的star。Notion的CEOIvan Zhao大胆预测：“我认为 RAG 会彻底改变知识管理的方式，让人们摆脱烦琐的信息组织工作。”英伟达的人工智能软件副总裁 Kari Briski也看好其未来：“随着企业在2023年采用这些人工智能框架，预计我们会听到更多有关RAG的信息。”

为了让想进入大模型研究领域的同学能顺利入门，小异带来了一本全面的入门和实践指南《大模型应用开发：RAG入门与实战》，从基础概念到实战操作，手把手教你构建功能齐全的RAG项目。

▼点击下方，即可5折购书，前200人

跟着书中的步骤，迅速点亮你的AI技能树！

Part.1

RAG面面观

在动手之前，咱们先来弄清楚，专补大模型短板的RAG是个什么？

RAG，即检索增强生成（Retrieval-Augmented Generation），是一种重要的基于深度学习的大模型文档搜索框架。它通过从外部知识库中检索相关信息，并将其作为提示（Prompt）输入给大型语言模型（LLM），以增强模型处理知识密集型任务的能力，如问答、文本摘要、内容生成等，有效地避免了大模型的“一本正经的胡说八道”行为。

那么，RAG模型是如何实现这一过程的呢？它的基本原理是利用深度学习技术对文档进行表示和建模，从而实现文档检索和生成的端到端处理。而要构建这样一个高效的RAG系统，我们需要三大核心组件协同工作：检索器（Retriever）、生成器（Generator）和排序器（Ranker）。

再说详细点，各个组件是这样工作的：

· Retriever：是RAG模型的第一阶段，负责从候选文档集合中检索出与查询相关的文档。它可以利用各种检索技术和算法，如基于关键词匹配、语义相似度等，来快速过滤出潜在相关的文档。

· Generator：是RAG模型的第二阶段，负责根据检索到的候选文档生成与查询相关的摘要或答案。它通常采用生成式模型，如语言模型或生成对抗网络（GAN），以自然语言的形式生成文本。

· Ranker：是RAG模型的最后阶段，负责对生成的文本进行排序和评分，以确定最终输出的文档顺序。它可以利用各种排名算法，如机器学习、深度学习等，来对文档进行评分和排序。

技术上的表现确实令人满意，咱们用起来，也是好处多多：

（1）支持多样化的搜索需求，包括文档检索、问题回答、摘要生成等。

（2）支持多语言和多媒体搜索，包括文本、图片、音频、视频等多种形式的信息。

（3）能够充分利用深度学习技术对文档进行表示和建模，从而提高了搜索结果的准确性和相关性。

（4）能够根据用户的查询和历史搜索记录，提供个性化的搜索服务，从而提升了用户的搜索体验。

RAG模型不光听起来厉害，实际用起来更有价值，比如：

· 企业知识管理系统中的应用：智能化知识检索与共享、智能问答与问题解决、知识图谱构建与智能推荐、情报分析与决策支持；

· 在线问答系统中的应用：自动问答与客户服务、内部知识分享与协作、教育与学习辅助；

· 情报检索系统中的应用：快速信息检索与分析、多样化信息资源的整合利用、情报分析与决策支持。

......

RAG在提供高效的文档搜索和问答服务上真是大显身手，而它背后的大功臣就是PyTorch，这个深度学习框架超灵活，功能强大，帮助开发者轻松搞定复杂的模型搭建和算法优化，让RAG的表现更出色。

想要深入玩转RAG，PyTorch的基础知识必须掌握。虽然现在RAG越来越火了，但想学好它还挺难的，因为资料到处都有，但是不够集中。别急，这本书就是你的救星，它把RAG的知识和PyTorch的编程技巧都打包好了，为你勾勒出了一条高效的学习路径。

现在，就让这本书带着我们动手玩转RAG开发吧。

Part.2

动手玩转RAG

这本书分为9章，内容按照“基础入门——技术深入——实战应用”的结构来布局，全面覆盖了RAG大模型技术的各个方面，包括工作内容、技术细节以及在不同领域的应用实践。

基础入门

这本书先给你讲了AI和NLP的大背景，然后聚焦到RAG技术怎么在文档搜索上大显身手。

在第3章中，从感知机到多层感知机、卷积神经网络、循环神经网络，再到Transformer、BERT和GPT，都给你讲透了。

在第4章中，用ChatGPT当例子，让你看看现在处理文本都先进成啥样了。

技术深入

这本书还涵盖了一系列实用技术，从文档的分块与向量化，到利用深度学习模型进行向量检索，再到结合Prompt技术实现精准响应，每个环节都有易懂的讲解和实际例子。书中还介绍了如何用Streamlit和Gradio这些工具来做出好看的Web界面，让你能直观地看到RAG技术的效果。

（书中讲解PyTorch 提供了torchsummary 等工具来帮助我们可视化模型的结构）

实战应用

这本书可不是那种只讲理论不动手的教科书。从基础章节开始，咱们就边学边练。

比如，第2章就带你动手，从PyTorch的基础编程开始，慢慢深入深度学习的精髓。这里不光讲了怎么安装PyTorch，还有张量操作、自动微分这些基本技能，更有模型搭建、训练评估这些实战技巧，保证你能从理论到实践，把深度学习的精髓都学到手。

到了RAG技术部分，详细聊了文档分块与向量化技术，以及怎么把文本变成机器能理解的样子。比如说，用词袋、词嵌入，甚至预训练模型等多种方法。

再往后，深入RAG的向量检索技术，不光讲了向量检索是啥，还讲了怎么计算，特别是局部敏感哈希（Locality Sensitive Hashing，LSH）算法，帮你解决大规模文档检索的问题。在第8章中，你将重点学习怎么给大模型下指令，从指令设计到模板，再到代理模式和思维链提示，这些都是为了让你能更有效地和大模型交流，激发你的创造力。

最后还提供了一个动手项目，教你怎么实现一个PDF阅读器，把之前学的所有理论和技术都结合起来，让你亲自体验一下RAG技术在实际应用中的强大魅力。

Part.3

结语

这本书的独到之处在于：

①全面涵盖：带你从文档提取一路学到相似度搜索，覆盖文档搜索的每个核心环节，确保你能全面掌握关键技术。

②深入剖析：每个环节都不是浅尝辄止，而是深入技术核心，还有实际案例让你看到怎么在项目中运用。

③技术前沿：不只教你老一套，还带你了解大模型问答等前沿技术在文档搜索中的应用，让你紧跟技术趋势。

④简单易懂：讲的都是大白话，专业术语和复杂数学都靠边站，新手也能一看就懂，一学就会。

实用又易懂！无论你是想提升搜索效率与准确度的搜索引擎工程师，还是想探索NLP技术前沿的研究者，或者是寻找数据分析新方法的数据科学家与分析师，甚至是想拓展AI知识视野的爱好者和希望提高文档处理效率的文档管理从业者，都能在这本书中找到你需要的内容！

▼点击下方，即可5折购书，前200人

—END—

http://mp.weixin.qq.com/s?__biz=MzkzODM4NzQ1NQ==&mid=2247495967&idx=1&sn=fa4b7c780c98e7dae0648b6e11f7781f

科研后花园

专注于R语言绘图及数据分析！

最新文章

独自一人，怒发顶会！！

「R绘图模板」并列柱状图+组内差异字母标记+组间差异字母标记！！！

真心建议！还没有课题的都进来看看！

如何看懂宏基因组分析结果，做个性化分析，深入挖掘数据，高效发文章？

「微生物组」基于LorMe包进行微生物组数据分析—网络分析！！！

为啥本科生都能发顶会，而博士一篇都没有？

聪明医生选择智能专病库！ 9月已有 800+ 主任下单~ 比Excel更高效、更精准！

「R绘图模板」中国地图+省份子图+采样点放大效果展示！！！

诚征男友！98年妹纸，北大本科，人大硕士，部委公务员，偶尔被夸好看，江浙沪独女

「微生物组」基于LorMe包进行微生物组数据分析—物种差异分析！！！

2024年学术志团队新作重磅上市！

科研绘图必不可少的工具确定不了解一下吗？

一篇SCI学校奖励8万！靠SCI论文奠定学术圈地位！

「微生物组」基于LorMe包进行微生物组数据分析—微生物群落结构组成分析！！！

「R绘图模板」世界地图+采样点标记+子地图放大效果!!!

发一篇顶会真不难

「微生物组」基于LorMe包进行微生物组数据分析—Beta多样性分析！！！

扩增子测序数据分析还不会？小编整理的全套R语言代码助您轻松解决问题！（更新版）

专补大模型短板的RAG入门与实战书来了！

发一篇顶会真不难

「R绘图模板」跟着Cell学绘图—双分组倾斜火山图！！！

一文教你自己做宏基因组数据分析！

「R绘图模板」组合型热图+分组差异图等在多组学技术中的重要体现，生信必备!

「微生物组」基于LorMe包进行微生物组数据分析—Alpha多样性分析！！！

扩增子测序数据分析还不会？小编整理的全套R语言代码助您轻松解决问题！（更新版）

2025年最全申博攻略！

「R绘图技巧」基于ggplot2包绘制的图形设置坐标轴以百分比或者对数样式显示！！！

「R绘图模板」并列箱线图+散点+气泡图+分组+显著性！！！

跟着Nature学绘图！数据可视化+1比1完美复现！生信小白也能“逆袭！”

「图书推荐」保姆级R语言绘图教程，带你轻轻松松入门R语言绘图！！！

「R绘图模板」气泡图+非等宽分面+分组！！！

跟着GPT做科研，让绘图与数据更有魅力，纯数据分析与挖掘…

「R绘图模板」箱线图+散点+均值连线+显著性的箱上箱下标注！！！

招博士！加入我们！

「R绘图模板」环形多组火山图+标签！！！

「微生物组」基于microeco包进行共现性网络分析！！！

扩增子测序数据分析还不会？小编整理的全套R语言代码助您轻松解决问题！（更新版）

OpenAI发布最强模型o1，大模型杀疯了！

发SCI真不难！

「R绘图模板」组合图系列—相对丰度柱状堆积图+单组柱状图+显著性！！！

数据分析 | 微生物宏基因组数据组装、分箱等高级分析如何可视化？

「R绘图模板」气泡图+分组+标签+拟合曲线！！！

豆瓣9.6，多语言版本全球发行，这本书为啥这么受欢迎？

「R绘图模板」多变量热图+r值+p值+其他变量！！！

找到一个快速发论文的方法

「R绘图模板」用于两组比较的多图形并列组合图-小提琴图+箱线图+散点图！！！

跟着Nature Communications学绘图，让数据更有魅力，纯数据分析与挖掘！

的确可以封神了！原来用GPT科研绘图、数据处理这么简单...

2024年8月份绘图模板教程一览

「R绘图模板」跟着Science学绘图—世界地图+采样点标记气泡图+分布频率注释侧图！！！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉