一文读懂：从RAG到多模态RAG

文摘 2024-10-27 00:07 上海

点击下方卡片，关注“AI生成未来”

编辑：seefun

如果说2023年见证了大语言模型的“寒武纪大爆发”，那么2024年则是多模态大模型“元年”。GPT-4o的出现让大家见识到多模态能力引入，给下游应用生态带来的巨大改变。随之而来的，RAG技术也将逐渐从单语言模态的RAG进化到多模态RAG。本文将带大家速览多模态RAG技术的原理及实现。

什么是RAG

什么是RAG：Retrieval Augmented Generation，检索增强生成。是一种结合了信息检索技术和大型语言模型提示功能的框架。它通过从数据源检索信息来辅助LLM生成答案，提高了模型在知识密集型任务中的准确性和可信度。

我们为什么需要RAG：大型语言模型通常基于固定的历史数据集进行训练，这意味着它们的知识是过时的，无法涵盖最新的信息或特定领域的专业知识。RAG的目的是通过引入额外知识库，检索其中的相关信息，并根据检索结果给予用户回答。这也可以显著减少大模型因为并不具备相关知识，而出现的“幻觉”现象。当然我们也可以直接把整个数据库作为LLM的prompt输入，但由于transformer架构O(N2)复杂度的限制，LLM支持的最长输入长度通常有限，多数支持到128k token已经是极限，使得在面临更长知识库输入时，RAG依然是当下唯一可行的解决方案。

如何实现RAG：在实际应用时，我们常需要给定一系列文档，并使用RAG方法，让LLM针对这些文档进行检索与交互。RAG的实现主要包含以下几个步骤：

数据准备阶段：包括数据提取、分块（chunking）、向量化（embedding）、数据入库等环节。数据提取涉及将不同格式的数据（如PDF、Word、数据库等）处理为统一的格式。分块是将大文档分割成较小的、语义完整的单元，以便于后续处理和检索。
检索阶段：系统根据输入查询检索相关文档或信息。这个阶段依赖于搜索算法和索引方法来快速识别大量集合中最相关的数据。
增强阶段：将用户查询和检索到的额外上下文放入一个提示模板中，以增强提示。
生成阶段：使用大型语言模型来针对检索结果，生成对用户的回复。

走向多模态RAG

从RAG的应用可以看出，多数时候，我们需要把一些文档作为RAG的输入，用于检索和生成。而现实应用中，文档通常是以图文交错的形式存在的，比如网页、PDF、PPT文件等等。

通常的做法是，只保留文档中的文本信息。对于PDF文档，则进行OCR文字识别，读取其中的文本。但这样会导致大量图片中至关重要的信息被丢失，以及很多结构化内容的错乱，比如标题、表格、页眉页脚等格式错乱。

改进的做法是，把所有模态信息都转换为纯文本，再进行RAG。我们可以使用多种计算机视觉模型，比如检测模型对文档结构进行识别，然后对文档中不同的模块，使用不同的“广义OCR模型”进行解析。比如对于文本段落，使用OCR模型进行文本识别；对于表格，可以用表格模型进行识别转换为Markdown或LaTeX文本；对于公式，则套用公式识别转换为LaTeX；对于图片，则可使用多模态大模型如GPT-4o进行文本解读（caption），保存为文本描述。有很多开源的工具可以完成这些事情，比如MinerU等。通过解析算法，多模态数据就被完全转换为纯文本的格式了，也就可以照葫芦画瓢套用纯文本的RAG方法了。

图像来源: 张颖峰 | 所见即所得：多模态RAG正在向我们走来

我们注意到，使用上述的方法，信息不可避免会存在丢失，而且依赖过多的解析模型。而时间来到2024年，多模态大模型实现了爆发式的技术突破，高分辨率的视觉输入已经取得了巨大突破，使用单一的多模态大模型做广义OCR也变得非常容易。比如QWen2-VL以及InternVL-2等开源多模态大模型，在文档的广义OCR上都有非常好的效果。

通向高分辨率VLM (10): 原生动态分辨率

多模态大模型成功，让端到端（end-to-end）的算法已经成为了主流。原生多模态的RAG算法也成为了可能：既然多模态大模型有能力理解文本，那我们其实即无需再把图像转换为文本，而可以直接使用图像，提取embedding去做RAG。

即从图(a)转变为图(b)的模式

DSE

https://arxiv.org/abs/2406.11251

DSE，即Document Screenshot Embedding，是一个不使用广义OCR的多模态RAG方法，直接把原始文档的扫描图片，切片后，使用视觉语言模型的编码器编码。其对query和docunment使用了双编码的架构。验证了这一想法的可行性。

ColPali

https://arxiv.org/abs/2407.01449

ColPali架构也是利用视觉语言模型来从文档页面的图像中产生高质量的上下文化嵌入。ColPali使用了延迟交互（late interaction）技术，大大提高了检索效率，同时在检索性能上超越了现有的文档检索系统，并且具有更快的处理速度和可端到端训练的特点。上图对比了传统的文档RAG与多模态RAG的区别。因为减少了广义OCR的解析过程，使得处理速度也有了质的提升。

CoPali其实从名字上看，就知道灵感来源于两个工作，PaliGemma和CoBERT。PaliGemma 是 Google 开发的一款具有多模态功能的视觉语言模型，它结合了视觉模型 SigLIP 和大型语言模型 Gemma。“Col” 则来自于ColBERT 的延迟交互编码器。ColPali 算是延迟交互编码器在多模态 RAG 检索的应用，并且极大提高了检索召回的精度。

延迟交互编码结合了双编码器和交叉编码器的优点。在这种架构中，query和文档被分别编码成独立的embedding集合，然后通过一个高效的交互机制来计算它们之间的相似度。

延迟交互编码的核心思想是将查询和文档的编码过程分开，这样文档的编码可以离线完成，而查询的编码则在在线阶段进行。这种方法的优点是可以在查询时仅对查询进行编码，从而大大提高了处理速度。此外，由于文档的编码是预先完成的，可以将其存储在数据库中，这样就可以对更多的文档进行排序，从而提高查询的精度。

在延迟交互编码中，一个关键的计算是最大相似性（MaxSim）函数，它计算每个查询Token向量与所有文档Token向量之间的相似度，并跟踪每个查询Token的最大得分。查询和文档的总相似度分数是这些最大余弦相似度分数的总和。这种方法允许模型在保持较高排序质量的同时，也具备较高的性能。

随着多模态大语言模型能力的增强，以它为基础的多模态RAG，也早已突破了传统的图像检索的应用方式，而是真正具备大规模非结构化多模态数据深度理解的能力，将会有更多toB的商业应用价值。

致谢

如果您觉得这篇文章对你有帮助或启发，请不吝点赞、在看、转发，让更多人受益。同时，欢迎给个星标⭐，以便第一时间收到我的最新推送。每一个互动都是对我最大的鼓励。让我们携手并进，共同探索未知，见证一个充满希望和伟大的未来！

技术交流

加入「AI生成未来社区」群聊，一起交流讨论，涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向，备注不同方向邀请入群！可添加小助手备注方向加群！

http://mp.weixin.qq.com/s?__biz=Mzg3Njk3NDkyNQ==&mid=2247510117&idx=2&sn=5164cebd496e6261eaf5d9dd68607b77

AI生成未来

领先的AIGC和具身智能、大模型技术交流社区，关注LLM、CV、深度学习、生成式等AI领域前沿技术

Ollama v0.4 可运行 Llama 3.2 Vision 啦

掌管OpenAI安全的那个人离职了，离职信曝光

你的LoRA需要更新了！科大讯飞等提出MiLoRA：新颖且高效的LoRA变体

LLM之数据的重要性

智能体首次达到Kaggle Grandmaster水平，华为用结构化推理补齐思维链短板

谷歌&Mistral AI发布TIPS：具有空间意识的文本-图像预训练（适配各种计算机视觉任务）

vLLM这一年的新特性以及后续规划（总结版!）

免费可商用！腾讯混元大语言模型和3D模型正式开源！

FGM：刷新流匹配模型单步文本到图像生成纪录！(浙大&卡内基梅隆&北大&西湖大学)

ROSCon首次落子中国内地！享誉全球的机器人精英盛会马上开始了

ECCV'24 | SAM4MLLM：多模态大语言模型和SAM强强联合

英伟达&斯坦福大学发布GRS：从真实世界观测中生成机器人仿真任务

告别庞然大物,拥抱小巧精悍！面向移动和边缘设备的小语言模型综述

满血版o1倒计时！奥特曼完整专访流出：o系列疯狂迭代，马上起飞

突破个性化图像生成局限！MagicTailor：组件可控个性化图像生成创新框架！

NeurIPS`24震撼发布:Diff-eRank大模型评估新指标，精准衡量LLM去噪！

三年前的AI设计芯片造假？谷歌深陷学术不端丑闻，吹哨人被开除!

清华大学最新！2万字长文全面解读多模态生成式AI的前世今生！

大模型推理优化技术-KV Cache量化理论到实战

2024 AI年度报告发布，附十大预测：人形机器人热度下降

2024年大模型LLM还有哪些可研究的方向？听听大佬怎么说

红外图像合成技术综述

谷歌Agent首次发现真实世界代码漏洞！抢救全球数亿设备，或挽回数十亿美元损失？

港理工&OPPO&Stability AI联合发布一致且高效的3D场景编辑方法——SyncNoise

突发！OpenAI正式发布ChatGPT网络搜索，彻底颠覆谷歌！

登上生图排行榜第一的red_panda，是家创业公司，不是国产模型

定制化视频生成新模范！零样本主体驱动，精确运动控制！复旦&阿里等发布DreamVideo-2

基于Gemini！Waymo提出端到端自动驾驶多模态模型EMMA！

苹果最强芯M4 Max首发！官方定位可开发大模型

无需昂贵标注！大幅提升SDXL和SD3-Medium效果！文生图偏好优化新宠来了 | TUM&Snap

从文本RAG到多模态RAG！LMU | 构建多模态RAG系统的最佳配置

AI「长脑子」了？LLM惊现「人类脑叶」结构并有数学代码分区，MIT大牛新作震惊学界！

4B和34B精度相当？xGen-MM-Vid (BLIP-3-Video)：你只需32个tokens来表示一个视频

VILA-U：统一多模态理解与生成模型！多模态任务新架构！

神秘模型“小熊猫”一夜刷屏：排名超Flux、Midjourney，网友：一看就中国的

教机器人"倒水"是融入生活的第一步！AR收集和生成演示(ARCADE)框架发布

NeurIPS`24 | 防御对抗性提示攻击!AdvUnlearn让图片生成风险骤降

大模型引领6G革命！最新综述探索「未来通信方式」：九大方向

颜水成团队新作:AI手机迎来重大技术进展！Meissonic:让移动成像技术飞跃

7B新王登基！Zamba 2推理效率比Llama 3提升20%，内存用量更少

初探大模型压缩

首篇！全面解读高效Segment Anything模型变体：各种图像分割加速策略和核心技术展示

一文读懂：从RAG到多模态RAG

大模型生成RPG游戏，情节角色全自定义！谷歌出品，一作上海交大

图像编辑多任务一网打尽！PromptFix，新型扩散模型&大规模视觉指令数据集（罗切斯特大学&微软）

训练扩散模型比你想象的更简单！谢赛宁老师：Representation matters！

与OpenAI o1技术理念相似，TDPO-R算法有效缓解奖励过优化问题

灵活精确可控编辑！Dice:首个离散扩散模型精确反演方法！

大模型面经—RAG工程实践经验总结

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉