从文本RAG到多模态RAG！LMU | 构建多模态RAG系统的最佳配置

文摘 2024-10-31 00:01 上海

点击下方卡片，关注“AI生成未来”

引言

老生常谈：检索增强生成（RAG）主要解决的是大模型缺乏领域知识且容易产生幻觉的问题。随着当前多模态模型的发展，它可以同时处理文本和图像，那么能否将多模态模型应用到RAG系统呢？基于这个问题，本文重点研究了「如何将多模态模型集成到 RAG 系统中，旨在找到多模态RAG系统的最佳配置」。论文：https://arxiv.org/pdf/2410.21943

背景介绍

2022年底，OpenAI发布的ChatGPT打开潘多拉魔盒，开辟了生成式大模型的新时代，随后一系列的开源大模型（LLM）如井喷式爆发出来，比较有代表性的有：Llama系列、ChatGLM系列、Qwen系列等，这显著推动了自然语言处理（NLP）领域的发展，让高质量内容生成和大模型Agent等应用成为了可能，颠覆了传统意图识别到响应话术配置的技术路线。

然而，大模型应用场景千千万，金融业、教育行业、法律行业等都涉及其专业的行业知识。此时，通用LLMs 由于缺乏特定领域的知识，在内容生成过程中很容易出现“幻觉”。为此，高大上的检索增强生成（RAG）技术成为了算法工程师的宠儿，即通过将文档检索与生成式语言模型相结合来解决这些局限性。

举一反三，大模型既然能用在文本内容生成上，那么它就可以应用在图像、视频等模态上。所以多模态大模型应运而生，例如VAE、Llava、Sora、GPT4-Vision等，这一进将具有重大的应用潜力，例如有一些文档，包含复杂技术文本和详细视觉信息（如图表、原理图和截图），这种模态组合使得工业领域对 AI 系统提出了较高的挑战，要求它们准确解读文本和视觉信息，以提供有意义的洞见。

当前，尽管针对纯文本 RAG 系统及其优化的研究已经十分广泛，但对于多模态 RAG 应用的研究却相对较少。为此，本文将探索如何将多模态模型集成至RAG 系统中，即看一看结合图像和文本是否可以提高 RAG 的性能，并找出了这种系统的最佳配置。

研究方法

本文作者研究主要关注两个问题：

1）基于工业领域中的PDF文档，将单模态文本、单模态图像、文本+图像双模态放入RAG系统中，看一看文本+图像双模态是否能够提升RAG系统的性能？
2）如何优化多模态RAG系统？

为了回答这两个问题，本文作者首先选择了当前主流的两个多模态模型GPT4-Vision，LLaVA ，然后手动标注了数据集和RAG系统测试集，接着作者构建了一个多模态RAG系统（两种配置），将文本和图像结合到一块儿；最后作者按照RAG系统的6个评估指标进行实验对比。其中：

「手动标注数据集」 使用了来自工业领域的 20 份 PDF 文档，例如用于可编程控制器、断路器和机器人等设备的手册和软件文档。从这些文档中提取了文本和图像，共生成了 8540 个文本片段（每个片段平均长度为 225 个单词）和 8377 张图像，并按页对齐以确保上下文的准确性。每条数据集是包含文本上下文、图像上下文、问题和答案的四元组。

「RAG系统测试集」 手动标注了 100 对问答对。每个标注包含一个问题、参考答案以及用于检索相应文本和图像上下文的页码，从而形成多模态四元组。问题设计旨在涵盖典型的工业任务，如操作程序、设备配置和故障排除，其中视觉上下文至关重要。

「多模态RAG系统」 作者构建了一个多模态RAG系统，该系统具备两种配置，一种是「多模态嵌入和独立向量存储」、「图像摘要和联合向量存储」。如下图所示：「RAG系统评估指标」

「答案正确性」通过参考引导的成对比较来评估生成答案与参考答案的正确性，这是唯一依赖于存在真实答案的指标；
「答案相关性」评估生成答案与问题的相关性；
「文本忠诚度」衡量生成答案与检索到的文本上下文之间的一致性；
「图像忠诚度」评估生成答案与检索到的图像内容的符合程度；
「文本上下文相关性」评估检索到的文本上下文在回答问题时的相关性；
「图像上下文相关性」则评估检索到的图像与问题的相关性。

实验结果

本文实验结果如下，可以发现「结合文本和图像能够显著提升RAG系统的性能」，尤其是在检索过程能够成功识别相关文本和图像时。相比多模态嵌入，利用图像的文本摘要提供了更大的灵活性和优化空间，即「多模态RAG系统采用图像摘要和联合向量存储架构会好一些」。

推荐阅读

[1]>>专注大模型/AIGC、学术前沿的知识分享！

[2]免去后训练！CMU|提出推理时对齐方法！

[3]每周速递！大模型研究最前沿！

[4]前沿：分享几个大模型(LLMs)的热门研究方向

[5]RU|提出手语生成大模型SignLLM，达到SOTA！

[6]ICLR2024顶会，历年paper整理分享(含源码)！！

投稿或寻求报道联系：ainlperbot

点击下方链接🔗关注我们

「资料整理不易，点个再看、赞吧」

http://mp.weixin.qq.com/s?__biz=Mzg3Njk3NDkyNQ==&mid=2247510482&idx=2&sn=ac1a52266c62556ca2ac212547829c7b

AI生成未来

领先的AIGC和具身智能、大模型技术交流社区，关注LLM、CV、深度学习、生成式等AI领域前沿技术

Ollama v0.4 可运行 Llama 3.2 Vision 啦

掌管OpenAI安全的那个人离职了，离职信曝光

你的LoRA需要更新了！科大讯飞等提出MiLoRA：新颖且高效的LoRA变体

LLM之数据的重要性

智能体首次达到Kaggle Grandmaster水平，华为用结构化推理补齐思维链短板

谷歌&Mistral AI发布TIPS：具有空间意识的文本-图像预训练（适配各种计算机视觉任务）

vLLM这一年的新特性以及后续规划（总结版!）

免费可商用！腾讯混元大语言模型和3D模型正式开源！

FGM：刷新流匹配模型单步文本到图像生成纪录！(浙大&卡内基梅隆&北大&西湖大学)

ROSCon首次落子中国内地！享誉全球的机器人精英盛会马上开始了

ECCV'24 | SAM4MLLM：多模态大语言模型和SAM强强联合

英伟达&斯坦福大学发布GRS：从真实世界观测中生成机器人仿真任务

告别庞然大物,拥抱小巧精悍！面向移动和边缘设备的小语言模型综述

满血版o1倒计时！奥特曼完整专访流出：o系列疯狂迭代，马上起飞

突破个性化图像生成局限！MagicTailor：组件可控个性化图像生成创新框架！

NeurIPS`24震撼发布:Diff-eRank大模型评估新指标，精准衡量LLM去噪！

三年前的AI设计芯片造假？谷歌深陷学术不端丑闻，吹哨人被开除!

清华大学最新！2万字长文全面解读多模态生成式AI的前世今生！

大模型推理优化技术-KV Cache量化理论到实战

2024 AI年度报告发布，附十大预测：人形机器人热度下降

2024年大模型LLM还有哪些可研究的方向？听听大佬怎么说

红外图像合成技术综述

谷歌Agent首次发现真实世界代码漏洞！抢救全球数亿设备，或挽回数十亿美元损失？

港理工&OPPO&Stability AI联合发布一致且高效的3D场景编辑方法——SyncNoise

突发！OpenAI正式发布ChatGPT网络搜索，彻底颠覆谷歌！

登上生图排行榜第一的red_panda，是家创业公司，不是国产模型

定制化视频生成新模范！零样本主体驱动，精确运动控制！复旦&阿里等发布DreamVideo-2

基于Gemini！Waymo提出端到端自动驾驶多模态模型EMMA！

苹果最强芯M4 Max首发！官方定位可开发大模型

无需昂贵标注！大幅提升SDXL和SD3-Medium效果！文生图偏好优化新宠来了 | TUM&Snap

从文本RAG到多模态RAG！LMU | 构建多模态RAG系统的最佳配置

AI「长脑子」了？LLM惊现「人类脑叶」结构并有数学代码分区，MIT大牛新作震惊学界！

4B和34B精度相当？xGen-MM-Vid (BLIP-3-Video)：你只需32个tokens来表示一个视频

VILA-U：统一多模态理解与生成模型！多模态任务新架构！

神秘模型“小熊猫”一夜刷屏：排名超Flux、Midjourney，网友：一看就中国的

教机器人"倒水"是融入生活的第一步！AR收集和生成演示(ARCADE)框架发布

NeurIPS`24 | 防御对抗性提示攻击!AdvUnlearn让图片生成风险骤降

大模型引领6G革命！最新综述探索「未来通信方式」：九大方向

颜水成团队新作:AI手机迎来重大技术进展！Meissonic:让移动成像技术飞跃

7B新王登基！Zamba 2推理效率比Llama 3提升20%，内存用量更少

初探大模型压缩

首篇！全面解读高效Segment Anything模型变体：各种图像分割加速策略和核心技术展示

一文读懂：从RAG到多模态RAG

大模型生成RPG游戏，情节角色全自定义！谷歌出品，一作上海交大

图像编辑多任务一网打尽！PromptFix，新型扩散模型&大规模视觉指令数据集（罗切斯特大学&微软）

训练扩散模型比你想象的更简单！谢赛宁老师：Representation matters！

与OpenAI o1技术理念相似，TDPO-R算法有效缓解奖励过优化问题

灵活精确可控编辑！Dice:首个离散扩散模型精确反演方法！

大模型面经—RAG工程实践经验总结

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉