从文本RAG到多模态RAG!LMU | 构建多模态RAG系统的最佳配置

文摘   2024-10-31 00:01   上海  
点击下方卡片,关注“AI生成未来


引言

老生常谈:检索增强生成(RAG)主要解决的是大模型缺乏领域知识且容易产生幻觉的问题。随着当前多模态模型的发展,它可以同时处理文本和图像,那么能否将多模态模型应用到RAG系统呢?基于这个问题,本文重点研究了「如何将多模态模型集成到 RAG 系统中,旨在找到多模态RAG系统的最佳配置」论文:https://arxiv.org/pdf/2410.21943

背景介绍

2022年底,OpenAI发布的ChatGPT打开潘多拉魔盒,开辟了生成式大模型的新时代,随后一系列的开源大模型(LLM)如井喷式爆发出来,比较有代表性的有:Llama系列、ChatGLM系列、Qwen系列等,这显著推动了自然语言处理(NLP)领域的发展,让高质量内容生成和大模型Agent等应用成为了可能,颠覆了传统意图识别到响应话术配置的技术路线。

然而,大模型应用场景千千万,金融业、教育行业、法律行业等都涉及其专业的行业知识。此时,通用LLMs 由于缺乏特定领域的知识,在内容生成过程中很容易出现“幻觉”。为此,高大上的检索增强生成(RAG)技术成为了算法工程师的宠儿,即通过将文档检索与生成式语言模型相结合来解决这些局限性。

举一反三,大模型既然能用在文本内容生成上,那么它就可以应用在图像、视频等模态上。所以多模态大模型应运而生,例如VAE、Llava、Sora、GPT4-Vision等,这一进将具有重大的应用潜力,例如有一些文档,包含复杂技术文本和详细视觉信息(如图表、原理图和截图),这种模态组合使得工业领域对 AI 系统提出了较高的挑战,要求它们准确解读文本和视觉信息,以提供有意义的洞见。

当前,尽管针对纯文本 RAG 系统及其优化的研究已经十分广泛,但对于多模态 RAG 应用的研究却相对较少。为此,本文将探索如何将多模态模型集成至RAG 系统中,即看一看结合图像和文本是否可以提高 RAG 的性能,并找出了这种系统的最佳配置。

研究方法

本文作者研究主要关注两个问题:

  • 1)基于工业领域中的PDF文档,将单模态文本、单模态图像、文本+图像双模态放入RAG系统中,看一看文本+图像双模态是否能够提升RAG系统的性能?
  • 2)如何优化多模态RAG系统?

为了回答这两个问题,本文作者首先选择了当前主流的两个多模态模型GPT4-Vision,LLaVA ,然后手动标注了数据集和RAG系统测试集,接着作者构建了一个多模态RAG系统(两种配置),将文本和图像结合到一块儿;最后作者按照RAG系统的6个评估指标进行实验对比。其中:

「手动标注数据集」 使用了来自工业领域的 20 份 PDF 文档,例如用于可编程控制器、断路器和机器人等设备的手册和软件文档。从这些文档中提取了文本和图像,共生成了 8540 个文本片段(每个片段平均长度为 225 个单词)和 8377 张图像,并按页对齐以确保上下文的准确性。每条数据集是包含文本上下文、图像上下文、问题和答案的四元组。

「RAG系统测试集」 手动标注了 100 对问答对。每个标注包含一个问题、参考答案以及用于检索相应文本和图像上下文的页码,从而形成多模态四元组。问题设计旨在涵盖典型的工业任务,如操作程序、设备配置和故障排除,其中视觉上下文至关重要。

「多模态RAG系统」 作者构建了一个多模态RAG系统,该系统具备两种配置,一种是「多模态嵌入和独立向量存储」「图像摘要和联合向量存储」。如下图所示:「RAG系统评估指标」

  • 「答案正确性」通过参考引导的成对比较来评估生成答案与参考答案的正确性,这是唯一依赖于存在真实答案的指标;
  • 「答案相关性」评估生成答案与问题的相关性;
  • 「文本忠诚度」衡量生成答案与检索到的文本上下文之间的一致性;
  • 「图像忠诚度」评估生成答案与检索到的图像内容的符合程度;
  • 「文本上下文相关性」评估检索到的文本上下文在回答问题时的相关性;
  • 「图像上下文相关性」则评估检索到的图像与问题的相关性。

实验结果

本文实验结果如下,可以发现「结合文本和图像能够显著提升RAG系统的性能」,尤其是在检索过程能够成功识别相关文本和图像时。相比多模态嵌入,利用图像的文本摘要提供了更大的灵活性和优化空间,即「多模态RAG系统采用图像摘要和联合向量存储架构会好一些」

推荐阅读

[1]>>专注大模型/AIGC、学术前沿的知识分享!

[2]免去后训练!CMU|提出推理时对齐方法

[3]每周速递!大模型研究最前沿!

[4]前沿:分享几个大模型(LLMs)的热门研究方向

[5]RU|提出手语生成大模型SignLLM,达到SOTA!

[6]ICLR2024顶会,历年paper整理分享(含源码)!!

投稿或寻求报道联系:ainlperbot

点击下方链接🔗关注我们

「资料整理不易,点个再看

AI生成未来
领先的AIGC和具身智能、大模型技术交流社区,关注LLM、CV、深度学习、生成式等AI领域前沿技术
 最新文章