引言
老生常谈:检索增强生成(RAG)主要解决的是大模型缺乏领域知识且容易产生幻觉的问题。随着当前多模态模型的发展,它可以同时处理文本和图像,那么能否将多模态模型应用到RAG系统呢?基于这个问题,本文重点研究了「如何将多模态模型集成到 RAG 系统中,旨在找到多模态RAG系统的最佳配置」。论文:https://arxiv.org/pdf/2410.21943
背景介绍
2022年底,OpenAI发布的ChatGPT打开潘多拉魔盒,开辟了生成式大模型的新时代,随后一系列的开源大模型(LLM)如井喷式爆发出来,比较有代表性的有:Llama系列、ChatGLM系列、Qwen系列等,这显著推动了自然语言处理(NLP)领域的发展,让高质量内容生成和大模型Agent等应用成为了可能,颠覆了传统意图识别到响应话术配置的技术路线。
然而,大模型应用场景千千万,金融业、教育行业、法律行业等都涉及其专业的行业知识。此时,通用LLMs 由于缺乏特定领域的知识,在内容生成过程中很容易出现“幻觉”。为此,高大上的检索增强生成(RAG)技术成为了算法工程师的宠儿,即通过将文档检索与生成式语言模型相结合来解决这些局限性。
举一反三,大模型既然能用在文本内容生成上,那么它就可以应用在图像、视频等模态上。所以多模态大模型应运而生,例如VAE、Llava、Sora、GPT4-Vision等,这一进将具有重大的应用潜力,例如有一些文档,包含复杂技术文本和详细视觉信息(如图表、原理图和截图),这种模态组合使得工业领域对 AI 系统提出了较高的挑战,要求它们准确解读文本和视觉信息,以提供有意义的洞见。
当前,尽管针对纯文本 RAG 系统及其优化的研究已经十分广泛,但对于多模态 RAG 应用的研究却相对较少。为此,本文将探索如何将多模态模型集成至RAG 系统中,即看一看结合图像和文本是否可以提高 RAG 的性能,并找出了这种系统的最佳配置。
研究方法
本文作者研究主要关注两个问题:
1)基于工业领域中的PDF文档,将单模态文本、单模态图像、文本+图像双模态放入RAG系统中,看一看文本+图像双模态是否能够提升RAG系统的性能? 2)如何优化多模态RAG系统?
为了回答这两个问题,本文作者首先选择了当前主流的两个多模态模型GPT4-Vision,LLaVA ,然后手动标注了数据集和RAG系统测试集,接着作者构建了一个多模态RAG系统(两种配置),将文本和图像结合到一块儿;最后作者按照RAG系统的6个评估指标进行实验对比。其中:
「手动标注数据集」 使用了来自工业领域的 20 份 PDF 文档,例如用于可编程控制器、断路器和机器人等设备的手册和软件文档。从这些文档中提取了文本和图像,共生成了 8540 个文本片段(每个片段平均长度为 225 个单词)和 8377 张图像,并按页对齐以确保上下文的准确性。每条数据集是包含文本上下文、图像上下文、问题和答案的四元组。
「RAG系统测试集」 手动标注了 100 对问答对。每个标注包含一个问题、参考答案以及用于检索相应文本和图像上下文的页码,从而形成多模态四元组。问题设计旨在涵盖典型的工业任务,如操作程序、设备配置和故障排除,其中视觉上下文至关重要。
「多模态RAG系统」 作者构建了一个多模态RAG系统,该系统具备两种配置,一种是「多模态嵌入和独立向量存储」、「图像摘要和联合向量存储」。如下图所示:「RAG系统评估指标」
「答案正确性」通过参考引导的成对比较来评估生成答案与参考答案的正确性,这是唯一依赖于存在真实答案的指标; 「答案相关性」评估生成答案与问题的相关性; 「文本忠诚度」衡量生成答案与检索到的文本上下文之间的一致性; 「图像忠诚度」评估生成答案与检索到的图像内容的符合程度; 「文本上下文相关性」评估检索到的文本上下文在回答问题时的相关性; 「图像上下文相关性」则评估检索到的图像与问题的相关性。
实验结果
本文实验结果如下,可以发现「结合文本和图像能够显著提升RAG系统的性能」,尤其是在检索过程能够成功识别相关文本和图像时。相比多模态嵌入,利用图像的文本摘要提供了更大的灵活性和优化空间,即「多模态RAG系统采用图像摘要和联合向量存储架构会好一些」。
推荐阅读
[5]RU|提出手语生成大模型SignLLM,达到SOTA!
[6]ICLR2024顶会,历年paper整理分享(含源码)!!
投稿或寻求报道联系:ainlperbot
点击下方链接🔗关注我们