论文笔记分享,标题Beyond Text: Optimizing RAG with Multimodal Inputs for Industrial Applications
多模态VL模型很早的就进入了这个圈子,早的有LLava,近一点的gpt4o。这个内容的主要想论证一个事情,在工业界,同时包含文本和图像的RAG系统,相比于单文本的 RAG 系统会提高整体性能?
当然这个问题的结论是,会提高,所以还额外做了一些,优化多模态流程探索的工作。
首先,多模态的结合,2种模式,一种是图片保持不变,建立起图片向量库;另一种是图片会提取出摘要描述用于召回。 分别对应了下图
比较特别的是,这个论文用到的数据是私有的,测试数据是自己标的。 语料库有8540 个片段,8377 张图片。 测试数据由专业人士标注100个问答对。
考虑到,这里多模态,现有的评测框架不够用了,所以他们开发并开源了一个评测框架,具体的维度还是老几样,正确性,相关性,事实性等等。地址在:https://github.com/riedlerm/multimodal_rag_for_industry
评测结论如下图,就看下图左一,关注框框的对比把
仅仅使用图片的RAG,不管是不是摘要,效果基本都不如baseline no rag 使用text only的RAG系统已经是个非常强的baseline了 多模态的RAG有潜力,但是很难打败基于纯文本的,但是如果图片检索厉害的话,还是能起飞的(黄框)
最后,在多模态RAG中,基于图片摘要向量的比图像直接做向量的,大部分指标都表现的好,受限于多模态向量的潜能,文本向量模型目前表现更好,也限制了这方面的发挥。总的来说,未来可期。