传统RAG凉凉?多模态RAG带来工业级革命

学术   2024-10-30 14:01   湖北  

论文笔记分享,标题Beyond Text: Optimizing RAG with Multimodal Inputs for Industrial Applications

多模态VL模型很早的就进入了这个圈子,早的有LLava,近一点的gpt4o。这个内容的主要想论证一个事情,在工业界,同时包含文本和图像的RAG系统,相比于单文本的 RAG 系统会提高整体性能?

当然这个问题的结论是,会提高,所以还额外做了一些,优化多模态流程探索的工作。

首先,多模态的结合,2种模式,一种是图片保持不变,建立起图片向量库;另一种是图片会提取出摘要描述用于召回。 分别对应了下图

比较特别的是,这个论文用到的数据是私有的,测试数据是自己标的。 语料库有8540 个片段,8377 张图片。 测试数据由专业人士标注100个问答对。

考虑到,这里多模态,现有的评测框架不够用了,所以他们开发并开源了一个评测框架,具体的维度还是老几样,正确性,相关性,事实性等等。地址在:https://github.com/riedlerm/multimodal_rag_for_industry

评测结论如下图,就看下图左一,关注框框的对比把

  • 仅仅使用图片的RAG,不管是不是摘要,效果基本都不如baseline  no rag
  • 使用text only的RAG系统已经是个非常强的baseline了
  • 多模态的RAG有潜力,但是很难打败基于纯文本的,但是如果图片检索厉害的话,还是能起飞的(黄框)

最后,在多模态RAG中,基于图片摘要向量的比图像直接做向量的,大部分指标都表现的好,受限于多模态向量的潜能,文本向量模型目前表现更好,也限制了这方面的发挥。总的来说,未来可期。



NLP前沿
一手ai news分享 \x26amp; 热点paper解读
 最新文章