首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

传统RAG凉凉？多模态RAG带来工业级革命

学术 2024-10-30 14:01 湖北

论文笔记分享，标题Beyond Text: Optimizing RAG with Multimodal Inputs for Industrial Applications

多模态VL模型很早的就进入了这个圈子，早的有LLava，近一点的gpt4o。这个内容的主要想论证一个事情，在工业界，同时包含文本和图像的RAG系统，相比于单文本的 RAG 系统会提高整体性能？

当然这个问题的结论是，会提高，所以还额外做了一些，优化多模态流程探索的工作。

首先，多模态的结合，2种模式，一种是图片保持不变，建立起图片向量库；另一种是图片会提取出摘要描述用于召回。分别对应了下图

比较特别的是，这个论文用到的数据是私有的，测试数据是自己标的。语料库有8540 个片段，8377 张图片。测试数据由专业人士标注100个问答对。

考虑到，这里多模态，现有的评测框架不够用了，所以他们开发并开源了一个评测框架，具体的维度还是老几样，正确性，相关性，事实性等等。地址在：https://github.com/riedlerm/multimodal_rag_for_industry

评测结论如下图，就看下图左一，关注框框的对比把

仅仅使用图片的RAG，不管是不是摘要，效果基本都不如baseline no rag
使用text only的RAG系统已经是个非常强的baseline了
多模态的RAG有潜力，但是很难打败基于纯文本的，但是如果图片检索厉害的话，还是能起飞的（黄框）

最后，在多模态RAG中，基于图片摘要向量的比图像直接做向量的，大部分指标都表现的好，受限于多模态向量的潜能，文本向量模型目前表现更好，也限制了这方面的发挥。总的来说，未来可期。

http://mp.weixin.qq.com/s?__biz=MzkyOTU5NzY1Mw==&mid=2247489725&idx=1&sn=3b17d7db42e63ccb0d4434bea5692393

一手ai news分享 \x26amp; 热点paper解读

最新文章

测试时训练(TTT)太强了！

大模型也能"反悔"了！

Merkle树+RAG，Cursor的秘密曝光!

GraphRAG进化，效率翻倍！

8个月炼出好"钢"，Steel-LLM开源了~

OpenAI发布GPT学习法则~

465次实验炸出大模型量化真相

Qwen2.5.1 Coder系列开源来袭！冲！

一篇大模型RAG最新综述

解密o1，六大推理秘诀大曝光！

GraphRAG 0.4来袭：增量更新+DRIFT，起飞~

Llama 3退位，腾讯Hunyuan强势登顶

文本分块的天花板来了~

三连发！1.7B小模型把大厂干懵了~

给RAG装上眼睛，性能暴涨39%！

AI助攻SCI，这招太强了

KAG来了，RAG慌了！

传统RAG凉凉？多模态RAG带来工业级革命

AutoRAG开源：RAG界的AutoML终于来了！

智谱大气！首个语音到语音国产大模型开源

大模型数学能力翻车实锤！Apple新研究暴露真相~

prompt要自己写自己了！大厂扎堆放大招~

Claude昨夜王炸！新模型暴打o1，还能玩电脑~

RAG遇上知识冲突，Google祭出终极大招~

向o1看齐，google开源RAG推理扩展，提升近60%

微软开源，CPU推理100B模型，速度飞起~

Llama3 太炸裂了！远超过去的体验！

英伟达一夜封神，开源新模型打进全球前三！

忘记社区，lightrag开源graph的又一用法

entropix，终于找到了真正解决幻觉的方法了

是时候更新vllm了，新版吞吐提升2倍

openai今天open了2下，prompt自动生成器、Agent框架开源

手撕LLM+RLHF+VLM+o1推理，我全都要!!!

现实再次给大模型带来沉重打击

cde，世界上最好的 BERT 大小文本嵌入模型

卷疯了！开源社区离openai o1越来越近~

openai突发上架新模型：gpt4t-lu-test

SFT无需指令，响应微调开源~

点赞送书啦！大模型应用落地指南

Meta刚开源llama 3.2多模态，就被打败了~

cot-decoding，谷歌把o1的底裤都开源了

openai终于open了，开源了，别骂了~

免费送！我们出版了首本大模型RAG书籍

如果思维链都满足不了你，那思维图尼？

RL驱动的Reflection炼丹，谷歌开源SCoRe

大模型Agent，如何利用历史经验自我进化？

OpenAI o1时代，RLHF和多模态我全都要！！！

Qwen2.5系列开源来袭！冲！

达到草莓的70%！首个open o1项目开源

疯狂24h后，openai o1有哪些新的秘密？

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉