性能堪比o1?阿里mRAG新框架开启多模态动态检索新时代!

科技   2024-12-19 17:00   广东  

2024上半年是大模型的时代,但随着训练推理的深入,大模型也逐渐暴露出幻觉问题, 一些回复与事实知识不符,研究落地面临极大挑战于是,多模态检索增强生成(mRAG)技术应运而生。近年顶会更是激增了一批基于mRAG技术的MLLMs幻觉工作!

鉴于传统的mRAG方法遵循固定的检索流程,检索效率不高。阿里最新推出的研究OmniSearch就以动态检索规划框架,打破了传统mRAG局限!模拟了人类在解决复杂问题时的行为方式,有o1思考推理那味儿了!

更重要的是,作为即插即用的RAG模块,OmniSearch可以与任意MLLMs协同工作以增强其处理复杂动态问题的能力!

👇🏻扫描二维码找助教0元预约直播课!

为了帮助大家综合掌握多模态RAG新框架,消除大模型幻觉。研梦非凡于12月25日晚(周三),邀请了从事多模态大模型研究的王导师,独家详解大模型幻觉消失术,omnisearch开启o1范式多模态动态检索新时代》(AI前沿直播课NO.89)主要涉及1篇阿里的最新工作,该论文ICLR2025在投,评分为8665,接收应该问题不大从顶会热门MLLMs方向,再到目前多模态大语言模型的幻觉问题、RAG技术,重点讲解顶会工作-OmniSearch核心原理,及最新动态VQA数据集,1节课速通!

直播课福利

扫码预约即可免费领取200篇相关论文(20篇幻觉前沿+70篇多模态+120篇大模型)!

ps:研梦非凡开设的前沿论文系列直播,旨在帮助大家提升读论文技能,快速抓住重点,掌握有效方法,进而找到创新点,轻松完成论文报告。

直播课内容概览

01 多模态行业热点

  • 顶会热门方向
  • 多模态RAG技术
  • 多模态大语言模型的幻觉问题

02 研究背景

  • 多模态大语言模型的幻觉问题
  • 缺乏有挑战性的动态VQA数据集
  • 现有mRAG方法的表现欠佳

03 相关工作详解

  • RAG in LLMs
  • 多模态检索基础
  • 多模态大语言模型

👇🏻扫描二维码找助教0元预约直播课!

04 OmniSearch详细算法框架

  • Planning Agent
  • Retriever
  • Sub-question Solver

05 实验要点

  • Experimental Settings
  • Main Results
  • Analysis Experiments on Dyn-VQA Dataset

06 多模态检索增强生成创新点

  • 构建了一个具有挑战性的数据集Dyn-VQA
  • 提出了首个自适应规划型多模态检索智能体OmniSearch

导师简介

王导师

【学术背景】985硕出身,拥有丰富的深度学习研究、论文发表经验,多篇SCI论文、EI会议论文(一作)

【研究方向】大语言模型、视觉语言模型、多模态学习,以及自然语言处理、进化算法等

👇🏻扫描二维码找助教0元预约直播课!

研梦非凡科研论文指导

idea并不是直接拍脑门拍出来的,是一遍一遍实验、跑代码、改模型、思路修正的过程中产生的。研梦非凡1V1定制化论文指导,和研梦导师一起找idea,研梦导师指导实验,共同解决数据问题。授之以渔——搭建论文写作框架,增删改查,针对性实验指导!哪里薄弱补哪里!
<<< 左右滑动见更多 >>>
👇🏻扫描二维码找助教0元预约直播课!

研梦非凡部分导师介绍

研梦非凡导师团队,来自海外QStop200、国内华五、C9、985高校的教授/博士导师/博士后,以及世界500强公司算法工程师、国内外知名人工智能实验室研究员等这是一支实力强大的高学历导师团队,在计算机科学、机器学习、深度学习等领域,积累了丰富的科研经历,研究成果也发表在国际各大顶级会议和期刊上,在指导学员的过程中,全程秉持初心,坚持手把手个性化带教。包括但不限于以下导师~
<<< 左右滑动见更多 >>>

👇🏻扫码加助教为你匹配合适课题的大牛导师

全新6人尖端科研课题组论文辅导

<<< 左右滑动见更多 >>>

👇🏻扫描二维码找助教了解详情

我们不是小作坊哦~我们背靠研途考研(就是张雪峰老师和徐涛老师在的那个研途考研),做教育十余年,重交付,重口碑,是我们一贯的公司理念!



AI算法与图像处理
考研逆袭985,非科班跨行AI,目前从事计算机视觉的工业和商业相关应用的工作。分享最新最前沿的科技,共同分享宝贵的资源资料,这里有机器学习,计算机视觉,Python等技术实战分享,也有考研,转行IT经验交流心得
 最新文章