顶会涌现一批多模态大模型+遥感深度学习工作,极具创新!

文摘   2024-08-21 11:00   荷兰  
自ChatGPT发布问世,学业界便进入大模型时代,随着训练推理的深入,大模型也逐渐暴露出幻觉问题,一些回复与事实知识不符,研究落地面临极大挑战,在遥感中也有研究在讨论这一问题。于是,围绕其产生原因、检测机制、缓解方法等,近年顶会激增了一批大模型幻觉工作,在数据、基准、解码等多个层面,攻克方法层出不穷!

为了帮助大家综合掌握大模型幻觉,研梦非凡于8月21日晚(周三),邀请了从事多模态大模型研究的王导师,独家详解《大模型幻觉消失术:全面综述到顶会方法》(AI前沿直播课NO.62),主要涉及1篇华为的最新综述,以及1篇阿里&南洋理工CVPR'24收录工作,从LVLMs对象幻觉问题,再到产生原因、缓解办法,重点讲解顶会方法-视觉对比解码(VCD)核心原理,并具体演示代码,1节课速通!

👇🏻扫描二维码找助教0元预约直播课!

凡预约即可免费领取200篇相关论文(20篇幻觉前沿+70篇多模态+120篇大模型+文末还有算力等科研福利!


直播课内容概览

01 研究背景(最新综述)

  1. LVLMs的对象幻觉问题
  • 对象幻觉的概念和影响
  • 易受影响的场景和行业
  1. LVLMs面临的挑战
  • 根本性问题
  • 缓解问题的新方法VCD
  • VCD减少对象幻觉的原理

02 相关工作(最新综述)

  1. 多模态幻觉的含义
  2. 多模态幻觉产生的原因
  • 数据:数据量不足、数据质量问题、缺乏多样性
  • 视觉编码器:有限的视觉分辨率、细粒度视觉语义不足
  • 连接模块:简单结构、有限的标记约束
  • LLM:不足的上下文注意力、随机采样解码
  1. 缓解幻觉的方法
  • 数据优化
  • 视觉编码器增强
  • 连接模块改进
  • LLM的解码优化
  • 后处理方法

👇🏻扫描二维码找助教0元预约直播课!

03 VCD方法详解(CVPR'24)

  1. 视觉语言模型的解码
  2. 视觉不确定性加剧幻觉
  • 视觉不确定性会放大语言先验
  • 视觉不确定性会放大统计偏差
  1. 视觉对比解码(VCD
  • 设计目的
  • 对比预测
  • 自适应合理性约束

04 实验分析(CVPR'24)

  1. 实验设置和结果
  2. 数据集基准:POPE & MME

05 代码实现(讲解重点)

  1. 核心代码讲解
  2. 具体演示

06 总结和展望

导师简介

王导师

【学术背景】985硕出身,拥有丰富的深度学习研究、论文发表经验,多篇SCI论文、EI会议论文(一作)

【研究方向】大语言模型、视觉语言模型、多模态学习,以及自然语言处理、进化算法等

直播福利

参加本次直播的同学都将获得1小时导师meeting的福利(助教+导师)!原价2999,限时福利价9.9元活动时间为8月21日到8月31日。

ps:研梦非凡开设的前沿论文系列直播,旨在帮助大家提升读论文技能,快速抓住重点,掌握有效方法,进而找到创新点,轻松完成论文报告。

👇🏻扫描二维码找助教0元预约直播课!

研梦非凡科研福利

🌟90分钟人工智能零基础入门课免费领

🌟7小时科研论文写作系列课免费领

🌟数十节前沿论文直播课程免费领

🌟50小时3080GPU算力免费领

🌟百篇8月论文资料大合集免费领

🌟报名本次直播课,9.9元即可享受原价2999元1小时导师meeting(助教+导师)! 

👇🏻扫码领取以上6重粉丝专属科研福利!


本号提供信息分享,对内容保持中立。若发现侵权问题,请及时联系我们,感谢您的理解与支持。

遥感与深度学习
聚焦遥感与深度学习,分享相关技术、论文、书籍、资讯,团队来自国内外著名期刊作者及审稿人
 最新文章