点击下方卡片,关注“CVer”公众号
点击下方卡片,关注“CVer”公众号
AI/CV重磅干货,第一时间送达
AI/CV重磅干货,第一时间送达
添加微信号:CVer2233,小助手会拉你进群!
扫描下方二维码,加入CVer学术星球!可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!
添加微信号:CVer2233,小助手会拉你进群!
扫描下方二维码,加入CVer学术星球!可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!
近来,视觉大语言模型(VLLM)在多种视觉-语言理解任务中表现出色的推理和对话能力。然而,这些方法基于全局的视觉-语言对齐,限制了其在视觉感知任务中细节理解能力,如图像和视频域的像素级分割。近期的研究使VLLM能够进行细粒度的视觉理解,如指代分割(RES)和推理分割(ReasoningSeg)。尽管这些方法的表现令人瞩目,目前仍缺乏基于VLLM的通用分割框架,可以同时处理图像和视频域的诸多视觉感知任务,以及更复杂的推理分割任务,并且同时具备VLLM本身强大的对话推理能力。
清华和美团的研究团队针对VLLM在细粒度视觉感知任务中的局限性,提出了统一的通用分割框架:HyperSeg。HyperSeg是首个基于VLLM的通用分割模型,可以同时处理像素级图像和视频感知,并具有复杂的推理和对话能力。HyperSeg在需要丰富世界知识的复杂视觉-语言推理感知任务中表现出色,这对于现实世界的理解和交互具有重要意义。HyperSeg把诸多感知任务划分为两种统一的prompt格式:(1)文本提示(类别名称、推理问题和指代语句),(2)视觉提示(框、掩码等)。得益于对多样分割任务和不同视觉域数据的协同训练,HyperSeg可以学习不同指令和视觉概念之间复杂关联。
HyperSeg贡献如下:
首个基于视觉大语言模型(VLLM)的通用分割模型,用于像素级的图像和视频感知,涵盖了诸多常见分割任务、复杂推理分割任务以及基于对话的视觉-语言理解任务。
将混合实体识别和细粒度视觉感知策略整合到VLLM中,充分利用VLLM的语义识别能力以及注入更多细粒度的视觉信息。此外,得益于时序适配器的设计,模型能够处理更具挑战性的视频感知任务,提升通用分割能力。
模型性能优异,在多项通用分割任务中展示了强大的性能,对于开放分割以及多模态对话任务也展示出了令人瞩目的能力。
论文:https://arxiv.org/abs/2411.17606
代码:https://github.com/congvvc/HyperSeg
模型实现:
HyperSeg的架构包含一个细粒度的金字塔视觉编码器、一个轻量级的视觉大语言模型(VLLM),一个细粒度视觉感知器(FVP)和一个分割预测器。模型根据视觉输入(图像或视频)和prompt输入(视觉或文本),输出分割掩码、类别得分和实例嵌入(用于视频实例跟踪)。FVP模块将多尺度高分辨率视觉特征融合于细粒度tokens,为LLM注入细粒度的视觉信息。LLM接收三种类型的输入:由CLIP编码器编码的视觉tokens、细粒度tokens以及多样化的prompt tokens。分割预测器接收语义增强的mask tokens、prompt 特征嵌入以及多尺度视觉特征作为输入,输出对应prompt下的分割结果。
细粒度视觉感知器(FVP)设计。以往的视觉感知器往往使用的是粗糙的单尺度CLIP视觉特征, 相比之下FVP将多尺度的细粒度视觉特征融入LLM,更加适配细粒度视觉感知任务。
混合实体识别策略。相比于以往的generation-only (a) 方法以及decode-only (b) 方法,混合实体识别策略 (c) 结合语义类别识别以及类别相似度计算两种方式,得到每个分割掩码的得分。
模型性能对比
对于广泛使用的指代分割 (RES) 任务,HyperSeg在RefCOCO, RefCOCO+和RefCOCOg上均取得了最先进的性能,此外在G-RES基准gRefCOCO上也取得了令人瞩目的zero-shot性能。
对于更加复杂且具有挑战性的推理分割任务来说,HyperSeg以更少的模型参数(3B)大幅领先于先前最先进的方法,尤其是在ReVOS-Reasoning上带来了+12.1的性能提升。
此外,HyperSeg在传统的全景分割、语义分割、以及开放词汇分割任务的多个数据集上,无论是与以往的分割专家模型或是基于VLLM的分割模型相比,也取得了最先进或具有竞争力的结果。
HyperSeg在常见的视频分割任务如视频目标分割,指代视频目标分割及视频实例分割上也取得了令人印象深刻的性能表现。
最后,HyperSeg在常见的多模态问答任务上也有着不错的表现,展现了其在推理和对话方面的卓越能力。
下图展示了 HyperSeg在多个视觉分割任务上的可视化结果,如全景分割、指代分割、推理分割等。
总结
HyperSeg是首个基于视觉大语言模型(VLLM)的通用分割模型,专为像素级图像和视频感知设计,涵盖了广泛的通用分割和复杂推理任务。通过一些专有模块的设计,HyperSeg能灵活处理不同类型以及不同视觉域的分割任务,并且保留了强大的对话推理能力。HyperSeg拓展了VLLM在视觉感知以及推理任务中的可能性,并为未来可能的研究提供了一些insight。
何恺明在MIT授课的课件PPT下载
在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!
ECCV 2024 论文和代码下载
在CVer公众号后台回复:ECCV2024,即可下载ECCV 2024论文和代码开源的论文合集
CVPR 2024 论文和代码下载
在CVer公众号后台回复:CVPR2024,即可下载CVPR 2024论文和代码开源的论文合集
Mamba、多模态和图像分割交流群成立
扫描下方二维码,或者添加微信号:CVer2233,即可添加CVer小助手微信,便可申请加入CVer-Mamba、多模态学习或者图像分割微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要备注:研究方向+地点+学校/公司+昵称(如Mamba、多模态学习或者图像分割+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群
▲扫码或加微信号: CVer2233,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集上万人!
▲扫码加入星球学习
▲点击上方卡片,关注CVer公众号
整理不易,请赞和在看