大模型助力分割，刷新10项SOTA！清华和美团提出HyperSeg：通用分割框架

科技 2024-12-17 13:05 上海

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达
点击进入—>【Mamba和分割】交流群

添加微信号：CVer2233，小助手会拉你进群！
扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料，及最前沿应用！发论文/搞科研/涨薪，强烈推荐！

近来，视觉大语言模型（VLLM）在多种视觉-语言理解任务中表现出色的推理和对话能力。然而，这些方法基于全局的视觉-语言对齐，限制了其在视觉感知任务中细节理解能力，如图像和视频域的像素级分割。近期的研究使VLLM能够进行细粒度的视觉理解，如指代分割（RES）和推理分割（ReasoningSeg）。尽管这些方法的表现令人瞩目，目前仍缺乏基于VLLM的通用分割框架，可以同时处理图像和视频域的诸多视觉感知任务，以及更复杂的推理分割任务，并且同时具备VLLM本身强大的对话推理能力。

清华和美团的研究团队针对VLLM在细粒度视觉感知任务中的局限性，提出了统一的通用分割框架：HyperSeg。HyperSeg是首个基于VLLM的通用分割模型，可以同时处理像素级图像和视频感知，并具有复杂的推理和对话能力。HyperSeg在需要丰富世界知识的复杂视觉-语言推理感知任务中表现出色，这对于现实世界的理解和交互具有重要意义。HyperSeg把诸多感知任务划分为两种统一的prompt格式：（1）文本提示（类别名称、推理问题和指代语句），（2）视觉提示（框、掩码等）。得益于对多样分割任务和不同视觉域数据的协同训练，HyperSeg可以学习不同指令和视觉概念之间复杂关联。

HyperSeg贡献如下：

首个基于视觉大语言模型（VLLM）的通用分割模型，用于像素级的图像和视频感知，涵盖了诸多常见分割任务、复杂推理分割任务以及基于对话的视觉-语言理解任务。
将混合实体识别和细粒度视觉感知策略整合到VLLM中，充分利用VLLM的语义识别能力以及注入更多细粒度的视觉信息。此外，得益于时序适配器的设计，模型能够处理更具挑战性的视频感知任务，提升通用分割能力。
模型性能优异，在多项通用分割任务中展示了强大的性能，对于开放分割以及多模态对话任务也展示出了令人瞩目的能力。

HyperSeg的模型和代码已开源：

论文：https://arxiv.org/abs/2411.17606

代码：https://github.com/congvvc/HyperSeg

模型实现：

HyperSeg的架构包含一个细粒度的金字塔视觉编码器、一个轻量级的视觉大语言模型（VLLM），一个细粒度视觉感知器（FVP）和一个分割预测器。模型根据视觉输入（图像或视频）和prompt输入（视觉或文本），输出分割掩码、类别得分和实例嵌入（用于视频实例跟踪）。FVP模块将多尺度高分辨率视觉特征融合于细粒度tokens，为LLM注入细粒度的视觉信息。LLM接收三种类型的输入：由CLIP编码器编码的视觉tokens、细粒度tokens以及多样化的prompt tokens。分割预测器接收语义增强的mask tokens、prompt 特征嵌入以及多尺度视觉特征作为输入，输出对应prompt下的分割结果。

细粒度视觉感知器（FVP）设计。以往的视觉感知器往往使用的是粗糙的单尺度CLIP视觉特征，相比之下FVP将多尺度的细粒度视觉特征融入LLM，更加适配细粒度视觉感知任务。

混合实体识别策略。相比于以往的generation-only (a) 方法以及decode-only (b) 方法，混合实体识别策略 (c) 结合语义类别识别以及类别相似度计算两种方式，得到每个分割掩码的得分。

模型性能对比

对于广泛使用的指代分割 (RES) 任务，HyperSeg在RefCOCO, RefCOCO+和RefCOCOg上均取得了最先进的性能，此外在G-RES基准gRefCOCO上也取得了令人瞩目的zero-shot性能。

对于更加复杂且具有挑战性的推理分割任务来说，HyperSeg以更少的模型参数（3B）大幅领先于先前最先进的方法，尤其是在ReVOS-Reasoning上带来了+12.1的性能提升。

此外，HyperSeg在传统的全景分割、语义分割、以及开放词汇分割任务的多个数据集上，无论是与以往的分割专家模型或是基于VLLM的分割模型相比，也取得了最先进或具有竞争力的结果。

HyperSeg在常见的视频分割任务如视频目标分割，指代视频目标分割及视频实例分割上也取得了令人印象深刻的性能表现。

最后，HyperSeg在常见的多模态问答任务上也有着不错的表现，展现了其在推理和对话方面的卓越能力。

下图展示了 HyperSeg在多个视觉分割任务上的可视化结果，如全景分割、指代分割、推理分割等。

总结

HyperSeg是首个基于视觉大语言模型（VLLM）的通用分割模型，专为像素级图像和视频感知设计，涵盖了广泛的通用分割和复杂推理任务。通过一些专有模块的设计，HyperSeg能灵活处理不同类型以及不同视觉域的分割任务，并且保留了强大的对话推理能力。HyperSeg拓展了VLLM在视觉感知以及推理任务中的可能性，并为未来可能的研究提供了一些insight。

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复：何恺明，即可下载本课程的所有566页课件PPT！赶紧学起来！
ECCV 2024 论文和代码下载
在CVer公众号后台回复：ECCV2024，即可下载ECCV 2024论文和代码开源的论文合集

CVPR 2024 论文和代码下载

在CVer公众号后台回复：CVPR2024，即可下载CVPR 2024论文和代码开源的论文合集

Mamba、多模态和图像分割交流群成立

扫描下方二维码，或者添加微信号：CVer2233，即可添加CVer小助手微信，便可申请加入CVer-Mamba、多模态学习或者图像分割微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。

一定要备注：研究方向+地点+学校/公司+昵称（如Mamba、多模态学习或者图像分割+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群


▲扫码或加微信号: CVer2233，进交流群

CVer计算机视觉（知识星球）来了！想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料，欢迎扫描下方二维码，加入CVer计算机视觉（知识星球），已汇集上万人！

▲扫码加入星球学习

▲点击上方卡片，关注CVer公众号
整理不易，请赞和在看

CVer

一个专注于计算机视觉方向的公众号。分享计算机视觉、深度学习、人工智能、自动驾驶和高校等高质量内容。

最新文章

租GPU算力又一轮价格暴跌，对高校和企业意味着什么？

李飞飞团队新作！统一动作与语言，全新多模态模型不仅超懂指令，还能读懂隐含情绪

ICML 2025、IJCAI 2025顶会投稿微信群成立！

浙江大学发布情况通报

CVPR今年这情况，很严重，大家做好准备吧

顶刊TPAMI 2024！北大提出实用、紧致的智能图像压缩感知技术

ECCV 2024 | 迈向通用激光雷达语义分割！取代Transformer的新架构SFPNet

IJCAI 2025、ICML 2025 顶会投稿微信群成立！

最大的Mamba和遥感微信群成立！

突发：中科院二区TOP期刊被剔除SCI！

一文看尽2024年11种主流注意力机制

大模型助力分割，刷新10项SOTA！清华和美团提出HyperSeg：通用分割框架

复旦&微软提出StableAnimator：首个端到端的高质量ID一致性人类视频生成新框架！

ICLR 2025 快开奖啦！IJCAI 2025、ICML 2025投稿微信群成立！

扩散模型和多模态微信群来了！

颜宁团队，最新成果！

Kaggle大神自述：炼丹经验总结

NeurIPS神仙打架：李飞飞180页PPT谈视觉智能，何恺明谈AI宿命论，Bengio同OpenAI员工吵架。。。

收录顶会！elaTCSF：用于闪烁检测和建模可变刷新率闪烁的时间对比敏感度函数

26岁OpenAI举报人疑自杀！死前揭ChatGPT训练黑幕

ICLR 2025 即将开奖！IJCAI 2025 投稿微信群成立！

第一单位！科技大学，发Nature！

1年内11名博士生自杀，顶尖高校陷博士生自杀危机，疑因要求学生每学期发1篇SCI

愤怒！MIT教授NeurIPS演讲公开歧视中国学生，大会官方认错、本人道歉

天津大学提出iLLaVA：你的大模型仅需处理33%输入

ReID和目标跟踪微信群来了！

拆分！河南，拟建2所新大学

AAAI 2025 开会群成立！转投 IJCAI 2025 投稿微信群来了！

2026届大厂校招群成立！

悼念！清华大学计算机教授、《数据结构》编著者严蔚敏去世，享年 86 岁

NVIDIA自动驾驶技术：从训练到推理

Ilya宣判：预训练即将终结！NeurIPS现场沸腾

AAAI 2025 | CALF：用于长期时间序列预测的高效跨模态LLM微调框架

AAAI收了一篇论文：没算法没实验，全靠idea思路好...

Sora之后，Apple发布视频生成大模型STIV：87亿参数大一统T2V、TI2V任务

NeurIPS 2024 | GarmentLab：衣物与柔体操作的物理仿真环境与基准测试

IJCAI 2025 投稿微信群成立！

扩散模型和多模态微信群来了！

1年内11名博士生自杀，顶尖高校陷博士生自杀危机，疑因要求学生每学期发1篇SCI

AAAI 2025接收结果出炉！Mamba再次爆发

谷歌狙击OpenAI，突发Gemini 2.0新一代大模型！主打多模态和Agent

NeurIPS 2024 | 智能体不够聪明怎么办？清华&蚂蚁团队：让它像学徒一样持续学习

2026届AI校招群成立！

ReID和目标跟踪微信群来了！

985教授已发表1226篇论文引争议，本人回应！

只要敢捞偏门，篇篇都是顶会顶刊！

AAAI 2025 | 从架构角度重新审视3D异常检测的多模态融合

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

大模型助力分割，刷新10项SOTA！清华和美团提出HyperSeg：通用分割框架

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达点击进入—>【Mamba和分割】交流群

添加微信号：CVer2233，小助手会拉你进群！扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料，及最前沿应用！发论文/搞科研/涨薪，强烈推荐！

何恺明在MIT授课的课件PPT下载

ECCV 2024 论文和代码下载

CVPR 2024 论文和代码下载

AI/CV重磅干货，第一时间送达
点击进入—>【Mamba和分割】交流群

添加微信号：CVer2233，小助手会拉你进群！
扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料，及最前沿应用！发论文/搞科研/涨薪，强烈推荐！