NeurIPS 2024 | 免训练！VL-SAM：开放式目标检测和实例分割

科技 2024-11-16 23:59 上海

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达
点击进入—>【目标检测和分割】交流群

添加微信号：CVer2233，小助手会拉你进群！
扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料，及最前沿应用！发论文/搞科研/涨薪，强烈推荐！

转载自：机器之心

本文作者均来自北京大学王选计算机研究所。主要作者包括：林志威，北京大学博士生；王勇涛，北京大学副研究员；汤帜，北京大学研究员。

本文介绍了来自北京大学王选计算机研究所的王勇涛团队的最新研究成果 VL-SAM。针对开放场景，该篇工作提出了一个基于注意力图提示的免训练开放式目标检测和分割框架 VL-SAM，在无需训练的情况下，取得了良好的开放式 (Open-ended) 目标检测和实例分割结果，论文已被 NeurIPS 2024 录用。

论文标题：Training-Free Open-Ended Object Detection and Segmentation via Attention as Prompts
论文链接：https://arxiv.org/abs/2410.05963

论文概述

本文提出了一个无需训练的开放式目标检测和分割框架，结合了现有的泛化物体识别模型（如视觉语言大模型 VLM）与泛化物体定位模型（如分割基础模型 SAM），并使用注意力图作为提示进行两者的连接。在长尾数据集 LVIS 上，该框架超过了之前需要训练的开放式方法，同时能够提供额外的实例分割结果。在自动驾驶 corner case 数据集 CODA 上，VL-SAM 也表现出了不错的结果，证明了其在真实应用场景下的能力。此外，VL-SAM 展现了强大的模型泛化能力，能够结合当前各种 VLM 和 SAM 模型。

研究背景

深度学习在感知任务方面取得了显著成功，其中，自动驾驶是一个典型的成功案例。现有的基于深度学习的感知模型依赖于广泛的标记训练数据来学习识别和定位对象。然而，训练数据不能完全覆盖真实世界场景中所有类型的物体。当面对分布外的物体时，现有的感知模型可能无法进行识别和定位，从而可能会发生严重的安全问题。

为了解决这个问题，研究者们提出了许多开放世界感知方法。这些方法大致可以分为两类：开集感知（open-set）和开放式感知（open-ended）。开集感知方法通常使用预训练的 CLIP 模型来计算图像区域和类别名称之间的相似性。因此，在推理过程中，这类方法需要预定义的对象类别名称作为 CLIP 文本编码器的输入。然而，在许多现实世界的应用场景中，并不会提供确切的对象类别名称。例如，在自动驾驶场景中，自动驾驶车辆可能会遇到各种意想不到的物体，包括起火或侧翻的事故车和各种各样的建筑车辆。相比之下，开放式感知方法更具通用性和实用性，因为这些可以同时预测对象类别和位置，而不需要给定确切的对象类别名称。

与此同时，在最近的研究中，大型视觉语言模型（VLM）显示出强大的物体识别泛化能力，例如，它可以在自动驾驶场景中的长尾数据上（corner case）识别非常见的物体，并给出准确的描述。然而，VLM 的定位能力相比于特定感知模型较弱，经常会漏检物体或给出错误的定位结果。另一方面，作为一个纯视觉基础模型，SAM 对来自许多不同领域的图像表现出良好的分割泛化能力。然而，SAM 无法为分割的对象提供类别。基于此，本文提出了一个无需训练的开放式目标检测和分割框架 VL-SAM，将现有的泛化物体识别模型 VLM 与泛化物体定位模型 SAM 相结合，利用注意力图作为中间提示进行连接，以解决开放式感知任务。

方法部分

作者提出了 VL-SAM，一个无需训练的开放式目标检测和分割框架。具体框架如下图所示：

图 1 VL-SAM 框架图

具体而言，作者设计了注意力图生成模块，采用头聚合和注意力流的方式对多层多头注意力图进行传播，从而生成高质量的注意力图。之后，作者使用迭代式正负样本点采样的方式，从生成的注意力图中进行采样，得到 SAM 的点提示作为输入，最终得到物体的分割结果。

1、注意力图生成模块（Attention Map Generation Module）

给定一张输入图片，使用 VLM 给出图片中所有的物体类别。在这个过程中存储 VLM 生成的所有 query 和 key，并使用 query 和 key 构建多层多头注意力图：

其中 N 表示 token 的数量，H 表示多头注意力的数量，L 表示 VLM 的层数。

之后，采用 Mean-max 的方式对多头注意力图进行聚合，如图 2 所示：

图 2 多头注意力聚合

首先计算每个头的注意力的权重：

之后采用基于权重的多头注意力加权进行信息聚合：

其中表示矩阵点乘。

在聚合多头注意力图之后，采用注意力流的方式进一步聚合多层注意力图，如图 3 所示。

图 3 注意力流

具体而言，采用 attention rollout 的方式，计算第层到第层的注意力图传播：

其中表示单位矩阵。最后，作者仅使用传播后的最后一层注意力图作为最终的注意力图。

2、SAM 提示生成

生成的注意力图中可能会存在不稳定的假阳性峰值。为了过滤这部分假阳性，作者首先采用阈值过滤的方式进行初步过滤，并找到剩余激活部分的最大联通区域作为正样本区域，其余的部分作为负样本区域。之后，采用峰值检测的方式分别从正负样本区域进行采样，得到正负样本点，作为 SAM 的点提示输入。

3、迭代式分割优化

从 SAM 得到分割结果可能会存在粗糙的边界或者背景噪声，作者采用两种迭代式方式进一步对分割结果进行优化。在第一种迭代方式中，作者借鉴 PerSAM 使用 cascaded post-refinement 的方式，将初始的分割结果作为额外的提示输入到 SAM 中。对于第二种迭代方式，作者使用初始的分割结果对注意力图进行掩码，之后在掩码的区域进行正负样本点采样。

4、多尺度聚合和问题提示聚合

作者还采用两种聚合（Ensemble）的方式进一步改良结果。对于 VLM 的低分率问题，作者使用多尺度聚合，将图片切成 4 块进行输入。此外，由于 VLM 对问题输入较为敏感，作者采用问题提示聚合，使得 VLM 能够尽量多得输出物体类别。最后，采用 NMS 对这些聚合结果进行过滤。

实验结果

在包含 1203 类物体类别的长尾数据集 LVIS 验证集上，相比于之前的开放式方法，VL-SAM 取得了更高的包围框 AP 值。同时，VL-SAM 还能够获取物体分割结果。此外，相比于开集检测方法，VL-SAM 也取得了具有竞争力的性能。

表 1 LVIS 结果

在自动驾驶场景 corner case 数据集 CODA 上，VL-SAM 也取得了不错的结果，超过了开集检测和开放式检测的方法。

表 2 CODA 结果

结论

本文提出了 VL-SAM，一个基于注意力图提示的免训练开放式目标检测和分割框架 VL-SAM，在无需训练的情况下，取得了良好的开放式 (Open-ended) 目标检测和实例分割结果。

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复：何恺明，即可下载本课程的所有566页课件PPT！赶紧学起来！
ECCV 2024 论文和代码下载
在CVer公众号后台回复：ECCV2024，即可下载ECCV 2024论文和代码开源的论文合集

CVPR 2024 论文和代码下载

在CVer公众号后台回复：CVPR2024，即可下载CVPR 2024论文和代码开源的论文合集

目标检测和图像分割交流群成立

扫描下方二维码，或者添加微信号：CVer2233，即可添加CVer小助手微信，便可申请加入CVer-目标检测或者图像分割微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。

一定要备注：研究方向+地点+学校/公司+昵称（如目标检测或者扩散模型+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群


▲扫码或加微信号: CVer2233，进交流群

CVer计算机视觉（知识星球）来了！想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料，欢迎扫描下方二维码，加入CVer计算机视觉（知识星球），已汇集上万人！

▲扫码加入星球学习

▲点击上方卡片，关注CVer公众号
整理不易，请赞和在看

http://mp.weixin.qq.com/s?__biz=MzUxNjcxMjQxNg==&mid=2247611096&idx=2&sn=6f40f35e2264df1ab19472dcec2dc1d7

CVer

一个专注于计算机视觉方向的公众号。分享计算机视觉、深度学习、人工智能、自动驾驶和高校等高质量内容。

最新文章

又一篇AI顶会！这个idea“简直杀疯了 ” ...

NeurIPS 2024 | 浙江大学提出SINE：通用分割新模型

哈佛大学 & MIT 招收实习生

ICASSP 2025 投稿交流群成立！

最大ReID和目标跟踪微信群来了！

巨星陨落！北京大学发讣告

超越YOLOv8还不够！这些目标检测开源项目又上新了

顶刊TPAMI 2024！清华黄高团队提出：高效图像识别的统一动态网络

重磅！CVPR 2025、ICLR 2025和AAAI 2025投稿微信群成立！

快加入！最大的目标检测和图像分割微信群来了！

打破纪录！中国科学家让薛定谔的猫活了23分钟

这6个岗位，大厂抢疯了！！

NeurIPS 2024 | CMU提出RLT：加速视频Transformer新方法

中国团队斩获EMNLP 2024最佳论文奖！主办方：明年苏州见！

ICLR 2025 开始Rebuttal！AAAI 2025和CVPR 2025投稿微信群成立！

多模态和扩散模型微信群来了！

“16岁中学生获正高职称”，后续来了

月薪49k！字节跳动校招开奖！

LeCun团队新作DINO-WM：预训练视觉特征的世界模型，超强规划能力！

又一OpenAI研究员离职！不相信OpenAI能造福世界，AGI使命无比困难

CVPR 2025 正式截稿！ICLR 2025和AAAI 2025投稿微信群成立！

遥感和Mamba微信群成立！

已注销！985新校区，不建了

校长书记双院士！教育部副部长，任C9党委书记！

NeurIPS 2024 | 免训练！VL-SAM：开放式目标检测和实例分割

马斯克新官上任，再起诉OpenAI！称Ilya七年前就不放心奥特曼了

CVPR 2025 截稿！ICLR 2025和AAAI 2025投稿微信群成立！

长时间迟到、多次离席关闭摄像头…19位评审专家被处理！

导师放养，一个人偷偷发了顶会。。。

李飞飞团队新作：具身智能决策性能评价基准，o1-preview登顶！NeurIPS 2024

北大新作：让大模型来做peer-review结果会怎样？

CVPR 2025 即将截稿！ICLR 2025和CVPR 2025投稿微信群成立！

扩散模型和多模态微信群来了！

突发！中科院一区期刊eLife将被剥夺影响因子

残酷！中科院博士应聘某普通二本惨遭拒，开始思考人生。。。

周志华团队新作！打造更强的世界模型！WHALE来了！

NeurIPS'24 | Pcb-Merging：无需训练的多任务模型合并方案

ICLR 2025 分数出炉！ICLR 2025和CVPR 2025投稿微信群成立！

谷歌2024博士奖学金公布！KAN作者刘子鸣等数十位年轻华人学者入选

多校通知：大学教师，实行“坐班制”！

喜提 TPAMI 顶刊！

NeurIPS 2024 Oral | 量化和提升思维链的推理能力边界

Ilya认错，Scaling Law崩了？自曝SSI秘密技术路线取代OpenAI

ICLR 2025 出分了！ICLR 2025和CVPR 2025投稿微信群成立！

最大ReID和目标跟踪微信群来了！

211大学教授、博导，落马！

CV全新范式！LSTM在CV领域杀出一条血路！

GPT-5被曝不及预期！OpenAI员工：没什么科学突破了，接下来只需要工程

ECCV 2024 | VL4AD：让语义分割认识未知类别，无需额外数据和训练的OOD语义分割

CVPR 2025 和 ICLR 2025投稿微信群来了！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

NeurIPS 2024 | 免训练！VL-SAM：开放式目标检测和实例分割

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达点击进入—>【目标检测和分割】交流群

添加微信号：CVer2233，小助手会拉你进群！扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料，及最前沿应用！发论文/搞科研/涨薪，强烈推荐！

何恺明在MIT授课的课件PPT下载

ECCV 2024 论文和代码下载

CVPR 2024 论文和代码下载

AI/CV重磅干货，第一时间送达
点击进入—>【目标检测和分割】交流群

添加微信号：CVer2233，小助手会拉你进群！
扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料，及最前沿应用！发论文/搞科研/涨薪，强烈推荐！