NeurIPS 2024 | 无需训练，一个框架搞定开放式目标检测、实例分割

文摘 2024-11-19 07:00 上海

作者 | 机器之心编辑 | 机器之心编辑部

点击下方卡片，关注“3D视觉之心”公众号

第一时间获取3D视觉干货

本文作者均来自北京大学王选计算机研究所。主要作者包括：林志威，北京大学博士生；王勇涛，北京大学副研究员；汤帜，北京大学研究员。

本文介绍了来自北京大学王选计算机研究所的王勇涛团队的最新研究成果 VL-SAM。针对开放场景，该篇工作提出了一个基于注意力图提示的免训练开放式目标检测和分割框架 VL-SAM，在无需训练的情况下，取得了良好的开放式 (Open-ended) 目标检测和实例分割结果，论文已被 NeurIPS 2024 录用。

论文标题：Training-Free Open-Ended Object Detection and Segmentation via Attention as Prompts
论文链接：https://arxiv.org/abs/2410.05963

论文概述

本文提出了一个无需训练的开放式目标检测和分割框架，结合了现有的泛化物体识别模型（如视觉语言大模型 VLM）与泛化物体定位模型（如分割基础模型 SAM），并使用注意力图作为提示进行两者的连接。在长尾数据集 LVIS 上，该框架超过了之前需要训练的开放式方法，同时能够提供额外的实例分割结果。在自动驾驶 corner case 数据集 CODA 上，VL-SAM 也表现出了不错的结果，证明了其在真实应用场景下的能力。此外，VL-SAM 展现了强大的模型泛化能力，能够结合当前各种 VLM 和 SAM 模型。

研究背景

深度学习在感知任务方面取得了显著成功，其中，自动驾驶是一个典型的成功案例。现有的基于深度学习的感知模型依赖于广泛的标记训练数据来学习识别和定位对象。然而，训练数据不能完全覆盖真实世界场景中所有类型的物体。当面对分布外的物体时，现有的感知模型可能无法进行识别和定位，从而可能会发生严重的安全问题。

为了解决这个问题，研究者们提出了许多开放世界感知方法。这些方法大致可以分为两类：开集感知（open-set）和开放式感知（open-ended）。开集感知方法通常使用预训练的 CLIP 模型来计算图像区域和类别名称之间的相似性。因此，在推理过程中，这类方法需要预定义的对象类别名称作为 CLIP 文本编码器的输入。然而，在许多现实世界的应用场景中，并不会提供确切的对象类别名称。例如，在自动驾驶场景中，自动驾驶车辆可能会遇到各种意想不到的物体，包括起火或侧翻的事故车和各种各样的建筑车辆。相比之下，开放式感知方法更具通用性和实用性，因为这些可以同时预测对象类别和位置，而不需要给定确切的对象类别名称。

与此同时，在最近的研究中，大型视觉语言模型（VLM）显示出强大的物体识别泛化能力，例如，它可以在自动驾驶场景中的长尾数据上（corner case）识别非常见的物体，并给出准确的描述。然而，VLM 的定位能力相比于特定感知模型较弱，经常会漏检物体或给出错误的定位结果。另一方面，作为一个纯视觉基础模型，SAM 对来自许多不同领域的图像表现出良好的分割泛化能力。然而，SAM 无法为分割的对象提供类别。基于此，本文提出了一个无需训练的开放式目标检测和分割框架 VL-SAM，将现有的泛化物体识别模型 VLM 与泛化物体定位模型 SAM 相结合，利用注意力图作为中间提示进行连接，以解决开放式感知任务。

方法部分

作者提出了 VL-SAM，一个无需训练的开放式目标检测和分割框架。具体框架如下图所示：

图 1 VL-SAM 框架图

具体而言，作者设计了注意力图生成模块，采用头聚合和注意力流的方式对多层多头注意力图进行传播，从而生成高质量的注意力图。之后，作者使用迭代式正负样本点采样的方式，从生成的注意力图中进行采样，得到 SAM 的点提示作为输入，最终得到物体的分割结果。

1、注意力图生成模块（Attention Map Generation Module）

给定一张输入图片，使用 VLM 给出图片中所有的物体类别。在这个过程中存储 VLM 生成的所有 query 和 key，并使用 query 和 key 构建多层多头注意力图：

其中 N 表示 token 的数量，H 表示多头注意力的数量，L 表示 VLM 的层数。

之后，采用 Mean-max 的方式对多头注意力图进行聚合，如图 2 所示：

图 2 多头注意力聚合

首先计算每个头的注意力的权重：

之后采用基于权重的多头注意力加权进行信息聚合：

其中表示矩阵点乘。

在聚合多头注意力图之后，采用注意力流的方式进一步聚合多层注意力图，如图 3 所示

图 3 注意力流

具体而言，采用 attention rollout 的方式，计算第层到第层的注意力图传播：

其中表示单位矩阵。最后，作者仅使用传播后的最后一层注意力图作为最终的注意力图。

2、SAM 提示生成

生成的注意力图中可能会存在不稳定的假阳性峰值。为了过滤这部分假阳性，作者首先采用阈值过滤的方式进行初步过滤，并找到剩余激活部分的最大联通区域作为正样本区域，其余的部分作为负样本区域。之后，采用峰值检测的方式分别从正负样本区域进行采样，得到正负样本点，作为 SAM 的点提示输入。

3、迭代式分割优化

从 SAM 得到分割结果可能会存在粗糙的边界或者背景噪声，作者采用两种迭代式方式进一步对分割结果进行优化。在第一种迭代方式中，作者借鉴 PerSAM 使用 cascaded post-refinement 的方式，将初始的分割结果作为额外的提示输入到 SAM 中。对于第二种迭代方式，作者使用初始的分割结果对注意力图进行掩码，之后在掩码的区域进行正负样本点采样。

4、多尺度聚合和问题提示聚合

作者还采用两种聚合（Ensemble）的方式进一步改良结果。对于 VLM 的低分率问题，作者使用多尺度聚合，将图片切成 4 块进行输入。此外，由于 VLM 对问题输入较为敏感，作者采用问题提示聚合，使得 VLM 能够尽量多得输出物体类别。最后，采用 NMS 对这些聚合结果进行过滤。

实验结果

在包含 1203 类物体类别的长尾数据集 LVIS 验证集上，相比于之前的开放式方法，VL-SAM 取得了更高的包围框 AP 值。同时，VL-SAM 还能够获取物体分割结果。此外，相比于开集检测方法，VL-SAM 也取得了具有竞争力的性能。

表 1 LVIS 结果

在自动驾驶场景 corner case 数据集 CODA 上，VL-SAM 也取得了不错的结果，超过了开集检测和开放式检测的方法。

表 2 CODA 结果

结论

本文提出了 VL-SAM，一个基于注意力图提示的免训练开放式目标检测和分割框架 VL-SAM，在无需训练的情况下，取得了良好的开放式 (Open-ended) 目标检测和实例分割结果。

【3D视觉之心】技术交流群

3D视觉之心是面向3D视觉感知方向相关的交流社区，由业内顶尖的3D视觉团队创办！聚焦三维重建、Nerf、点云处理、视觉SLAM、激光SLAM、多传感器标定、多传感器融合、深度估计、摄影几何、求职交流等方向。扫码添加小助理微信邀请入群，备注：学校/公司+方向+昵称（快速入群方式）

扫码添加小助理进群

【3D视觉之心】知识星球

3D视觉之心知识星球主打3D感知全技术栈学习，星球内部形成了视觉/激光/多传感器融合SLAM、传感器标定、点云处理与重建、视觉三维重建、NeRF与Gaussian Splatting、结构光、工业视觉、高精地图等近15个全栈学习路线，每天分享干货、代码与论文，星球内嘉宾日常答疑解惑，交流工作与职场问题。

http://mp.weixin.qq.com/s?__biz=MzkyMDY0OTc1NA==&mid=2247516816&idx=4&sn=a95e2c22bbc53b5daa704535a2bdda48

3D视觉之心

3D视觉与SLAM、点云相关内容分享

最新文章

如何创立一家惯性导航公司

融合神经辐射场和视觉同时定位与地图构建的混合场景表示方法

宝可梦GO「偷家」李飞飞空间智能？全球最强3D地图诞生，150万亿参数解锁现实边界

克服LiDAR固定分辨率的限制！LiV-GS：首个大规模室外场景对齐离散点云与高斯地图的方法

MVSplat360：从稀疏视图到360°全景合成的前馈方法

Siggraph Asia 2024 | Adobe发布MagicClay：可通过文字引导对3D模型特定部分进行雕刻！

谷歌2024博士奖学金名单公布

首个基于高斯点云建图的动态SLAM框架！DGS-SLAM：解决动态物体引起的光度和几何不一致

无需视频流实现全景分割与深度估计MGNiceNet：统一的单目几何场景理解

ECCV 2024 | PARE-Net：用于鲁棒点云配准的位置感知旋转等变网络

NeurIPS 2024高中赛道开卷！人大附中、北师大实验中学等摘得3篇Spotlight

加州大学 | 基于视觉语言模型的端到端导航：零样本，无需数据训练！

港大DEIO：首个学习与传统非线性图优化结合的单目事件惯性里程计

基于语义似然与高精度地图匹配的智能车辆同时定位与检测

钻石冷却的GPU即将问世：温度能降20度，超频空间增加25%

超越现有3DGS网格重建方法！DyGASR：速度提高25%、内存使用量减少30%

复旦&蔚来开源DG-SLAM：第一个动态环境下的鲁棒GS SLAM！

身处相机内外参之间（EG3D/NeRF/3D Gaussian Splatting）

NeurIPS 2024 | 无需训练，一个框架搞定开放式目标检测、实例分割

突破多场景训练方法限制！ETH开源SplatFormer：首个专门设计用于在3DGS上运行的点变换器模型

【清华大学】RINO：基于非迭代估计的精确、鲁棒雷达惯性里程计

论文分享｜无监督点云语义分割

传说中Ilya Sutskever精选论文清单：AI领域40大论文完整版「破解」完成

丰田研究院综述「机器人领域中的神经场」

顶刊TGRS | 使用端到端深度神经网络从高分辨率遥感图像和数字表面模型中提取3D建筑实例

让纸片人动起来! DrawingSpinUp：从单个绘图生成高质量3D动画

浙大西湖大学开源MBA-SLAM！解决NeRF、3DGS中的运动模糊问题！

这三家国内机构合作成果，斩获EMNLP 2024最佳论文奖，主办方：明年苏州见！

ICP还能玩出什么花样？RA-L'24全新GenZ-ICP：根据环境几何特性自适应，解决依赖单一误差度量

英伟达最新！SCube：仅用三张图，就能实现即时大规模三维场景重建

更高轨迹精度、建图质量！基于NeRF轨迹平滑约束的SLAM优化

15 个改变世界的开源项目：塑造现代技术的先锋力量

多实例点云配准新SOTA！3DFMNet：简单而有效的3D聚焦与匹配网络(NeurIPS'24)

LidaRefer：户外3D视觉定位的创新框架

腾讯发布HunYuan-3D，支持文本到3D和图像到3D，10秒即可生成高分辨率细3D模型

Scaling Laws终结，量化无用，AI大佬都在审视这篇论文

新国立联合微软共同打造：3D和4D场景均可生成的GenXD来了！

MVDrag3D：灵活强大的拖拽式多视图3D编辑技术

基于单目视觉惯性的同步定位与地图构建方法综述

实现LiDAR和多视角摄像头数据的对齐、可控X-DRIVE：用于驾驶场景的跨模态一致多传感器数据合成

不用encoder也能重建点云？PCP-MAE：基于中心预测的点云MAE自监督新框架（NeurIPS'24 Spotlight）

商汤&浙大SfM新工作！LiVisSfM：利用激光雷达和视觉线索，获得精确鲁棒的三维重建

slam相关开源数据集资源汇总（KITTI、CODD、MAOMaps）

3D激光雷达分辨率对基于图的SLAM方法究竟有何影响？

3DV 2024 | 基于超点图聚类的可扩展三维全视分割

突发！OpenAI七年元老、安全副总裁Lilian Weng官宣离职！北大本科，决定专心写博客

倘若能有一场时空对话，我将告诉曾经的我如何做vslam

2024年图像匹配挑战赛：银牌解决方案！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉