NeurIPS'24｜VL-SAM：北大出品，完全无训练的开放式检测分割模型

科技 2024-11-24 00:01 江苏

点击下方卡片，关注「3D视觉工坊」公众号
选择星标，干货第一时间送达

添加小助理：cv3d001，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入「3D视觉从入门到精通」知识星球，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

作者丨VincentLee

来源丨晓飞的算法工程笔记

编辑丨极市平台

论文: Training-Free Open-Ended Object Detection and Segmentation via Attention as Prompts

论文地址：https://arxiv.org/abs/2410.05963

创新点

提出了一个无需训练框架VL-SAM，将广义物体识别模型（即视觉-语言模型）与广义物体定位模型（即Segment-Anything模型）结合起来，以解决开放式物体检测和分割任务。
设计了一个注意力图生成模块，通过头聚合和正则化的注意力流来聚合VLM中所有头和层的注意力图，从而生成高质量的注意力图。
设计了提示生成模块迭代地从注意力图中迭代地抽样正负点，并将抽样的点发送给SAM以分割相应的物体。
VL-SAM在长尾实例分割数据集（LVIS）和边缘案例物体检测数据集（CODA）上也表现出了良好的性能，证明了VL-SAM在现实世界应用中的有效性。
VL-SAM表现出良好的模型泛化能力，可以结合各种VLM和SAM。

内容概述

现有的基于深度学习的感知模型依赖于大量标注的训练数据来学习识别和定位物体。然而，训练数据无法覆盖现实世界场景中的所有类型的物体。当遇到分布外的物体时，现有的感知模型可能无法识别和定位物体，这可能导致严重的安全问题。

开放世界感知试图在动态和不可预测的环境中提供准确的结果，这些环境包含新颖的物体并涉及场景领域的转变。目前的开放世界感知方法大致可以分为两类：开放集和开放式。开放集方法通常使用预训练的CLIP模型计算图像区域与类别名称之间的相似性，但在推理过程中需要预定义的物体类别作为CLIP文本编码器的输入。开放式则利用大型视觉语言模型（VLMs）强大的泛化能力来识别物体，但VLM的定位能力不如特定的感知模型准确。

为此，论文提出了VL-SAM，将现有的通用物体识别模型VLM与通用物体定位模型SAM结合起来解决开放式物体检测和分割任务。这是一个无训练的框架，通过注意力图作为中间提示连接这两个通用模型。

给定一个图像输入，首先使用VLM描述场景并列出图像中所有可能的物体。然后，对于每个物体，利用带有头聚合和注意力流的注意力生成模块，从VLM获得高质量的注意力图。最后，从注意力图生成点提示，并将其迭代发送给SAM以获得位置预测。

`VL-SAM`

现有模型

SAM模型

SAM是一个基于提示的分割模型，由三个组件组成：图像编码器、掩码解码器和提示编码器。SAM以图像和一组提示（包括点、框和掩码）作为输入，多尺度分割掩码。

基于自回归的VLM模型

基于自回归的VLM的主流框架由四个部分组成：图像编码器、文本分词器、投影层和语言解码器。给定图像和文本作为输入，采用下一个符号预测范式。

注意力生成模块

VL-SAM的主要思想是将物体的注意力图用作SAM的分割提示，如何为一个物体生成高质量的注意力图至关重要。

头聚合

给定一幅图像输入，请求VLM提供图像中所有可能的物体。在这个过程中，缓存来自VLM的所有查询和键。

通过因果掩码和 SoftMax 归一化对查询和键进行相乘, 获得相似性矩阵 , 其中是查询和键的长度, 是 Transformer 头的数量, 表示 Transformer 层的数量。

使用均值-最大注意力头权重从所有 Transformer 头中聚合信息, 即选择矩阵在维度上的最大相似性权重, 并在维度上进行平均, 以获得权重 , 表明每个层中每个头的重要性：

逐点乘以权重和相似性矩阵并进行平均, 得到每层的注意力图:

注意力流

注意力流用于以进一步聚合所有层的注意力, 使用注意力展开方法来计算从层到层的注意力:

经过注意力展开后，只需要最后一层的注意力图。为了获得生成的token的图像注意力图，从中选择相应的行和列。

由于VLM使用因果掩码进行自回归生成，简单地采用注意力展开方法会导致注意力崩溃。

论文使用一个简单的正则化项来有效地缓解这个问题。对于每一列，假设未掩码的长度为 ,将该列中的每个值乘以。通过这个正则化项, 左上角的注意力值将受到限制。

`SAM`提示生成器

前面产生的注意力图中存在一些不稳定的假阳性峰值。为了过滤这些假阳性区域，首先使用阈值来过滤弱激活区域，并找到最大连通区域作为正区域。剩余区域作为负区域。之后，从正区域中抽取一个具有最大激活值的正点，并从负区域中抽取一个具有最弱激活值的负点，作为SAM的点提示对。

迭代优化

SAM解码器的分割结果可能包含粗糙的边缘和背景噪声，采用两种迭代策略进一步优化分割结果。

遵循PerSAM中的级联后优化，将使用正负对生成的初始分割掩码作为SAM解码器的额外提示输入。
使用第一种迭代策略中的分割掩码来过滤注意力图。然后，从被过滤的注意力图中使用提示生成方法迭代生成正负对，并将它们发送到SAM解码器，最后使用NMS汇总结果。

多尺度集成

由于 VLM 中图像编码器的低分辨率图像输入, VLM 可能无法识别小物体。为了解决这个问题,遵循 SPHINX 的方法，将图像（）从四个角落分割成四个子图像（），并独立地将每个子图像发送给 VL-SAM 。最后, 将 VL-SAM 对四个子图像和整张图像的输出进行集成。

问题提示集成

VLM的输出对输入提示非常敏感。为了获得对输入图像更全面的描述，要求VLM生成十个用于场景描述的问题提示，然后，使用生成的问题提示来进行VL-SAM的物体分割，并对所有问题提示的输出进行集成。

主要实验

本文仅做学术分享，如有侵权，请联系删文。

3D视觉交流群，成立啦！

目前我们已经建立了3D视觉方向多个社群，包括2D计算机视觉、最前沿、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向，细分群包括：

工业3D视觉：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机：四旋翼建模、无人机飞控等

2D计算机视觉：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿：具身智能、大模型、Mamba、扩散模型、图像/视频生成等

除了这些，还有求职、硬件选型、视觉产品落地、产品、行业新闻等交流群

添加小助理: cv3d001，备注：研究方向+学校/公司+昵称（如3D点云+清华+小草莓）, 拉你入群。

3D视觉工坊知识星球

「3D视觉从入门到精通」知识星球，已沉淀6年，星球内资料包括：秘制视频课程近20门（包括结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云等）、项目对接、3D视觉学习路线总结、最新顶会论文&代码、3D视觉行业最新模组、3D视觉优质源码汇总、书籍推荐、编程基础&学习工具、实战项目&作业、求职招聘&面经&面试题等等。欢迎加入3D视觉从入门到精通知识星球，一起学习进步。

▲长按扫码加入星球

3D视觉工坊官网：www.3dcver.com

具身智能、3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪等。

3D视觉模组选型：www.3dcver.com

— 完 —

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

3D视觉科技前沿进展日日相见 ~

http://mp.weixin.qq.com/s?__biz=MzU1MjY4MTA1MQ==&mid=2247711785&idx=4&sn=39f7beeeb4e623666a26bf4f59fa3ca0

3D视觉工坊

专注于工业3D视觉、SLAM、自动驾驶、三维重建、无人机、具身智能、扩散模型等前沿技术分享与产业落地，力争打造为国内最专业的3D视觉社区。官网：www.3dcver.com 佳v：cv3d007 或 13451707958

最新文章

一位阿里P9的年薪和家庭资产

章国锋团队开启SfM新篇章！DATAP-SfM：动态感知跟踪一切！

无人机流式输出视频没有用？Video2BEV：通过3D高斯与视频提升无人机定位精度

CVPR，ICCV，ECCV，AAAI，IJCAI等顶会的评分机制是怎样的？

KW-MINI | 精度0.05mm！体积超小！重量超轻！结构光3D相机！

卡尔曼滤波YYDS！「分割一切」遇上「跟踪一切」！前谷歌经理直呼“优雅”

全面理解运动预测、规划、建图！DriveMLLM：自动驾驶多模态的空间理解基准

斯坦福大学教授李飞飞团队：关于 2024 年人工智能发展报告总结

具身智能还有多久才能落地？

科技部发文：对短期内发表多篇论文、取得多项专利等成果的，开展专项数据核查！

那些从自动驾驶“跳槽”进具身智能的大佬们，都来自哪家公司？

Adobe重磅开源DiffusionGS：融入3DGS到扩散模型，6s完成三维重建！

清华大学＋具身智能+ Visuomotor控制任务=？

NeurIPS'24｜VL-SAM：北大出品，完全无训练的开放式检测分割模型

匹配一切！Stereo Anything：统一立体匹配和大规模混合数据！

今晚八点开课！彻底搞懂扩散模型基本原理与实战教程！

刚刚，沈向洋官宣通用视觉大模型！无需提示，就能识别万物

用YOLO实现无人机桥梁检查，到底应该选择哪个模型？

本科生一作、研究生二作、教授母亲三作，浙大奖学金获得者论文被质疑，高校回应！

零基础入门大模型：从理论到实战

三维重建大一统！2分钟生成超真细节的3D形状、Mesh、纹理、材质！

清华开源RDT-1B，揭秘全球最大的双臂机器人扩散大模型

扩散模型为什么能成为学术界和工业界的团宠？

程序员在古代算文官还是武官？

谷歌2024博士奖学金名单公布

还在用3DGS？更快、更真、更准的3DLS即将开源！

彻底搞懂扩散模型数学基础剖析、公式推导、代码讲解

最新 IROS 2024：实时调整，灵活抓取！大语言模型赋能机械臂抓取

机器学习中有哪些形式简单却很巧妙的idea？

高精度三维重建，KW-P 3D相机能行吗？

彻底解决尺度漂移！浙大新作BEV-ODOM：使用BEV增强单目VO！定位精度SOTA！

用深度强化学习实现机械臂抓取，请问大家都是怎么做的仿真？现在有点迷茫?

为什么现在的 AI 大模型好像只有中美在做，世界上其他国家都好像完全消失了？

已注销！985新校区，不建了

COLMAP即将Out！图像没有任何重叠也能估计位姿！爆拉LoFTR & Dust3D十倍精度！

突破维度限制！GenXD：拿捏真实通用3D、4D生成！

给工坊的深度相机精度排个名，JD-500第6，第一名没有争议！

3D视觉课程&硬件汇总

国内外高校具身智能实验室汇总（国内、北美、欧洲篇）

告别CAD模型依赖！GS2Pose：用3D高斯点云重塑6D姿态估计！

UC伯克利开源！深度估计、光流、分割大一统！

配套源码！让VINS-Mono原地起飞！转弯也不跟丢！

结构光视觉如何用于工件位置和姿态测量，与双目视觉相比有何优劣势？

三维重建 3D reconstruction 有哪些实用算法？

持续提高SuperPoint+LightGlue匹配质量！万能辅助！任何情况都不会对结果产生负面影响！

NeurlPS'24开源 | Point-PRC：全新通用点云分析框架！

魔改一个loss可以发啥水平的文章?

新文章提出取消作者姓名排序，人人都是一作，你赞同这种署名方案吗？

复旦&蔚来开源DG-SLAM：第一个动态环境下的鲁棒GS SLAM！

更智能！更高效！国科大重磅！无人机视角下的目标识别：UEVAVD数据集与IBE-MAP策略

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

NeurIPS'24｜VL-SAM：北大出品，完全无训练的开放式检测分割模型

创新点

内容概述

`VL-SAM`

现有模型

`SAM`模型

基于自回归的`VLM`模型

注意力生成模块

头聚合

注意力流

`SAM`提示生成器

迭代优化

多尺度集成

问题提示集成

主要实验

3D视觉工坊知识星球

3D视觉模组选型：www.3dcver.com

NeurIPS'24｜VL-SAM：北大出品，完全无训练的开放式检测分割模型

创新点

内容概述

VL-SAM

现有模型

SAM模型

基于自回归的VLM模型

注意力生成模块

头聚合

注意力流

SAM提示生成器

迭代优化

多尺度集成

问题提示集成

主要实验

3D视觉工坊知识星球

3D视觉模组选型：www.3dcver.com

`VL-SAM`

`SAM`模型

基于自回归的`VLM`模型

`SAM`提示生成器