点击下方卡片,关注「3DCV」公众号
选择星标,干货第一时间送达
来源:3DCV
添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。
扫描下方二维码,加入「3D视觉从入门到精通」知识星球,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:近20门独家秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!
一句话总结:SAMURAI这篇工作解决了SAM 2在高动态场景容易跟踪丢失的问题,关键是这篇文章的核心思想竟然是经典的“卡尔曼滤波”!
前谷歌产品经理Bilawal Sidhu在看完论文后直呼“优雅”。
0. 论文信息
标题:SAMURAI: Adapting Segment Anything Model for Zero-Shot Visual Tracking with Motion-Aware Memory
作者:Cheng-Yen Yang, Hsiang-Wei Huang, Wenhao Chai, Zhongyu Jiang, Jenq-Neng Hwang
机构:University of Washington
原文链接:https://arxiv.org/abs/2411.11922
代码链接:https://github.com/yangchris11/samurai
官方主页:https://yangchris11.github.io/samurai/
1. 导读
Segment Anything Model 2 (SAM 2)在对象分割任务中表现出强大的性能,但在视觉对象跟踪方面面临挑战,特别是在管理具有快速移动或自遮挡对象的拥挤场景时。此外,原始模型中的固定窗口存储器方法没有考虑被选择来调节下一帧的图像特征的存储器的质量,导致视频中的错误传播。本文介绍SAMURAI,它是SAM 2的增强版,专门用于视觉目标跟踪。通过将时间运动线索与所提出的运动感知记忆选择机制相结合,SAMURAI有效地预测了对象运动并优化了掩模选择,实现了鲁棒、准确的跟踪,而无需重新训练或微调。SAMURAI实时运行,并在不同的基准数据集上展示了强大的零射击性能,展示了其无需微调即可进行归纳的能力。在评估中,SAMURAI在成功率和精确度方面比现有的追踪器有了显著的提高,在LaSOT上AUC提高了7.1%外面的(exterior的简写)以及GOT-10k上3.5%的AO增益。此外,与LaSOT上的完全监督方法相比,它取得了有竞争力的结果,突出了它在复杂跟踪场景中的鲁棒性及其在动态环境中的实际应用潜力。
2. 引言
“Segment Anything Model”(SAM)在分割任务中展现出了卓越的性能。最近,SAM 2[35]引入了流式内存架构,使其能够按顺序处理视频帧,同时在长序列中保持上下文信息。尽管SAM 2在视频对象分割(Video Object Segmentation,VOS)任务中表现出色,能够为整个视频序列中的对象生成精确的像素级掩码,但在视觉对象跟踪(Visual Object Tracking,VOT)场景中仍面临挑战。
VOT中的主要关注点是在遮挡、外观变化和相似对象存在的情况下,保持对象身份和位置的连续性。然而,SAM 2在预测后续帧的掩码时往往忽略了运动线索,这导致在对象快速移动或存在复杂交互的场景中出现不准确的情况。这一局限性在拥挤场景中尤为明显,SAM 2在这些场景中往往更倾向于依据外观相似性而非空间和时间一致性进行决策,从而导致跟踪错误。如图1所示,存在两种常见的失败模式:拥挤场景中的混淆以及遮挡期间的无效内存利用。
为解决这些局限性,我们提出将运动信息纳入SAM 2的预测过程。通过利用对象轨迹的历史信息,我们可以增强模型在视觉上相似对象之间进行区分的能力,并在遮挡情况下保持跟踪准确性。此外,优化SAM 2的内存管理也至关重要。当前方法无差别地将最近几帧存储在内存库中,这在遮挡期间引入了不相关特征,从而损害了跟踪性能。解决这些挑战对于将SAM 2丰富的掩码信息应用于稳健的视频对象跟踪至关重要。
为此,我们提出了SAMURAI,这是一种基于SAM的统一且稳健的零样本视觉跟踪器,具有运动感知的实例级内存。我们提出的方法包含两项关键进展:(1)一个运动建模系统,用于完善掩码选择,从而在复杂场景中实现更准确的对象位置预测;(2)一个优化的内存选择机制,该机制利用混合评分系统,结合原始掩码亲和力、对象和运动评分来保留更多相关历史信息,从而提升模型的整体跟踪可靠性。
3. 效果展示
无论是只狼还是黑神话·悟空,都可以准确跟踪复杂动作,甚至“金箍棒”都可以准确分割。
也完全无惧遮挡和复杂目标!
4. 主要贡献
本文做出以下贡献:
• 我们通过运动建模引入运动信息,提高了SAM 2的视觉跟踪准确性,有效处理了快速移动和遮挡对象。
• 我们提出了一种运动感知的内存选择机制,与原始固定窗口内存相比,通过选择性存储由运动和亲和力评分混合决定的相关帧,减少了拥挤场景中的错误。推荐课程:保姆级线结构光(单目&双目)三维重建系统教程。
• 我们的零样本SAMURAI在LaSOT、LaSOText、GOT-10k和其他VOT基准测试中实现了最先进的性能,无需额外训练或微调,这证明了我们在不同数据集上提出的模块具有强大的泛化能力。
5. 方法
SAM 2在基本的视觉对象跟踪(VOT)和视频对象分割(VOS)任务中表现出色。然而,原始模型可能会错误地编码不正确或置信度低的对象,从而在长序列VOT中导致显著的错误传播。
为解决上述问题,我们在多掩码选择的基础上提出了基于卡尔曼滤波器(Kalman Filter,KF)的运动建模,并在基于混合评分系统(结合亲和力和运动评分)的增强内存选择方面进行了改进。这些增强旨在加强模型在复杂视频场景中准确跟踪对象的能力。重要的是,这种方法既不需要微调,也不需要额外训练,可以直接集成到现有的SAM 2模型中。通过在不增加额外计算开销的情况下改进预测掩码的选择,该方法为在线VOT提供了一种可靠且实时的解决方案。
6. 实验结果
LaSOT和LaSOText的结果。表1展示了在LaSOT和LaSOText数据集上的视觉对象跟踪结果。我们的方法SAMURAI在所有三项指标上(如图3所示)相较于零样本方法和监督方法均表现出显著提升。尽管监督VOT方法取得了相当令人瞩目的结果,但相比之下,零样本SAMURAI展现了其出色的泛化能力,具有可比的零样本性能。此外,所有SAMURAI模型在LaSOText的所有指标上都超越了当前最优水平。
GOT-10k的结果。表1还展示了在GOT-10k数据集上的视觉对象跟踪结果。请注意,GOT-10k协议仅允许跟踪器使用其对应的训练集进行训练,因为一些论文可能会将其称为一次性方法。SAMURAI-B在AO上提高了2.1%,在OP0.5上提高了2.9%,相较于SAM2.1-B;而SAMURAI-L在AO上提高了0.6%,在OP0.5上提高了0.7%。所有SAMURAI模型在GOT-10k的所有指标上都超越了当前最优水平。
TrackingNet、NFS和OTB100的结果。表2展示了在四个广泛比较的基准数据集上的视觉对象跟踪结果。我们的零样本SAMURAI-L模型在AUC上与当前最优的监督方法相当或超越之,展示了我们的模型在不同数据集上的能力和泛化性。
单个模块的效果。我们在表3中展示了有无记忆选择在不同设置下的效果。两个提出的模块都对SAM 2模型产生了积极影响,而两者结合可以在LaSOT数据集上获得最佳的AUC(74.23%)和Pnorm(82.60%)。
MotionWeights的效果。我们在表4中展示了在决定信任哪个掩码时分数加权的效果。运动分数和掩码亲和分数之间的权衡对跟踪性能有显著影响。我们的实验表明,在LaSOT数据集上,将运动权重αmotion设置为0.2时,可以获得最佳的AUC和Pnorm分数,这表明最优的平衡可以提高掩码选择的准确性和鲁棒性。
基线比较。为了证明SAMURAI中提出的运动建模和运动感知记忆选择机制的有效性,我们对SAM 2在LaSOT和LaSOText上的所有主干变体进行了详细的同类比较。基线SAM 2采用原始的记忆选择方法,并直接预测具有最高IoU分数的掩码。表5显示,所提出的方法在所有三项指标上都显著优于基线,这凸显了我们的方法在不同模型配置中的鲁棒性和泛化性。
7. 总结 & 未来工作
我们提出了SAMURAI,这是一个基于“分割万物”模型的视觉对象跟踪框架,通过引入基于运动的分数来改进掩码预测和记忆选择,以处理拥挤场景中的自我遮挡和突然运动。所提出的模块在所有SAM模型变体上,在多个VOT基准的所有指标上都表现出一致的改进。该方法无需重新训练或微调,同时在多个VOT基准上展现出稳健的性能,并具备实时在线推理的能力。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉、最前沿、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向,细分群包括:
工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机:四旋翼建模、无人机飞控等
2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿:具身智能、大模型、Mamba、扩散模型、视频\图像生成等
除了这些,还有求职、硬件选型、视觉产品落地、产品、行业新闻等交流群
添加小助理: cv3d001,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。
「3D视觉从入门到精通」知识星球
「3D视觉从入门到精通」知识星球,已沉淀6年,星球内资料包括:秘制视频课程近20门(包括结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云等)、项目对接、3D视觉学习路线总结、最新顶会论文&代码、3D视觉行业最新模组、3D视觉优质源码汇总、书籍推荐、编程基础&学习工具、实战项目&作业、求职招聘&面经&面试题等等。欢迎加入3D视觉从入门到精通知识星球,一起学习进步。
官网:www.3dcver.com具身智能、3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪等。
3D视觉模组选型:www.3dcver.com
点这里👇关注我,记得标星哦~