视频和图像分割：深入探讨 SAM2

文摘 2024-10-21 08:01 北京

近期文章回顾（更多热门文章请关注公众号与知乎Rocky Ding哦）

写在前面

WeThinkIn最新福利放送：大家只需关注WeThinkIn公众号，后台回复“简历资源”，即可获取包含Rocky独家简历模版在内的60套精选的简历模板资源，希望能给大家在AIGC时代带来帮助。

Rocky最新发布Stable Diffusion 3和FLUX.1系列模型的深入浅出全维度解析文章，点击链接直达干货知识：https://zhuanlan.zhihu.com/p/684068402

本文为Advancing Video and Image Segmentation: A Deep Dive into SAM2博客的中文翻译版，仅用作学术交流分享。

SAM2 的特点与应用

是什么让 SAM2 在众多的 AI 模型中脱颖而出？

首先，SAM2 的突出特点之一是其可以通过prompt进行交互。你只需要点击需要分割的对象或在要分割的对象周围画一个框，SAM2 就会完成剩下的工作。你还可以通过随时调整提示来完善你的选择，模型将实时适应，更新分割情况。这样的交互性使 SAM2 不仅功能强大，而且对用户十分友好。
其次，当对视频进行处理时，速度至关重要。然而，SAM2 不会让人失望。SAM2能够做到实时处理视频，确保分割快速且准确。无论您是处理单个图像还是一系列视频帧，它都能轻松处理。
最后， SAM2 真正与众不同的是它的多功能性。SAM2是在巨大数据集上训练的基础模型，可提供一致、高质量的分割结果。即使对于以前从未遇到过的对象和视觉域，它也可以做到开箱即用。

SAM2 可以集成到更大的 AI 系统中，以增强多模态理解，有助于构建能够解释复杂场景的更全面的 AI 模型。其快速推理功能非常适合自动驾驶汽车等应用，在这些应用中，快速、准确的物体检测至关重要。它还可以加速标注工具的创建，从而提高计算机视觉系统训练的效率。

想象一下，只需单击几下即可选择和操作实时视频中的对象 - SAM2 使这一切成为可能。它为视频编辑开辟了新的可能性，实现了生成视频模型的更多控制和创新。该模型在视频帧中跟踪物体的能力可以用于监测无人机拍摄的濒危动物，或者在医疗手术中通过实时摄像头定位特定区域来协助外科医生。

展示 SAM2：交互式视频分割演示

SAM2具有以下的交互式视频分割功能：

擦除：精确地无缝删除视频中不需要的元素。
渐变：对分段对象应用平滑过渡，以获得精美、专业的外观。
连拍：实时突出显示和分割快速移动的物体，确保不会遗漏任何内容。
聚光灯：将注意力集中在特定区域或物体上，使它们在整个框架中清晰地突出。
像素化：模糊视频中的敏感或私人区域，同时保持其余部分的完整性。
叠加：在分段对象上添加信息层或效果，增强视觉叙事。

观看以下的 GIF，体验 SAM2 的交互功能如何改变您的视频编辑和分析任务。有了这些触手可及的工具，你将能够以无与伦比的精度和创造力来操纵视频内容。

你可以尝试使用 SAM2 进行视频编辑，demo网址为https://sam2.metademolab.com/demo

分割模型是如何进化的？

人工智能和计算机视觉的世界正在以惊人的速度发展。Meta AI 的Segment Anything Model是图像分割领域的突破性一步，使用户能够通过简单的提示轻松分割对象。现在，SAM2 的推出进一步推动了这一创新，将功能从静态图像扩展到动态视频内容。

但分割模型究竟是如何发展到当今如此神奇的地步呢？让我们快速浏览一下为分割模型的发展历史，我们鼓励读者选择自己感兴趣的地方进一步阅读相关论文。

2015

SegNet：一种编码器-解码器架构，在解码器中进行上采样，用于像素级分割，以其简单性而闻名。
UNet：具有跳跃连接的对称编码器-解码器，在需要精确定位的任务中表现出色。

2016

FPN：使用金字塔结构进行多尺度特征提取，对于不同尺寸的物体都有效。
PSPNet：使用金字塔池化（pyramid pooling）进行多尺度上下文理解，改进复杂场景中的分割。

2017

DeepLabV3：采用空洞卷积（atrous convolutions）和空间金字塔池化来捕获多尺度上下文。
LinkNet：一种具有跳跃连接的轻量级编码器-解码器模型，对于实时任务非常有效。

2018

PAN：结合注意力机制和金字塔特征，以在不同尺度上实现更好的聚焦效果。
DeepLabV3+：通过解码器增强 DeepLabV3，以实现更好的定位效果。

2019

LightSeg：一种针对资源效率进行优化的轻量级编码器-解码器模型。

2020

MANet：使用多尺度注意力来精细化特征捕捉。

2021

SegFormer：基于 Transformer 的模型，将简单的 MLP 解码器与 Transformer 主干相结合。
MaskFormer：使用Transformer模型将分割视为掩模分类（mask classification）以提高性能。
STDC：一种快速、高效的模型，使用密集串联（dense concatenation）以便于实时应用。
A2FPN：通过注意力机制增强特征金字塔，以实现更好的细节和上下文捕捉。

2022

Mask2Former：通过改进的Transformer架构改进 MaskFormer，以实现跨任务的卓越分割。

2023

SAM：Meta 的 SAM 模型使分割任务变得非常易用且多功能。通过可提示分割功能，用户只需点击几下就能对图像中的任意对象进行分割，且该模型在新对象和新领域上表现出色的泛化能力。

2024

SAM 2：在 SAM 所提供的功能基础上，SAM 2 扩展到了视频领域，增加了用于对象跟踪的记忆组件，使其成为图像和视频分割的统一解决方案。

SAM 革新了图像分割技术，通过提示驱动的灵活性和无需额外训练即可泛化到新对象的能力，树立了新的行业标准。借助庞大的 Segment Anything 数据集 (SA-1B)，SAM 展现了其强大性能。现在，SAM2 更进一步，将这些能力扩展到视频分割领域，并引入了将改变我们与动态视觉数据交互方式的新功能。

SAM vs SAM 2

SAM 2 的主要增强功能：

解读 SAM2 的魔力：无缝视频分割背后的工程技术

接下来，让我们深入了解 SAM2 的模型架构，揭示 SAM2 是如何巧妙地结合视觉 Transformer、掩码自编码器和可提示的视觉分割技术，为视频和图像分割赋予活力的。

1.视觉 Transformer 和图像编码：神经网络的强大引擎。

想象一下拼接拼图的过程，每一块拼图代表整个画面的一小部分。在 SAM2 中，视觉 Transformer（ViT）处理这一过程，把图像或视频帧的每个小块当作一个独立的“token”。然后，ViT 会分析这些 token 之间的关系，从而重构完整的场景。

Vision Transformer为什么重要：视觉Transformer是SAM2的核心，就像大脑一样，使其能够理解场景的细节结构——例如，确定一个物体的边界在哪里结束，另一个物体从哪里开始，即使部分物体被遮挡或处于运动中。

从数学角度出发：视觉Transformer（ViT）使用自注意力机制进行操作。它计算每个标记（图像块）与其他所有标记之间的重要性关系，从而帮助模型专注于图像中最相关的部分：

让我们来详细解释一下这个公式是在做什么事情：

Q（查询）：当前正在被考虑的token。
K（键）：被用来与Q进行比较的token。
V（值）：key中需要提取的信息。
Softmax：将这些关系进行归一化处理，使其总和为1，从而分配重要性等级。

这样的机制允许 SAM2 将完整图像拼凑在一起，确保它了解场景的复杂性，即使是隐藏或模糊的区域。

2. SAM2 的核心：Memory Attention and the Memory Bank

记忆注意力（memory attention）是让SAM2脱颖而出的关键创新，使其在视频分割方面表现出色。在处理视频时，SAM2不仅将每一帧视为独立的图像，还会记住它在之前帧中看到的内容，以确保其预测在时间上保持一致。

工作原理：当SAM2处理每一帧时，它将信息存储在“记忆库”（memory bank）中——类似于短期记忆。当新帧到来时，SAM2利用记忆注意力来访问这个记忆库，将从之前帧中学到的内容应用于当前帧，以更好地理解它。

记忆注意力机制：

自注意力：专注于当前帧内的关系，以提取最关键的特征。
交叉注意力：将这些特征与存储的记忆进行比较，确保帧之间的一致性。通过这种交叉参考，SAM2能够识别物体的移动、变化，甚至在物体暂时消失时仍能保持识别。

什么是 Memory Bank：这是一个动态存储系统，最近的帧保存在一个FIFO（先进先出）队列中。这确保了SAM2始终掌握最相关的信息，而较旧、较不重要的数据会逐渐被替换。

Memory bank 的重要性：这个记忆系统使得SAM2能够在视频中无缝地跟踪物体，应对遮挡、运动模糊和视角变化等挑战。正是这种能力使SAM2在需要长期一致性和高精度的视频分析任务中表现尤为强大。

3. 可提示视觉分割

SAM2的一个突出特点是其通过可提示视觉分割（Promptable Visual Segmentation, also known as PVS）与用户直接交互的能力。无论是编辑视频还是分析图像，PVS允许用户通过简单的输入，如点击、边界框或掩码，来引导SAM2的分割过程。

工作原理：假设你正在处理一个视频，并且需要关注一个特定的对象——比如一个人。通过PVS，你可以点击该人物，SAM2将自动对整个视频中的该人物进行分割。如果SAM2的初次尝试不够完美，你可以通过提供额外的提示来优化分割，比如点击遗漏的区域或在对象周围绘制一个框。SAM2会从这些交互中学习，不断提升其准确性。

重要性：PVS将SAM2从一个单纯的工具转变为协作伙伴。你不仅是被动地接受模型的输出，而是主动地塑造它以满足你的需求。这一交互功能在视频编辑、医学影像以及任何对精度要求极高的应用领域尤为宝贵。PVS让你能够实现精确的目标，使分割过程更加高效，并贴合你的特定需求。

4. 掩码解码器

在SAM2处理帧并整合你的输入后，掩码解码器生成最终的分割掩码。该掩码为对象提供了详细的轮廓，将其与周围环境清晰地区分开来。

处理歧义：有时，用户输入可能会带有歧义。例如，如果你点击在两个重叠物体附近，可能无法清楚地判断你所针对的对象。掩码解码器通过预测多个掩码，并根据附加数据或指标进行细化，以确保最终选择达到最高准确度。

从数学角度出发：为了评估这些掩码与实际对象的匹配程度，SAM2使用一种称为交并比（IoU）的指标：

让我们来解释一下这个公式做了什么事情：

重叠区域：预测的掩码与实际对象重叠的程度。
并集区域：预测掩码和实际对象共同覆盖的总区域。

更高的IoU得分表示更好的匹配，这帮助SAM2在每一帧中选择最准确的掩码，即使在包含多个对象的复杂场景中也是如此。

5. 掩码自动编码器：训练模型以理解不完整的数据

SAM2处理真实世界数据（通常不完整或带有噪声）的能力，很大程度上得益于其使用掩码自编码器（MAEs）进行训练。MAEs帮助SAM2学习如何重建图像中缺失或被遮挡的部分，从而使模型更加健壮和可靠。

视觉类比：想象一张部分被掩码覆盖的照片。掩码自编码器通过训练SAM2去猜测掩码后面的内容并准确填补空缺，从而教会SAM2预测缺失信息。这一过程在处理不完美数据时至关重要。

从数学角度出发：训练过程使用了一种重建损失函数，例如均方误差（MSE），用来衡量预测像素值与实际像素值之间的差异：

重建损失的意义：该损失反映了SAM2在预测图像隐藏部分时的表现。较低的重建损失表明SAM2的预测接近实际数据，说明模型有效地学习了如何处理缺失或噪声输入。通过在训练过程中最小化这一损失，SAM2在应对现实场景（如低光、运动模糊或遮挡的视频）时会更加出色，即使数据并不总是完美无缺。

SAM2的架构是多种先进技术的和谐融合，共同打造出一个不仅强大而且适应性强的模型。无论是在单张图像中分割对象，还是在视频中跟踪对象，SAM2结合了视觉Transformer、记忆注意力、掩码自编码器和可提示视觉分割，使其成为AI工具箱中不可或缺的工具。使用SAM2，不仅是在使用一个模型，而是与一个智能系统进行互动，该系统学习、适应并与你协作，使复杂的视频分割任务变得直观而高效。

SA-V 数据集和 SAM-2 的训练

要了解 SAM2 的强大功能，有必要探索 SA-V 数据集。

什么是 SA-V 数据集？

让我们深入了解SA-V数据集——这是迄今为止最大的视觉对象分割视频数据集。想象一下：它包含了来自47个不同国家的50,000多个视频中的65万个小掩码片段，规模巨大！给你一点背景信息，这个数据集的视频数量是之前庞大数据集（如BURST和UVO-dense）的15倍，掩码片段数量是其60倍。我们在谈论的是超过12,000分钟的视频内容，分辨率从240p到4K不等，总帧数高达420万。

使用 SA-V 训练 SAM2

那么，SAM2是如何被训练成如此强大的模型？让我们深入了解其开发背后的前沿过程。

最初的训练阶段是基于SA-1B数据集的严格预训练，该数据集包含高分辨率的静态图像。为推动学习过程，团队采用了AdamW优化器，这是一种因其自适应学习率和权重衰减而闻名的先进算法，确保了强大且高效的训练。此外，他们还使用了逐层学习率衰减，使模型的每一层都能以适合其深度的优化速率进行学习。

研究团队并没有止步于此。为了进一步增强SAM2的鲁棒性，他们使用了数据增强技术，例如水平翻转和将图像调整到1024x1024像素。这些方法引入了多样化的场景，使模型更具泛化能力和多功能性。

真正的魔力（the real magic）发生在SAM2过渡到SA-V数据集，并开始在额外的视频数据集（如DAVIS、MOSE和YouTubeVOS）上训练时。这一阶段成为一个重要的转折点。他们采用了交替批处理策略，将图像和视频数据集的批次混合，确保SAM2获得了静态和动态数据的平衡“营养”，从而熟练掌握处理图像和视频的技巧。

通过多任务学习整合空间和时间信息，SAM2诞生为一个突破性模型，能够解释并分割复杂的视觉数据。这一训练过程不仅在该领域树立了新的基准，还展示了如何通过结合静态和动态输入来推动AI性能的极限。

评估

SAM2在视频对象分割领域实现了重大飞跃，设立了新的基准，并大大超越了其前代模型。

附带的图表展示了基于标准J&F指标的SAM2卓越表现。该指标对于评估模型至关重要，因为它同时衡量区域准确性（通过交并比J）和预测对象边界的精确度（轮廓准确性F）。SAM2在这两方面均表现出色，根据该指标获得了高分。

值得注意的是，SAM2的准确率略高于SAM（mIoU为61.4%，而SAM为58.1%），并具有显著的速度优势，运行速度快了六倍以上。这种提升主要归功于SAM2集成了更高效的Hiera图像编码器。此外，在SA-1B和视频数据混合训练的基础上，进一步提升了其在视频基准测试中的表现。

挑战

当然，任何此类模型仍然存在一些担忧和挑战：

计算需求与准确性权衡：在减少资源使用与获得更高准确性之间总会存在权衡，SAM2也不例外。其先进功能，例如记忆注意力和视觉Transformer，可能需要消耗大量计算资源。
处理多样化数据：虽然SAM2经过大量数据集训练并具备良好的泛化能力，但在面对未见过的新数据或高度多样化的数据类型时，可能会遇到困难。在所有领域中保持一致的进展具有挑战性。
道德和偏见问题：与许多AI模型一样，SAM2可能会继承训练数据中的偏见，这在监控或医学影像等应用中可能引发伦理问题。
复杂且快速的物体：SAM2有时可能会忽略复杂、快速运动物体的细节，导致帧间预测不稳定。附加提示可以在一定程度上解决这一问题。
依赖人工修正：尽管视频分割技术已取得长足进展，但SAM2仍然需要人工提示来提高准确性。若能完全自动化此过程，将大大提升效率。

结论

SAM2是一项在视频和图像分割领域的突破性创新，引入了记忆注意力、可提示视觉分割和Hiera图像编码器等先进功能。

它在静态图像和动态视频上均能保持高精度，同时以高FPS速率保证了令人印象深刻的速度。这使得SAM2成为AI领域内极具多样化用途的工具，适用于自动驾驶、视频编辑和医学影像等多个应用场景。

SAM2不仅是在前代基础上的改进；它重新定义了分割模型的标准，在性能和效率方面设立了新的基准。

如果读者想要对SAM2有更进一步的了解的话，我们强烈建议阅读以下资料！

进阶阅读

[1] SAM2 Segment Anything in Images and Videos Research Paper https://arxiv.org/abs/2408.00714

[2] SAM Segment Anything Research Paper https://arxiv.org/abs/2304.02643

[3] The 2017 Davis Challenge on Video Object Segmentation Research Paper https://arxiv.org/abs/1704.00675

[4] SAM2 Demo https://sam2.metademolab.com/demo

[5] SAM2 Blog Post by Meta AI https://ai.meta.com/blog/segment-anything-2/

[6] How to use SAM2 for Video Segmentation by Roboflow https://blog.roboflow.com/sam-2-video-segmentation/

[7] Meta’s SAM2 : The Future of Real-Time Visual Segmentation https://www.analyticsvidhya.com/blog/2024/08/meta-sam-2/