Meta再下一城：SAM 2

文摘科技 2024-07-31 08:20 上海

文｜庞德公

编辑｜郭嘉

--->更多内容，请移步“鲁班秘笈”！！<---

“继用于图像的Meta Segment Anything Model （SAM）取得成功之后，我们发布了SAM 2，这是一种用于在图像和视频中实时进行对象分割的统一模型，已经达到最先进的性能。” 模型适用于增强现实（AR）、虚拟现实（VR）、机器人、自动驾驶车辆和视频编辑等需要时间定位的应用。

SAM 2

分割是计算机视觉的重要组成部分，用于识别哪些图像像素属于物体。它在各种现实世界场景中都有应用，从分析科学图像到编辑照片。最早在2023年，Meta宣布了Segment Anything项目，发布了Segment Anything模型（SAM）和Segment Anything 1B的MaskLet数据集 SA-1B，以加速该领域的研究。

Meta发布的Segment Anything Model 2 （SAM 2）比原来的SAM更准确，速度快六倍。目前支持视频和图像中的对象分割。它专为图像和视频中的对象分割而设计，通过支持实时处理和zero-shot的泛化、可提示的模型架构，在处理复杂的视觉数据方面表现出色。

SAM 2的主要特点：

SAM 2可以分割以前从未遇到过的物体，表现出强大的零样本泛化能力。它在17个零样本视频数据集的交互式视频分割方面明显优于以前的方法，并且需要的人工交互大约减少三倍。
SAM 2在其23个数据集的零样本基准测试套件上优于SAM，同时速度快 6倍。
与之前最先进的模型相比，SAM 2在现有的视频对象分割基准测试（DAVIS、MOSE、LVOS、YouTube-VOS）方面表现出色。
模型实现了实时推理速度，每秒处理大约44帧。这使得SAM 2适用于需要即时反馈的应用，例如视频编辑和增强现实。
用于视频分割注释的SAM 2比使用SAM进行手动每帧注释快 8.4倍。

SAM 2在Apache 2.0许可下可用，因此任何人都可以在SAM 2模型之上构建自己的体验。目前Meta已经开放如下资料：

SAM 2代码和权重在宽松的Apache 2.0许可证下。
BSD-3许可证下的 SAM 2评估代码。
SA-V数据集，包括 ~51k真实世界视频和超过600k个Masklet，采用 CC BY 4.0许可。

上面的表格为本次使用的数据集和开源VOS数据集的对比，比较的维度又视频数量、持续时间、掩码数量、掩码、帧数和消失率。SA-V Manual仅包含手动注释的标签。SA-V Manual+Auto将手动注释的标签与自动生成的掩码相结合。

模型细节

下图为SAM2的框架，希望通过使用基础模型 (b) 解决交互式的视觉分割任务 (a)，这个模型是在数据引擎 (c) 上面采集到的大规模SA-V的数据集上训练而成。SAM 2通过流式存储存储先前的Prompt和预测结果，进而达到能够通过一个或多个视频帧上的Prompt（点击、框或蒙版）的方式分割区域<形成遮罩！>。

下图为一个具体的例子，先在视频的第一帧中对目标对象进行Prompt以获得该对象的分割结果。绿色点表示正提示（正向提示，表示对象的一部分），红色点表示负提示（负向提示，表示不是对象的一部分）。SAM 2 会自动将分割结果传播到后续帧（用蓝色箭头表示），形成一个MaskLet（绿色部分）。如果SAM 2在某一帧后（例如第 2 帧之后）失去了对对象的跟踪，可以在新帧中提供额外提示（红色箭头），以纠正MaskLet。

第3帧中只需一次点击即可恢复对象，并将其传播以获得正确的 MaskLet。与独立的SAM +视频跟踪器方法相比这种方法更高效。传统方法在第3帧中需要多次点击以重新注释对象。SAM 2的记忆功能使得仅需一次点击即可恢复对象（如舌头）的分割结果。这种能力在处理视频中的对象不仅减少了用户的操作次数，还能在对象跟踪失效时进行快速精校。

若从模型架构上来解释的话，对于给定帧分割预测取决于当前提示和/或先前观察到的记忆。视频以流式方式处理，图像编码器（绿色）一次消耗一个帧，并与先前帧中的目标对象的记忆（粉色）交叉关注<蓝色部分，Cross-Attention，其本质上也是利用了多层的Transformer堆叠>。掩码解码器（橙色）（也可以选择接受输入提示）进行当前帧的分割遮罩预测。

上图为标注过程，每个过程都有自己的标注器，跟踪，识别错误，持续校正

与之前的工作进行比较，SAM 2在给出第1帧的真实遮罩之后进行的视频分割方面表现良好，尤其在准确度（J &F、G）和速度（FPS）方面。所有 FPS 估计值均基于A100 GPU。

鲁班号导读火热上线!!

------>敬请移步“鲁班秘笈”！<------

http://mp.weixin.qq.com/s?__biz=MzkzNDM4MDQyMg==&mid=2247486749&idx=1&sn=8375c296ef1e44056b8ce8a548c6dc3c

鲁班模锤

基于开源技术生态，跟踪与普及人工智能、隐私计算、区块链以及数据空间的最新技术。着力于数据治理自动化，依托语料库构建数据可信流通方案，为所有企业提供平等的数据增益服务。

最新文章

神经网络与2024诺贝尔物理奖

利用语料来透析（“哲学思考”） “数字孪生” 上

WordLlama：在消费级GPU上奔跑的“瘦子”

AI新思考：“浴火重生”的草莓模型

Apple发布iPhone16和Apple Intelligence

突发：Runway删库跑路，备受瞩目的Stable Diffusion v1.5不见了！

优雅谈大模型：白话ZeRO 下

Jamba前生今世：1.5开源来袭

AI架构系列：去其形而留其意

ViT篇外：NVIDIA Llama-3.1-Minitron 4B

FlashAttention3：再次深度挖掘硬件潜力

Grok 2携AI图片生成重生

TorchChat：Ollama的潜在对手

优雅谈大模型：Python编程篇

AIGC中数据治理的“科林格里奇困境”

泡沫还是机遇？复盘18个月的AI装备竞赛

三个臭皮匠与一个诸葛亮：覆盖率与正确率的博弈

NiFi ：1 初识这把“十年一剑”的利器

Flux：Midjourney的新图像模型挑战者

Apple在Swift中引入同态加密

Meta再下一城：SAM 2

“年轻的”IMO选手：扫荡“围棋”后，开始扫荡“数学”

新版PyTorch：AI任务加速与Intel GPU集成

优雅谈大模型：白话ZeRO 上

Llama 3.1和xAI的超集群加速AI军备竞赛

LLama3.1 405B即将来袭：开源首次超越GPT-4o

优雅谈大模型：“System2”与“System 1”

本周当之无愧：小模型周

百万专家小专家：“N个小皮匠”？！

SpreadsheetLLM：微软对Excel编码的“摊膀伏”

LLM基础模型系列：Prefix-Tuning

FlashAttention3：“苗条”的就是比较好！

数据跨境法案：美国篇下

MobileLLM：“苗条”的模型比较好！

白话无人驾驶：2 运动规划

白话无人驾驶：1风暴来袭

优雅谈大模型：白话向量数据库

RWKV: 与Transformer和Mamba掰掰手腕的小家碧玉

LLM基础模型系列：Prompt-Tuning

LLM基础模型系列：Fine-Tuning总览

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉