NeurIPS 2024 | 浙江大学提出SINE：通用分割新模型

科技 2024-11-20 13:05 上海

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达
点击进入—>【Mamba和图像分割】交流群

添加微信号：CVer2233，小助手会拉你进群！
扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料，及最前沿应用！发论文/搞科研/涨薪，强烈推荐！

转载自：晓飞的算法工程笔记

论文: A Simple Image Segmentation Framework via In-Context Examples

论文地址：https://arxiv.org/abs/2410.04842
论文代码：https://github.com/aim-uofa/SINE

创新点

探索了通用的分割模型，发现现有方法在上下文分割中面临任务模糊性的问题，因为并非所有的上下文示例都能准确传达任务信息。
提出了一个利用上下文示例的简单图像分割框架SINE（Segmentation framework via IN-context Examples），利用了一个Transformer编码-解码结构，其中编码器提供高质量的图像表示，解码器则被设计为生成多个任务特定的输出掩码，以有效消除任务模糊性。
SINE引入了一个上下文交互模块，以补充上下文信息，并在目标图像与上下文示例之间产生关联，以及一个匹配Transformer，使用固定匹配和匈牙利算法消除不同任务之间的差异。
完善了当前的上下文图像分割评估系统，实验结果表明，SINE可以处理广泛的分割任务，包括少量样本的语义分割、少量样本的实例分割和视频目标分割。

内容概述

图像分割涉及在像素级别上定位和组织概念，比如语义分割、实例分割、全景分割、前景分割和交互分割。然而，现有的大多数分割方法都是针对特定任务量身定做的，无法应用于其他任务。

最近一些工作探索了通用分割模型，通过上下文学习解决多样且无限的分割任务。上下文分割模型需要理解上下文示例传达的任务和内容信息，并在目标图像上分割相关概念，但并不是所有的上下文示例都能准确传达任务信息。例如当提供一个特定个体的照片，是仅限于个体本身、涵盖所有人的实例分割，还是集中于语义分割？模糊的上下文示例可能使传统的上下文分割模型难以清晰地定义不同任务之间的边界，从而导致不期望的输出。

为了解决这个问题，论文提出了基于上下文示例的简单图像分割框架SINE（Segmentation framework via IN-context Examples）。受到SAM模型的启发，SINE预测针对不同复杂度任务定制的多个输出掩码。这些任务包括相同物体、实例到整体语义概念。SINE统一了现有的各种粒度的分割任务，旨在实现更广泛的任务泛化。

与SegGPT相比，SINE能够在可训练参数更少的情况下有效地解决上下文分割中的任务模糊性问题，而SegGPT仅输出语义分割结果。此外，论文进一步将少样本实例分割引入当前的评估系统，以便全面评估这些模型。

`SINE`

SINE是一个基于查询的分割模型，遵循DETR和Mask2Former的设计。使用相同对象（ID）查询来识别和定位目标图像中与参考图像中具有相同对应关系的对象，使用可学习的实例查询来识别和定位目标图像中与参考图像具有相同语义标签的对象。

SINE基于经典的Transformer结构，引入了一些针对上下文分割任务的有效设计，包括一个冻结的预训练图像编码器、一个上下文交互模块和一个轻量级匹配Transformer (M-Former) 解码器。

上下文交互

上下文交互的目的是补充上下文信息，并在参考图像特征和目标图像特征之间产生关联。

掩码池化

为每个掩码分配不同的ID标签，将参考掩码转换为ID掩码，通过将具有相同类别标签的掩码合并来得到语义掩码，其中和分别是ID掩码和语义掩码的数量。

然后，使用这些掩码对参考特征进行池化，获得提ID标记和语义标记。

上下文融合模块

上下文融合模块该模块是一个Transformer块，包括自注意力机制、交叉注意力机制和前馈网络，实现参考特征和目标特征之间的上下文关联：

这些标记 ( 和 ) 和目标特征 ( ) 通过这个共享模块进行融合，在交叉注意力中它们彼此作为键和值，从而可以获得增强后的目标特征、ID查询和语义原型。

匹配`Transformer`

为了有效地进行上下文分割并消除任务模糊性，M-Former实现了一个双路径的Transformer解码器，共享自注意力层。一路径用于与查询（和）交互，提取与目标图像中的上下文示例相关的特征。第二路径用于增强语义原型以实现更准确的匹配。这两条路径共享自注意力层，以便将语义从分配给。

M-Former共有 N 个块，整体的过程如下：

对于实例分割，使用更新后的语义原型作为分类器，并让表示个实例预测的集合。使用匈牙利损失来学习SINE，通过计算预测和GT 之间的分配成本以解决匹配问题，即，其中是GT对象的类别和掩码，可能为。是第个实例查询对应类别的概率，表示其预测的掩码。是一种二元掩码损失和Dice损失：

其中表示二分匹配的结果索引。

为了赋予SINE预测同一对象的能力，使用图像中同一实例的不同裁剪视图作为参考-目标图像对。设表示个ID预测的集合。

由于参考ID和目标ID之间的关系是固定的且可以准确确定，可以在预测和GT之间执行固定匹配，损失可以写为：

其中是GT的类别和掩码，，表示一个对象同时出现在参考图像和目标图像中。总损失为。

一旦训练完成，SINE的全部能力在推理过程中得以释放，能够解决上下文示例中的模糊性并为不同的分割任务输出预测。

主要实验

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复：何恺明，即可下载本课程的所有566页课件PPT！赶紧学起来！
ECCV 2024 论文和代码下载
在CVer公众号后台回复：ECCV2024，即可下载ECCV 2024论文和代码开源的论文合集

CVPR 2024 论文和代码下载

在CVer公众号后台回复：CVPR2024，即可下载CVPR 2024论文和代码开源的论文合集

Mamba、多模态和扩散模型交流群成立

扫描下方二维码，或者添加微信号：CVer2233，即可添加CVer小助手微信，便可申请加入CVer-Mamba、多模态学习或者扩散模型微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。

一定要备注：研究方向+地点+学校/公司+昵称（如Mamba、多模态学习或者扩散模型+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群


▲扫码或加微信号: CVer2233，进交流群

CVer计算机视觉（知识星球）来了！想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料，欢迎扫描下方二维码，加入CVer计算机视觉（知识星球），已汇集上万人！

▲扫码加入星球学习

▲点击上方卡片，关注CVer公众号
整理不易，请赞和在看

http://mp.weixin.qq.com/s?__biz=MzUxNjcxMjQxNg==&mid=2247611304&idx=2&sn=3021da70e81ba1a421aaaf70ebb3cf93

CVer

一个专注于计算机视觉方向的公众号。分享计算机视觉、深度学习、人工智能、自动驾驶和高校等高质量内容。

最新文章

又一篇AI顶会！这个idea“简直杀疯了 ” ...

NeurIPS 2024 | 浙江大学提出SINE：通用分割新模型

哈佛大学 & MIT 招收实习生

ICASSP 2025 投稿交流群成立！

最大ReID和目标跟踪微信群来了！

巨星陨落！北京大学发讣告

超越YOLOv8还不够！这些目标检测开源项目又上新了

顶刊TPAMI 2024！清华黄高团队提出：高效图像识别的统一动态网络

重磅！CVPR 2025、ICLR 2025和AAAI 2025投稿微信群成立！

快加入！最大的目标检测和图像分割微信群来了！

打破纪录！中国科学家让薛定谔的猫活了23分钟

这6个岗位，大厂抢疯了！！

NeurIPS 2024 | CMU提出RLT：加速视频Transformer新方法

中国团队斩获EMNLP 2024最佳论文奖！主办方：明年苏州见！

ICLR 2025 开始Rebuttal！AAAI 2025和CVPR 2025投稿微信群成立！

多模态和扩散模型微信群来了！

“16岁中学生获正高职称”，后续来了

月薪49k！字节跳动校招开奖！

LeCun团队新作DINO-WM：预训练视觉特征的世界模型，超强规划能力！

又一OpenAI研究员离职！不相信OpenAI能造福世界，AGI使命无比困难

CVPR 2025 正式截稿！ICLR 2025和AAAI 2025投稿微信群成立！

遥感和Mamba微信群成立！

已注销！985新校区，不建了

校长书记双院士！教育部副部长，任C9党委书记！

NeurIPS 2024 | 免训练！VL-SAM：开放式目标检测和实例分割

马斯克新官上任，再起诉OpenAI！称Ilya七年前就不放心奥特曼了

CVPR 2025 截稿！ICLR 2025和AAAI 2025投稿微信群成立！

长时间迟到、多次离席关闭摄像头…19位评审专家被处理！

导师放养，一个人偷偷发了顶会。。。

李飞飞团队新作：具身智能决策性能评价基准，o1-preview登顶！NeurIPS 2024

北大新作：让大模型来做peer-review结果会怎样？

CVPR 2025 即将截稿！ICLR 2025和CVPR 2025投稿微信群成立！

扩散模型和多模态微信群来了！

突发！中科院一区期刊eLife将被剥夺影响因子

残酷！中科院博士应聘某普通二本惨遭拒，开始思考人生。。。

周志华团队新作！打造更强的世界模型！WHALE来了！

NeurIPS'24 | Pcb-Merging：无需训练的多任务模型合并方案

ICLR 2025 分数出炉！ICLR 2025和CVPR 2025投稿微信群成立！

谷歌2024博士奖学金公布！KAN作者刘子鸣等数十位年轻华人学者入选

多校通知：大学教师，实行“坐班制”！

喜提 TPAMI 顶刊！

NeurIPS 2024 Oral | 量化和提升思维链的推理能力边界

Ilya认错，Scaling Law崩了？自曝SSI秘密技术路线取代OpenAI

ICLR 2025 出分了！ICLR 2025和CVPR 2025投稿微信群成立！

最大ReID和目标跟踪微信群来了！

211大学教授、博导，落马！

CV全新范式！LSTM在CV领域杀出一条血路！

GPT-5被曝不及预期！OpenAI员工：没什么科学突破了，接下来只需要工程

ECCV 2024 | VL4AD：让语义分割认识未知类别，无需额外数据和训练的OOD语义分割

CVPR 2025 和 ICLR 2025投稿微信群来了！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

NeurIPS 2024 | 浙江大学提出SINE：通用分割新模型

AI/CV重磅干货，第一时间送达点击进入—>【Mamba和图像分割】交流群

添加微信号：CVer2233，小助手会拉你进群！扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料，及最前沿应用！发论文/搞科研/涨薪，强烈推荐！

创新点

内容概述

SINE

上下文交互

掩码池化

上下文融合模块

匹配Transformer

主要实验

何恺明在MIT授课的课件PPT下载

ECCV 2024 论文和代码下载

CVPR 2024 论文和代码下载

AI/CV重磅干货，第一时间送达
点击进入—>【Mamba和图像分割】交流群

添加微信号：CVer2233，小助手会拉你进群！
扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料，及最前沿应用！发论文/搞科研/涨薪，强烈推荐！

`SINE`

匹配`Transformer`