NeurIPS 2024 | 浙江大学提出SINE：通用分割新模型

文摘 2024-11-21 09:06 上海

点击下方卡片，关注计算机视觉Daily

AI/CV重磅干货，第一时间送达

点击进入—>【Mamba/多模态/扩散】交流群

添加微信号：CVer2233，小助手会拉你进群！
扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料，及最前沿应用！发论文/搞科研/涨薪，强烈推荐！

转载自：晓飞的算法工程笔记

论文: A Simple Image Segmentation Framework via In-Context Examples

论文地址：https://arxiv.org/abs/2410.04842
论文代码：https://github.com/aim-uofa/SINE

创新点

探索了通用的分割模型，发现现有方法在上下文分割中面临任务模糊性的问题，因为并非所有的上下文示例都能准确传达任务信息。
提出了一个利用上下文示例的简单图像分割框架SINE（Segmentation framework via IN-context Examples），利用了一个Transformer编码-解码结构，其中编码器提供高质量的图像表示，解码器则被设计为生成多个任务特定的输出掩码，以有效消除任务模糊性。
SINE引入了一个上下文交互模块，以补充上下文信息，并在目标图像与上下文示例之间产生关联，以及一个匹配Transformer，使用固定匹配和匈牙利算法消除不同任务之间的差异。
完善了当前的上下文图像分割评估系统，实验结果表明，SINE可以处理广泛的分割任务，包括少量样本的语义分割、少量样本的实例分割和视频目标分割。

内容概述

图像分割涉及在像素级别上定位和组织概念，比如语义分割、实例分割、全景分割、前景分割和交互分割。然而，现有的大多数分割方法都是针对特定任务量身定做的，无法应用于其他任务。

最近一些工作探索了通用分割模型，通过上下文学习解决多样且无限的分割任务。上下文分割模型需要理解上下文示例传达的任务和内容信息，并在目标图像上分割相关概念，但并不是所有的上下文示例都能准确传达任务信息。例如当提供一个特定个体的照片，是仅限于个体本身、涵盖所有人的实例分割，还是集中于语义分割？模糊的上下文示例可能使传统的上下文分割模型难以清晰地定义不同任务之间的边界，从而导致不期望的输出。

为了解决这个问题，论文提出了基于上下文示例的简单图像分割框架SINE（Segmentation framework via IN-context Examples）。受到SAM模型的启发，SINE预测针对不同复杂度任务定制的多个输出掩码。这些任务包括相同物体、实例到整体语义概念。SINE统一了现有的各种粒度的分割任务，旨在实现更广泛的任务泛化。

与SegGPT相比，SINE能够在可训练参数更少的情况下有效地解决上下文分割中的任务模糊性问题，而SegGPT仅输出语义分割结果。此外，论文进一步将少样本实例分割引入当前的评估系统，以便全面评估这些模型。

`SINE`

SINE是一个基于查询的分割模型，遵循DETR和Mask2Former的设计。使用相同对象（ID）查询来识别和定位目标图像中与参考图像中具有相同对应关系的对象，使用可学习的实例查询来识别和定位目标图像中与参考图像具有相同语义标签的对象。

SINE基于经典的Transformer结构，引入了一些针对上下文分割任务的有效设计，包括一个冻结的预训练图像编码器、一个上下文交互模块和一个轻量级匹配Transformer (M-Former) 解码器。

上下文交互

上下文交互的目的是补充上下文信息，并在参考图像特征和目标图像特征之间产生关联。

掩码池化

为每个掩码分配不同的ID标签，将参考掩码转换为ID掩码，通过将具有相同类别标签的掩码合并来得到语义掩码，其中和分别是ID掩码和语义掩码的数量。

然后，使用这些掩码对参考特征进行池化，获得提ID标记和语义标记。

上下文融合模块

上下文融合模块该模块是一个Transformer块，包括自注意力机制、交叉注意力机制和前馈网络，实现参考特征和目标特征之间的上下文关联：

这些标记 ( 和 ) 和目标特征 ( ) 通过这个共享模块进行融合，在交叉注意力中它们彼此作为键和值，从而可以获得增强后的目标特征、ID查询和语义原型。

匹配`Transformer`

为了有效地进行上下文分割并消除任务模糊性，M-Former实现了一个双路径的Transformer解码器，共享自注意力层。一路径用于与查询（和）交互，提取与目标图像中的上下文示例相关的特征。第二路径用于增强语义原型以实现更准确的匹配。这两条路径共享自注意力层，以便将语义从分配给。

M-Former共有 N 个块，整体的过程如下：

对于实例分割，使用更新后的语义原型作为分类器，并让表示个实例预测的集合。使用匈牙利损失来学习SINE，通过计算预测和GT 之间的分配成本以解决匹配问题，即，其中是GT对象的类别和掩码，可能为。是第个实例查询对应类别的概率，表示其预测的掩码。是一种二元掩码损失和Dice损失：

其中表示二分匹配的结果索引。

为了赋予SINE预测同一对象的能力，使用图像中同一实例的不同裁剪视图作为参考-目标图像对。设表示个ID预测的集合。

由于参考ID和目标ID之间的关系是固定的且可以准确确定，可以在预测和GT之间执行固定匹配，损失可以写为：

其中是GT的类别和掩码，，表示一个对象同时出现在参考图像和目标图像中。总损失为。

一旦训练完成，SINE的全部能力在推理过程中得以释放，能够解决上下文示例中的模糊性并为不同的分割任务输出预测。

主要实验

绘图神器下载
后台回复：绘图神器，即可下载绘制神经网络结构的神器！
何恺明在MIT授课的课件PPT下载
在CVer公众号后台回复：何恺明，即可下载本课程的所有566页课件PPT！赶紧学起来！
CVPR 2024 论文和代码下载
在CVer公众号后台回复：CVPR2024，即可下载CVPR 2024论文和代码开源的论文合集

Mamba、多模态和扩散模型交流群成立
扫描下方二维码，或者添加微信号：CVer2233，即可添加CVer小助手微信，便可申请加入CVer-Mamba、多模态学习或者扩散模型微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。

一定要备注：研究方向+地点+学校/公司+昵称（如Mamba、多模态学习或者扩散模型+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群
▲扫码或加微信号: CVer2233，进交流群

CVer计算机视觉（知识星球）来了！想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料，欢迎扫描下方二维码，加入CVer计算机视觉（知识星球），已汇集近万人！

▲扫码加入星球学习

整理不易，请赞和在看

http://mp.weixin.qq.com/s?__biz=MzU4OTg3Nzc3MA==&mid=2247496798&idx=2&sn=86c35298b104a8df47669fcda0fa0e5d

计算机视觉Daily

一个专注于计算机视觉开源项目的公众号，涵盖CV、传统图像处理、OpenCV、深度学习、机器学习代码实战和相关资料等内容

最新文章

Mamba作者点赞！清华团队深入分析长上下文建模中的状态崩溃

CVPR 2025 坐等Rebuttal，ICLR 2025和AAAI 2025投稿微信群来了！

突发！AI科学家重返谷歌！

微软亚洲研究院MSRA招聘实习生

AAAI 2025 开奖倒计时！CVPR 2025、ICLR 2025 投稿微信群来了！

重磅发布！最新版《深度学习》书籍开放下载

NeurIPS 2024 | 收敛加快8倍，准确率提升超30%！华科大提出MoE Jetpack框架

今年顶会这情况。。。大家提前做准备吧！

NeurIPS 2024 | 浙江大学提出SINE：通用分割新模型

发一篇CVPR真不难

LeCun团队新作DINO-WM：预训练视觉特征的世界模型，超强规划能力！

博士延毕，师兄终于毕业了。。。

NeurIPS 2024 Oral | 大模型量化新工作！4bit达到新SOTA！

ICLR 2025 分数出炉！附AAAI 2025和CVPR 2025投稿微信群

Karpathy后悔了：2015年就看到了语言模型的潜力，却搞了多年强化学习

CVPR 2025 正式截稿！ICLR 2025和AAAI 2025投稿微信群成立！

突发！谷歌宣布35岁Keras之父Francois Chollet离职！

面完腾讯算法岗，心态崩了。。。

Ilya认错，Scaling Law崩了？自曝SSI秘密技术路线取代OpenAI

ICLR 2025 分数出炉！附ICLR 2025和CVPR 2025投稿微信群

揭示Transformer重要缺陷！北大提出傅里叶分析神经网络FAN：填补周期性特征建模缺陷

ICLR 2025 即将开分！ICLR 2025和CVPR 2025投稿微信群来了！

这本大模型书籍可以下载了！

即插即用！加速扩散Transformer！Meta提出自适应缓存新方法，视频生成加快2.6倍！

多模态大模型最新研究进展！OpenAI、谷歌、Meta和微软杀疯了！

AAAI 2025 分数出炉！附微信群！

顶刊TPAMI 2024！解耦图神经网络：同时训练多个简单的GNN，而不是一个！

AAAI 2025 即将开奖！附微信群！

Copilot一夜杀死编程助手！GitHub官宣接入Claude和谷歌Gemini！OpenAI沦为备胎。。。

AAAI 2025 投稿微信群成立！

10秒创造一个世界！吴佳俊团队新作实时交互式3D世界生成，比现有技术快100倍！

CVPR 2025 投稿微信群成立！

黄仁勋预言成真了！！

NeurlPS 2024 Oral | 多模态融合检测端到端算法E2E-MFD来了！

CVPR 2025 投稿交流群成立！

Transformer杀疯了！跨模态3D目标检测SOTA！易复现！

NeurIPS 2024 | 免训练！超强！FreeLong：长视频生成框架

CVPR 2025 投稿交流群来了！

LeCun锐评诺奖：出于压力才颁给AI，但两个成果已经完全无用！玻尔兹曼机和Hopefield网络

敲响警钟！首例大模型卷进青少年自杀案？明星AI创业公司面临诉讼。。。

ECCV 2024 | 谷歌提出LookupViT：全新通用视觉Transformer块

ICLR 2025 投稿交流群来了！

OpenAI满血版o1剧透：数学代码能力再破天花板！已开启测试评估！

ECCV 2024 | ClearCLIP：删除两个组件，可以提升语义分割性能！

AAAI 2025 投稿交流群成立！

Apple AI落后两年？库克回应：“不抢首发，只做最好”。。。

异常检测和缺陷检测微信群成立！

AI解决132年数学难题！Transformer成功寻找新的李雅普诺夫函数，三体问题相关

AAAI 2025 投稿交流群来了！

DenseNet作者刘壮官宣！将入职普林斯顿大学助理教授！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

NeurIPS 2024 | 浙江大学提出SINE：通用分割新模型

点击进入—>【Mamba/多模态/扩散】交流群

添加微信号：CVer2233，小助手会拉你进群！扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料，及最前沿应用！发论文/搞科研/涨薪，强烈推荐！

创新点

内容概述

SINE

上下文交互

掩码池化

上下文融合模块

匹配Transformer

主要实验

绘图神器下载

后台回复：绘图神器，即可下载绘制神经网络结构的神器！

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复：何恺明，即可下载本课程的所有566页课件PPT！赶紧学起来！

CVPR 2024 论文和代码下载

▲扫码加入星球学习

整理不易，请赞和在看

添加微信号：CVer2233，小助手会拉你进群！
扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料，及最前沿应用！发论文/搞科研/涨薪，强烈推荐！

`SINE`

匹配`Transformer`