零样本通用分割框架（附源代码）

科技 2024-12-14 18:30 江苏

点击蓝字关注我们

关注并星标

从此不迷路

计算机视觉研究院

公众号ID｜计算机视觉研究院

学习群｜扫码在主页获取加入方式

论文地址：https://arxiv.org/pdf/2306.11087.pdf

计算机视觉研究院专栏

Column of Computer Vision Institute

今天分享研究了通用的零样本分割，在不需要任何训练样本的情况下，实现新类别的全景、实例和语义分割。

概要简介

这种零样本分割能力依赖于语义空间中的类间关系，将从可见类别中学习到的视觉知识转移到不可见类别中。因此，希望很好地桥接语义视觉空间，并将语义关系应用于视觉特征学习。

研究者引入了一个生成模型来合成不可见类别的特征，该模型连接了语义和视觉空间，并解决了缺乏不可见训练数据的问题。此外，为了缓解语义空间和视觉空间之间的领域差距。首先，通过学习primitives增强vanilla generator，每个都包含与类别相关的细粒度属性，并通过选择性地组装这些指令来合成看不见的特征。其次，提出将视觉特征分为语义相关部分和语义无关部分，语义相关部分包含有用的视觉分类线索，但与语义表示不太相关。然后，与语义相关的视觉特征的类间关系需要与语义空间中的那些类间关系对齐，从而将语义知识转移到视觉特征学习中。该方法在零样本全景分割、姿态分割和语义分割方面取得了令人印象深刻的先进性能。

背景分析

图像分割旨在将具有不同语义的像素分组，例如类别或实例。深度学习方法凭借CNNs和Transformer强大的学习能力，极大地提高了图像分割的性能。然而，由于深度学习方法是数据驱动的，对大规模标记训练样本的强烈需求带来了巨大的挑战，这是劳动密集型和耗时的。为了解决这个问题，提出了零样本学习（ZSL）来对无训练样本的新对象进行分类。最近，ZSL被扩展到零样本语义分割（ZSS）和零样本实例分割（ZSI）等分割任务。在此，研究者进一步介绍了零样本全景分割（ZSP），旨在借助语义知识构建一个通用的零样本全景/语义/实例分割框架，如下图所示。

然而，目前基于生成模型的方法通常是以每像素级生成的形式，在更复杂的场景中不够鲁棒。最近，一些工作提出将分割解耦为类不可知的掩码预测和对象级分类。研究者遵循这一策略，并将像素级生成退化为更稳健的对象级生成。

此外，先前的生成作品通常学习从语义嵌入到视觉特征的直接映射。这样的生成器没有考虑特征粒度的视觉语义差距，即图像包含比语言丰富得多的信息。从粗粒度信息到细粒度信息的直接映射导致低质量的合成特征。为了解决这个问题，研究者提出利用具有非常细粒度语义属性的丰富原语来组成视觉表示。这些指令的不同集合构造不同的类表示，其中集合由指令和语义嵌入之间的相关性决定。极大地增强了生成器的表达多样性和有效性，特别是在丰富的细粒度属性方面，使不同类别的合成特征更加可靠和具有鉴别性。

新框架介绍

下图说明了提出的方法的总体架构，具有协作关系对齐和特征去纠缠学习（PADing）的原始生成。主干预测了一组类不可知掩码及其相应的类嵌入。Primitive生成器被训练为从语义嵌入中合成类嵌入。真实的和合成的类嵌入被分解为语义相关和语义无关的特征。对语义相关特征进行关系对齐学习。使用合成的不可见类嵌入，用可见类别的真实类嵌入和不可见类别的合成类嵌入来重新训练分类器。训练过程在下算法1中进行了演示。

算法1

Primitive Cross-Modal Generation

由于缺乏看不见的样本，分类器无法使用看不见类的特征进行优化。因此，在可见类上训练的分类器倾向于为所有对象/材料分配可见组的标签，这被称为偏差问题。为了解决这个问题，以前的方法提出利用生成模型来合成看不见类的虚假视觉特征。然而，以往的零样本分割工作通常采用生成矩匹配网络（Generative Moment Matching Network，GMMN）或GAN，它们由多个线性层组成，作为特征生成器。

这样的生成器虽然取得了良好的性能，但没有考虑特征粒度的视觉语义差异。众所周知，图像通常比语言包含更丰富的信息。视觉信息提供对象的细粒度属性，而文本信息通常提供抽象和高级属性。这种差异导致视觉特征和语义特征之间的不一致。为了应对这一挑战，提出了一种Primitive Cross Modal Generator，该生成器使用大量可学习的Primitiv属性来构建视觉表示。

如上图所示，使用Transformer架构构建Primitive Generator。

Semantic-Visual Relationship Alignment

众所周知，类别之间的关系自然是不同的。例如，有三个对象：苹果、橙子和奶牛。显然，苹果和桔子的关系比苹果和奶牛的关系更密切。语义空间中的类关系是强大的先验知识，而特定于类别的特征生成并没有明确地利用这些关系。如下图所示，用语义嵌入建立了这样的关系，并探索将这些知识转移到视觉空间，根据类关系进行语义视觉对齐。通过考虑这种关系，对看不见的类别的特征生成有更多的限制，以拉或推他们与看到的类别的距离。

实验及分析

为了验证新提出方法的有效性，在COCO数据上针对全景分割、实例分割、语义分割上进行了对比实验，见表1、2、3。实验结果表明，本文方法PADing取得先进的性能。

Installation:

The code is tested under CUDA 11.2, Pytorch 1.9.0 and Detectron2 0.6.

Install Detectron2 following the manual
Run sh make.sh under PADing/modeling/pixel_decoder/ops (Note: 1-2 steps you can also follow the installation process of Mask2Former)
Install other required packages: pip install -r requirements.txt
Prepare the dataset following datasets/README.md

Training

Firstly, download the pretrained weights here or you can train vanilla mask2former backbone using seen classes and convert it using the following command:

python train_net_pretrain.py --config-file configs/panoptic-segmentation/pretrain.yaml --num-gpus 8
python tools/preprocess_pretrained_weight.py --task_name panoptic --input_file panoptic_pretrain/model_final.pth

Then train PADing and finetune the last class embedding layer of the trained mask2former model:

CUDA_VISIBLE_DEVICES=0 python train_net.py  --config-file configs/panoptic-segmentation/PADing.yaml --num-gpus 1 MODEL.WEIGHTS pretrained_weight_panoptic.pth

© THE END

转载请联系本公众号获得授权

计算机视觉研究院学习群等你加入！

ABOUT

计算机视觉研究院

计算机视觉研究院主要涉及深度学习领域，主要致力于目标检测、目标跟踪、图像分割、OCR、模型量化、模型部署等研究方向。研究院每日分享最新的论文算法新框架，提供论文一键下载，并分享实战项目。研究院主要着重”技术研究“和“实践落地”。研究院会针对不同领域分享实践过程，让大家真正体会摆脱理论的真实场景，培养爱动手编程爱动脑思考的习惯！

往期推荐

🔗

计算机视觉研究院

计算机视觉研究院主要涉及AI研究和落地实践，主要致力于目标检测、目标跟踪、图像分割、OCR、模型量化、模型部署等研究方向。研究院每日分享最新的论文算法新框架，提供论文一键下载，并分享实战项目。研究院主要着重”技术研究“和“实践落地”！

最新文章

零样本通用分割框架（附源代码）

CRAS-YOLO：多类别船舶检测与分类模型

AI大模型落地不远了！首个全量化Vision Transformer的方法FQ-ViT（附源代码）

Drone-YOLO：一种有效的无人机图像目标检测

“空中城管”上岗丨城管无人机赋能城市精细化管理

CRAS-YOLO：多类别船舶检测与分类模型

YOLO界再起波澜！新一代目标检测器又有新突破！

QueryDet：级联稀疏query加速高分辨率下的小目标检测（代码已开源）

Yolov7实战，实现网页端的实时目标检测

训练好的深度学习模型原来这样部署的！（干货满满，收藏慢慢看）

目标检测干货 | 多级特征重复使用大幅度提升检测精度（文末附论文下载）

NeurIPS 2024｜杜克大学&谷歌提出SLED解码框架，无需外部数据与额外训练，有效缓解大语言模型幻觉，提高事实准确性

超Transformer模型实现SOTA性能！CoMamba或成实时协同感知最有前景的解决方案？

独自一人，怒发顶会！

除了Yolo的其他选择，轻量级检测网络层出不穷（框架解析及部署实践）

AI顶会ICML收了一篇论文：没算法没实验，全靠idea思路好

QueryDet：级联稀疏query加速高分辨率下的小目标检测（代码已开源）

YoloV：视频中目标实时检测依然很棒（附源代码下载）

图像自适应YOLO：恶劣天气下的目标检测（附源代码）

ResNet超强变体：京东AI新开源的计算机视觉模块！（附源代码）

最高加速9倍！字节跳动开源8比特混合精度Transformer引擎

水下检测+扩散模型：或成明年CVPR最大惊喜！

2024新技术：远距离的小目标也可以准确检测

轻量级模型，重量级性能，TinyLlama、LiteLlama小模型火起来了

欢迎加入“计算机视觉研究院”学习群

机场项目：解决飞行物空间大小/纵横比、速度、遮挡等问题引起的实时目标检测问题

视觉语言大模型新SOTA！高效微调方法性能碾压LoRA

YOLO-S：小目标检测的轻量级、精确的类YOLO网络

旋转角度目标检测的重要性！！！（附源论文下载）

245个目标检测开源项目合集，建议收藏！

新技术：高效的自监督视觉预训练，局部遮挡再也不用担心！

最近几篇较好论文实现代码（附源代码下载）

华科&字节提出目标感知基础模型GLEE，一统所有目标感知任务

比标准Attention提速5-9倍，大模型都在用的FlashAttention v2来了

NeurIPS 2024｜杜克大学&谷歌提出SLED解码框架，无需外部数据与额外训练，有效缓解大语言模型幻觉，提高事实准确性

ICLR'25 惊现满分论文！！！走对捷径，高分论文并不难

大改Yolo框架 | 能源消耗极低的目标检测新框架（附论文下载）

RTX 4090可跑、完全开源，最快视频生成模型问世，实测一言难尽

EdgeYOLO：边缘设备上实时运行的目标检测器及Pytorch实现

实用教程详解：模型部署，用DNN模块部署YOLOv5目标检测（附源代码）

半监督辅助目标检测：自训练+数据增强提升精度（附源码下载）

为什么制造业都在用低代码提效？

欢迎加入“计算机视觉研究院”学习群

从源头消除大模型“幻觉”，性价比吊打传统微调方法

Fast YOLO：用于实时嵌入式目标检测（附论文下载）

旋转角度目标检测的重要性！！！（附源论文下载）

YOLO-S：小目标检测的轻量级、精确的类YOLO网络

最后征稿+连续8届检索 | 第九届控制工程与人工智能国际会议(CCEAI 2025)会议地点已定！

智慧建筑：基于YOLOv7的建筑外墙缺陷检测

轻量级模型，重量级性能，TinyLlama、LiteLlama小模型火起来了

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

零样本通用分割框架（附源代码）

Installation:

Training