RS DL
论文介绍
题目:ZoRI: Towards Discriminative Zero-Shot Remote Sensing Instance Segmentation
会议:39th Annual AAAI Conference on Artificial Intelligence (CCF-A会议)
论文:http://arxiv.org/abs/2412.12798
代码:https://github.com/HuangShiqi128/ZoRI
创新点
提出零样本实例分割任务:首次将零样本学习应用于遥感实例分割领域,解决训练集中未见类别的分割问题。 框架设计: Discrimination-Enhanced Classifier (DEC):优化CLIP文本嵌入,提高类别区分能力。 Knowledge-Maintained Adaptation (KMA):通过特征解耦保留CLIP的视觉-语言对齐特性,同时适应遥感领域。 Prior-Injected Prediction (PIP):引入缓存库,将遥感视觉原型与文本嵌入结合,增强分类能力。 新基准和协议:基于iSAID和NWPU-VHR-10数据集设计了新的实验基准和测试协议,推动遥感零样本分割研究。
数据
数据集概述
iSAID 数据集:
大规模的遥感实例分割数据集。 包含 15 个类别,实例数量达 655,451。 图像尺寸范围宽(800 到 13,000 像素)。 在零样本实验中,分为 11 个已见类别和 4 个未见类别: 已见类别:ship、storage tank、baseball diamond 等。 未见类别:tennis court、helicopter、swimming pool、soccer ball field。
包含 10 类目标的高分辨率遥感图像数据集。 图像分辨率较高,包含正样本图像 650 张,负样本图像 150 张。 零样本实验中,划分为 7 个已见类别和 3 个未见类别: 已见类别:airplane、storage tank、baseball diamond 等。 未见类别:ship、basketball court、harbor。
从 DIOR 数据集生成,包含 20 个类别。
数据来源于 SAM 模型生成的伪掩膜,未包含真实标注,因此未在主实验中使用。
数据预处理
图像裁剪:
iSAID 数据集:裁剪为 800×800 的小块,重叠步长为 200 像素。
NWPU-VHR-10 数据集:裁剪为 512×512 的小块。
分割比例:
iSAID:训练集 1411 张,测试集 458 张。
NWPU-VHR-10:训练集 520 张,测试集 130 张。
标注文件
训练集:移除未见类别的所有标注,并排除包含未见类别的图像。
测试集:
GZSRI 设置:保留所有已见和未见类别的标注。
ZSRI 设置:仅保留未见类别的标注。
方法
模型架构
输入图像经过 CLIP 图像编码器和 KMA 处理后生成视觉特征。
通过掩膜生成器生成类别嵌入和掩膜预测。
文本嵌入通过 DEC 优化后用于分类。
引入 PIP 将缓存库的视觉嵌入与分类结果融合,生成最终预测。
1. Discrimination-Enhanced Classifier (DEC)
目标:增强分类器对遥感类别的区分能力,解决高类别相似性和类别内变异性带来的分类模糊问题。
方法
文本嵌入优化:
基于 CLIP 模型提取类别的文本嵌入。 使用模板(如“satellite imagery of {}.”)生成类别描述,通过平均多个模板得到最终文本嵌入。
通道选择:
在嵌入通道中,挑选对类别区分性最强的通道,抑制冗余信息。 优化目标: 最大化通道之间的方差,提高类别区分性。 最小化通道间的相似性,避免类别混淆。
实现结果:选出最具区分力的通道,构建增强型分类器,提高模型对目标类别的检测能力。
2. Knowledge-Maintained Adaptation (KMA)
目标:适配遥感领域的视觉特征,同时保留 CLIP 的视觉-语言对齐能力。
方法
特征解耦:
将视觉特征分为两组: 语义相关通道:与视觉-语言对齐关系密切,保持冻结。 语义无关通道:保留更多视觉信息,用于遥感领域的特定训练。
特征调整:利用训练集中已见类别的目标实例,调整语义无关通道的特征,适配遥感影像的独特特性(如俯视视角)。 实现结果:在适配过程中保留了预训练模型的泛化能力,同时增强了对遥感数据的表征能力。
3. Prior-Injected Prediction (PIP)
目标:通过引入视觉先验,弥补文本嵌入在表示遥感类别多样性方面的不足。
方法
缓存库构建:
使用训练集的已见类别实例,从 CLIP 图像编码器中提取视觉嵌入,构建缓存库。
缓存库中每个类别包含多个样本,提供类别的多样性表征。
对于未见类别,利用模型预测概率最高的实例作为伪视觉样本,补充到缓存库中。
缓存库预测:
利用缓存库与当前输入的掩膜特征计算余弦相似度,生成预测分数。
结合 CLIP 文本分类器的零样本预测分数,综合计算最终分类结果。
实现结果:通过结合视觉样本,增强了模型对类别内变异性的适应能力。
精度
精度对比
可视化对比
更多图表分析可见原文
公众号欢迎优秀作者投稿!可加入优秀论文作者群:欢迎加入AI遥感优秀论文作者群!
问题及讨论可直接在文章下方留言
欢迎关注
分享遥感与深度学习领域的技术、论文、书籍、新鲜事。
欢迎加入遥感与深度学习交流群(点此加入)。