AAAI2025 | ZoRI: 零样本遥感实例分割, 代码已开源

文摘   2024-12-25 08:03   荷兰  

 RS   DL 

论文介绍

题目:ZoRI: Towards Discriminative Zero-Shot Remote Sensing Instance Segmentation

会议:39th Annual AAAI Conference on Artificial Intelligence (CCF-A会议)

论文:http://arxiv.org/abs/2412.12798

代码:https://github.com/HuangShiqi128/ZoRI

年份:2024
单位:南洋理工大学,上海财经大学

创新点

  • 提出零样本实例分割任务:首次将零样本学习应用于遥感实例分割领域,解决训练集中未见类别的分割问题。
  • 框架设计:
    • Discrimination-Enhanced Classifier (DEC):优化CLIP文本嵌入,提高类别区分能力。
    • Knowledge-Maintained Adaptation (KMA):通过特征解耦保留CLIP的视觉-语言对齐特性,同时适应遥感领域。
    • Prior-Injected Prediction (PIP):引入缓存库,将遥感视觉原型与文本嵌入结合,增强分类能力。
  • 新基准和协议:基于iSAID和NWPU-VHR-10数据集设计了新的实验基准和测试协议,推动遥感零样本分割研究。


数据

数据集概述

  1. iSAID 数据集:

  • 大规模的遥感实例分割数据集。
  • 包含 15 个类别,实例数量达 655,451。
  • 图像尺寸范围宽(800 到 13,000 像素)。
  • 在零样本实验中,分为 11 个已见类别和 4 个未见类别:
    • 已见类别:ship、storage tank、baseball diamond 等。
    • 未见类别:tennis court、helicopter、swimming pool、soccer ball field。
  • NWPU-VHR-10 数据集:
    • 包含 10 类目标的高分辨率遥感图像数据集。
    • 图像分辨率较高,包含正样本图像 650 张,负样本图像 150 张。
    • 零样本实验中,划分为 7 个已见类别和 3 个未见类别:
      • 已见类别:airplane、storage tank、baseball diamond 等。
      • 未见类别:ship、basketball court、harbor。
  • SIOR 数据集(补充实验部分):
    • 从 DIOR 数据集生成,包含 20 个类别。

    • 数据来源于 SAM 模型生成的伪掩膜,未包含真实标注,因此未在主实验中使用。

    数据预处理

    • 图像裁剪:
      • iSAID 数据集:裁剪为 800×800 的小块,重叠步长为 200 像素。

      • NWPU-VHR-10 数据集:裁剪为 512×512 的小块。
    • 分割比例:
      • iSAID:训练集 1411 张,测试集 458 张。

      • NWPU-VHR-10:训练集 520 张,测试集 130 张。

    标注文件

    • 训练集:移除未见类别的所有标注,并排除包含未见类别的图像。

    • 测试集:

      • GZSRI 设置:保留所有已见和未见类别的标注。

      • ZSRI 设置:仅保留未见类别的标注。

      方法

      本文提出了一个用于遥感零样本实例分割的框架 ZoRI。

      模型架构

      • 输入图像经过 CLIP 图像编码器和 KMA 处理后生成视觉特征。

      • 通过掩膜生成器生成类别嵌入和掩膜预测。

      • 文本嵌入通过 DEC 优化后用于分类。

      • 引入 PIP 将缓存库的视觉嵌入与分类结果融合,生成最终预测。

      1. Discrimination-Enhanced Classifier (DEC)

      目标增强分类器对遥感类别的区分能力,解决高类别相似性和类别内变异性带来的分类模糊问题。

      方法

      • 文本嵌入优化:
        • 基于 CLIP 模型提取类别的文本嵌入。
        • 使用模板(如“satellite imagery of {}.”)生成类别描述,通过平均多个模板得到最终文本嵌入。
        • 通道选择:
          • 在嵌入通道中,挑选对类别区分性最强的通道,抑制冗余信息。
          • 优化目标:
            最大化通道之间的方差,提高类别区分性。
            最小化通道间的相似性,避免类别混淆。
          • 实现结果:选出最具区分力的通道,构建增强型分类器,提高模型对目标类别的检测能力。

          2. Knowledge-Maintained Adaptation (KMA)

          目标适配遥感领域的视觉特征,同时保留 CLIP 的视觉-语言对齐能力。

          方法

          • 特征解耦:
            • 将视觉特征分为两组:
              语义相关通道:与视觉-语言对齐关系密切,保持冻结。
              语义无关通道:保留更多视觉信息,用于遥感领域的特定训练。
            • 特征调整:利用训练集中已见类别的目标实例,调整语义无关通道的特征,适配遥感影像的独特特性(如俯视视角)。
            • 实现结果:在适配过程中保留了预训练模型的泛化能力,同时增强了对遥感数据的表征能力。

            3. Prior-Injected Prediction (PIP)

            目标:通过引入视觉先验,弥补文本嵌入在表示遥感类别多样性方面的不足。

            方法

            • 缓存库构建:
              • 使用训练集的已见类别实例,从 CLIP 图像编码器中提取视觉嵌入,构建缓存库。

              • 缓存库中每个类别包含多个样本,提供类别的多样性表征。

              • 对于未见类别,利用模型预测概率最高的实例作为伪视觉样本,补充到缓存库中。
              • 缓存库预测:
                • 利用缓存库与当前输入的掩膜特征计算余弦相似度,生成预测分数。

                • 结合 CLIP 文本分类器的零样本预测分数,综合计算最终分类结果。
                • 实现结果:通过结合视觉样本,增强了模型对类别内变异性的适应能力。

                精度


                精度对比

                可视化对比

                更多图表分析可见原文


                因配置了AI回复功能,除关键词自动回复外,号内信息主要由AI大模型回复。如需资源、投稿、合作等,请直接联系小助手微信(添加请备注:咨询投稿合作加群,加群需备注姓名/昵称,单位和研究方向)。

                公众号欢迎优秀作者投稿!可加入优秀论文作者群:欢迎加入AI遥感优秀论文作者群!


                问题及讨论可直接在文章下方留言



                  欢迎关注  


                分享遥感与深度学习领域的技术、论文、书籍、新鲜事。



                欢迎加入遥感与深度学习交流群(点此加入)


                遥感与深度学习
                聚焦遥感与深度学习,分享相关技术、论文、书籍、资讯,团队来自国内外著名期刊作者及审稿人
                 最新文章