数据论文 | SARDet-100K: 首个 COCO 级别的大型 SAR 目标检测数据集

文摘   2024-09-12 21:49   荷兰  


 RS   DL 

论文介绍

题目:SARDet-100K: Towards Open-Source Benchmark and ToolKit for Large-Scale SAR Object Detection

论文:https://www.sciencedirect.com/science/article/pii/S0924271624002612

数据:http://arxiv.org/abs/2407.08489

年份:2024

数据和代码:https://github.com/zcablii/SARDet_100K

相关竞赛:https://bohrium.dp.tech/competitions/6816082019

团队主页:https://github.com/IMPlus-PCALab

作者单位:南开大学等

数据已收录于(常用遥感目标检测数据集汇总):https://github.com/rsdler/Remote-Sensing-Object-Detection-Dataset

创新点

  • 构建了第一个COCO级别的大规模SAR目标检测数据集。
  • 阐明了RGB预训练模型在迁移到SAR领域时的关键问题。
  • 提出了MSFA预训练框架,大幅提高了SAR目标检测的性能。

背景

合成孔径雷达(SAR)由于其全天候成像能力,在目标检测领域逐渐受到关注。然而,该领域面临着公共数据集匮乏和源代码难以获取的问题,现有的数据集规模较小,且通常只涵盖单一类别的目标对象。

数据特点

1. 数据集规模和多样性

SARDet-100K 是目前第一个达到 COCO 级别的大规模 SAR(合成孔径雷达)目标检测数据集。它包含约 117,000 张图像和 246,000 个目标实例,分布在 6 个不同类别中。这些类别包括:

  • 船只(Ship)

  • 飞机(Aircraft)

  • 汽车(Car)

  • 桥梁(Bridge)

  • 油罐(Tank)

  • 港口(Harbor)


这些图像来自多个不同的卫星和地面平台,提供了丰富的场景多样性和目标物种类。每类目标在不同的分辨率下进行标注,涵盖了从0.1米到25米的不同分辨率范围,使得数据集具有更高的泛化能力。

2. 数据来源与标准化

SARDet-100K 数据集的创建是通过整合10个现有的 SAR 目标检测数据集。这些数据集来自不同的机构,包括中国的科学研究部门、欧洲的空间部门以及美国的军事部门。具体的数据来源包括:

  • AIR_SARShip

  • HRSID

  • MSAR

  • SADD

  • SAR-AIRcraft

  • ShipDataset

  • SSDD

  • OGSOD

  • SIVED

这些数据集的图像原始分辨率不同,有些图像的分辨率非常高,因此 SARDet-100K 数据集进行了图像裁剪和分割,确保所有图像尺寸统一,便于后续的训练和测试。此外,所有的标注数据都被转化为 COCO 格式,这使得数据集在使用现有的深度学习框架时具有更好的兼容性。

3. 类别分布和实例数量

数据集中的6个类别的分布并不均匀,例如,船只(Ship)占据了47%的实例,飞机(Aircraft)占21%,桥梁(Bridge)占14%,油罐(Tank)占11%,汽车(Car)占5%,港口(Harbor)占2%。每张图像中实例数量的中位数大约为 2.11,说明数据集中的图像包含了多个目标对象,这与实际应用中的复杂场景相符。

4. 高分辨率图像和切片技术

对于一些高分辨率数据集,如 MSAR 和 SAR-AIRcraft,研究人员使用了图像切片技术,将原始分辨率较大的图像裁剪为 512x512 像素大小的图像片段,这样可以在保持高分辨率的同时,让模型更容易处理。此外,切片之间的重叠区域为 200 像素,以避免因边界切割导致的目标信息损失。

5. 多极化和多波段数据

SARDet-100K 包含了多种极化模式和不同频段的 SAR 图像数据。例如,不同的数据集使用了 C 波段、X 波段、Ka 波段等不同的雷达频段,极化模式包括 HH、HV、VH、VV 等。这些不同的极化模式和频段提供了不同的物理信息,有助于提高目标检测的准确性和鲁棒性。

6. 训练、验证和测试集划分

SARDet-100K 数据集经过了严格的训练集、验证集和测试集划分,按照8:1:1的比例将数据分为训练集、验证集和测试集,确保模型评估的公平性和数据集的通用性。每个子数据集的划分尽可能地保留了原始数据集中的分布特点,最大限度地避免了数据集偏差。

7. 数据集标准化流程

为了确保不同数据集之间的一致性,研究人员对原始数据进行了标准化处理,包括图像裁剪、标注格式转换等。所有的数据集都被转化为 COCO 格式,COCO 是广泛使用的目标检测数据集格式,兼容主流的目标检测代码框架,例如 MMDetection、Detectron2 等。

数据可视化

RGB和SAR数据

在SAR目标检测任务中,通常会使用在RGB图像(如ImageNet)上预训练的模型作为基础模型。研究表明,RGB数据集的预训练模型在迁移到SAR数据集时,会面临严重的领域差异和模型结构差异问题。这主要是由于RGB图像与SAR图像在视觉上的巨大差异。为了解决这个问题,作者提出了一种新的“多阶段滤波增强”(MSFA)预训练框架。

MSFA预训练框架

框架概念图

两个关键组件
  • 滤波增强输入(Filter Augmented Input)
  • 多阶段预训练策略(Multi-Stage Pretraining Strategy)

(1) 滤波增强输入

SAR图像通常受到噪声影响,为了增强输入图像,MSFA框架使用了多种经典的图像处理技术,例如:

  • HOG(方向梯度直方图):用来提取图像的局部结构和形状特征。
  • Canny边缘检测:用于提取图像中的显著边缘。
  • Haar特征:常用于目标检测的简单图像特征。
  • Wavelet散射变换(WST):能同时提取图像中的低频和高频信息,帮助提升细节特征的表现力。


这些滤波特征可以提取出原始SAR图像中难以直接检测的有用信息,最终将这些特征与原始图像进行组合,作为模型的输入。通过这些增强特征,SAR图像在领域上的差距被显著缩小,模型可以更好地从RGB预训练中迁移知识。

(2) 多阶段预训练策略

为了缩小RGB和SAR数据之间的领域差距,MSFA框架采用了多阶段的预训练流程:

  • 第一阶段:RGB图像预训练。首先,模型在传统的RGB数据集(如ImageNet)上进行初步训练,这为模型提供了良好的基础。
  • 第二阶段:光学遥感数据集预训练。为了更好地适应SAR图像,MSFA在一个遥感光学数据集上进一步训练模型。遥感光学数据集(如DOTA或DIOR)中的图像与SAR图像有相似的目标类型和结构,这一步充当了“领域过渡”的作用,帮助模型逐渐适应SAR图像的特点。
  • 第三阶段:SAR数据集微调。在完成上述两步预训练后,模型在SARDet-100K等SAR数据集上进行最终的微调。

实验结果

滤波增强输入

多阶段预训练

和SOTA的对比

原文的补充文件中有更多图、表信息


欢迎关注CVPR 2024系列



因配置了AI回复功能,除关键词自动回复外,号内信息主要由AI大模型回复。如需资源、投稿、合作等,请直接联系小助手微信(添加请备注:咨询投稿合作加群,加群需备注姓名/昵称,单位和研究方向)。



关于AI回复功能:


公众号新增AI回复功能,已接入大模型,集成查找ArXiv论文、CSDN博文等功能



问题及讨论可直接在文章下方留言



  欢迎关注  


分享遥感与深度学习领域的技术、论文、书籍、新鲜事。



欢迎加入遥感与深度学习交流群(点此加入)


遥感与深度学习
聚焦遥感与深度学习,分享相关技术、论文、书籍、资讯,团队来自国内外著名期刊作者及审稿人
 最新文章