RS DL
论文介绍
题目:SARDet-100K: Towards Open-Source Benchmark and ToolKit for Large-Scale SAR Object Detection
论文:https://www.sciencedirect.com/science/article/pii/S0924271624002612
数据:http://arxiv.org/abs/2407.08489
年份:2024
数据和代码:https://github.com/zcablii/SARDet_100K
相关竞赛:https://bohrium.dp.tech/competitions/6816082019
团队主页:https://github.com/IMPlus-PCALab
数据已收录于(常用遥感目标检测数据集汇总):https://github.com/rsdler/Remote-Sensing-Object-Detection-Dataset
创新点
构建了第一个COCO级别的大规模SAR目标检测数据集。 阐明了RGB预训练模型在迁移到SAR领域时的关键问题。 提出了MSFA预训练框架,大幅提高了SAR目标检测的性能。
背景
合成孔径雷达(SAR)由于其全天候成像能力,在目标检测领域逐渐受到关注。然而,该领域面临着公共数据集匮乏和源代码难以获取的问题,现有的数据集规模较小,且通常只涵盖单一类别的目标对象。
数据特点
1. 数据集规模和多样性
SARDet-100K 是目前第一个达到 COCO 级别的大规模 SAR(合成孔径雷达)目标检测数据集。它包含约 117,000 张图像和 246,000 个目标实例,分布在 6 个不同类别中。这些类别包括:
船只(Ship)
飞机(Aircraft)
汽车(Car)
桥梁(Bridge)
油罐(Tank)
港口(Harbor)
这些图像来自多个不同的卫星和地面平台,提供了丰富的场景多样性和目标物种类。每类目标在不同的分辨率下进行标注,涵盖了从0.1米到25米的不同分辨率范围,使得数据集具有更高的泛化能力。
2. 数据来源与标准化
SARDet-100K 数据集的创建是通过整合10个现有的 SAR 目标检测数据集。这些数据集来自不同的机构,包括中国的科学研究部门、欧洲的空间部门以及美国的军事部门。具体的数据来源包括:
AIR_SARShip
HRSID
MSAR
SADD
SAR-AIRcraft
ShipDataset
SSDD
OGSOD
SIVED
3. 类别分布和实例数量
数据集中的6个类别的分布并不均匀,例如,船只(Ship)占据了47%的实例,飞机(Aircraft)占21%,桥梁(Bridge)占14%,油罐(Tank)占11%,汽车(Car)占5%,港口(Harbor)占2%。每张图像中实例数量的中位数大约为 2.11,说明数据集中的图像包含了多个目标对象,这与实际应用中的复杂场景相符。
4. 高分辨率图像和切片技术
对于一些高分辨率数据集,如 MSAR 和 SAR-AIRcraft,研究人员使用了图像切片技术,将原始分辨率较大的图像裁剪为 512x512 像素大小的图像片段,这样可以在保持高分辨率的同时,让模型更容易处理。此外,切片之间的重叠区域为 200 像素,以避免因边界切割导致的目标信息损失。
5. 多极化和多波段数据
SARDet-100K 包含了多种极化模式和不同频段的 SAR 图像数据。例如,不同的数据集使用了 C 波段、X 波段、Ka 波段等不同的雷达频段,极化模式包括 HH、HV、VH、VV 等。这些不同的极化模式和频段提供了不同的物理信息,有助于提高目标检测的准确性和鲁棒性。
6. 训练、验证和测试集划分
SARDet-100K 数据集经过了严格的训练集、验证集和测试集划分,按照8:1:1的比例将数据分为训练集、验证集和测试集,确保模型评估的公平性和数据集的通用性。每个子数据集的划分尽可能地保留了原始数据集中的分布特点,最大限度地避免了数据集偏差。
7. 数据集标准化流程
为了确保不同数据集之间的一致性,研究人员对原始数据进行了标准化处理,包括图像裁剪、标注格式转换等。所有的数据集都被转化为 COCO 格式,COCO 是广泛使用的目标检测数据集格式,兼容主流的目标检测代码框架,例如 MMDetection、Detectron2 等。
数据可视化
RGB和SAR数据
在SAR目标检测任务中,通常会使用在RGB图像(如ImageNet)上预训练的模型作为基础模型。研究表明,RGB数据集的预训练模型在迁移到SAR数据集时,会面临严重的领域差异和模型结构差异问题。这主要是由于RGB图像与SAR图像在视觉上的巨大差异。为了解决这个问题,作者提出了一种新的“多阶段滤波增强”(MSFA)预训练框架。
MSFA预训练框架
框架概念图
滤波增强输入(Filter Augmented Input) 多阶段预训练策略(Multi-Stage Pretraining Strategy)
(1) 滤波增强输入
SAR图像通常受到噪声影响,为了增强输入图像,MSFA框架使用了多种经典的图像处理技术,例如:
HOG(方向梯度直方图):用来提取图像的局部结构和形状特征。 Canny边缘检测:用于提取图像中的显著边缘。 Haar特征:常用于目标检测的简单图像特征。 Wavelet散射变换(WST):能同时提取图像中的低频和高频信息,帮助提升细节特征的表现力。
这些滤波特征可以提取出原始SAR图像中难以直接检测的有用信息,最终将这些特征与原始图像进行组合,作为模型的输入。通过这些增强特征,SAR图像在领域上的差距被显著缩小,模型可以更好地从RGB预训练中迁移知识。
(2) 多阶段预训练策略
为了缩小RGB和SAR数据之间的领域差距,MSFA框架采用了多阶段的预训练流程:
第一阶段:RGB图像预训练。首先,模型在传统的RGB数据集(如ImageNet)上进行初步训练,这为模型提供了良好的基础。 第二阶段:光学遥感数据集预训练。为了更好地适应SAR图像,MSFA在一个遥感光学数据集上进一步训练模型。遥感光学数据集(如DOTA或DIOR)中的图像与SAR图像有相似的目标类型和结构,这一步充当了“领域过渡”的作用,帮助模型逐渐适应SAR图像的特点。 第三阶段:SAR数据集微调。在完成上述两步预训练后,模型在SARDet-100K等SAR数据集上进行最终的微调。
实验结果
滤波增强输入
多阶段预训练
和SOTA的对比
原文的补充文件中有更多图、表信息
欢迎关注CVPR 2024系列
因配置了AI回复功能,除关键词自动回复外,号内信息主要由AI大模型回复。如需资源、投稿、合作等,请直接联系小助手微信(添加请备注:咨询、投稿、合作、加群,加群需备注姓名/昵称,单位和研究方向)。
关于AI回复功能:
公众号新增AI回复功能,已接入大模型,集成查找ArXiv论文、CSDN博文等功能
问题及讨论可直接在文章下方留言
欢迎关注
分享遥感与深度学习领域的技术、论文、书籍、新鲜事。
欢迎加入遥感与深度学习交流群(点此加入)。