数据论文 | SARDet-100K: 首个 COCO 级别的大型 SAR 目标检测数据集

文摘 2024-09-12 21:49 荷兰

RS DL

论文介绍

题目：SARDet-100K: Towards Open-Source Benchmark and ToolKit for Large-Scale SAR Object Detection

论文：https://www.sciencedirect.com/science/article/pii/S0924271624002612

数据：http://arxiv.org/abs/2407.08489

年份：2024

数据和代码：https://github.com/zcablii/SARDet_100K

相关竞赛：https://bohrium.dp.tech/competitions/6816082019

团队主页：https://github.com/IMPlus-PCALab

作者单位：南开大学等

数据已收录于（常用遥感目标检测数据集汇总）：https://github.com/rsdler/Remote-Sensing-Object-Detection-Dataset

创新点

构建了第一个COCO级别的大规模SAR目标检测数据集。
阐明了RGB预训练模型在迁移到SAR领域时的关键问题。
提出了MSFA预训练框架，大幅提高了SAR目标检测的性能。

背景

合成孔径雷达（SAR）由于其全天候成像能力，在目标检测领域逐渐受到关注。然而，该领域面临着公共数据集匮乏和源代码难以获取的问题，现有的数据集规模较小，且通常只涵盖单一类别的目标对象。

数据特点

1. 数据集规模和多样性

SARDet-100K 是目前第一个达到 COCO 级别的大规模 SAR（合成孔径雷达）目标检测数据集。它包含约 117,000 张图像和 246,000 个目标实例，分布在 6 个不同类别中。这些类别包括：

船只（Ship）
飞机（Aircraft）
汽车（Car）
桥梁（Bridge）
油罐（Tank）
港口（Harbor）

这些图像来自多个不同的卫星和地面平台，提供了丰富的场景多样性和目标物种类。每类目标在不同的分辨率下进行标注，涵盖了从0.1米到25米的不同分辨率范围，使得数据集具有更高的泛化能力。

2. 数据来源与标准化

SARDet-100K 数据集的创建是通过整合10个现有的 SAR 目标检测数据集。这些数据集来自不同的机构，包括中国的科学研究部门、欧洲的空间部门以及美国的军事部门。具体的数据来源包括：

AIR_SARShip
HRSID
MSAR
SADD
SAR-AIRcraft
ShipDataset
SSDD
OGSOD
SIVED

这些数据集的图像原始分辨率不同，有些图像的分辨率非常高，因此 SARDet-100K 数据集进行了图像裁剪和分割，确保所有图像尺寸统一，便于后续的训练和测试。此外，所有的标注数据都被转化为 COCO 格式，这使得数据集在使用现有的深度学习框架时具有更好的兼容性。

3. 类别分布和实例数量

数据集中的6个类别的分布并不均匀，例如，船只（Ship）占据了47%的实例，飞机（Aircraft）占21%，桥梁（Bridge）占14%，油罐（Tank）占11%，汽车（Car）占5%，港口（Harbor）占2%。每张图像中实例数量的中位数大约为 2.11，说明数据集中的图像包含了多个目标对象，这与实际应用中的复杂场景相符。

4. 高分辨率图像和切片技术

对于一些高分辨率数据集，如 MSAR 和 SAR-AIRcraft，研究人员使用了图像切片技术，将原始分辨率较大的图像裁剪为 512x512 像素大小的图像片段，这样可以在保持高分辨率的同时，让模型更容易处理。此外，切片之间的重叠区域为 200 像素，以避免因边界切割导致的目标信息损失。

5. 多极化和多波段数据

SARDet-100K 包含了多种极化模式和不同频段的 SAR 图像数据。例如，不同的数据集使用了 C 波段、X 波段、Ka 波段等不同的雷达频段，极化模式包括 HH、HV、VH、VV 等。这些不同的极化模式和频段提供了不同的物理信息，有助于提高目标检测的准确性和鲁棒性。

6. 训练、验证和测试集划分

SARDet-100K 数据集经过了严格的训练集、验证集和测试集划分，按照8:1:1的比例将数据分为训练集、验证集和测试集，确保模型评估的公平性和数据集的通用性。每个子数据集的划分尽可能地保留了原始数据集中的分布特点，最大限度地避免了数据集偏差。

7. 数据集标准化流程

为了确保不同数据集之间的一致性，研究人员对原始数据进行了标准化处理，包括图像裁剪、标注格式转换等。所有的数据集都被转化为 COCO 格式，COCO 是广泛使用的目标检测数据集格式，兼容主流的目标检测代码框架，例如 MMDetection、Detectron2 等。

数据可视化

RGB和SAR数据

在SAR目标检测任务中，通常会使用在RGB图像（如ImageNet）上预训练的模型作为基础模型。研究表明，RGB数据集的预训练模型在迁移到SAR数据集时，会面临严重的领域差异和模型结构差异问题。这主要是由于RGB图像与SAR图像在视觉上的巨大差异。为了解决这个问题，作者提出了一种新的“多阶段滤波增强”（MSFA）预训练框架。

MSFA预训练框架

框架概念图

两个关键组件

滤波增强输入（Filter Augmented Input）
多阶段预训练策略（Multi-Stage Pretraining Strategy）

(1) 滤波增强输入

SAR图像通常受到噪声影响，为了增强输入图像，MSFA框架使用了多种经典的图像处理技术，例如：

HOG（方向梯度直方图）：用来提取图像的局部结构和形状特征。
Canny边缘检测：用于提取图像中的显著边缘。
Haar特征：常用于目标检测的简单图像特征。
Wavelet散射变换（WST）：能同时提取图像中的低频和高频信息，帮助提升细节特征的表现力。

这些滤波特征可以提取出原始SAR图像中难以直接检测的有用信息，最终将这些特征与原始图像进行组合，作为模型的输入。通过这些增强特征，SAR图像在领域上的差距被显著缩小，模型可以更好地从RGB预训练中迁移知识。

(2) 多阶段预训练策略

为了缩小RGB和SAR数据之间的领域差距，MSFA框架采用了多阶段的预训练流程：

第一阶段：RGB图像预训练。首先，模型在传统的RGB数据集（如ImageNet）上进行初步训练，这为模型提供了良好的基础。
第二阶段：光学遥感数据集预训练。为了更好地适应SAR图像，MSFA在一个遥感光学数据集上进一步训练模型。遥感光学数据集（如DOTA或DIOR）中的图像与SAR图像有相似的目标类型和结构，这一步充当了“领域过渡”的作用，帮助模型逐渐适应SAR图像的特点。
第三阶段：SAR数据集微调。在完成上述两步预训练后，模型在SARDet-100K等SAR数据集上进行最终的微调。

实验结果

滤波增强输入

多阶段预训练

和SOTA的对比

原文的补充文件中有更多图、表信息

欢迎关注CVPR 2024系列

点此进入CVPR2024遥感方向合集

因配置了AI回复功能，除关键词自动回复外，号内信息主要由AI大模型回复。如需资源、投稿、合作等，请直接联系小助手微信（添加请备注：咨询、投稿、合作、加群，加群需备注姓名/昵称，单位和研究方向）。

关于AI回复功能：

公众号新增AI回复功能，已接入大模型，集成查找ArXiv论文、CSDN博文等功能

问题及讨论可直接在文章下方留言

欢迎关注

分享遥感与深度学习领域的技术、论文、书籍、新鲜事。

欢迎加入遥感与深度学习交流群(点此加入)。

http://mp.weixin.qq.com/s?__biz=MzU2NTc2MjU2OQ==&mid=2247488793&idx=1&sn=9b693f82e463dac89e8de798bcf1e5d4

遥感与深度学习

聚焦遥感与深度学习，分享相关技术、论文、书籍、资讯，团队来自国内外著名期刊作者及审稿人

论文赏读 | ECCV24 | MutDet: 基于DETR的预训练框架改进遥感目标检测

深度学习全进阶！95博后新型思路曝光！频登顶刊解决遥感领域多年难题！

实践 | OpenAI发布o1, 编程等能力大幅提升! 遥感AI问题实测对比GPT4o

数据论文 | SARDet-100K: 首个 COCO 级别的大型 SAR 目标检测数据集

综述论文 | RSE | 深度学习用于城市土地利用分类综述, 以及实验评估

CVPR'25遥感视觉或将大杀四方！

遥感工具 | PaddleRS, 百度飞桨的官方遥感深度学习开发工具, 从数据到部署的全流程遥感应用

书籍推荐 | 骆剑承研究员: 遥感智能计算与地理精准应用的思考与探索

资讯 | NASA 新出功能: 在Landsat 上找到你的名字! Your Name in Landsat！

数据论文 | ISPRS | 688个城市1000万张街景综合数据集, 可直接下载

数据整理 | 全球大规模建筑底座数据集汇总

资讯 | 武汉一号卫星数据正式发布！

论文赏读 | TGRS | SSUMamba 用于高光谱遥感图像去噪, 代码已开源

书籍推荐 | 深度学习原理及遥感地学分析

论文赏读 | ISPRS | 农作物分类制图, 使用PlanetScope 影像和SAM模型, 并结合谷歌街景视图数据

论文赏读 | Φsat-2星载AI算法和应用论文, 包含U-Net云检测, YOLOv3-tiny船只检测等

资讯 | CogniSAT-6 AI卫星增强地物探测能力, Live Earth Intelligence 重大进步

欢迎加入AI遥感竞赛交流群！

遥感目标检测新王者！YOLO-World提升速度20倍！

会议通知 | 首届智慧遥感制图国际研讨会 (第二轮通知)，香港大学等单位主办

论文赏读 | TGRS | 全色和多光谱图像融合新方法! 基于像素级集成掩码自编码器

欢迎加入AI遥感竞赛交流群！

重磅！2024年最新国家自然科学基金申报与标书撰写培训

论文赏读 | ECCV24Oral | 点投影到轴, 用于有向框目标检测的点轴表示方法

论文赏读 | KAN 和 U-Net结合用于遥感农田分割, KAN You See It?

声明 | 关于公众号被恶意举报的声明

遥感Workshop| 雄安土地覆盖变化检测及分类制图, 学习免费, 邀请好友送黑神话悟空游戏一份！

三大顶会, 大模型搭建和优化工作！超全总结！（送书）

资讯 | 9月16日起, GEE将限制没有云项目的帐户的配额; 11月13日起, 所有GEE访问都需要云项目

数据论文 | AAAI24 | SkyScript: 斯坦福团队提出的大型遥感视觉-语言数据集, 关注语义多样性

论文赏读 | ISPRS | 基于天问一号影像的火星横向风成脊有向框目标检测

论文赏读 | TGRS | 高分辨率遥感影像去云，基于扩散模型和参考视觉先验

论文赏读 | TGRS | 无人机图像单目深度估计, 结合动态语义感知的精度提升方法

论文赏读 | TPAMI | 解决遥感有向目标检测中的边界不连续问题

综述+数据 | ISPRS | 卫星视频单目标跟踪: 综述及首个定向目标跟踪基准！

会议通知 | 大佬云集! 中国地理学会地理模型与地理信息分析专业委员会2024年学术年会, 可现场注册

欢迎加入遥感与深度学习交流群！

顶会涌现一批多模态大模型+遥感深度学习工作，极具创新！

论文赏读 | PyramidMamba: 即插即用的解码器用于遥感图像语义分割, UNetFormer作者新作

遥感竞赛 | 近期竞赛总结, 含道路提取, 变化检测, 高光谱影像分类, 目标检测追踪, 图像去云等

论文赏读 | ECCV24 | 使用全景-BEV联合检索网络进行跨视角图像地理定位

论文赏读 | TGRS | SAM辅助遥感影像语义分割，使用目标和边界约束

CVPR一作整理的计算机视觉学习路线

资讯 | 2024软科世界大学学术排名发布, 是由哪些指标评出的？附QS/USNews对比

论文赏读 | TIP | TTST: 用于遥感超分辨率重建的可动态选择token的Transformer网络

当遥感技术遇上扩散模型（Diffusion Model），强强联合！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉