RS DL
论文介绍
SARATR-X
题目:SARATR-X: Towards Building A Foundation Model for SAR Target Recognition
期刊:IEEE Transactions on Image Processing
论文:https://arxiv.org/abs/2405.09365
注:本篇由论文原作者审阅
主要贡献
主要贡献:提出首个公开发表的SAR图像目标识别基础模型SARATR-X 1.0。 技术层面 生态层面
研究背景
合成孔径雷达(Synthetic Aperture Radar, SAR)作为一种基于电磁波的主动探测技术,具有全天时、全天候的对地观测能力,已发展成为一种不可或缺的对地观测工具,在军民很多领域均有着重要的应用。目标识别是SAR图像智能解译的核心问题,旨在对SAR图像中典型目标(通常为车辆、舰船和飞机等目标)进行自动定位和分类,复杂、开放、对抗环境下的SAR目标识别要做到高精准、高敏捷、强稳健、省资源,仍然面临很多挑战。当前,SAR目标识别主要面临两个层面挑战。
技术层面,SAR目标识别方法多为有监督、静态、单任务、单模型、单平台,对特定类别的检测和分类,都需要各自的算法模型,每个任务都必须从头开始独立学习,这导致计算冗余、算法设计周期长、泛化能力严重不足、高标注依赖等问题。 生态层面,由于SAR图像数据敏感性、标注代价昂贵等因素,缺乏良好的、开源的代码、评估基准和数据生态,导致很多SAR目标识别算法不开源、算法评估基准不统一、目前尚无公开的百万/千万级大规模高质量SAR目标识别基准数据集等问题。
在人工智能基础模型技术飞速发展的今天,SAR图像解译领域技术创新与发展生态亟待突破。
图 1. 各种专门的SAR ATR数据集和任务。SAR ATR包括各种成像条件(即操作条件),如目标、场景和传感器。然而,由于成本较高,通常是在特定任务和设置中收集数据集。例如,MSTAR是X波段和草地场景中的10型车辆目标分类数据集,SAR-Aircraft是从三个机场和C波段卫星收集的7型飞机检测数据集。不同的目标特征、场景信息和传感器参数使现有算法的泛化困难。因此,团队旨在建立SAR ATR基础模型,一种用于各种任务的通用方法。
技术方案
团队旨在构建一个通用SAR目标识别模型以满足实践中多样的识别任务需求。作为首个公开发布的SAR目标识别基础模型SARATR-X 1.0,该模型从大规模无标注SAR目标图像中学习到了较为通用的特征表示,突破了传统有监督算法适应性局限,为各种下游任务的高效适应提供基础。在系列工作中,团队研究了SAR目标识别基础模型的预训练集、模型架构、自监督学习和评估基准。
预训练集,所使用的预训练集包括不同的目标类别和成像条件,以适应各种下游任务,将大部分开源数据集作为预训练的一部分,共纳入了14个具有不同目标类别和成像条件的分类和检测数据集,作为新的预训练数据集,以探索基础模型的潜力。
模型架构,采用HiViT架构,旨在实现更好的遥感图像空间表示,特别是对于大图像中的小目标。HiViT具有Swin Transformer高分辨率输入的优势,且可在自监督学习的掩码图像建模中丢弃补丁加快训练效率。
自监督学习,SAR相干成像中的散斑噪声会对图像质量产生负面影响。此外,SAR幅度图像的视觉特征不像光学RGB图像那样明显。因此,SAR SSL的主要任务是提高特征学习和目标信号的质量。在前期工作SAR-JEPA中,重点研究了如何针对SAR图像特性设计自监督学习方法,提出了一种面向SAR ATR的联合编码预测架构(Joint-Embedding Predictive Architecture for SAR ATR, SAR-JEPA)。SAR-JEPA受JEPA、MaskFeat、FG-MAE等工作启发,这些工作利用特征空间进行自监督学习任务,而非在原始像素空间进行,这压缩了图像空间中信息冗余,且可以学习到不同特征,如目标性质、深层语义特征。SAR-JEPA针对SAR图像噪声问题,重点在一个降噪特征空间进行自监督学习,通过结合传统特征算子去除散斑噪声干扰,提取目标边缘梯度信息用于自监督,从而实现在SAR图像这种噪声数据中的大规模无标注自监督学习。其结果表明自监督学习模型性能可在不同SAR目标分类数据集上随着数据量而不断增长。这推动了我们基于大规模数据集构建一个通用SAR ATR基础模型,从而实现在不同目标、场景、传感器和识别任务中高效复用。因此,SARATR-X基于SAR-JEPA进行训练,首先在ImageNet数据进行预训练,以获得更好的初始化模型多样性,第二步是利用SAR-JEPA中高质量的目标信号对SAR图像进行预训练。
评估任务,针对全面评估基础模型的性能需求,团队利用3个开源目标数据集,首先构建了一个包含25个类别的细粒度分类数据集SAR-VSA,以评估所提改进措施的有效性。然后,在公开分类和检测数据集上,对所提SARATR-X 1.0和现有方法进行了全面比较。
模型性能
图4. 在SARDet-100K上进行检测的可视化。
图 5. 不同注意头的平均注意距离(x轴为注意头层数,点颜色代表不同的层,以便更好地可视化),注意距离(Attention Distance)代表了一个接受域的范围。
可扩展性,尽管掩码图像建模可以有效地随数据资源和模型参数扩展性能,但在处理噪声数据(如SAR)时,所提方法是否可以确保其可扩展性?图 6从三个角度展示了实验的结果:数据集大小、模型参数量和训练轮数。尽管预训练集包含18万个图像,比ImageNet-1K小,但在图 6(a)和(b)中,随着数据和参数数量的增加,下游任务性能呈现显著上升曲线。这一结果表明,通过提取高质量的特征作为引导信号,基础模型可以充分发挥其在SAR图像中的潜力。但由于数据量限制,模型在扩展训练轮数时倾向于过拟合。此外,SAR图像噪声和低分辨率进一步加剧了过拟合。
图 6. SARATR-X对于在数据集大小、参数和训练轮数方面的可扩展性。虽然本文方法受益于这三个方面,但需要注意的是,由于数据集的大小,过度大的训练轮数经常会导致过拟合。
引用评价
下步研究
更多图表分析、理论推导可见原文
公众号AI回复功能已启用,如需加群、投稿或合作,请微信联系小助手(备注:咨询/投稿/合作/加群,加群需姓名/昵称、单位和研究方向)。
我们目前有交流群、作者群(已发表成果的作者)、竞赛群和语义分割、变化检测等具体方向的交流群,详见:方向群说明
2024-09-12
2024-12-17
欢迎关注
分享遥感与深度学习领域的技术、论文、书籍、新鲜事。
欢迎加入遥感与深度学习交流群(点此加入)。