兼具时空不变性与目标可分性的遥感图像自监督学习方法

科技   科技   2022-05-29 13:31   江苏  

在不依赖逐像素标记信息下,如何学习有效的视觉表征是遥感图像语义分割任务中的关键问题。自监督学习(Self Supervised Learning, SSL)通过人工设计的自监督学习信号从海量无标注数据中挖掘图像自身的监督信息来驱动模型进行特征学习。SSL经大规模无标注数据预训练后学习全局语义特征,可大幅度降低下游任务对标注数据的依赖,具有解决大规模遥感应用中由于标注样本贫乏导致的解译瓶颈问题的潜力。

目前的SSL方法基于实例判别任务而不区分图像中的不同物体。然而对于遥感图像而言,同一图像中包含多种地物(图1),若不加区分,所学习特征在不同地物之间不具可分性,导致模型迁移至语义分割任务时易造成类别错分。为解决上述问题,南京大学高分辨率遥感实验室提出一种新的SSL特征学习方法——IndexNet:构建位置编码记录并跟踪地物位置信息学习像素级目标可分性特征,并将其与实例判别SSL方法相结合,学习兼具不变性与可分性的语义特征。

图1 ImageNet数据集 (a) 与Potsdam数据集 (b) 中图像的不同变换视图:在ImageNet数据集中,同一图像的不同变换视图对应同一物体 (a);在遥感数据集Potsdam中,同一图像的不同变换视图可能对应不同的地物 (b)


IndexNet总体架构如图2所示。网络由全局分支(Instance Contrast Branch)与局部分支(Index Contrast Branch)构成:全局分支使用多种图像变换手段模拟由时空差异造成的光谱差异,并通过最大化同一图像不同变换视图经编码后的特征向量之间的余弦相似度学习具有时空不变性的语义特征;局部分支中构建位置编码记录不同地物的位置信息,并在图像变换过程跟踪地物位置变化,最后根据位置编码匹配两视图中相同的地物并最大化其余弦相似度学习目标可分性的的像素级特征(图3)。

图2 IndexNet总体架构

图3 像素级对比学习流程(以特征图空间维度为2 × 2为例)


经过在Potsdam、LoveDA和SeCo-10K三个数据集上进行大量的实验对比与分析,本研究发现:


(1)使用10%的标记数据,IndexNet预训练模型语义分割精度高于使用所有标记数据训练的随机初始化模型(mIoU: 66.01% vs 64.15%);


(2)在LoveDA与Potsdam数据集语义分割任务中,IndexNet预训练模型分割精度优于广泛使用的ImageNet预训练模型与其他主流自监督学习方法(图4、图5);

图4 (a) 语义分割精度曲线;(b) 语义分割类别精度对比图


图5 语义分割预测结果对比图


(3)在三个数据集间跨数据集迁移时,IndexNet表现出更强的迁移泛化能力(图6);


图6 跨数据集迁移精度对比


(4)IndexNet在预训练阶段更加关注目标级别特征(图7),在进行预测时能够有效区分不同地物且不易造成类别错分(图8),表明IndexNet所学习特征对不同地物具有可分性。

图7 Potsdam数据集预训练过程类别激活图对比

图8 Potsdam数据集语义分割预测结果对比


该研究成果近日以“Index Your Position: A Novel Self-Supervised Learning Method for Remote Sensing Image Semantic Segmentation”为题发表于IEEE Transactions on Geoscience and Remote Sensing。南京大学地理与海洋科学学院本科生地力夏提·木哈塔尔为论文第一作者,张学良副教授为论文通讯作者,肖鹏峰教授为论文合作作者。该研究得到国家自然科学基金项目(42071297, 41871235)资助。


D. Muhtar, X. Zhang* and P. Xiao, "Index Your Position: A Novel Self-Supervised Learning Method for Remote Sensing Images Semantic Segmentation," in IEEE Transactions on Geoscience and Remote Sensing, doi: 10.1109/TGRS.2022.3177770.


点击 “阅读原文” 下载原文



高分辨率遥感实验室
南京大学地理与海洋科学学院肖鹏峰教授、张学良副教授研究团队,研究方向包括遥感图像语义分割与智能解译、多时相图像分类与变化检测、深度学习遥感建模与应用、积雪遥感识别与参数反演、积雪变化及其气候生态效应。
 最新文章