近年来,⾃监督学习⽅法因其出⾊的特征学习能⼒,已在⾃然语⾔处理、计算机视觉等领域崭露头⻆,并直接促成了BERT、GPT等⼤模型的涌现。
尽管⾃监督学习⽅法也在遥感图像领域取得了显著成果,但局限于利⽤⼀种⾃监督学习范式提取单⼀层次的语义特征(图1)。⽽遥感图像由微观到宏观的地物建构,依赖多层次的特征表达,以提升模型在各类遥感图像任务中的表现。此外,不同⾃监督学习范式对其⻣⼲模型 (Backbone) 架构有⼀定的限制,如对⽐学习依赖卷积神经⽹络(Convolutional Neural Network, CNN),掩码图像重建依赖Vision Transformer系列模型 (ViTs),限制了⾃监督预训练模型在遥感解译任务的应⽤范围。
因此,最佳的遥感图像⾃监督预训练⽅法应该能够提取多层次特征,并且能够适⽤于各类⻣⼲模型,⽅便⽆缝接⼊各类遥感图像任务。近日,南京⼤学⾼分辨率遥感实验室提出了遥感领域⾸个统⼀的⾃监督学习范式——CMID(Contrastive Mask Image Distillation)。CMID 利⽤教师-学⽣知识蒸馏⽹络架构统⼀多种⾃监督学习信号接⼝,并精⼼设计各⽹络模块以充分结合对⽐学习与掩码图像重建等不同⾃监督学习范式的优势,提取“场景-对象-像素”层次化特征,并适⽤于CNN、ViTs等模型架构(图1)。
图1 不同自监督学习范式
CMID总体架构如图2所示。结合教师-学⽣知识蒸馏框架与多维投影空间分⽀统⼀不同⾃监督学习⽅法输⼊接⼝,避免不同⾃监督学习信号所提取特征之间的语义混淆。学⽣编码掩码图像进⾏掩码重建⾃监督学习;教师输⼊变换图像引导学⽣进⾏对⽐学习。学⽣与⽼师输出特征图投影⾄不同分⽀以提取不同层级特征:掩码重建分⽀中,提出光谱均值掩码⼿段弥补图像缺失的⼩⽬标信息,结合双域重建策略捕获像素间⻓短距离上下⽂关系,提取像素级别特征;局部分⽀中,拓展前期提出的 IndexNet⾃监督学习⽅法,采⽤更精准的位置编码策略,利⽤可学习Prototypes建模整个数据集对象级语义,通过⾃蒸馏⼿段对⻬学⽣与⽼师对象级语义,学习对象级特征 ;全局分⽀中,多种图像变换⼿段模拟图像时空差异,最⼤化同⼀图像不同变换视图的余弦相似度并稀疏不同图像的特征表示,提取场景级特征 。
图2 CMID整体架构
使⽤CMID⾃监督学习⽅法在MillionAID数据集与ISPRS Potsdam数据集上进⾏预训练,并与其他主流⾃监督学习⽅法在遥感图像场景分类、语义分割、⽬标检测与变化检测等四类下游任务进⾏⼤量实验对⽐,结果表明:
(1)UCM数据集场景分类任务中,CMID预训练模型取得最⾼分类精度。尤其是当标注样本数量较少的情况下,CMID预训练模型分类精度⼤幅度超过其他⾃监督训练⽅法,表明CMID所提取特征具有良好的场景可分性(图3)
图3 UCM数据集场景分类结果对⽐
(2) ISPRS Potsdam与Vaihingen数据集语义分割任务中,CMID预训练模型的精度指标远超其他⾃监督学习⽅法。即使ViT-B-RVSA与ViTAE-B-RVSA使⽤⽐ResNet-50参数量更⼤的⻣⼲模型 (ViT-B与ViTAE-B)及更久的预训练策略(1600 epochs),CMID-ResNet-50分割精度仍⾼于两者,进⼀步说明CMID在预训练阶段学习了更丰富的图像特征 (表1)。
表1 ISPRS Potsdam与Vaihingen数据集语义分割结果对⽐
(3) DOTA数据集旋转⽬标检测任务中,由CMID预训练的ResNet50检测精度超过了其他基于相同⻣⼲⽹络的⾃监督学习⽅法。即使ViT-RVSA与ViTAE-RVSA采⽤了更⻓的预训练策略并专⻔为遥感图像⽬标检测任务设计了旋转注意⼒机制,CMID预训练模型仍取得了与其相当的检测结果(表2)。
表2 DOTA数据集旋转⽬标检测结果对比
(4) CDD数据集变化检测任务中,CMID-ResNet50⽐其他基于ResNet50的模型表现更好,甚⾄超过了在MillionAID数据集上进⾏监督预训练的ViTAEv2-S模型。同时,CMID-Swin-B取得了最⾼的检测精度(表3),表明CMID所学习特征具有不变性与可分性,从⽽在不受成像条件影响下精准提取图像中的变化物体。
表3 CDD数据集变化检测结果对⽐
(5) ⼩数据集预训练结果表明,CMID⾃监督学习⽅法具有极强的鲁棒性,即使当预训练数据较少时也能学习具有充分泛化能⼒的特征,提⾼模型在各类遥感解译任务中的性能(表 4)。
表4 ⼩数据集预训练并微调⾄Potsdam语义分割任务与DOTA ⽬标检测任务结果对⽐
(6) 通过多种特征可视化⼿段分析CMID所提取特征:t-SNE特征可视化结果表明CMID所提取特征更具可分性(图4);注意⼒图可视化结果表明 CMID预训练模型所提取特征更关注图像中的主体对象 (图5);特征点匹配结果表明CMID预训练模型能够精确匹配两幅不同图像间的特征相似点,即使当同⼀图像发⽣较⼤变化时,CMID预训练模型也能精准定位变换前后图像间的同名点(图6)。
图4 t-SNE可视化结果。(a) BarlowTwins, (b) SeCo, (c) ViT-B-RVSA, (d) ViTAE-B-RVSA, (e) CMID-ResNet50, and (f) CMID-Swin-B
图5 注意⼒图可视化结果对比
图6 特征点匹配结果。(a, b) CMID-Swin-B, (c, d) CMID-ResNet50
该研究成果近⽇以“CMID: A Unified Self-Supervised Learning Framework for Remote Sensing Image Understanding”为题发表于IEEE Transactions on Geoscience and Remote Sensing。南京⼤学地理与海洋科学学院硕⼠⽣地⼒夏提·⽊哈塔尔为论⽂第⼀作者,张学良副教授为论⽂通讯作者,肖鹏峰教授、博⼠⽣李振世、硕⼠⽣⾕丰为论⽂合作作者。该研究得到国家⾃然科学基⾦项⽬(42071297, 41871235)资助。
论⽂arXiv地址:
https://arxiv.org/abs/2304.09670
IEEE TGRS地址:
https://ieeexplore.ieee.org/document/10105625
CMID开源地址:
https://github.com/NJU-LHRS/official-CMID
D. Muhtar, X. Zhang*, P. Xiao, Z. Li and F. Gu, "CMID: A Unified Self-Supervised Learning Framework for Remote Sensing Image Understanding," IEEE Transactions on Geoscience and Remote Sensing, 2023, doi: 10.1109/TGRS.2023.3268232.
D. Muhtar, X. Zhang* and P. Xiao, "Index Your Position: A Novel Self-Supervised Learning Method for Remote Sensing Images Semantic Segmentation," IEEE Transactions on Geoscience and Remote Sensing, vol. 60, pp. 1-11, 2022, doi: 10.1109/TGRS.2022.3177770.