近年来,基于深度神经网络的遥感图像语义分割方法取得了显著的进步。由于模型训练受制于高昂的逐像元数据标注成本,仅需图像级标签的弱监督方法因其高效与便捷的优点逐渐引起重视。目前主流的弱监督语义分割方法通过训练分类网络生成类别激活图(Class Activation Mapping, CAM),并根据CAM中的热力值强弱关系实现地物信息的有效提取。为了探究不同CAM方法在遥感地物信息提取方面的有效性和差异性,南京大学高分辨率遥感实验室从效率、精度、光谱与空间异质性、不同类型的地物等四个方面对五种常用的CAM方法进行系统性对比,并通过原理与实验两个视角揭示不同CAM方法的适用性与优缺点,以期为CAM方法的选取和改善提供参考。
图1 使用CAM进行地物提取总体流程
本研究所对比的五种CAM方法如图2所示。总体来说,不同CAM的生成思路均为深度神经网络最后一层的特征图与某类权重的线性组合。在同一深度神经网络生成相同特征图的情况下,权重的选择显得尤为关键。Original CAM通过在特征图后加入GAP层,并与FC层连接获得权重;ScoreCAM在Original CAM的基础上结合原始图像的信息进一步提取地物特征。与前两者不同的是,GradCAM、GradCAM++与SmoothGradCAM++利用深度神经网络中的梯度信息获取权重,其区别在于对梯度信息的处理方式:GradCAM对梯度求平均;GradCAM++根据梯度信息进一步对梯度赋予系数;SmoothGradCAM++则多次生成类别激活图求平均使得提取结果更为平滑。
图2 不同CAM方法生成类别激活图流程
经过在ISPRS-Potsdam、Inria和WDCD三个数据集上进行大量的实验对比和分析,本研究发现:
(1) 通过比较不同CAM方法的效率和精度, Original CAM、GradCAM和SmoothGradCAM++在提取地理对象的效率、精度和完整性方面分别取得了最好的性能(图3)。进一步从原理的角度解释了性能差异的原因,根据不同地物提取任务的需求,为CAM方法的选择提供参考。
图3 不同CAM方法提取建筑物、植被和汽车的结果对比
(2) 通过比较不同CAM方法应对地物的光谱和空间异质性问题的能力, GradCAM在提取各种地物的能力和复杂场景的适应性方面取得了更好的表现(图4),表明GradCAM在捕捉细粒度对象特征和保持对象完整性方面的优势。
图4 不同CAM方法在光谱与空间高异质性场景中的地物提取结果对比
(3) 进一步评估了GradCAM提取不同类别地物的性能,结果表明,GradCAM对于类内异质性低、边界清晰、尺寸不小的地物表现更好(图5),在提取具有上述特征的地物时,使用基于GradCAM的弱监督方法是实际应用中的一个有效解决方案。
图5 使用GradCAM方法提取多种地理对象的结果
该研究成果近日以“Which CAM is Better for Extracting Geographic Objects? A Perspective from Principles and Experiments ”为题发表于IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing。南京大学地理与海洋科学学院硕士生苏琪为论文第一作者,张学良副教授为论文通讯作者,肖鹏峰教授、博士生李振世和硕士生王文野为论文合作作者。该研究得到国家自然科学基金项目(42071297, 41871235)资助。
点击“阅读原文”下载原文