从高分辨率遥感图像中提取精准的建筑物对于城市环境监测、城市智慧管理具有重要意义。近年来,深度学习技术显著促进了遥感图像建筑物提取性能的提升,但模型训练受制于高昂的逐像元标注成本。相较于逐像元标记数据,图像级标记数据成本低廉、更易获取,发展基于图像级标记的弱监督建筑物提取方法可以有效降低标记成本。然而,如何基于图像级标记从高分辨率遥感图像中生成高质量的逐像元建筑物标记面临巨大挑战。一方面,图像级标记缺乏空间信息,常用的类型激活图(CAM)方法面临建筑物提取不完整和空洞的问题;另一方面,高分辨率遥感图像中复杂背景的干扰导致建筑物边界提取不准确。
为此,南京大学高分辨率遥感实验室提出基于特征级增强的遥感图像弱监督建筑物提取方法FlipCAM。该方法通过丰富监督信息的方式突破了图像级弱标记约束力度低的难题,以端到端的方式实现边界精细度和内部完整性兼具的高质量建筑物提取。
图1 FlipCAM各模块实现机制及效果可视化
具体而言,该方法包括一致性架构与两个子模块。运用一致性架构以约束建筑物边界的拟合;创新性设计Flip模块,采用基于特征级别翻转增强与融合策略,通过在特征层面增强和整合高维特征信息来提升建筑物内部完整性;针对性优化SAM模块,通过切片和合并操作以及多尺度图像输入,增强边界提取能力和多尺度特征提取能力。
图2 FlipCAM的整体架构
在ISPRS Potsdam、Vaihingen、AIRS三个数据集上进行验证,结果表明提出的FlipCAM方法取得了SOTA的结果,证明了在一致性架构与多分支监督信息的共同作用下,建筑物提取的内部完整性与边缘精细度得以有效提升。
表1 三个数据集上不同弱监督方法的建筑物提取精度对比
从单体建筑物、密集建筑物、易与背景混淆的建筑物、受阴影影响的建筑物四类场景分别分析FlipCAM的提取能力,结果表明FlipCAM方法不但在较通用的建筑物提取场景下有效,同时还能够克服复杂场景下的建筑物提取困难,具有良好的泛化性。
图3 不同弱监督方法在单体建筑物场景中的可视化效果比较图4 不同弱监督方法在密集建筑物场景中的可视化效果比较图5 不同弱监督方法在易与背景混淆的建筑物场景中的可视化效果比较图6 不同弱监督方法在受阴影影响的建筑物场景中的可视化效果比较
该研究成果近日以FlipCAM: A feature-level flipping augmentation method for weakly supervised building extraction from high-resolution remote sensing imagery为题发表于IEEE Transactions on Geoscience and Remote Sensing。作者为南京大学地理与海洋科学学院张学良副教授、硕士生苏琪、肖鹏峰教授、硕士生王文野、博士生李振世和天地一体化信息技术国家重点实验室贺广均研究员。该研究得到国家自然科学基金面上项目(42071297)、南京大学首批AI & AI for Science专项项目(02091480605203)资助。
X. Zhang, Q. Su, P. Xiao, W. Wang, Z. Li, and G. He, “FlipCAM: A Feature-Level Flipping Augmentation Method for Weakly Supervised Building Extraction From High-Resolution Remote Sensing Imagery,” IEEE Trans. Geosci. Remote Sensing, vol. 62, pp. 1–17, 2024, doi: 10.1109/TGRS.2024.3360276.