一种基于先验知识的深度学习方法,用于从高分辨率遥感图像中提取建筑物(A prior knowledge guided deep learning method for building extraction from high-resolution remote sensing images)
Ming Hao, Shilin Chen, Huijing Lin, Hua Zhang & Nanshan Zheng
基于深度学习的高分辨率遥感图像建筑物提取过程中存在解释性差、泛化能力不足等问题。本文提出了一种名为BPKG-SegFormer(Building Prior Knowledge Guided SegFormer,简称BPKG-SegFormer)的建筑物提取模型,将建筑物的先验知识与数据驱动方法相结合。该模型构建了建筑物特征注意模块,并利用多任务损失函数优化建筑物的提取。实验结果表明,在WHU建筑物数据集上,所提出的模型在总体精度(OA)、精确率(P)、召回率(R)和平均交并比(MIoU)方面分别达到了96.63%、95.94%、94.76%和90.6%,优于UNet、Deeplabv3+和SegFormer模型。BPKG-SegFormer模型能够提取出形状更加规则、边缘更加平整的建筑物,减少了内部空洞,并提高了正确检测到的建筑物数量。
引用
Hao, M., Chen, S., Lin, H. et al. A prior knowledge guided deep learning method for building extraction from high-resolution remote sensing images. Urban Info 3, 6 (2024).
https://doi.org/10.1007/s44212-024-00038-8
主要内容
编码器使用分层Transformer模块生成四个特征层,这些特征层包含高分辨率的低级特征和低分辨率的细节特征。随后,通过BFAM模块,得到三个强语义特征层,这些特征层融合了建筑物的先验知识。
为了避免复杂的解码工作,使用轻量级解码器MLP(多层感知机)聚合分层Transformer编码器中更广泛的有效接受域的信息,从而实现局部和全局的综合注意力。其工作原理如下:第一步,通过前述的编码器生成四个具有不同通道数C1、C2、C3、C4的特征层。通过MLP层将多层次特征的通道维度统一为C,同时保持相同的分辨率;第二步,将特征层上采样至原始分辨率的四分之一,并将其连接在一起以获得特征F;第三步,使用另一个MLP层融合前一步连接的特征F,得到分辨率为 其中H和W为原始图像的高度和宽度)的特征层;最后一步,将融合后的特征F通过MLP层预测分割掩码,分辨率为是类别的数量。
如图1(c)所示,本文构建了一个建筑物特征注意力模块,以实现网络对建筑物区域的精确定位。首先,通过融合GLCM中的同质性、对比度和能量,获得初步的建筑物先验特征GLCM融合。为了减少植被信息的干扰,使用了过量绿指数(EXG)来消除植被的影响,从而获得最终的建筑物先验特征。的计算公式如下:
接下来,通过1×1卷积核对编码器中相邻模块的原始特征层的大小和通道数进行统一处理。然后,将建筑物特征添加到后一个特征层中,使用\text{softmax}函数得到归一化的注意力图,并将其与前一个模块处理过的特征层相乘。最后,通过对各种特征进行拼接和相加,得到增强后的特征层。上述步骤在数学上可表示为:
其中代表1×1卷积核,表示归一化函数。,和表示特征层, 表示增强的特征层。
其中,、和代表原始颜色空间的像素值,、和 代表归一化颜色空间的像素值。依据文献,将三基色的归一化权重设定为 [0.46 0.5 0.04],该权重基于人眼对三色光的峰值吸收率。最终获得阴影特征:
基于植被阴影区域的特征,提取出相对完整的植被阴影,构建阴影特征。由于植被中的叶绿素对可见光范围内的绿色光带具有强反射特性,因此植被通常呈现为绿色。的计算公式如下:
表示建筑物的总体损失,表示建筑阴影的损失,表示为和之间差值的绝对值。所有的损失均采用交叉熵损失和焦点损失。其计算公式如下:
所有实验均在配备Intel (R)Xeon(R)Gold 6330 CPU和NVIDIA GeForce RTX 3090 GPU 的计算机上进行。BPKG-SegFormer使用PyTorch框架实现,环境配置为Python 3.8、 PyTorch 1.8.1和CUDA 11.1。我们选择MiT-b3编码器训练数据,训练100个epoch。使用Adam优化器优化参数,初始学习率为(1e-4)/3,最小学习率为(2e-6)/3,动量为0.973,为0.999。学习策略选择了Cos。
Ming Hao,中国矿业大学环境与测绘学院副教授,研究方向为遥感影像变化检测;多源遥感影像配准;遥感地质;灾害遥感;深度学习遥感图像处理。
https://cesi.cumt.edu.cn/info/1305/2678.htm
Shilin Chen, 中国矿业大学环境与测绘学院硕士研究生。
Huijing Lin,中国矿业大学环境与测绘学院硕士研究生,研究兴趣包括遥感图像变化检测和深度学习遥感图像处理。
Hua Zhang,中国矿业大学环境与测绘学院教授,研究方向为遥感智能解译,GIS理论与智慧矿山,LiDAR点云数据处理。
https://cesi.cumt.edu.cn/info/1134/8674.htm
END
编辑:王皓天
图文:梁泽欣
审核/指导:李丹丹