一种基于先验知识的深度学习方法,用于从高分辨率遥感图像中提取建筑物

文摘   2024-10-29 20:43   中国香港  



一种基于先验知识的深度学习方法,用于从高分辨率遥感图像中提取建筑物(A prior knowledge guided deep learning method for building extraction from high-resolution remote sensing images)


Ming Hao, Shilin Chen, Huijing Lin, Hua Zhang & Nanshan Zheng

摘要


 基于深度学习的高分辨率遥感图像建筑物提取过程中存在解释性差、泛化能力不足等问题。本文提出了一种名为BPKG-SegFormer(Building Prior Knowledge Guided SegFormer,简称BPKG-SegFormer)的建筑物提取模型,将建筑物的先验知识与数据驱动方法相结合。该模型构建了建筑物特征注意模块,并利用多任务损失函数优化建筑物的提取。实验结果表明,在WHU建筑物数据集上,所提出的模型在总体精度(OA)、精确率(P)、召回率(R)和平均交并比(MIoU)方面分别达到了96.63%、95.94%、94.76%和90.6%,优于UNet、Deeplabv3+和SegFormer模型。BPKG-SegFormer模型能够提取出形状更加规则、边缘更加平整的建筑物,减少了内部空洞,并提高了正确检测到的建筑物数量。

引用


Hao, M., Chen, S., Lin, H. et al. A prior knowledge guided deep learning method for building extraction from high-resolution remote sensing images. Urban Info 3, 6 (2024).



https://doi.org/10.1007/s44212-024-00038-8


主要内容



1.引言
    建筑物作为人类生产和生活的主要场所,是城市的基础。因此,快速准确地从遥感图像中提取建筑物信息对于城市规划、智慧城市、地震防灾减灾等领域至关重要。随着遥感技术的蓬勃发展,遥感卫星的地球观测能力已足够成熟,能够获取足够的高分辨率遥感图像。而利用高分辨率遥感图像进行建筑物提取具有处理范围大、提取速度快、生产成本低的优势。
    传统的建筑物提取方法主要依赖于建筑物的纹理和结构特征。基于建筑物纹理和结构特征的传统建筑物提取方法大多依赖于手工设计的特征,耗时且费力。基于深度学习的建筑物提取方法包括卷积神经网络(CNN)、编码器-解码器架构以及注意力机制模块。高效智能的深度学习方法在很大程度上弥补了传统建筑物提取方法的不足,但该技术往往过于依赖训练样本,导致模型的特征提取目标性不足。因此,有必要将建筑物的先验知识引入模型,以使其特别关注建筑物。
    现有的大多数研究仅通过改进网络结构来优化建筑物的提取结果,但容易出现提取的建筑物边界模糊、内部存在空洞和缺陷等问题。针对这一问题,本文提出了一种基于先验知识引导深度学习的建筑物提取模型,称为BPKG-SegFormer。该模型在注意力机制中整合了建筑物的纹理特征,形成了建筑物特征注意模块(Building Feature Attention Module,简称BFAM)。此外,它提取建筑物的阴影信息作为先验知识来约束损失计算,增强了建筑物对象的精确定位,并提高了深度学习模型中建筑物提取的准确性。
1.1 提出的BPKG-SegFormer模型
    本文提出了基于SegFormer的BPKG-SegFormer模型。该模型由编码器-解码器结构、建筑物特征注意模块(BFAM)和多任务损失函数组成。BPKG-SegFormer的模型结构如图1所示。

图1.BPKG-SegFormer模型结构图

1.2编码器

    编码器使用分层Transformer模块生成四个特征层,这些特征层包含高分辨率的低级特征和低分辨率的细节特征。随后,通过BFAM模块,得到三个强语义特征层,这些特征层融合了建筑物的先验知识。

    Transformer模块由四个子模块(Block1-4)组成,每个子模块包含三个部分。首先,使用重叠补丁合并(Overlap Patch Merging)的图像融合方法,获得与非重叠过程相同大小的特征,同时保持补丁周围的局部连续性。随后,输入特征通过Mix-FFN(前馈网络)和Efficient Self-Attn(高效多头自注意力机制)进行处理,以提高网络效率,减少参数量,并降低计算复杂度。


1.3 解码器

    为了避免复杂的解码工作,使用轻量级解码器MLP(多层感知机)聚合分层Transformer编码器中更广泛的有效接受域的信息,从而实现局部和全局的综合注意力。其工作原理如下:第一步,通过前述的编码器生成四个具有不同通道数C1、C2、C3、C4的特征层。通过MLP层将多层次特征的通道维度统一为C,同时保持相同的分辨率;第二步,将特征层上采样至原始分辨率的四分之一,并将其连接在一起以获得特征F;第三步,使用另一个MLP层融合前一步连接的特征F,得到分辨率为 其中H和W为原始图像的高度和宽度)的特征层;最后一步,将融合后的特征F通过MLP层预测分割掩码,分辨率为是类别的数量。

1.4 建筑物特征注意力模块

    如图1(c)所示,本文构建了一个建筑物特征注意力模块,以实现网络对建筑物区域的精确定位。首先,通过融合GLCM中的同质性、对比度和能量,获得初步的建筑物先验特征GLCM融合。为了减少植被信息的干扰,使用了过量绿指数(EXG)来消除植被的影响,从而获得最终的建筑物先验特征的计算公式如下:




    同质性(homogenity)是反差的倒数,反映了建筑图像中纹理局部变化的程度;对比度(contrast)表示图像中建筑物纹理的清晰度和深度;能量(energy)的变化反映了建筑图像中灰度分布的均匀性和纹理的厚度。红色、绿色和蓝色波段的像素值分别表示为rgb

    接下来,通过1×1卷积核对编码器中相邻模块的原始特征层的大小和通道数进行统一处理。然后,将建筑物特征添加到后一个特征层中,使用\text{softmax}函数得到归一化的注意力图,并将其与前一个模块处理过的特征层相乘。最后,通过对各种特征进行拼接和相加,得到增强后的特征层。上述步骤在数学上可表示为:


    其中代表1×1卷积核,表示归一化函数。,表示特征层, 表示增强的特征层。

1.5建筑阴影提取
    考虑到建筑阴影对建筑物提取的影响,其一是高层建筑的阴影遮挡了低层建筑,其二是建筑物自身的阴影附着于建筑物本身,可能导致建筑物提取中轮廓缺失或边缘模糊。本文设计了一种利用建筑物与阴影之间的位置信息以及人眼视觉分辨能力的建筑阴影提取方法。由于RGB颜色模型易受光照或阴影变化的影响,相同的色度可能表现为不同的像素值。因此,采用RGB颜色模型归一化方法对阴影进行初步处理,并得到阴影特征


    其中,代表原始颜色空间的像素值, 代表归一化颜色空间的像素值。依据文献,将三基色的归一化权重设定为 [0.46 0.5 0.04],该权重基于人眼对三色光的峰值吸收率。最终获得阴影特征


    基于植被阴影区域的特征,提取出相对完整的植被阴影,构建阴影特征。由于植被中的叶绿素对可见光范围内的绿色光带具有强反射特性,因此植被通常呈现为绿色。的计算公式如下:


    通过整合三种阴影特征的特点,并减少植被阴影的影响,对归一化的 赋予不同的权重,构建如下公式作为最终特征。随后,使用大津阈值分割法(Otsu Threshold Segmentation,简称OTSU)来获得建筑阴影提取结果。


    其中,α、β 和 λ 分别为根据实际需求对应三种特征的权重。
1.6多任务损失函数的细节
    本文采用多任务学习方法,将学习建筑阴影知识作为辅助任务,以优化提取建筑的最终目标。如图 1(d) 所示,在引入建筑阴影知识后,重新构建了模型的损失函数。建筑阴影的引入成为模型需要学习的一种分割目标,其损失计算参与整体损失的更新计算。

表示建筑物的总体损失,表示建筑阴影的损失,表示为之间差值的绝对值。所有的损失均采用交叉熵损失和焦点损失。其计算公式如下:


2实验与分析
2.1实验数据集
    本实验选择了武汉大学发布的WHU建筑数据集中的航拍图像数据集。图像的原始地面分辨率为0.075m,但经过下采样后降低至0.3m。
    在我们的实验中,随机选取了5210张512 × 512像素的图像,按照8:1:1的比例分为训练集、验证集和测试集。训练集包含4262张图像,验证集和测试集分别为474张图像。
2.2实现细节

    所有实验均在配备Intel (R)Xeon(R)Gold 6330 CPU和NVIDIA GeForce RTX 3090 GPU 的计算机上进行。BPKG-SegFormer使用PyTorch框架实现,环境配置为Python 3.8、 PyTorch 1.8.1和CUDA 11.1。我们选择MiT-b3编码器训练数据,训练100个epoch。使用Adam优化器优化参数,初始学习率为(1e-4)/3,最小学习率为(2e-6)/3,动量为0.973,为0.999。学习策略选择了Cos。

2.3评价指标
    本实验的评价指标如表1所示,包括整体精度(OA)、精度(P)、召回率(R)和平均交并比(MIoU)。通常情况下,指标值越高,模型的性能越好。

表1.评价指标
2.4对比与分析
    为了测试本文所提方法的有效性,我们基于相同的数据集和模型超参数配置与UNet、Deeplabv3+以及SegFormer方法进行了对比实验。在Deeplabv3+和SegFormer之间,BPKG-SegFormer的P、R和MIoU分别高出1.8%、0.07%、0.92%和0.38%、0.56%、0.52%。与UNet 相比,BPKG-SegFormer的R和MIoU分别增加了0.08%和0.29%。
    通过比较上述评估指标可以看出,本文提出的BPKG-SegFormer模型在WHU建筑数据集上的表现优于UNet、Deeplabv3+和SegFormer,在一定程度上提高了预测分割结果的精度和覆盖率,验证了本文方法的有效性。

图2.UNet、Deeplabv3+、SegFormer和BPKG-SegFormer模型的建筑提取结果对比。(a)原始图像;(b)真值标签;(c)UNet;(d)Deeplabv3+;(e)SegFormer;(f)BPKG-SegFormer。
    图2显示了使用本文方法与UNet、Deeplabv3+、SegFormer 方法从WHU建筑数据集中提取建筑物的部分可视化结果。从第一行可以看出,BPKG-SegFormer的建筑物输出边缘更加平滑和笔直,建筑物轮廓更为规则和准确。从第二和第三行可以看出,BPKG-SegFormer修正了UNet、Deeplabv3+和SegFormer模型中建筑区域的错误识别,显著改善了误检情况。从第四行可以看出,BPKG-SegFormer在识别建筑物方面更为准确,减少了小型建筑物的漏检情况。从最后一行可以看出,BPKG-SegFormer在识别复杂和不规则建筑物方面表现出比其他三种模型更强的能力。总体来看,BPKG-SegFormer在预测性能方面相较于其他模型表现出色,并且与实际标签能够很好地匹配。
2.5消融实验
    为了验证本文提出的BFAM模块和多任务损失函数的有效性,进行了消融实验。实验结果与原始SegFormer模型相比,加入BFAM模块后,OA和MIoU分别提高了0.14%和0.11%。损失函数模块对R指标有轻微的提升。当这两个模块结合使用时,P、R和MIoU的值分别比原始SegFormer模型高出0.38%、0.56%和0.52%。图3中对预测图进行了对比和分析。从图像的第一行可以看出,损失函数模块增强了模型对极小建筑物的识别能力,并且在同时引入两个模块时,识别出的建筑物数量也有所增加。从第二行和第三行可以看到,BPKG-SegFormer模型在识别建筑物时更加精确,原模型中误识别的建筑区域在优化后得到了修正。最后一行显示,这两个模块在保持建筑物完整性方面起到了积极作用,较大程度上解决了大型建筑物中存在的大面积空洞问题。

图3.消融实验中建筑物提取结果的对比。(a)原始图像;(b)真值标签;(c)SegFormer;(d)SegFormer + BFAM;(e)SegFormer + 损失函数;(f)SegFormer + BFAM + 损失函数。
    总体而言,结合了建筑物先验知识对模型进行优化后,模型对建筑物的提取更加完整和饱满,轮廓线更加平滑,锯齿边缘减少。同时,能够正确识别的建筑物数量也有所增加,解决了原模型在提取大型建筑物时存在的大空洞和缺陷问题。
3结论
    为了更加高效地利用高分辨率遥感影像中的建筑物先验知识,本文提出了一种基于先验知识引导的建筑物提取方法。所提出的BPKG-SegFormer模型利用建筑物的纹理特征和阴影信息构建了建筑特征注意力模块和多任务损失函数。我们将该模型与几种经典的语义分割网络在WHU建筑物数据集上进行了比较和分析,并进行了消融实验。具体的研究结论如下:
   (1) 在BPKG-SegFormer模型中,我们利用GLCM和EXG提取建筑物的先验特征,形成了建筑特征注意力模块。通过利用建筑物与阴影之间的位置关系以及人眼的视觉辨别能力,提取建筑物的阴影信息,从而构建了多任务损失函数。
   (2) 在WHU建筑物数据集上,BPKG-SegFormer模型与UNet、Deeplabv3+以及SegFormer模型进行了对比。BPKG-SegFormer模型的OA、P、R和MIoU分别为96.63%、95.94%、94.76%和90.6%,在R和MIoU方面取得了最高的准确率。实验结果表明,BPKG-SegFormer模型在预测分割结果上优于其他模型。该模型能够有效解决建筑物内部空洞问题,提取结果边缘线更平滑,形状更饱满完整,识别精度更高。
   (3) 消融实验结果表明,加入BFAM模块和多任务损失LB的SegFormer模型在P、R和MIoU方面分别比原始模型提高了0.38%、0.56%和0.52%。这验证了BFAM和LB模块在提升建筑物提取精度方面的优化效果。
    在未来的研究中,我们将对更多数据集进行对比实验,以测试本文提出方法的模型泛化能力。同时,进一步提取更加精确的建筑物阴影信息以及其他可用的建筑物先验知识,以进一步提升模型性能。

作者简介


Ming Hao,中国矿业大学环境与测绘学院副教授,研究方向为遥感影像变化检测;多源遥感影像配准;遥感地质;灾害遥感;深度学习遥感图像处理。

https://cesi.cumt.edu.cn/info/1305/2678.htm


Shilin Chen, 中国矿业大学环境与测绘学院硕士研究生。





Huijing Lin,中国矿业大学环境与测绘学院硕士研究生,研究兴趣包括遥感图像变化检测和深度学习遥感图像处理。




Hua Zhang,中国矿业大学环境与测绘学院教授,研究方向为遥感智能解译,GIS理论与智慧矿山,LiDAR点云数据处理。

https://cesi.cumt.edu.cn/info/1134/8674.htm


Nanshan Zheng,中国矿业大学环境与测绘学院教授,执行院长,研究方向为GNSS及其信号反演;环境灾害遥感与风险评价。
https://cesi.cumt.edu.cn/info/1134/2581.htm

END

编辑:王皓天

图文:梁泽欣

审核/指导:李丹丹


转发,点赞,在看


城市信息学 Urban Informatics
《城市信息学》(Urban Informatics) 是由国际城市信息学学会(The International Society for Urban Informatics)主办的一份国际性、开放性、同行评审的期刊。
 最新文章