顶刊TGRS | 使用端到端深度神经网络从高分辨率遥感图像和数字表面模型中提取3D建筑实例

文摘   2024-11-17 07:02   上海  

作者 | 小陈  编辑 | CVPaper

点击下方卡片,关注“3D视觉之心”公众号

第一时间获取3D视觉干货

>>点击进入→3D视觉之心技术交流群

3-D Building Instance Extraction From High-Resolution Remote Sensing Images and DSM With an End-to-End Deep Neural Network

使用端到端深度神经网络从高分辨率遥感图像和数字表面模型中提取3D建筑实例

作者:Dawen Yu, Shunping Ji, Shiqing Wei, Kourosh Khoshelham

摘要

3-D 建筑模型在城市规划和智能城市等多种应用中扮演着至关重要的角色。最近的3-D建筑建模方法要么严重依赖于可用的人工收集的足迹参考数据,要么难以达到与手动编辑相媲美的真正自动化水平。为了实现细节层次1(LoD1)的实例级3-D建筑的自动提取,作者介绍了一种创新的端到端3-D建筑实例分割模型。该模型使用正射校正的高分辨率遥感图像和数字表面模型(DSMs),同时预测单个建筑的精确轮廓和高度,摆脱了额外的参考数据和经验参数设置的需求。首先,作者提出了一个无锚点多头(AFM)建筑提取网络,专门用于提取2-D建筑轮廓。AFM结合了全分辨率、长距离相关性增强的全局掩码预测分支以及无锚点边界框生成,以及基于不确定性分析新开发的在线硬样本挖掘(OHSM)训练过程,以强调在定位建筑轮廓时容易出错的位置。随后,作者在AFM中加入高度预测组件,以获得准确的建筑高度信息,从而创建了全面的3-D建筑提取模型,即AFM-3D。AFM-3D的两阶段操作首先是预测3-D立方体提案,然后为每个提案生成细化的3-D柱状模型(LoD1模型)。在不同数据集上的彻底实验表明AFM和AFM-3D的优越性能。与最新方法相比,在城市3-D数据集上观察到质量得分显著提高了6.4%。除了提出的方法外,作者还比较了遥感数据的基于锚点和无锚点边界框生成机制,探索了基于像素和基于轮廓的分割策略,评估了基于学习和经验的建筑高度估计方法,并讨论了DSM数据在3-D建筑实例提取中不可或缺的作用。这些分析提供了宝贵的见解,有助于推进3-D建筑提取研究的进展。

Part1方法

AFM和AFM-3D概述

在这项研究中,作者专注于LoD1的3-D建筑实例提取。这些实例包括从共注册的DSM和正射影像数据(即2.5-D数据)中得出的单个建筑的屋顶轮廓及其相应的高度。为了实现这一目标,作者提出了一个端到端网络,该网络预测单个建筑的轮廓和它们各自的高度。与预测屋顶轮廓相关的部分被称为无锚点多头(AFM)建筑提取网络,它作为3-D建筑提取模型的基础。在此基础之上,作者引入了一个新分支到AFM,以预测建筑高度,从而实现一个全面的端到端3-D建筑提取解决方案,称为AFM-3D。图2说明了AFM和AFM-3D的工作流程。在以下各节中,作者首先介绍AFM以提取建筑屋顶,然后解释如何在统一框架内将其转换为AFM-3D。

AFM用于2-D建筑轮廓提取

AFM建筑提取网络作为一个两阶段网络,具有两个独特的属性,以提取形状精细的建筑实例轮廓。第一个属性是初始阶段中无锚点边界框预测结构。第二个属性是第二阶段中的多头结构,包括一个独特的全分辨率、长距离相关性放大的类别掩码头。此外,作者通过在训练阶段整合一种新颖的OHSM技术来提升边缘像素的分割质量,这些边缘像素通常具有高不确定性。作者设计AFM以克服以前基于像素分割的方法中使用固定大小或低分辨率特征预测不同大小建筑的难题。

AFM的第一阶段

AFM的第一阶段负责灵活地定位每栋建筑的边界框。首先,特征提取主干从输入图像中生成c维特征。随后,边界框生成模块利用这些特征生成2-D矩形框形式的候选提案。考虑到建筑实例可能大小不一,密集排列但不重叠,作者引入了一个无锚点边界框生成机制,基于之前的作品。这与模型如Mask R-CNN及其最新变体中广泛使用的基于锚点的方法形成对比。基于锚点的方法假设对象可以重叠,这通常不适用于遥感目标检测场景。此外,它预定义了一组固定大小的边界框。这是有问题的,因为密集的固定大小锚框不仅难以适应各种建筑大小,还会导致正负样本之间的不平衡。相比之下,作者选择的无锚点方法为每栋建筑生成一个候选框。此外,它直接预测每个框的精确尺寸,而不是依赖于预设大小的模板。因此,无锚点方法在灵活捕获不同建筑大小的候选框方面表现出色,同时最小化了冗余框的生成。具体来说,无锚点边界框生成模块预测建筑物的中心、长度、宽度和偏移量(四舍五入误差)。具有最高k置信度分数的预测中心,以及它们对应的大小和偏移量,共同表示候选建筑边界框。有关无锚点机制的更多详细信息,请参考[45]。

目标掩码预测头和边界框回归头

在第二阶段,三个并行头协作产生最终的建筑屋顶实例掩码。如图2和3所示,上层、中层和下层分别用于目标掩码预测、边界框回归和类别掩码预测。边界框回归头细化了第一阶段生成的候选框,而目标掩码预测头识别单个建筑掩码。目标掩码和边界框头与Mask R-CNN的第二阶段有相似之处,但也有一些显著差异。在AFM中,目标掩码头预测类别不可知的单通道目标掩码,而不是Mask R-CNN中发现的类别感知的c通道实例掩码。这个设计避免了与我们的类别掩码头的冗余。来自第一阶段的特征和框信息输入到RoIAlign层,生成两种不同分辨率的感兴趣区域(RoI)特征。高分辨率(HR)RoI特征(C × 14 × 14)用于目标掩码头。通过一系列卷积和转置卷积层,目标掩码头为每个候选框预测一个固定大小的28 × 28像素掩码。这里,每个像素值表示该像素属于相应候选对象的可能性。低分辨率(LR)RoI特征(C × 7 × 7)用于边界框头。连续应用平坦化和全连接(FC)层,这个头预测框回归参数,大小为k × 4。这些参数细化了第一阶段生成的k个候选框的坐标,从而提高了建筑框位置和大小的精度。在训练期间,边界框头的损失(Lbox)包括Smooth L1损失和CIoU损失,如[45]中所做的。目标掩码头为每个候选框产生一个固定大小的目标掩码(28 × 28像素)。逐像素的sigmoid函数将像素值归一化到0到1的范围内。目标掩码头的损失(Lobj)通过二元交叉熵(BCE)和Dice损失的加权和来计算,权重相等[64]。只有对应边界框IoU分数超过50%的目标掩码才包括在Lobj的计算中。Lbox和Lobj可以表示如下:


其中box_{pt}和box_{gt}分别是预测框及其对应的真实框,M_{pt_obj}和M_{gt_obj}分别代表预测的目标掩码及其对应的真实目标掩码。最终,从RoI特征生成的目标掩码根据重新校准的建筑边界框的长度和宽度调整大小以匹配图像中建筑物的实际大小。

类别掩码预测头

从RoI特征调整大小的目标掩码可能无法准确捕捉建筑实例的形状,特别是那些大小变化极端的实例。因此,调整大小的过程可能导致关键空间细节的丢失,这是实例分割场景中常见的挑战[18],[31]。为了解决这个问题,作者从先前的语义分割工作中汲取灵感,并引入了一个新的全分辨率类别掩码预测头。这个头在结构上类似于边界框和掩码头,但它在原始图像比例下操作。AFM中的类别掩码预测头生成一个像素级类别预测图(指定为建筑或非建筑),有助于将单个对象掩码与输入图像对齐。首先,作者集成了一个长距离特征相关性监督模块(FCSM)[65]来重新校准4×下采样的主干特征,如图4所示。这一步旨在减少属于同一类别的像素之间的特征差异,在这种情况下,是不同类型的建筑像素,这使得AFM能够更清晰地区分所有建筑和背景。作者使用Grad-CAM[66]来可视化新引入的FCSM的效果。如图5所示,嵌入FCSM的类激活图(特征提取主干的最后一层)准确地覆盖了建筑区域而不是令人困惑的背景,表明FCSM可以增强AFM识别建筑区域的能力。随后,重新校准的特征图通过卷积和转置卷积层上采样,恢复其原始图像分辨率。具体来说,两组转置卷积层,每个步长为2,被用来逐步上采样特征图。在每个转置卷积之后,两个3 × 3卷积进一步细化放大的特征。为了获得更丰富的空间细节线索,作者将原始图像与上采样的特征图连接起来,然后进行两个连续的3 × 3卷积。全分辨率类别掩码在sigmoid函数之后获得。在训练阶段,作者使用二元交叉熵损失函数和Dice损失函数来监督这个头,类似于用于目标掩码头的方法。

实例掩码生成和OHSM

在这一步中,我们将上采样的目标掩码(表示为Mobj)与裁剪的类别掩码(表示为Mcat,代表全分辨率类别掩码图中的对象区域)融合。这两个掩码都转换为概率图。使用Hadamard积来计算实例掩码,表示为Mins,即Mins = Mobj ⊙ Mcat。在训练过程中,融合的实例掩码也受到二元交叉熵损失和Dice损失的监督。AFM第二阶段的完整训练损失如下:

系数λobj、λcat、λins和λbox分别代表分配给目标掩码头、类别掩码头、融合实例掩码和边界框回归头的损失的权重。通过实验,作者在本研究中确定了这些系数的值:λobj = λcat = λbox = 1 和 λins = 5。引入全分辨率类别分割图有助于缓解由于将固定大小的目标掩码(28 × 28)上采样到原始比例(512 × 512大小的图像的高度和宽度)而引起的普遍边界模糊问题。然而,需要注意的是,融合的实例掩码中可能仍然存在模糊区域,从而影响精确的建筑边界定位。作者观察到,这些不确定点,其类别概率接近0.5,密集分布在建筑实例的边缘,如图7所示。为了进一步解决边界模糊问题,作者提出了一种基于不确定性分析的OHSM策略。这种策略受到PointRend方法[20]的启发,该方法在预测图的上采样过程中动态识别不确定性较高的像素,然后使用额外的轻量级多层感知器(MLP)网络将它们分配给特定类别。在作者的工作中,避免了用于像素分类的独立MLP,而是选择了一种简单的权重调整策略。该过程首先根据融合实例掩码中所有像素的不确定性对它们进行排序。然后选择显示出最高不确定性(这里设置为1/8,通过消融实验确定)的比例作为挑战样本。在计算实例掩码的预测损失时,这些挑战样本的权重系数在二元交叉熵损失函数中加倍,从而增强了网络对它们的关注。通过挑战样本的迭代更新、加权损失的计算和训练阶段网络参数的优化,提高了这些挑战样本的可靠性。同时,增强了AFM区分建筑边缘和背景的辨别能力,而没有显著的计算开销。

从AFM到AFM-3D

然后,作者开发了AFM的3-D版本,称为AFM-3D,以实现自动提取3-D建筑实例,摆脱了额外参考数据的需求[11],[12],[13],[14],并最小化了传统方法中经验设置的不利影响[2]。通过在AFM上添加高度预测器和高度细化头,可以轻松构建AFM-3D,并且它预测2-D轮廓和每个建筑的相应高度。为了确保建筑高度属性估计的鲁棒性和可靠性,将高程数据(DSMs)和对齐的正射校正图像集成作为AFM-3D的输入,这是以前仅从正射校正图像开始的方法的有益补充。为了增强网络更有效地学习高度属性的能力,作者在AFM-3D使用DSM数据之前实施了两个转换,如图(2)和(3)所示。


在(2)和(3)中,变量DSM是原始DSM数据。规范化过程(2)旨在压缩值范围。公式(3)计算相对高度,有效地减轻了不同区域之间的高程差异。然后,DSM'和DSM''与正射影像连接,生成两个新通道。随后,这个五通道光栅图(3个用于RGB)被用作AFM-3D的输入。AFM-3D的架构如图8所示。在第一阶段,我们预测代表单个建筑的初始3-D边界立方体(长度、宽度和高度)。预测建筑高度的学习策略与长度和宽度回归相同,高度预测器与长度和宽度预测器并行。我们确定对象中心点估计图中的前k个峰值。这些峰值被指定为候选建筑足迹中心。随后,我们基于这些确定的中心点生成3-D立方体提案。在第二阶段,我们使用低分辨率7 × 7 RoI特征(如图3所示)来微调最初估计的高度值。这个高度细化头包括两个全连接层的集成,这些层与边界框回归头共享。此外,引入了一个独立的全连接层进行参数估计,如图9所示。高度细化目标函数建立为Tg = Hg/Hp。这里,Hg代表从建筑物基础到屋顶的真实高度,Hp是第一阶段派生出的高度。通过回归一个缩放因子而不是绝对高度修正值(即Hg - Hp),简化了学习过程。为了优化高度回归参数,采用了L1损失函数。只有当2-D边界框IoU分数超过50%时,立方体提案才被纳入细化程序。2-D轮廓细化的过程与AFM中的相同。AFM-3D的输出被转换以产生LoD1模型格式的3-D建筑实例。我们首先根据预测的高度值和DSM数据平移屋顶和基础高度。屋顶高度被定义为DSM中2-D建筑轮廓内的最高点。基础高度对应于包含建筑的最近地面高度。这个指标是通过从预测的建筑高度值中减去屋顶高度来确定的。随后,提取的建筑屋顶轮廓从屋顶向基础垂直延伸,形成垂直于地面平面的墙体。最后,屋顶平面、基础平面和立面共同构成LoD1 3-D建筑实例。

Part2实验结果

声明
本文内容为论文学习收获分享,受限于知识能力,本文对原文的理解可能存在偏差,最终内容以原论文为准。本文信息旨在传播和学术交流,其内容由作者负责,不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题,请及时与我们联系,我们将在第一时间回复并处理。


【3D视觉之心】技术交流群
3D视觉之心是面向3D视觉感知方向相关的交流社区,由业内顶尖的3D视觉团队创办!聚焦维重建、Nerf、点云处理、视觉SLAM、激光SLAM、多传感器标定、多传感器融合、深度估计、摄影几何、求职交流等方向。扫码添加小助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)


扫码添加小助理进群

【3D视觉之心】知识星球

3D视觉之心知识星球主打3D感知全技术栈学习,星球内部形成了视觉/激光/多传感器融合SLAM、传感器标定、点云处理与重建、视觉三维重建、NeRF与Gaussian Splatting、结构光、工业视觉、高精地图等近15个全栈学习路线,每天分享干货、代码与论文,星球内嘉宾日常答疑解惑,交流工作与职场问题。



3D视觉之心
3D视觉与SLAM、点云相关内容分享
 最新文章