TPAMI 2024 | 面向大型城市场景的快速建筑实例代理重建

文摘   2024-10-27 19:00   辽宁  

点击下方PaperEveryday”,每天获得顶刊论文解读

点击加入论文投稿、写作、阅读分享交流群

Fast Building Instance Proxy Reconstruction for Large Urban Scenes

题目:面向大型城市场景的快速建筑实例代理重建

作者:Jianwei Guo; Haobo Qin; Yinchang Zhou; Xin Chen; Liangliang Nan; Hui Huang

摘要

大规模城市场景(特别是建筑物)的数字化是一个长期存在的开放问题,这归因于数据获取方面的挑战,如场景覆盖不完整、缺乏语义、规划路径的效率和可靠性低。在本文中,我们针对从航拍图像中重建城市建筑的问题,提出了一个有效的工作流程和一些新颖的算法,用于大型城市场景中高效的3D建筑实例代理重建。具体来说,我们提出了一种基于学习的新型方法,用于从航拍图像中进行城市建筑的实例分割,然后通过基于投票的算法将多视图实例信息融合到稀疏点云中(使用标准结构从运动管道重建)。我们的方法实现了从点云中对建筑实例进行有效的实例分割。我们还引入了一种基于层的表面重建方法,专门用于从极其稀疏的点云中重建3D建筑代理。在大型城市场景的合成和真实航拍图像上的广泛实验证明了我们方法的有效性。生成的场景代理模型已经可以提供建筑物在大型城市场景中的有希望的3D表面表示,并且当应用于航拍路径规划时,实例增强的建筑代理模型可以显著提高数据的完整性和准确性,产生高度详细的3D建筑模型。

关键字

  • 城市场景重建
  • 摄影测量
  • 实例分割
  • 航拍路径规划
  • 表面重建

I. 引言

数字化大规模城市场景在计算机视觉和计算机图形学社区中引起了极大兴趣,因为城市场景的3D表示对于各种现实世界应用至关重要,如城市规划、导航和环境模拟。与昂贵的车辆安装或机载激光雷达(LiDAR)数据获取方法相比,使用无人机(UAV)进行基于航空摄影的传感提供了一种更经济、更灵活的方式来捕获复杂城市场景的详细几何形状。
主流的基于无人机的航空成像方法通常遵循从粗到细的范式,需要两次飞行通过。第一次通过使用预定义的模式快速捕获未知场景,并生成一个保守的场景几何近似值,称为场景代理。这样的粗略模型随后用于第二次通过中的航空路径规划,其中图像采集飞行沿着优化的轨迹执行,以产生更完整和更好的重建。先前的工作致力于改进第二次通过中的航空路径规划,而对第一次通过中的3D场景代理生成的关注较少。实际上,场景代理是基于建筑物足迹的简单挤出生成的,或者是使用密集点云的表面网格重建,这些方法有局限性,如几何精度低、捕获过程长和对现场计算能力要求高。最近,通过从卫星图像中检测阴影来计算2.5D代理。这种方法严重依赖于具有明显阴影和平坦场景地面的卫星图像,实际中准确性有限。我们认为,生成更准确、更紧密封闭的3D场景代理将提高计划航空路径的质量。
在本文中,我们的目标是解决从多视图航拍图像中生成高质量的建筑实例代理的开放问题。这是一个巨大的挑战,有三个原因:首先,现有的基于图像的3D重建工作流程可以通过结构从运动(SfM)稳健地恢复相机姿态和稀疏3D点云。也可以使用多视图立体(MVS)生成密集点云以获得更好的代理重建。然而,MVS步骤对计算要求很高,特别是对于大型城市场景,这限制了以前方法的可扩展性。在这项工作中,我们使用仅稀疏SfM数据进行高效的代理生成。其次,数据的稀疏性、不完整性、噪声和异常值对代理重建提出了巨大挑战。例如,高层建筑通常只被几百个点捕获,而低层建筑经常被附近的建筑物和树木部分遮挡。以前的基于点的或基于原语的表面重建方法需要密集和完整的点云作为输入,因此无法从这样的损坏数据中恢复出忠实的结构。最后,场景中的建筑实例信息缺乏。这些信息对于区分附近的建筑物以提高数据获取的安全性和实现细粒度路径规划以捕获更精细的建筑细节至关重要。此外,这些信息还促进了3D模型在更广泛的实际应用中的使用。
为了解决上述挑战,我们提出了一种新的工作流程,实现了适用于大规模城市场景的高效3D建筑代理重建。由于SfM点的极端稀疏性和不完整性,SfM点的价值通常被认为很低,并且在过去的研究中被忽视。在这项工作中,我们重新审视了它的价值,因为SfM点仍然保留了建筑结构的关键特征。我们的主要发现是,稀疏输入对于高质量的代理重建已经足够,并且具有高效率,这是通过我们的建筑实例分割和基于层的建筑代理重建方法实现的。为了获得建筑实例,我们引入了一个神经网络,专门用于从航拍图像中生成建筑实例掩码。然后通过利用跨模态信息将多视图实例掩码与稀疏点云融合。有了建筑实例信息,我们提出了一种新的基于层的表面提取方法,以获得每个建筑物的水密和流形网格,从而获得整个场景的实例丰富的3D模型。获得的3D建筑代理已经可以提供场景的轻量级表面表示。特别是,它们实现了更可靠和细粒度的航空路径规划,以实现更高级别的城市重建。
我们工作的主要贡献包括:(1)一种新的工作流程,用于从航拍图像中对大规模城市场景进行高效的3D建筑代理重建,实现了细粒度的航空路径规划,以恢复城市建筑的更精细细节;(2)InstFormer,一种新颖的神经网络,用于从航拍图像中提取建筑实例掩码,以及一种基于投票的多视图实例融合算法,利用跨模态信息在稀疏和嘈杂的点云中进行有效的建筑实例分割;(3)一种基于层的建筑代理重建算法,能够从极其稀疏的点云中生成城市建筑的轻量级表面模型;(4)两个用于城市场景分割和重建的基准数据集。第一个是用于建筑实例分割的数据集,包含从四个城市捕获的720幅航拍图像,这些城市具有不同的飞行高度,并手动进行了注释。另一个是合成基准,包含三个大规模虚拟场景,专门用于全面评估飞行规划和3D城市重建。

III. 概述

本工作的目标是基于一组航拍图像,有效且高效地为场景中的各个建筑物生成3D代理,从而实现可靠的航空路径规划,以详细重建城市。输入图像由配备RGB相机的无人机拍摄。我们使用简单的预定义正交轨迹模式进行初始航空捕获。
我们算法的概述如图2所示,它由两个新颖的模块组成:3D建筑实例分割(第IV节)和基于层的代理生成(第V节)。给定输入的航拍图像,我们首先提出了一个新的实例分割神经网络,称为InstFormer,以预测多视图图像中每个建筑物的实例掩码。考虑到建筑物的密集分布以及由附近建筑物和树木引起的遮挡,我们的实例分割仅在直视图像上执行,其中建筑物的屋顶完全可见,可以在没有歧义的情况下可靠地分割。我们通过使用SfM恢复相机姿态,并从输入图像生成稀疏点云,其中还获得了图像的特征点与重建的3D点之间的对应关系。基于屋顶实例掩码和2D-3D对应关系,我们提出了一种基于投票的多视图实例融合机制,以过滤掉过度分割和无效实例。然后,剩余的掩码被投影回3D空间以分割整个建筑物。由于SfM点云通常稀疏且存在大量缺失区域(见图2),使用现有重建方法(如泊松表面重建)从此类数据生成忠实网格存在问题。为此,我们引入了一种高效的基于层的代理重建算法,利用建筑物的结构先验从这些损坏的数据中提取体积网格。随后,我们通过移除其内部冗余面来获得每个建筑物的流形和水密代理模型。获得的3D建筑代理已经可以提供场景的轻量级表面表示。特别是,它们实现了更可靠和细粒度的航空路径规划,以实现更高级别的城市重建。

IV. 3D建筑实例分割

建筑实例分割是可靠航空路径规划和语义感知3D场景重建的基础。对于具有合理密度和完整性的点云(例如,MVS点云),直接应用3D对象检测器或3D实例分割方法来直接提取3D建筑实例是直接的。在我们的工作中,SfM生成的稀疏点云受到数据缺失、高噪声和异常值的阻碍,这阻碍了这些方法直接应用于稳健检测或分割3D建筑实例。在这项工作中,我们利用基于图像的实例分割和2D-3D对应关系的快速发展(尽管数量有限),以从稀疏点云中精确分割城市建筑的3D实例。

A. 2D建筑实例分割

尽管现有的2D实例分割网络在MS-COCO等数据集上表现优异,但它们很难直接推广到城市场景,因为场景中建筑物实例的大小和密度变化很大。我们提出了一个新颖的实例分割神经网络,称为InstFormer,以产生准确的分割掩码。我们观察到,斜视图像中的建筑物更容易被附近的建筑物或树木遮挡,而它们通常在直视图像中不重叠。这激发了我们使用直视图像进行实例分割的灵感。为了训练和评估我们的神经网络,我们通过收集真实世界的航拍图像并注释这些图像中的所有建筑实例来创建一个新的数据集(见第VI-A节)。
图3总结了InstFormer的网络架构,它预测建筑物的像素级准确实例掩码。由于输入航拍图像的高分辨率,我们将图像分割成多个重叠的块,然后将其输入神经网络。为了避免类别样本分布不平衡和过拟合,InstFormer采用了3阶段级联结构,包括三个Box分支(即图3中的BoundingBoxHead)。第一二阶段的Box分支负责逐渐输出建筑物的粗略边界框,而最后阶段的对应部分则细化框预测并生成实例掩码。以下,我们简要描述InstFormer的关键模块,更详细的网络架构图以及每个模块的优势在在线提供的补充材料中。

InstFormer概述:实例分割通常涉及三个子任务:检测、分类和分割对象。因此,InstFormer采用了混合任务级联(HTC)架构。首先,每个阶段将多个任务(如检测、掩码预测和语义分割)结合起来,形成一个联合的多阶段处理管道,允许每个阶段从其他任务中受益。其次,上下文信息通过额外的分支进行_stuff_分割,并且添加了一个方向路径,允许信息在阶段之间直接流动。总的来说,HTC架构有效地改善了不仅在阶段之间,而且在任务之间的信息流动。
在我们的实现中,InstFormer由三个关键模块组成:Backbone、Neck和Head。给定一个输入图像块,我们首先使用金字塔视觉变换器作为主干来提取特征金字塔(FP,见图3中的TF-Encoder层),它为具有密集和变化尺度实例的图像生成高分辨率特征图。为了进一步增加感受野以聚合上下文信息,基于自注意力机制的Neck模块(包括Upsampler和DyHead)被应用于有效地融合和增强FP。之后,增强的特征被送入Pooler层以获得固定大小的特征图,这些特征图进一步被送入通用RoI提取器以提取感兴趣区域(ROI)。然后,在每个阶段提取的ROI被发送到相应的BoundingBox头以预测最终的边界框。同时,我们还使用全局上下文(glbctx)头结合特征中继(FR)头来加强分类、检测和分割任务之间的关联。最后,掩码头统一处理FR和glbctx头的输出,并生成准确的实例掩码。总之,所提出的InstFormer可以数学表述如下:
其中x是主干提取的特征图。在第t阶段,我们使用区域池化算子R根据特征图x和第t-1阶段预测的边界框b_{t-1}提取ROI边界框特征x_{box_t}。同时,掩码特征x_{mask_t}可以通过池化x和b_t获得。预测框b_t和掩码m_t分别从BoundingBox头B_t和Mask头M_t中学到。F是特征融合算子,m_{1:t-1}表示从第1阶段到第t-1阶段累积的掩码特征。在图4中,我们使用类激活图(CAMs)获取InstFormer用于识别建筑物类别的信息区域。高响应区域是建筑物,低响应区域是背景,表明我们可以很好地表示建筑物并进行区分定位。

损失函数:由于我们只关心两个类别(即建筑物和背景),我们采用二元分类的交叉熵损失。为了提高边界框定位的准确性,我们使用Complete-IoU (CIoU) 损失作为回归损失函数。另一个交叉熵损失用于预测实例掩码。此外,我们还利用在SCNet中引入的损失项来获得有效的全局上下文特征并输出多标签,以便我们后来可以利用这些特征执行更准确的多视图实例融合。最后,我们通过最小化总损失函数进行端到端的多任务训练:
超参数向量分别是每个阶段分类和回归损失的权重。超参数是掩码损失的权重。为了保持训练和推理样本之间IoU分布的一致性,我们设置以避免过拟合。最后,对应于全局上下文特征的损失权重,默认设置为。阶段损失权重设置为

B. 基于投票的多视图实例融合

InstFormer网络从多视图图像中输出一组建筑掩码,其中多个实例掩码可能对应于同一建筑物。为了在3D点云中分离不同的建筑物,必须识别属于同一建筑物的掩码,然后将其与3D点云中的对应物关联起来。由于2D图像中的分割错误,建立多个掩码之间的对应关系并不直接。例如,一个在一些图像中正确分割的建筑物可能在其他视图中被分开;或者有假阳性建筑。图5中给出了一些这样的例子。

为了可靠地融合来自多个视图的容易出错的实例掩码,我们提出了一种基于投票的方法来过滤掉过度分割和假阳性掩码。设表示图像I中检测到的所有建筑实例的集合,其中称为图像I中的第k个局部实例掩码。借助SfM系统提供的映射,我们可以获取与图像中的2D特征点相对应的一组3D点。此外,对于当前图像I,我们根据映射检索一组邻接图像,并且中的每个邻接图像都有助于重建的任何子集。接下来,每个图像通过检查图像J中的可见性来为图像I中的每个投一票。具体来说,我们查看所有点在中从哪些实例掩码中可见来确定投票是否有效。以下是评分的三种情况:
  • 。这不是一个有效投票,通常发生在两种情况下:(1) 图像J有助于的重建,但图像J只捕获了建筑物的一小部分,因此建筑物没有被我们的InstFormer检测到;(2) 实例分割网络将中的非建筑物对象识别为建筑物,而图像J中没有错误。
  • ,这意味着图像I和J中的局部实例掩码属于同一建筑物。这是期望的情况,因此被视为有效投票。
  • 。这也是一个无效投票。这表明中的3D点在图像J中被分割成多个不同的实例。当图像J提供正确的分割,但图像I中的局部实例掩码被低估,或者图像I中的分割正确,但图像J中的相应建筑物被过度分割时,会发生这种情况。
为了确定图像I中的局部实例掩码是否有效,我们使用中的所有图像为投票,并获得投票向量。我们返回最大分数的结果:,并进一步通过以下方式确定当前实例是否被正确分割:
对于图像I,我们首先丢弃无效的局部实例掩码。然后,对于每个正确的掩码,在图像J中记录一个有效局部实例掩码的列表,这些掩码产生了有效的投票,即。在所有图像上类似处理后,局部实例掩码之间的对应关系就建立了。因此,收集了一组属于同一建筑实例的局部实例掩码。然后通过组合每个组中每个局部实例掩码对应的3D点来实现3D实例分割。

V. 逐层代理生成

在进行3D实例分割后,我们为每个建筑物获得了一个点云。如图6(a)所示,建筑物的点云严重欠采样且嘈杂,特别是,重要的结构,如大部分立面通常缺失。为了处理这样损坏的数据,我们提出了一种新的基于切片的表面重建方法,该方法基于城市建筑物通常沿垂直方向具有分段恒定的剖面这一事实。

术语:首先沿垂直方向将建筑物的输入点云均匀切片成一系列原始板。每个切片平面称为一个,两个相邻层之间的空间称为层间空间。每个层还与两个实体相关联:通过将上方相邻层空间中的3D点投影到其上形成的局部投影点集;以及通过将所有上方层空间中的3D点投影到其上形成的全局投影点集。从全局投影点集中,我们提取出2D凸包,称为潜在的结构剖面。这里我们使用凸包而不是α-形状,因为输入点云太稀疏,α-形状将生成不完整的面集合,无法揭示建筑物的实际剖面。相比之下,凸包可以在重建的3D建筑物用于派生无人机轨迹时创建额外的安全缓冲区。接下来,我们提取一组具有显著结构差异的主导结构剖面(见图6(d)),每个主导结构剖面一起提供了足够的信息来表征建筑物的形状。
代理重建:将层()从上到下排序。设表示第i层的局部投影点集,表示第k层空间中的3D点数,我们有,其中Conv表示提取凸包的操作。类似地,分别表示与上下层对应的潜在结构剖面。
根据上述定义,(即底部的潜在结构剖面)的形状构成了2D建筑物足迹。然后我们从上到下寻找其他主导结构剖面(DSPi)。我们确定DSP1(即顶部主导结构剖面)是第一个其表面积大于阈值的潜在结构剖面,其中默认。对于每个潜在结构剖面,我们计算其与之前确定的主导结构剖面DSPi的结构差异。只有当结构差异足够大时,才能确定一个新的主导结构剖面。具体来说,在层的局部投影点集中,我们计算位于形状之外的点数()。为了对噪声鲁棒,我们还计算和之前确定的主导结构剖面DSPi之间的面积差异。如果满足以下两个标准,则被称为主导结构剖面:
其中默认阈值设置为。我们通过从上到下迭代处理所有潜在结构剖面来识别所有主导结构剖面。详见算法1以获取更多详细信息。请注意,当识别出一个新的主导结构剖面()时,之前主导结构剖面的位置和形状也应更新。因此,我们使用替换之前的主导结构剖面。尽管的形状与之前的主导结构剖面相似,但具有更大的凸包,更适合满足安全要求。

最后,我们从底部向上挤出每个主导结构剖面,直到触及上方的主导结构剖面,以获得一个凸多面体单元。然后,这些多面体单元堆叠在一起形成代理几何的完整体积。
表面提取:现在我们通过组装多个多面体单元重建了一个代理几何,该几何已经可以直接用于可视化。这样的模型包含许多由于直接堆叠过程而产生的内部面(见图6(f)所示),使它们不适合航空路径规划,因为现有的航空路径规划算法需要对建筑物的外表面进行采样以计算可重建性。
基于主导结构剖面的表面积从上到下单调递增的事实,我们执行增量表面提取,以确保只获得建筑物的外表面。具体来说,当我们挤出一个主导结构剖面(即2D凸包)时,我们排除了其顶部面的一部分,这些面位于其直接上方主导结构剖面的2D投影内(除了最顶部的一个),以及其完整的底部(除了最底部的一个)。最后,使用限制的Delaunay三角剖分方法对新添加的区域进行三角剖分,以生成一个水密网格模型。
非建筑物重建:与跨越广泛高度的建筑物相比,非建筑物对象(例如地面和树木)对航空路径规划的重要性较低,因为无人机通常在一定高度以上飞行以避免碰撞。在这项工作中,我们通过采用双线性插值方法重建非建筑物的整体代理,因为与其相比,泊松重建方法具有更高的效率。具体来说,我们首先将非建筑物点投影到地面平面,并构建一个2D网格,以一米的分辨率均匀采样投影区域。然后我们从其相邻的3D点中插值得到每个网格的顶点高度。通过这种方式,有效地创建了一个2.5D网格,以近似非建筑物。建筑物和非建筑物的代理共同允许安全的航空路径规划。

VI. 实验结果

在本节中,我们在不同规模的合成和真实城市场景上进行了一组实验,以验证所提出方法的有效性。在介绍我们的新数据集之后,我们首先检查InstFormer与最先进的实例分割方法的性能。然后通过与几种3D代理生成方法进行比较,定性和定量评估我们代理重建在路径规划中的有效性。最后,我们将我们的方法应用于捕获真实世界场景,以实现高质量的3D重建。所有实验都在配备有Intel i7-7700 k处理器(4.2 GHz)和32 GB RAM的台式计算机上进行。我们在基于MMDetection工具箱的PyTorch中实现了InstFormer。InstFormer的离线训练在两个NVIDIA GeForce RTX-A6000(48 GB内存)GPU上进行,选择了AdamW作为优化器。我们分别在两个数据集(我们提出数据集和Mapping Challenge)上训练了30个周期,训练时间分别为12小时和72小时。

A. 数据集

航拍实例分割数据集:为了训练和评估InstFormer,我们创建了一个新的数据集,包括来自四个城市720个直视图像,这些图像以不同的飞行高度捕获,并且这些图像中的所有建筑物实例都由计算机科学专业的八名学生使用LabelMe注释工具进行了手动注释。建筑实例分割数据集的一些注释图像可以在在线提供的补充材料中找到。与现有的实例分割数据集(例如COCO、PASCAL VOC)不同,它们都针对一般对象,我们专注于无人机捕获的建筑物的多视图图像,用于3D城市建筑重建,其中照片以高分辨率捕获屋顶和立面。此外,建筑物的规模变化很大,不同的建筑物从不同的视角重叠。这些特点为实例分割带来了相当新的挑战。
代理和场景重建数据集:为了进行全面的定量评估,我们首先在具有地面真实几何的合成场景上测试我们的方法,这允许定量评估重建性能。尽管以前的工作中已经创建了几个虚拟场景,但所涵盖的场景规模较小,每个场景中只有少数(少于10个)建筑物。在这项工作中,我们引入了一个新的合成基准,包含三个更大规模的虚拟场景,包含数十个建筑物,丰富的几何细节和现实的外观。对于每个场景,我们使用Unreal Engine和Airsim物理引擎模拟无人机捕获场景并生成高度逼真的图像。表I报告了我们的新数据集的详细统计信息。请参阅在线提供的补充材料和视频,以可视化三个虚拟场景。

真实场景数据集:我们还在六个真实城市场景的数据集上评估了我们的方法。所有图像都是使用DJI Phantom 4 RTK拍摄的,这是一台具有24毫米焦距的单摄像头无人机。代理重建的图像是使用[9]生成的航空路径捕获的。在使用我们提出的方法重建3D场景代理之后,我们使用[11]生成用于第二次图像捕获的优化航空路径。表I报告了这个数据集的统计信息。请注意,我们使用ContextCapture生成SfM稀疏点云和MVS重建,因为它的效率高。然而,我们不依赖任何特定软件包。也可以使用开源软件包,如COLMAP、VisualSFM和PMVS。

B. 实例分割评估

2D实例分割比较:首先通过与最先进的实例分割方法进行定量比较来彻底评估InstFormer的性能,包括Cascade模型(Cascade MaskR-CNN、DetectoRS、SCNet)和非Cascade模型(Mask R-CNN、Mask2Former、Swin Transformer、ConvNeXt-V2)。我们重新训练并在我们新提出的航拍实例分割数据集上测试了所有这些模型。评估指标是使用掩码交并比(IoU)计算的标准平均精度。它衡量在一系列IoU阈值下的预测和真实注释之间的精度,例如,AP50和AP75分别表示IoU阈值为50%和75%时的分数,而AP表示从50%到95%的IoU阈值的平均分数,步长为5%。由于建筑物是场景中的相对较大的物体,我们还计算了APL,以评估大型实例的平均精度。表II报告了这些分割方法的定量结果。比较表明,所提出的InstFormer在建筑检测和实例分割方面均取得了最佳性能,表明我们的模型在大规模建筑实例分割方面的优越性。

我们还使用另一个公共大规模数据集Mapping Challenge,旨在从不同城市环境的高分辨率卫星图像中检测建筑物。该数据集包括280,741个图像(300×300像素)的训练集、60,317个图像的验证集和60,697个图像的测试集。表III显示了定量预测结果,可以看出InstFormer继续取得最佳性能。在APL方面的比较显示了InstFormer对大型建筑的感知能力。同时,AP的最佳值表明了我们的模型在多尺度建筑实例分割方面的优越性。在目标检测方面,InstFormer在AP方面持续取得最佳性能,这是Mapping Challenge中的关键评估指标。此外,InstFormer在目标检测的APL方面也表现最佳,进一步证明了其在检测大型建筑方面相对于其他替代方案的优势。

密集重建的实例分割:由于缺乏地面真实情况,直接在3D上定量评估实例分割是困难的。因此,我们通过将稀疏点上的实例分割结果转移到最终重建中获得的密集网格上来进行视觉检查。具体来说,我们首先通过将所有稀疏点投影到地面并从投影点构建α-形状来提取建筑物足迹。然后,对于密集网格中的每个点,我们找到稀疏云中最近的实例,其投影点位于相应的建筑物足迹内。使用KD树来加速查询最近点的过程。图1和图7显示了我们在三个大型城市场景中的实例分割结果,其中建筑代理和密集网格都准确地分割了。

C. 合成场景评估

实验设置:我们在基于Unreal Engine和Airsim模拟器构建的虚拟环境中进行合成实验。在初始的预采集阶段,配备单摄像头的无人机执行高空飞行,捕获地面表面全貌的垂直视角图像(沿轨迹重叠80%,跨轨迹重叠70%)。这一步骤产生了直视航拍图像。随后,我们计算了一个用于构建代理模型的稀疏点云。我们使用[11]提出的路径规划算法进行评估,该算法首先根据代理模型表面上均匀采样的点生成丰富的初始视图集。然后提出了一个Max-Min优化,以选择一组最小化视点,同时最大化在相同数量视点下的可重建性。创建了一个有效的飞行路径,该路径穿过所有选定的视点,以指导第二次精细图像采集。最后,收集的图像被送入ContextCapture进行详细重建。
评估指标:为了定量评估场景代理重建,我们遵循先前路径规划方法中常用的指标。间接通过比较第二次飞行后最终重建的详细模型的质量来评估代理模型,因为代理模型影响路径规划,这反过来决定了最终重建的质量。
具体来说,我们使用[8]引入的点级指标来计算重建质量:误差和完整性。误差衡量重建的几何精度。它是计算真实模型和重建之间的顶点的平均距离。考虑到噪声和异常值,这个指标在90%和95%的点上进行评估,这些点的距离小于x厘米。较小的误差值表示更高的精度。完整性衡量真实模型被重建模型覆盖的程度。我们计算真实模型上的点到重建模型上最近点的最小距离,然后定义完整性为小于阈值的距离的百分比。较大的完整性值表示更高的完整性。
比较:我们使用三种虚拟场景比较了我们的逐层代理(记为LWPxy)与其他几种代理替代方案生成的代理质量,包括每个分割建筑的点云的边界框、每个建筑的3D凸包,以及基于布料模拟滤波(CSF)的中间代理的表面近似方法。注意,为了公平比较,基于我们的实例分割自动构建了粗糙和3D凸包模型。此外,我们采用了商业软件ContextCapture重建的MVS密集网格作为精细代理。
我们对每种竞争方法生成的建筑代理进行了比较,然后使用相同的航空路径规划算法[11]衍生出飞行轨迹。不同代理模型的路径规划可视化结果可以在在线提供的补充材料中找到。最后,无人机沿着生成的路径飞行以捕获图像,以重建精细的3D场景模型。为了确保不同代理之间的公平比较,我们遵循[8]提出的协议,并将规划视点的数量限制为尽可能一致,从而捕获的照片总数相似。这样,不同方法的路径长度和采集时间也相似。通过固定图像数量,我们可以隔离相机位置对重建质量的影响,其中相机位置与代理模型相关。
表IV报告了代理生成和最终3D重建的定量评估结果。可以看出,我们代理生成方法的效率和重建代理中的面数与简单的粗糙和3D凸包方法相当,而CSF和MVS密集耗时更长,产生的模型更大。在最终重建质量方面,我们的方法通常比其他替代方案获得更高的分数,这可以从误差和完整性度量中观察到,表明其在更好地捕获场景几何,包括细节方面的优越性。我们还可以观察到MVS密集并没有展示出最佳结果。这是因为仅从直视图像重建的点云存在严重的不完整性(特别是在垂直表面附近),导致代理模型存在大的孔洞和不准确(见图8)。图8展示了与五种方法相关的代理和最终场景重建的视觉比较。与MVS密集的精细代理相比,我们的代理更加紧凑,但仍然实现了可比较甚至更好的重建。从这些比较中,我们可以得出结论,通过更准确的代理几何,我们的方法可以实现更高的准确性和完整性,从而实现更详细的重建。

InstFormer的影响:正如所示,实例分割在所提出的城市重建流程中起着至关重要的作用。为了评估实例分割的有效性,我们实现了两个基于直接切片场景以生成场景代理的基线方法。第一个基线记为No-seg,它在没有实例分割的情况下直接切片和层叠整个场景。对于每层的投影点,我们使用2D α-shape算法计算多边形轮廓。所有层的多边形轮廓堆叠在一起,近似建筑物的粗略几何形状,作为场景代理模型。第二种基于聚类的方法用于实现建筑物的分割。首先,我们使用CSF方法对建筑物进行大致分割。然后将建筑物点投影到地面平面上,并使用DBSCAN对点进行聚类以形成建筑实例。之后,应用相同的切片算法生成场景代理。我们将这些方法应用于三个虚拟场景,结果如表V所示。可以看出,尽管这些替代方法也可以实现场景的大致近似,但它们的最终重建质量远低于基于InstFormer的结果。

D. 真实场景重建评估

在本节中,我们讨论了将我们的方法应用于真实场景的结果,并与基线进行比较。
定量评估:我们使用我们的方法和其他替代方案生成的代理模型为真实场景Polytech(在补充材料中可视化)规划了航空路径。然后我们使用派生的航空路径捕获场景,以进行高质量建筑重建,并使用不同的代理生成方法比较结果。Polytech场景包含一个复杂的建筑物,使用测距精度为2毫米的激光雷达扫描仪获得了高质量完整的点云。从激光扫描中重建了地面真实网格,用于定量评估方法。表VI总结了评估结果。与合成场景的结果类似,我们的方法在完整性方面表现最佳。误差指标的性能也通常与MVS密集相当。总体比较表明,我们的方法可以有效地生成轻量级代理模型,并产生准确和完整的最终场景重建。

视觉比较和细节恢复:接下来,我们使用几个大型户外场景评估我们方法在真实世界重建中的性能。图1和图7显示了三个不同规模场景的我们的代理和最终纹理模型的结果。为了更好地理解我们代理生成方法的优越性,我们将最终重建结果与其他代理重建方法进行比较。图9显示了Campus场景重建的模型,其中我们还比较了重建模型的细节。放大的视图揭示了我们的方法可以恢复更多的几何细节。Polytech和SI-PARK真实场景的视觉比较在补充材料和在线视频中提供。

实例规划的灵活捕获:借助所有建筑物的实例分割,我们可以为每个建筑物规划更准确和完整的路径,从而实现细粒度和灵活的数据捕获,以获得更准确的重建。为此,我们使用相同的算法[11]测试了两种不同的航空路径规划策略:
  • Plan_single:为每个建筑物基于实例信息生成单独的飞行轨迹。
  • Plan_all:为整个场景包含所有建筑物生成优化轨迹。
图10展示了Campus场景使用两种不同航空路径规划策略派生的航空路径和最终重建结果。使用Plan_all策略,所有建筑物同时捕获,但在不同天进行,一些建筑物没有完全覆盖。因此,重建的模型很容易包含明显的视觉效果,这可以从图10中的细部观察到。相比之下,有了实例信息的指导,可以为每个建筑物执行细粒度的路径规划。此外,关注同一建筑物的视点可以整合到一条飞行路径中,这使得捕获重要的建筑细节更加高效。

E. 限制

我们的逐层代理重建方法基于这样一个假设:建筑物的几何形状由堆叠的棱柱排列描述,这使得它特别适合现实中大多数高层建筑物。然而,对于有倾斜屋顶的建筑物,我们的方法只能用平坦的顶部来近似它们。在极少数情况下,建筑物的顶部比底部宽,我们的方法也会失败。图11显示了我们对这样两个例子的重建结果。虽然重建的代理没有传递屋顶的确切几何形状,但它仍然传达了建筑物的整体几何形状,这足以规划高质量的航空路径,以确保在另一次数据采集中获得更好的覆盖范围和更精细的细节。

VII. 结论和未来工作

我们提出了一种新的工作流程和两个算法,用于大型城市场景中高效和有效的3D建筑实例代理重建。我们的工作流程尝试从不同的角度实现高质量的城市重建,即通过生成高质量的3D建筑代理,而不是纯粹的航空路径优化。在几个大型城市场景中的广泛实验验证了所提出工作流程及其主要模块的有效性和实用性。具体来说,使用我们的方法生成的建筑代理比以往方法更好地表达了场景几何,并且特别适合生成更细粒度的航空路径,以进一步提高建筑模型的准确性和丰富几何细节。
我们的工作揭示了提高建筑代理的质量为解决无人机数据采集中的几个挑战提供了一种直接的方法,这些挑战包括场景覆盖不完整、缺乏语义、规划路径的效率和可靠性低。在未来的工作中,我们计划将这一理念扩展到其他常见的城市对象,如树木和桥梁,以允许创建场景的语义丰富的详细3D模型。

声明

本文内容为论文学习收获分享,受限于知识能力,本文对原文的理解可能存在偏差,最终内容以原论文为准。本文信息旨在传播和学术交流,其内容由作者负责,不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题,请及时与我们联系,我们将在第一时间回复并处理。

#论  文  推  广#

 让你的论文工作被更多人看到 


你是否有这样的苦恼:自己辛苦的论文工作,几乎没有任何的引用。为什么会这样?主要是自己的工作没有被更多的人了解。


计算机书童为各位推广自己的论文搭建一个平台,让更多的人了解自己的工作,同时促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 计算机书童 鼓励高校实验室或个人,在我们的平台上分享自己论文的介绍、解读等。


稿件基本要求:

• 文章确系个人论文的解读,未曾在公众号平台标记原创发表, 

• 稿件建议以 markdown 格式撰写,文中配图要求图片清晰,无版权问题


投稿通道:

• 添加小编微信协商投稿事宜,备注:姓名-投稿

△长按添加 PaperEveryday 小编



PaperEveryday
为大家分享计算机和机器人领域顶级期刊
 最新文章