论文一起读 | Aerial Lifting: 基于航拍图像的城市语义与建筑实例提取

科技   2024-12-19 16:28   北京  

导读

本文是VCC谢恒同学对论文 Aerial Lifting: Neural Urban Semantic and Building Instance Lifting from Aerial Imagery 的解读,该工作来自香港中文大学(深圳)未来智联网络研究院、香港中文大学(深圳)理工学院和中山大学联合研究课题组,并已被发表在计算机视觉顶会CVPR 2024上。


项目主页: 
https://zyqz97.github.io/Aerial_Lifting/

该工作提出了一种基于NeRF的城市点云语义和实例分割的方法,首先引入了一种尺度自适应的语义标签融合策略,并利用NeRF的多视图合成能力,结合从不同高度预测的标签来增强不同大小对象的分割精度。然后,基于3D场景表示引入了一种跨视图实例标签分组方法,以减轻2D实例标签中的多视图不一致性问题。此外还利用多视图重建的深度先验信息来改善重建辐射场的几何质量,从而提高分割结果。

注:本文图片均来自原论文与其项目主页。



I


 引言 

3D城市规模的语义理解在各种应用中扮演着关键角色,从城市规划到自动驾驶系统都有重要作用。因此,针对3D场景实现准确的语义和实例级别分割对于广泛的语义分析任务至关重要。但是,3D场景的语义标注成本高昂,自动化程度较差,尤其对于城市航拍图像捕获的场景,包括建筑物、车辆和道路,现有的语义标注或分割方法往往难以有效处理这些差异极大的语义对象,因为其训练数据分布与航拍图像不同。此外,现有方法生成的2D实例标签往往存在多视图不一致问题(例如,一个对象在一个视图中被分割为一个实例,而在另一个视图中可能被分割为多个独立的实例)。一些方法采用Neural Radiance Fields (NeRF) 来将二维图像标签提升到三维表示来降低标注的成本。


本次导读论文介绍了一种新的基于NeRF的城市点云分割方法来解决以上问题,该方法主要通过三种策略来提高分割的准确性和鲁棒性。首先,该方法提出了一种自适应尺度的语义标签融合策略,通过融合不同高度预测的标签来分割不同大小的目标。其次,通过引入了一个跨视图实例标签分组策略,利用来自其他视图的信息对视图中的实例标签进行分组。此外,该方法还利用从多视点数据中获得的深度先验来提高重建辐射场的几何质量,进一步提升分割效果。实验结果表明,与现有方法相比,该方法在多个现实世界的城市规模场景中都取得了较好的结果,证明其性能的优越性。


II


 技术贡献 

本工作主要贡献如下:

  • 提出了一种针对城市规模语义和建筑级别实例分割的新型辐射场方法,通过将2D标签投影到3D,实现了SOTA的结果;

  • 引入了一种尺度自适应的语义标签融合策略,将从不同高度预测的2D标签结合起来,以增强对不同大小对象的分割;

  • 提出了一种基于3D场景表示的跨视图实例标签分组方法,以减轻2D实例标签中的多视图不一致性问题,从而产生更可靠的实例分割结果。


III


 方法介绍 

图1 Aerial Lifting模型整体结构
Aerial Lifting方法的整体结构如图1所示,主要包括语义标签融合和实例标签构建两部分。语义标签融合用于避免图像的尺度可变性使网络无法预测小型物体的语义标签。实例标签构建则解决了冗余掩模生成的问题以及在多个视图下同一物体实例标签的连续性问题。

1. 尺度自适应语义标签融合
对于每个输入的原始图像,Aerial Lifting方法通过增加相机高度以进行新视图渲染,渲染一组远视图图像  然后计算远视图图像的分割掩模  利用从神经辐射场获得的深度信息,将远视图分割结果投影到原始视图,以细化建筑类别的掩模。具体来说,将远视图像中坐标视为  的像素点,原图像中投影像素点坐标  定义为: 其中K为摄像机的 内参  为远点到原摄像机的相对变换  表示远视图图像的渲染深度图。如图2所示,Aerial Lifting选择Mask2Former来估计输入视图的2D分割掩模。

图2 自适应尺度语义标签融合过程

2. 语义无关的实例生成
Aerial Lifting方法利用SAM生成建筑实例分割的语义无关掩模,对于每张图像,使用32×32点的网格作为SAM的输入提示,以预测一组可能的实例。尽管SAM具有广泛的适应性,但其生成的掩模存在两种特征,可能会对建筑实例分割造成不利影响:
1) SAM模型生成的掩模具有不同的粒度,这可能导致较小的掩模嵌套在较大的掩模内部,从而产生属于同一实例的冗余掩模 (如建筑掩模上方的窗户掩模);
2) 同一三维实例的生成二维掩模在多视角下并不一致,在某个视角中准确分割的建筑实例可能在另一个视角中被分割为多个不同的实例。

3. 几何引导的实例过滤
几何引导的实例过滤旨在识别并移除嵌套在较大掩模内部的较小掩模,并展现有限的高度变化。具体而言,利用相机参数和从辐射场计算得到的每张图像的深度图Ď,将每个掩模的像素映射到三维空间,以确定其的物理高度,即最高高度和最低高度的差值,然后过滤掉高度小于阈值的嵌套掩模。

4. 跨视图实例标签分组
如图3所示,跨视图实例标签分组的关键思想是跨不同视图同步实例分割,从而将较小的分割实例合并为一个单一的、连贯的实例。给定一个对应N个图像的场景以及一组预测的SAM掩模,每个视图表示为  当从第i个视图的角度检查实例分割时,必须合并来自其他视图的分割信息,将所有其他视图(j)的SAM掩模投影到第i个视图上,投影的掩模被表示为: 
对于每个实例掩模  在  中找到识别相应的掩模,如果  和  的交集与其最小区域的比率超过了阈值  也即  那么就在二者之间建立一个匹配,其中| ∙ |表示区域的掩模,且  被置为0.5。在确定匹配后,通过合并相应的掩模区域来合并相应的掩模,从而产生扩展的掩模  这个过程在所有的匹配中重复,从而产生一个扩展的掩模集合,然后将这些扩展的掩模组合起来,形成每个实例的综合交叉视图掩模  
图3 跨视图实例标签分组
在交叉视图引导图的帮助下,如果当前视图中的不同实例在交叉视图引导图中有超过50%的像素具有相同的值,则认为這些实例属于同一组,这种方法大大减少了不同视图的密集SAM掩模预测冲突的发生。


IV


 部分结果展示 
接下来展示Aerial Lifting方法在真实世界城市场景UrbanBIS部分数据集测试结果,其中包括Yingrenshi, Yuehai Campus, Longhua-1, Longhua-2四个场景。

从图4语义分割的结果可以看出,Aerial Lifting方法语义分割在小规模物体上和建筑对象的准确性优于其他方法。

图4 Aerial Lifting和其他方法语义分割的对比

图5结果展示了各方法实例分割的可视化结果,可以看出相比于其他方法,Aerial Lifting方法对建筑实例的分割结果更具连续性

图5 Aerial Lifting和其他方法实例分割的对比

表1中的语义分割结果表明Aerial Lifting方法通过使用尺度自适应融合,在mIoU方面优于其他方法,并且在建筑分类和车分类的IoU都优于其他方法。

表1 MSR-Action3D[7]的动作识别精度

表2展示了四个城市场景的全景质量  结果表明,由于城市点云场景过于密集的实例对象,使用Detectron-Label进行训练会在建筑实例中产生不准确的实例分割结果,而SAM-Label尽管在Yingrenshi场景能取得较好结果,但却难以处理其他场景的大型建筑。从Aerial Lifting方法可以看出,通过跨视图实例标签分组,该方法在各个场景上都提高了分割的效果。
表2 在不同场景下各个方法实例分割结果的对比,其中LA和CL分别表示线性分配和对比学习

V


 总结与展望 
本文提出了一种基于神经辐射场的城市尺度语义分割和建筑层面实例分割方法,将2D标签投影到3D,而无需手动注释。该方法首先提出了一种自适应尺度的语义标签融合策略,该策略显著改善了不同大小对象的分割结果,并且为了实现多视图一致的实例监督,实现建筑实例分割。同时,提出了一种基于三维场景表示的跨视图实例标签分组策略,通过融合多视角立体图像的深度先验来增强重建的几何形状,从而获得更准确的分割结果。面向多个真实城市场景的实验结果,证明了该方法的有效性。

VI


 思考与讨论 
Q: Aerial Lifting的跨视图实例标签分组会不会导致不同实例对象被划分为同一实例标签的问题?
A: 在一些情况下,如距离很近的不同建筑,Aerial Lifting可能会将其分割成同一实例,尤其是在输入图像过少的情况,此外选取的阈值τ也会对分组的精确度造成影响。尽管如此,大部分情况下分组策略还是能够显著的提高实例分割的精度。


Q: UrbanBIS数据集没有提供2D图像的标签,那么是否可以直接将3D点云的标签投影到2D图像上?
A: 事实上,由于UrbanBIS给出的点云过于稀疏,导致无法很好地将点云投影到2D图像上,所以Aerial Lifting用图像重建出了一个稠密点云,然后将该点云与带标签地点云进行配准,然后使用KDTree的算法找出带标签点云中分别与重建点云对应的近邻点以确定重建点云的标签,然后将稠密的重建点云投影回2D图像上来生成2D图像的标签。 

以下是开放性问题,欢迎读者朋友留言讨论: 

Q: Aerial Lifting依赖于预训练的2D分割模型和SAM模型来生成2D标签,这使得2D分割模型分割结果的好坏影响了Aerial Lifting最终的分割精度,是否存在能够直接生成3D标签并且拥有优于Aerial Lifting的分割精度和鲁棒性能的方法呢?


-- End--


导 读 | 谢恒
审 核 | 吕辰雷
编 辑 | 申金、余鑫泉

参考文献

[1] Bowen Cheng, Ishan Misra, Alexander G Schwing, Alexander Kirillov, and Rohit Girdhar. Masked-attention mask transformer for universal image segmentation. Conference on Computer Vision and Pattern Recognition (CVPR). 1290-1299, 2022.

[2] Yawar Siddiqui, Lorenzo Porzi, Samuel Rota Buló, Norman Müller, Matthias Nießner, Angela Dai, and Peter Kontschieder. Panoptic lifting for 3D scene understanding with neural fields. Conference on Computer Vision and Pattern Recognition (CVPR). 9043-9052, 2023. 

[3] Shuaifeng Zhi, Tristan Laidlow, Stefan Leutenegger, and Andrew J Davison. In-place scene labelling and understanding with implicit scene representation. International Conference on Computer Vision (ICCV). 15838-15847, 2021.

[4] Matthew Tancik, Vincent Casser, Xinchen Yan, Sabeek Pradhan, Ben Mildenhall, Pratul P Srinivasan, Jonathan T Barron, and Henrik Kretzschmar. Block-NeRF: Scalable large scene neural view synthesis. Conference on Computer Vision and Pattern Recognition (CVPR). 8248-8258, 2022.

arXiv每日学术速递
工作日更新学术速递!官网www.arxivdaily.com。
 最新文章