3D城市规模的语义理解在各种应用中扮演着关键角色,从城市规划到自动驾驶系统都有重要作用。因此,针对3D场景实现准确的语义和实例级别分割对于广泛的语义分析任务至关重要。但是,3D场景的语义标注成本高昂,自动化程度较差,尤其对于城市航拍图像捕获的场景,包括建筑物、车辆和道路,现有的语义标注或分割方法往往难以有效处理这些差异极大的语义对象,因为其训练数据分布与航拍图像不同。此外,现有方法生成的2D实例标签往往存在多视图不一致问题(例如,一个对象在一个视图中被分割为一个实例,而在另一个视图中可能被分割为多个独立的实例)。一些方法采用Neural Radiance Fields (NeRF) 来将二维图像标签提升到三维表示来降低标注的成本。
本次导读论文介绍了一种新的基于NeRF的城市点云分割方法来解决以上问题,该方法主要通过三种策略来提高分割的准确性和鲁棒性。首先,该方法提出了一种自适应尺度的语义标签融合策略,通过融合不同高度预测的标签来分割不同大小的目标。其次,通过引入了一个跨视图实例标签分组策略,利用来自其他视图的信息对视图中的实例标签进行分组。此外,该方法还利用从多视点数据中获得的深度先验来提高重建辐射场的几何质量,进一步提升分割效果。实验结果表明,与现有方法相比,该方法在多个现实世界的城市规模场景中都取得了较好的结果,证明其性能的优越性。
本工作主要贡献如下:
提出了一种针对城市规模语义和建筑级别实例分割的新型辐射场方法,通过将2D标签投影到3D,实现了SOTA的结果;
引入了一种尺度自适应的语义标签融合策略,将从不同高度预测的2D标签结合起来,以增强对不同大小对象的分割;
提出了一种基于3D场景表示的跨视图实例标签分组方法,以减轻2D实例标签中的多视图不一致性问题,从而产生更可靠的实例分割结果。
从图4语义分割的结果可以看出,Aerial Lifting方法语义分割在小规模物体上和建筑对象的准确性优于其他方法。
图4 Aerial Lifting和其他方法语义分割的对比
图5结果展示了各方法实例分割的可视化结果,可以看出相比于其他方法,Aerial Lifting方法对建筑实例的分割结果更具连续性。
表1中的语义分割结果表明Aerial Lifting方法通过使用尺度自适应融合,在mIoU方面优于其他方法,并且在建筑分类和车分类的IoU都优于其他方法。
Q: Aerial Lifting依赖于预训练的2D分割模型和SAM模型来生成2D标签,这使得2D分割模型分割结果的好坏影响了Aerial Lifting最终的分割精度,是否存在能够直接生成3D标签并且拥有优于Aerial Lifting的分割精度和鲁棒性能的方法呢?
-- End--
[1] Bowen Cheng, Ishan Misra, Alexander G Schwing, Alexander Kirillov, and Rohit Girdhar. Masked-attention mask transformer for universal image segmentation. Conference on Computer Vision and Pattern Recognition (CVPR). 1290-1299, 2022.
[2] Yawar Siddiqui, Lorenzo Porzi, Samuel Rota Buló, Norman Müller, Matthias Nießner, Angela Dai, and Peter Kontschieder. Panoptic lifting for 3D scene understanding with neural fields. Conference on Computer Vision and Pattern Recognition (CVPR). 9043-9052, 2023.
[3] Shuaifeng Zhi, Tristan Laidlow, Stefan Leutenegger, and Andrew J Davison. In-place scene labelling and understanding with implicit scene representation. International Conference on Computer Vision (ICCV). 15838-15847, 2021.
[4] Matthew Tancik, Vincent Casser, Xinchen Yan, Sabeek Pradhan, Ben Mildenhall, Pratul P Srinivasan, Jonathan T Barron, and Henrik Kretzschmar. Block-NeRF: Scalable large scene neural view synthesis. Conference on Computer Vision and Pattern Recognition (CVPR). 8248-8258, 2022.