Arxiv:https://arxiv.org/pdf/2406.16289
本期概述
哈喽大家周二好!又是盼周末的一天。。。
本期李小毛和大家分享一篇秦通团队的最新作品:Crowd-Sourced NeRF: Collecting Data from Production Vehicles for 3D Street View Reconstruction。CS-NeRF通过利用生产车辆收集的数据来实现大规模3D街景的重建~李小毛这边的众包地图还没有上端到端,看起来CS-NeRF似乎能够提供一些思路?我们一起来看看吧!!
CS-NeRF研究创新点:
众包数据整合:利用众包数据来进行大规模3D重建。
改进的NeRF训练方法:包括序列外观嵌入(减少图像风格的不一致性)、地面表面深度监督(提高几何质量)和遮挡补全(解决动态物体遮挡导致的图像黑洞问题)
PipeLine
CS-NeRF整个系统的工作流程可以概括为四个主要部分:众包数据收集、数据预处理、NeRF训练。众包数据收集,通过量产车辆相机来采集图像数据。数据预处理阶段,进行语义分割,然后通过SfM计算相机相对位姿,同步根据光流信息计算深度。NeRF训练阶段,使用地面深度信息、序列外观嵌入、遮挡补全提高重建质量
(1)街景数据收集(Data Collection):通过空间和时间的均衡分布来减少数据冗余。主要有以下策略:
块分区:将场景划分为小块,保证块之间重叠20%。
图像滤除:滤除移动对象过多的图像;滤除车辆定位差的图像;聚类处理进一步提取关键帧。
(2)数据预处理(Data Processing):包括三个部分:语义分割,深度估计,稀疏三维重建。
语义分割 (Semantic Segmentation):图像首先通过语义分割技术进行处理,识别出不同类别的物体,如道路、车辆、行人等。使用的具体方法是BiSeNet V2,它在速度和精度之间实现了良好的平衡。语义分割的结果用于两个方面:一是屏蔽动态物体(如车辆和行人),以提高后续3D重建的精度;二是提取道路表面,以便在后续步骤中进行深度监督。
地面深度提取 (Depth of Ground Surface):基于前面的语义分割结果,系统假设道路表面为一个近似平面,通过逆投影技术计算出地面像素的深度。这些深度信息将在NeRF模型的训练中作为监督信号,以提高模型的几何精度和真实感。
地面深度提取的实例,这里结合相对位姿和重投影计算深度
稀疏3D重建 (Sparse 3D Reconstruction):由于众包数据的定位精度较低,为了提高数据的几何精度,通过1)移除动态物体上的无效特征和2)语义标签过滤,保留语义一致的特征点配对,以及3)粗略位置信息引导,来实现SfM(Structure-from-Motion)的相机位姿计算。
(3)Nerf训练(Nerf Training):这里介绍Nerf的基本原理,提出的序列外观嵌入方法、地面深度监督和遮挡补全。