秦通新作 | CS-NeRF:通过NeRF模型重建众包地图

文摘   2024-08-13 00:43   上海  

Arxiv:https://arxiv.org/pdf/2406.16289

本期概述

哈喽大家周二好!又是盼周末的一天。。。

本期李小毛和大家分享一篇秦通团队的最新作品:Crowd-Sourced NeRF: Collecting Data from Production Vehicles for 3D Street View Reconstruction。CS-NeRF通过利用生产车辆收集的数据来实现大规模3D街景的重建~李小毛这边的众包地图还没有上端到端,看起来CS-NeRF似乎能够提供一些思路?我们一起来看看吧!!

CS-NeRF研究创新点:

  1. 众包数据整合:利用众包数据来进行大规模3D重建。

  2. 改进的NeRF训练方法:包括序列外观嵌入(减少图像风格的不一致性)、地面表面深度监督(提高几何质量)和遮挡补全(解决动态物体遮挡导致的图像黑洞问题)

PipeLine

CS-NeRF整个系统的工作流程可以概括为四个主要部分:众包数据收集、数据预处理、NeRF训练众包数据收集,通过量产车辆相机来采集图像数据。数据预处理阶段,进行语义分割,然后通过SfM计算相机相对位姿,同步根据光流信息计算深度。NeRF训练阶段,使用地面深度信息、序列外观嵌入、遮挡补全提高重建质量

(1)街景数据收集(Data Collection:通过空间和时间的均衡分布来减少数据冗余。主要有以下策略:

块分区:将场景划分为小块,保证块之间重叠20%。

图像滤除:滤除移动对象过多的图像;滤除车辆定位差的图像;聚类处理进一步提取关键帧。

(2)数据预处理(Data Processing):包括三个部分:语义分割,深度估计,稀疏三维重建。

语义分割 (Semantic Segmentation):图像首先通过语义分割技术进行处理,识别出不同类别的物体,如道路、车辆、行人等。使用的具体方法是BiSeNet V2,它在速度和精度之间实现了良好的平衡。语义分割的结果用于两个方面:一是屏蔽动态物体(如车辆和行人),以提高后续3D重建的精度;二是提取道路表面,以便在后续步骤中进行深度监督。

地面深度提取 (Depth of Ground Surface):基于前面的语义分割结果,系统假设道路表面为一个近似平面,通过逆投影技术计算出地面像素的深度。这些深度信息将在NeRF模型的训练中作为监督信号,以提高模型的几何精度和真实感。

地面深度提取的实例,这里结合相对位姿和重投影计算深度

稀疏3D重建 (Sparse 3D Reconstruction):由于众包数据的定位精度较低,为了提高数据的几何精度,通过1)移除动态物体上的无效特征和2)语义标签过滤,保留语义一致的特征点配对,以及3)粗略位置信息引导,来实现SfM(Structure-from-Motion)的相机位姿计算。

(3)Nerf训练(Nerf Training):这里介绍Nerf的基本原理,提出的序列外观嵌入方法、地面深度监督和遮挡补全

NeRF(Neural Radiance Field)基本原理:NeRF通过将场景表示为连续函数,该函数接受一个包含3D空间点 和视角方向 的 5 维向量输入,输出该点的颜色 和体积密度 。为了增强图像的高频细节,NeRF使用了位置编码 (Positional Encoding),即将空间点 映射为高维向量 ,从而使得函数可以捕捉到更多的空间细节:
NeRF训练过程通过体积渲染来实现,即对于通过场景的任意光线 ,其颜色由如下公式计算:
其中,权重函数 表示光线在每个位置的权重,定义为:
训练目标是通过最小化L2光度损失来使合成图像与真实图像的颜色尽可能一致:
序列外观嵌入(Sequential Appearance Embedding)避免传统的NeRF-W方法存在的高自由度的问题,提出了序列级别的外观嵌入,即将同一图像序列共享同一个外观嵌入向量。
给定一系列图像,假设它们的嵌入向量为 ,则模型的输入从原始的 变为 。来处理图像间的风格一致性问题,最终生成稳定和一致的3D重建图像。
地面深度监督(Depth Supervision of Ground Surface):引入了深度监督,来解决传统的NeRF训练主要关注像素颜色的监督,忽视了场景几何结构的准确性,所导致在生成新视角时出现漂浮伪影的问题。
NeRF的训练过程中,每条光线 的深度由公式计算:
  是权重函数,决定了光线在每个位置的贡献。为了增加几何准确性,引入了地面深度的监督,即在已知的地面深度上对密度分布进行约束,使其更接近Dirac函数:
表示理想情况下光线击中地面时的深度分布。这个监督信号有助于减少场景中不必要的漂浮物,并使得生成的几何表面更加光滑和平整。最终的损失函数将颜色损失和深度损失结合在一起,以确保模型在颜色和几何结构上的双重准确性:
遮挡补全(Occlusion Completion):利用地面深度信息来填补这些被遮挡的区域。对遮挡区域施加了深度补全,使得被遮挡的区域不再显示为黑洞,而是与周围的地面平滑衔接。
公式上,遮挡补全可以表示为:
其中, 是原始光线的颜色值, 是遮挡区域的填充颜色, 是用于平滑过渡的权重参数。
遮挡补全的效果,体现在路面重建上
Experiments
对比不同数据量下的渲染结果,随着行程数据量的增加,重建的场景更加完整和精确。
3D导航系统与传统的二维导航工具(如高德地图Amap)的对比。系统能够在三维环境中提供导航指引。图中的黄色指引线被叠加在真实的3D场景上,显示车辆应行驶的路线。此外,还支持不同的外观风格和视角的变换。
本期结语
李小毛理解,本项研究使用Nerf进行构建众包地图!不过小编有一点疑惑,用模型去表达地图的话,维护地图的成本会不会太大了点。。光数据云端计算、储存和管理就需要非常非常可观的成本了吧。。。
往期回顾
CVPR 2024 | BEVSee:无需相机标定的BEV感知
CVPR2024 | 通过大语言模型实现可编辑逼真3D驾驶场景的仿真
CVPR自动驾驶公开赛冠军!Hydra-MDP: 端到端多模态规划与多目标 Hydra 蒸馏
IROS2024 | ParkingE2E:端到端自动泊车模型
如果对你的开发、科研有帮助,拜托拜托关注我们,我们将持续奉上优秀的端到端自动驾驶领域研究的分享干货!
温馨提示:点赞=学会,收藏=精通
点击在看,我们一起充电!


端到端自动驾驶
关注AD(Autonomous Driving)行业最前沿的人工智能解决方案,致力于打造为一个自动驾驶从业者及相关科研学者们的课外充电,技术分享,以及社区交流的服务平台!
 最新文章