最新RAL 2024 | 基于场景重建的纯视觉自动驾驶预训练方法UniScene

文摘   2024-06-16 11:37   北京  

论文题目:Multi-Camera Unified Pre-training via 3D Scene Reconstruction for Autonomous Driving

论文链接:https://arxiv.org/abs/2305.18829

代码链接:https://github.com/chaytonmin/UniScene

一、摘要

多摄像头 3D 感知已经成为自动驾驶领域的重要研究方向,提供了一种可行且成本有效的替代 LiDAR 的解决方案。现有的多摄像头算法主要依赖于单目 2D 预训练。然而,单目 2D 预训练忽略了多摄像头系统中的空间和时间关联。为了解决这一局限性,我们提出了第一个多摄像头统一预训练框架,称为 UniScene,该框架首先重建 3D 场景作为基础阶段,随后在下游任务上微调模型。具体来说,我们采用占用率(Occupancy)作为 3D 场景的一般表示,使模型能够通过预训练掌握周围世界的几何先验知识。UniScene 的一个显著优势是其能够利用大量未标注的图像-LiDAR 对进行预训练。所提出的多摄像头统一预训练框架在多摄像头 3D 目标检测和周围语义场景完成等关键任务中表现出令人鼓舞的结果。与单目预训练方法相比,UniScene 在多摄像头 3D 目标检测中在 mAP 和 NDS 上分别提高了约 2.0%,在周围语义场景完成中 mIoU 提高了 3%。采用我们的统一预训练方法,可实现 3D 训练标注成本的 25% 降低,为实际自动驾驶的实施提供了显著的实用价值。

本研究的主要贡献如下:

  • 我们定义了多摄像头统一预训练任务,并提出了首个统一预训练框架。该框架利用占用率(Occupancy)作为 3D 场景的整体表示,使模型能够通过预训练获取周围世界的几何见解。
  • UniScene 的预训练过程无需标签,能够利用大量由自动驾驶车辆收集的图像-LiDAR 对来构建基础模型。
  • 通过采用我们的统一预训练方法,可以实现昂贵的 3D 标注成本减少 25%,为实际自动驾驶的实施提供了显著的实用价值。

二、实验

这里展示部分结果,更多结果请参考论文。

三、总结

我们首先定义了多摄像头统一预训练任务,并提出了统一预训练算法,使模型能够掌握周围世界的几何先验知识。通过利用未标注的图像-LiDAR 对进行 3D 场景重建预训练,为减少对标注 3D 数据的依赖并建立自动驾驶的基础模型提供了有前景的机会。未来的工作应集中在解决所提到的局限性,并进一步提高我们方法在实际自动驾驶场景中的性能和适用性。

四、英文摘要


机器人EmbodiedAI
与世界交互
 最新文章