欢迎关注微信公众号“机器人具身智能”
论文题目:Occupancy-MAE: Self-supervised Pre-training Large-scale LiDAR Point Clouds with Masked Occupancy Autoencoders
论文链接:https://arxiv.org/pdf/2206.09900
一、摘要
当前自动驾驶中的感知模型严重依赖大规模标注的3D数据,而这些数据的标注既昂贵又耗时。本文提出了一种通过在大规模未标注的户外LiDAR点云上使用掩码自动编码器(MAE)进行预训练的方法,以减少对标注3D训练数据的依赖。现有的掩码点自动编码方法主要集中在小规模室内点云或基于柱状大规模户外LiDAR数据上,而我们的方法引入了一种新的自监督掩码占用预训练方法,称为Occupancy-MAE,专为基于体素的大规模户外LiDAR点云设计。Occupancy-MAE利用户外LiDAR点云逐渐稀疏的体素占用结构,结合了一种基于距离的随机掩码策略和占用预测的前任务。通过根据与LiDAR的距离随机掩盖体素,并预测整个3D周围场景的掩码占用结构,Occupancy-MAE鼓励提取高级语义信息,利用少量可见体素重建被掩盖的体素。大量实验表明,Occupancy-MAE在多个下游任务中表现出色。对于3D目标检测,Occupancy-MAE将KITTI数据集中汽车检测所需的标注数据减少了一半,并在Waymo数据集中将小目标检测的AP提高了约2%。对于3D语义分割,Occupancy-MAE比从头训练提高了约2%的mIoU。对于多目标跟踪,Occupancy-MAE在AMOTA和AMOTP方面比从头训练分别提高了约1%。
本研究的主要贡献如下:
我们提出了一种新型的自监督掩码占用自动编码框架,称为Occupancy-MAE,用于大规模户外LiDAR点云的预训练,从而减少对昂贵标注的3D数据的需求。 我们提出了一种3D占用预测的前任务,利用大规模LiDAR点云逐渐稀疏的占用结构。通过从少量可见体素中恢复3D周围世界的掩码占用分布,网络被迫提取高级语义信息。 我们引入了一种基于距离的随机掩码策略,利用大规模LiDAR点云的不同密度,提高了预训练的性能。 我们提出的Occupancy-MAE在多个下游任务中显著优于从头训练,包括3D目标检测、语义分割、多目标跟踪和无监督域适应。
二、实验
这里展示部分结果,更多结果请参考论文。
三、总结
我们首先定义了多摄像头统一预训练任务,并提出了统一预训练算法,使模型能够掌握周围世界的几何先验知识。通过利用未标注的图像-LiDAR 对进行 3D 场景重建预训练,为减少对标注 3D 数据的依赖并建立自动驾驶的基础模型提供了有前景的机会。未来的工作应集中在解决所提到的局限性,并进一步提高我们方法在实际自动驾驶场景中的性能和适用性。
四、英文摘要