欢迎关注微信公众号“机器人具身智能”
论文题目:Cam4DOcc: Benchmark for Camera-Only 4D Occupancy Forecasting in Autonomous Driving Applications
论文链接:https://arxiv.org/pdf/2311.17663
代码链接:https://github.com/haomo-ai/Cam4DOcc
一、方法
理解周围环境的变化对于在自动驾驶应用中安全可靠地执行下游任务至关重要。最近,仅使用摄像头图像作为输入的占用估计技术能够基于当前观察提供大规模场景的密集占用表示。然而,它们大多局限于表示当前的三维空间,并未考虑沿时间轴的周围物体的未来状态。
为了将仅使用摄像头的占用估计扩展到时空预测,我们提出了Cam4DOcc,这是一个新的基准,用于摄像头仅支持的四维占用预测,评估未来近场场景变化。我们的基准建立在多个公开数据集的基础上,包括nuScenes、nuScenes-Occupancy和Lyft-Level5,这些数据集提供了一般可移动和静态物体的序列占用状态,以及它们的三维后向离心流。为了为未来的研究建立这一基准,并进行全面比较,我们引入了四种基线类型,涵盖了多种基于摄像头的感知和预测实现,包括静态世界占用模型、点云预测的体素化、基于2D-3D实例的预测,以及我们提出的新型端到端四维占用预测网络。
此外,我们还提供了预设多任务的标准化评估协议,用于比较所有提出的基线在自动驾驶场景中对感兴趣物体的当前和未来占用估计性能。
本文的主要贡献:
我们提出了Cam4DOcc,这是第一个旨在促进基于摄像头的四维占用预测未来工作的基准。
我们通过利用领域内现有的数据集,为自动驾驶场景中的预测任务提出了新的数据集格式。
我们提供了四种新颖的基线方法用于基于摄像头的四维占用预测。其中三种是现有方法的扩展。此外,我们引入了一种新型的端到端四维占用预测网络,展示了强大的性能,并可以作为未来研究的宝贵参考。
我们引入了一种新颖的标准化评估协议,并根据这一协议在我们的Cam4DOcc上进行了全面实验,进行了详细的分析。
二、实验
这里展示部分结果,更多结果请参考论文。
三、总结
在这篇论文中,我们介绍了Cam4DOcc,这是一个专为自动驾驶应用中基于摄像头的4D占据预测任务设计的新型基准。以下是关键贡献和发现的详细介绍:
数据集与基准建立: 我们通过设计一个新的数据集格式,结合多个公开数据集的数据,创建了Cam4DOcc。这种格式促进了标准化评估,并为未来4D占据预测研究奠定了基础。
评估协议与基线模型: 我们制定了一个标准化的评估协议,并在Cam4DOcc框架内提出了四种基线模型。这些基线模型为评估4D占据预测方法的性能提供了基本参考。
OCFNet - 第一个基于摄像头的4D占据预测网络: 我们介绍了OCFNet,这是第一个端到端的基于摄像头设计的网络,用于预测未来的占据状态。OCFNet在实验评估中表现优于提出的基线模型,展示了其在有限训练数据条件下的有效性。
实验结果的见解: 通过对Cam4DOcc定义的四个不同任务进行全面实验,我们发现端到端时空网络(如OCFNet)在仅使用摄像头进行占据预测时显示出最有前景的结果。此外,技术如膨胀的GMO标注和利用3D反向离心流对提高预测准确性也具有益处。
局限性与未来方向: 尽管OCFNet取得了成就,但在预测更长时间间隔内和在存在大量移动物体的场景中仍面临挑战。我们的基准和分析旨在加深对当前占据感知模型的理解,并突出未来改进的重点。
影响与未来工作: 我们将Cam4DOcc视为评估4D占据预测进展的关键工具。作为基础模型,OCFNet为进一步研究提升基于摄像头的占据预测能力提供了起点。
欢迎关注微信公众号“机器人具身智能”