欢迎关注微信公众号“机器人具身智能”
论文题目:DUALAD: Disentangling the Dynamic and Static World for End-to-End Driving
论文链接:https://openaccess.thecvf.com/content/CVPR2024/papers/Doll_DualAD_Disentangling_the_Dynamic_and_Static_World_for_End-to-End_Driving_CVPR_2024_paper.pdf
一、摘要
当前最先进的自动驾驶方法将整体驾驶任务的多个子任务集成到一个单一的流水线中,通过在不同模块之间传递潜在表示,可以进行端到端训练。与依赖统一网格来表示场景的信念状态的先前方法相比,我们提出了专门的表示方法,以区分动态代理和静态场景元素。这使我们能够显式补偿连续时间步骤之间自车和物体运动的影响,并灵活地传播信念状态。此外,动态物体不仅可以关注输入的摄像头图像,还可以通过一种新的动态-静态交叉注意力机制直接受益于推断出的静态场景结构。大量在挑战性的nuScenes基准测试上的实验展示了所提出的双流设计的优势,特别是在建模场景中高度动态代理方面,并突显了我们方法的时间一致性改进。我们的方法名为DualAD,不仅优于独立训练的单任务网络,而且在驾驶功能链上的所有任务中,比之前最先进的端到端模型有大幅提升。
本研究的主要贡献如下:
在这项工作中,我们提出了一种双流方法,以利用面向对象的表示动态代理的潜力,并结合鸟瞰图(BEV)网格表示静态场景元素。该双流设计明确地对动态代理应用物体和自车运动补偿,并允许物体查询和BEV查询同时关注当前时间戳的摄像头图像。除了与摄像头图像的自注意力和交叉注意力,我们引入了一种新的动态-静态交叉注意力块,使物体查询能够关注BEV查询,促进两个流之间的一致性。
我们提出的方法称为DUALAD,能够实现稳健且时间一致的感知。在具有挑战性的nuScenes数据集上,DUALAD在各种感知任务中显著超越了专业的最先进(SOTA)模型。与最近的端到端框架集成后,DUALAD展示了区分动态代理和静态世界元素的表示的重要性,并在整个功能链中表现出显著的性能提升。广泛的消融研究突显了双流设计对所有驾驶任务的重要性,尤其在提高时间一致性和对高度动态代理的感知方面表现突出。
二、实验
这里展示部分结果,更多结果请参考论文。
三、总结
本文提出了DUALAD,一种在双流设计中显式建模动态代理和静态场景元素的新方法,两者都可以直接访问传感器信息。该方法在动态流中明确考虑了物体和自车的运动,而在静态流中仅补偿自车运动。这两个流可以通过新引入的动态-静态交叉注意力进行交互,通过利用物体周围的推断场景结构来促进物体检测。
我们的方法不仅在物体检测和在线地图学习等早期感知任务中表现出色,而且在与最新的端到端模型无缝集成后,能够处理下游任务。在我们的实验评估中,DUALAD在各种感知任务中显著优于专业模型,并在物体检测、地图分割和多物体跟踪方面达到了最先进的性能。此外,与端到端模型的集成显示了运动预测和规划方面的改进,突显了双流设计对整个功能链的重要性。
尽管我们的方法在场景的稳健和时间一致感知方面表现出色,但集成其他模态如LiDAR可以进一步提升性能,特别是结合我们的模型灵活移动信念状态到不同时间点的潜力,以整合甚至不同步的传感器。集成额外的信息,如交通标志或交通信号灯,以及集成深度估计或车道拓扑推理等任务,仍然是有前景的研究方向。
四、英文摘要