论文题目:Enhancing End-to-End Autonomous Driving with Latent World Model
论文链接:https://arxiv.org/abs/2406.08481
代码链接:https://github.com/BraveGroup/LAW
一、摘要
端到端自动驾驶引起了广泛关注。目前的端到端方法主要依赖于来自感知任务(如检测、跟踪和地图分割)的监督,以辅助学习场景表示。然而,这些方法需要大量的标注,限制了数据的可扩展性。为了解决这个问题,我们提出了一种新的自监督方法,以增强端到端驾驶而不需要昂贵的标签。具体来说,我们的框架 LAW 使用一个潜在世界模型(LAtent World model)来预测基于预期的自车动作和当前帧的潜在特征的未来潜在特征。预测的潜在特征通过实际观察到的未来特征进行监督。这种监督共同优化了潜在特征学习和动作预测,从而极大地提升了驾驶性能。因此,我们的方法在开环和闭环基准测试中均实现了最先进的性能,而无需昂贵的标注。
总结起来,我们的主要贡献如下:
我们提出了一个用于自监督学习的潜在世界模型(LAtent World model),以增强端到端自动驾驶框架的训练。 基于潜在世界模型,我们进一步提出了一种视角选择策略,这极大地加速了流程,同时仅带来极小的性能损失。 我们的框架 LAW 在无需人工标注的情况下,在开环和闭环基准测试中均实现了最先进的结果。
二、实验
这里展示部分结果,更多结果请参考论文。
三、总结
总之,本论文介绍了一种使用潜在世界模型的新型自监督方法。该方法在端到端自动驾驶系统中无需昂贵的标注,便可增强场景表示的学习。尽管我们的方法在当前基准测试中显示了有前景的结果,但受限于所使用的数据量有限。在未来的工作中,我们计划通过将该方法应用于更大且更多样化的数据集来提升其可扩展性。利用大规模数据,我们打算使用潜在世界模型进行预训练。
四、英文摘要