CVPR 2024 | VLP:自动驾驶的视觉语言规划

文摘   2024-06-21 08:26   北京  

欢迎关注微信公众号“机器人具身智能”

论文题目:VLP: Vision Language Planning for Autonomous Driving

论文链接:https://arxiv.org/pdf/2401.05577

一、方法

自动驾驶是一项复杂而具有挑战性的任务,旨在通过场景理解和推理来实现安全的运动规划。尽管最近通过增强的场景理解,视觉-only 自动驾驶方法已经取得了显著的性能,但仍然存在一些关键问题,包括推理能力的缺乏、泛化性能不足以及长尾场景等需要解决的问题。在本文中,我们介绍了VLP,这是一个创新的视觉语言规划框架,利用语言模型来弥合语言理解与自动驾驶之间的差距。VLP通过加强源记忆基础和自动驾驶车辆的语境理解,提升了自动驾驶系统的性能。在具有挑战性的NuScenes数据集上,VLP实现了最先进的端到端规划性能,相较于之前的最佳方法,平均L2误差和碰撞率分别减少了35.9%和60.5%。此外,VLP在应对具有挑战性的长尾场景和新的城市环境时展现出了较强的泛化能力。

本文的主要贡献:

我们提出了VLP,即Vision Language Planning模型,将LLM(语言模型)的推理能力融入视觉驱动的自动驾驶系统,以增强运动规划和自动驾驶安全性能。

  • VLP由新颖的组件ALP和SLP组成,分别旨在改善自动驾驶电动汽车的推理和决策制定能力。

  • 通过在真实世界驾驶场景中进行广泛实验,我们展示了VLP在多种驾驶任务(包括开环规划、多目标跟踪、运动预测等)上显著且一贯地优于现有的基于视觉的方法。

  • 我们在nuScenes数据集上进行了首次新城市泛化研究,通过在不同城市进行训练和测试,展示了我们的VLP方法在零样本泛化能力方面显著的表现优势,超越了仅视觉的方法。

  • 据我们所知,这是首个将LLM引入自动驾驶系统多个阶段,以应对新城市和长尾情况中泛化能力问题的工作。

二、实验

这里展示部分结果,更多结果请参考论文。

三、总结

我们引入了一种新颖的视觉语言规划(VLP)方法,旨在增强自动驾驶系统(ADS)的能力。我们的方法结合了以自动驾驶车辆为中心的学习范式(SLP)和由语言提示引导的代理学习范式(ALP),以创建对环境的全面理解。通过一系列在各种驾驶任务上的实验,我们展示了VLP方法在提升ADS的感知、预测和规划能力方面的有效性。泛化实验展示了我们VLP方法的鲁棒性,证明了其适应新城市和长尾案例的能力。通过扩展ADS的能力超越训练环境,我们的VLP方法为在真实世界条件下更安全、更可靠的自动驾驶铺平了道路。

局限性。我们目前的实验局限于nuScenes数据集和基于摄像头的视觉方法作为基线。在未来的工作中,我们将在更广泛的数据集和传感器模态上评估VLP的性能。

欢迎关注微信公众号“机器人具身智能”

机器人EmbodiedAI
与世界交互
 最新文章