欢迎关注微信公众号“机器人EmbodiedAI”
论文题目:VLP: Vision Language Planning for Autonomous Driving
论文链接:https://openaccess.thecvf.com/content/CVPR2024/papers/Li_Driving_Everywhere_with_Large_Language_Model_Policy_Adaptation_CVPR_2024_paper.pdf
一、方法
适应新环境、习俗和法律的驾驶行为是自动驾驶长期存在的问题,这阻碍了自动驾驶车辆(AVs)的广泛部署。本文介绍了LLaDA,一个简单而强大的工具,使人类驾驶员和自动驾驶车辆能够通过调整其任务和运动计划来适应新地点的交通规则,从而实现到处都能驾驶。LLaDA利用大型语言模型(LLMs)在解释当地驾驶手册中的交通规则时展现出的强大的零-shot泛化能力来实现这一点。通过广泛的用户研究,我们展示了LLaDA的指导在澄清野外意外情况中的实用性。我们还展示了LLaDA在真实世界数据集中调整AV运动规划策略的能力;LLaDA在所有指标上表现优于基线规划方法。
我们的贡献如下:
我们提出了VLP,即视觉语言规划模型,将语言模型的推理能力整合到基于视觉的自动驾驶系统中,以增强运动规划和自动驾驶的安全性。
VLP由两个新颖的组件ALP和SLP组成,旨在分别改进自动驾驶电动车的推理和决策方面。
通过在真实世界驾驶场景中进行广泛实验,我们展示了VLP在一系列驾驶任务(包括开环规划、多对象跟踪、运动预测等)中显著且一致地优于现有的基于视觉的方法。
我们在nuScenes数据集上进行了首次新城市泛化研究,通过在不同城市进行训练和测试,展示了我们的VLP方法在零样本泛化能力上显著优于仅视觉方法。
据我们所知,这是第一项将语言模型引入自动驾驶系统多个阶段,以解决在新城市和长尾案例中的泛化能力问题的工作。
二、实验
这里展示部分结果,更多结果请参考论文。
三、总结
在这项工作中,我们提出了LLaDA,一个由LLMs驱动的框架,通过适应当地交通规则,调整人类驾驶员或AV的标称运动计划。LLaDA的模块化设计使其既适用于人类驾驶员辅助,也适用于AV计划的调整。据我们所知,LLaDA是第一个通过LLMs提出基于交通规则的适应方法。我们的研究结果显示,人类驾驶员发现LLaDA对于在新位置驾驶很有帮助,同时LLaDA也提高了AV在新位置的规划性能。
局限性:尽管LLaDA提供了多种好处,但也存在两个局限性:首先,由于LLaDA需要在控制循环中运行LLM,因此LLaDA的运行时目前尚不适合在AV规划堆栈的闭环使用 - 这一限制也适用于所有基于LLM的运动规划器。其次,正如我们之前讨论的结果,LLaDA对场景描述的质量敏感。虽然GPT-4V可以提供这样的描述,但有时不够准确。这一限制指向了需要开发一种AV特定基础模型的需求,该模型能够提供AV中心的场景描述。
更广泛的影响:作为人类驾驶员的助手,我们希望LLaDA能够减少因游客对当地交通规则不了解而引起的道路事故数量。作为AV的政策适配器,我们期望LLaDA能够为AV铺平道路,使它们能够在地理围栏以外的区域扩展运营。
未来工作:对于未来的工作,我们有多个激动人心的方向:首先,我们将探索通过在AV数据集上进行微调来改进GPT-4V的场景描述能力。其次,我们将探索开发一种意外情况检测器,这将允许我们仅在需要时使用LLaDA,从而显著减轻在控制循环中运行基于LLM模块所涉及的计算负担。最后,我们将致力于利用最近在不确定性量化和机器学习校准技术方面的发展,如符合预测和泛化理论,为LLM输出提供安全证书。