CVPR 2024 | LMDrive:利用大型语言模型的闭环端到端驾驶

文摘   2024-07-23 09:28   北京  

欢迎关注微信公众号“机器人EmbodiedAI”

论文题目:LMDrive: Closed-Loop End-to-End Driving with Large Language Models

论文链接:https://openaccess.thecvf.com/content/CVPR2024/papers/Shao_LMDrive_Closed-Loop_End-to-End_Driving_with_Large_Language_Models_CVPR_2024_paper.pdf

一、方法

尽管在自动驾驶领域取得了显著的进展,但现代方法在面对长尾未预见事件和挑战性城市场景时仍然存在严重事故的风险。一方面,大型语言模型(LLM)展示了接近“人工通用智能”的卓越推理能力。另一方面,先前的自动驾驶方法往往依赖于有限格式的输入(例如传感器数据和导航路点),限制了车辆理解语言信息和与人类交互的能力。因此,本文介绍了LMDrive,一种新颖的语言引导、端到端闭环自动驾驶框架。LMDrive独特地处理和整合多模态传感器数据与自然语言指令,使其能够在现实的指导性环境中与人类和导航软件进行交互。为促进基于语言的闭环自动驾驶研究,我们还公开发布了相应的数据集,包括约64K个遵循指令的数据剪辑,以及LangAuto基准测试,用于测试系统处理复杂指令和挑战性驾驶场景的能力。通过广泛的闭环实验,展示了LMDrive的有效性。据我们所知,我们是第一个利用LLMs进行闭环端到端自动驾驶研究的工作。

我们的贡献如下:

• 我们提出了一种新颖的端到端闭环、基于语言的自动驾驶框架,名为LMDrive,它通过多模态多视角传感器数据和自然语言指令与动态环境进行交互。

• 我们提供了一个数据集,包含约64K个数据剪辑,每个剪辑包括一个导航指令、几条注意指令、一系列多模态多视角传感器数据和控制信号。每个剪辑的持续时间从2到20秒不等。

• 我们提出了评估以语言指令作为导航输入的自主代理的基准测试工具LangAuto,其中包括误导性/长指令和具有挑战性的对抗性驾驶场景。

• 我们进行了广泛的闭环实验,展示了提议框架的有效性,并分析了LMDrive的不同组成部分,为这一方向的持续研究提供了启示。

二、实验

这里展示部分结果,更多结果请参考论文。

三、总结

在本文中,我们介绍了LMDrive,一个语言引导的端到端闭环自动驾驶框架。LMDrive结合了自然语言指令和传感器数据,使其能够在复杂驾驶场景中进行类人交互和导航。我们还提出了语言引导驾驶数据集,包括约64K个多模态数据剪辑及其对应的导航指令。我们建立了LangAuto基准测试,用于评估考虑自然语言指令的自动驾驶系统。通过广泛的闭环实验,展示了LMDrive的有效性,突显了改善自动驾驶车辆与人类及环境交互的潜力。我们的工作为基于语言的自动驾驶技术的未来发展铺平了道路。


机器人EmbodiedAI
与世界交互
 最新文章