基于Gemini!Waymo提出端到端自动驾驶多模态模型EMMA!

文摘   2024-11-01 00:01   上海  

点击下方卡片,关注“AI生成未来

论文名:EMMA: End-to-End Multimodal Modelfor Autonomous Driving

论文链接:https://arxiv.org/pdf/2410.23262.pdf

引言

近年来,自动驾驶技术取得了显著进展。为了使自动驾驶车辆成为无处不在的交通形式,它们必须导航越来越复杂的现实世界场景,这些场景需要理解丰富的场景上下文以及复杂的推理和决策。端到端自动驾驶系统最近作为潜在解决方案出现,直接从传感器数据中学习生成驾驶动作。这种方法消除了模块之间需要符号接口的需求,并允许从原始传感器输入中联合优化驾驶目标。然而,这些系统通常是为特定驾驶任务专门设计的,并在有限的训练数据集上训练,阻碍了它们泛化到罕见或新颖场景的能力。多模态大型语言模型(MLLMs)为自动驾驶中的AI提供了一个有前景的新范式,可能有助于解决这些挑战。

简介

我们介绍了EMMA,一个端到端的自动驾驶多模态模型。基于多模态大型语言模型的基础,EMMA直接将原始相机传感器数据映射到各种特定于驾驶的输出中,包括规划器轨迹、感知对象和道路图元素。EMMA通过将所有非传感器输入(例如导航指令和自我车辆状态)和输出(例如轨迹和3D位置)表示为自然语言文本,最大化了预训练大型语言模型的世界知识效用。这种方法允许EMMA在统一的语言空间中联合处理各种驾驶任务,并使用特定于任务的提示生成每个任务的输出。实证上,我们通过实现在nuScenes上的运动规划达到最先进性能以及在Waymo开放运动数据集(WOMD)上的竞争性结果来证明EMMA的有效性。EMMA还在Waymo开放数据集(WOD)上的相机主导的3D物体检测上取得了有竞争力的结果。我们展示了与规划器轨迹、物体检测和道路图任务共同训练EMMA在所有三个领域都产生了改进,突出了EMMA作为自动驾驶应用通用模型的潜力。然而,EMMA也存在一些局限性:它只能处理少量的图像帧,没有集成像激光雷达或雷达这样的精确3D感测方式,而且在计算上也很昂贵。我们希望我们的结果能够激发进一步的研究,以减轻这些问题,并推动自动驾驶模型架构的进一步发展。


方法与模型

EMMA建立在Gemini之上,这是一个由谷歌开发的MLLM家族。我们利用自回归的Gemini模型,这些模型经过训练以处理交织的文本和视觉输入,以产生文本输出。

我们将自动驾驶任务映射到基于Gemini的EMMA公式中。所有传感器数据都表示为缝纫图像或视频作为V;所有路由器命令、驾驶上下文和特定任务的提示都表示为T;所有输出任务都呈现为语言输出O。一个挑战是许多输入和输出需要捕获3D世界坐标,例如运动规划中的航点BEV(鸟瞰视图)位置(x, y)以及3D盒子的位置和大小。我们选择文本表示,以便所有任务都能共享相同的统一语言表示空间,并且它们可以最大限度地重用预训练权重中的知识,即使文本呈现可能产生的标记数超过专门的标记化。

1、端到端运动规划

EMMA采用统一的、端到端的训练模型,直接从传感器数据生成自动驾驶车辆的未来轨迹。然后,这些生成的轨迹被转换为特定于车辆的控制动作,如加速和转向,用于自动驾驶车辆。EMMA的端到端方法旨在模拟人类驾驶行为,重点关注两个关键方面:(1)首先,使用导航系统(例如谷歌地图)进行路线规划和意图确定;(2)其次,利用过去的行为来确保在时间上平稳一致的驾驶。

我们的模型包含三个关键输入,以与这些人类驾驶行为保持一致:

(1)周围视图摄像头视频(V):提供全面的环境信息。

(2)高级意图命令(Tintent):源自路由器,包括指令如“直行”、“左转”、“右转”等。

(3)历史自我状态集(Tego):以鸟瞰视角(BEV)空间的一组航点坐标表示,Tego = {(xt, yt)}−Tht=−1 对于Th时间戳。所有航点坐标都以纯文本形式表示,不使用专门的标记。这也可以扩展以包括更高阶的自我状态,如速度和加速度。

模型生成未来轨迹,用于运动规划,表示为同一BEV空间中本车未来的轨迹航点集合,其中所有输出航点也以纯文本形式表示。

2、使用链式思维推理进行规划

链式思维提示[Wei等人,2022]是MLLM中的一个强大工具,它增强了推理能力并提高了可解释性。在EMMA中,我们通过要求模型在预测最终的未来轨迹航点Otrajectory的同时,阐述其决策理由Orationale,将链式思维推理整合到端到端规划器轨迹生成中。

我们按层次结构构建驾驶理由,从粗粒度信息到细粒度信息分为四种类型:

(1)场景描述广泛描述了驾驶场景,包括天气、一天中的时间、交通情况和道路状况。

(2)关键对象是可能影响本车驾驶行为的在路上实体,我们需要模型识别它们的精确3D/BEV坐标。

(3)关键对象的行为描述描述了被识别关键对象的当前状态和意图。

(4)元驾驶决策包括12个高级驾驶决策类别,总结了根据先前观察给出的驾驶计划。

3、EMMA Generalist

虽然端到端运动规划是最终的核心任务,但一个全面的自动驾驶系统需要额外的能力。具体来说,它必须感知三维世界并识别周围的物体、道路图和交通状况。为了实现这一目标,我们将EMMA构建为一个能够通过训练混合体处理多个驾驶任务的Generalist模型。

我们的视觉语言框架将所有非传感器输入和输出表示为纯文本,提供了必要的灵活性,以纳入许多其他驾驶任务。我们采用指令微调这一在大型语言模型(LLMs)中广泛采用的成熟方法,共同训练所有任务,并结合输入方程式1中的特定任务提示。我们将这些任务组织成三个主要类别:空间推理、道路图估计和场景理解。

4、Generalist Training

我们的统一视觉-语言公式使得多个任务能够与单一模型同时训练,在推理时通过任务提示Ttask的简单变化进行特定任务的预测。训练过程既直接又灵活。
对于每个任务,我们构建一个包含|Dtask|个训练样本的数据集Dtask。在每次训练迭代中,我们从可用的数据集中随机抽取一批样本,选择特定数据集的样本概率与数据集大小成正比:即|Dtask|/t |Dt|。

实验与结果

实验细节

我们强调了用于验证EMMA模型有效性的实验。我们利用了Gemini团队Google发布的Gemini 1.0 Nano-1的最小尺寸,即所有实验都是使用Gemini 1.0 Nano-1进行的。我们首先在两个公共数据集上端到端规划器轨迹生成的结果。接下来,我们在内部数据集上进行额外的实验,研究思维链和数据规模对性能的影响。

定量实验结果

可视化结果


致谢

如果您觉得这篇文章对你有帮助或启发,请不吝点赞、在看、转发,让更多人受益。同时,欢迎给个星标⭐,以便第一时间收到我的最新推送。每一个互动都是对我最大的鼓励。让我们携手并进,共同探索未知,见证一个充满希望和伟大的未来!


技术交流

加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!

AI生成未来
领先的AIGC和具身智能、大模型技术交流社区,关注LLM、CV、深度学习、生成式等AI领域前沿技术
 最新文章