论文名:EMMA: End-to-End Multimodal Modelfor Autonomous Driving
论文链接:https://arxiv.org/pdf/2410.23262.pdf
引言
近年来,自动驾驶技术取得了显著进展。为了使自动驾驶车辆成为无处不在的交通形式,它们必须导航越来越复杂的现实世界场景,这些场景需要理解丰富的场景上下文以及复杂的推理和决策。端到端自动驾驶系统最近作为潜在解决方案出现,直接从传感器数据中学习生成驾驶动作。这种方法消除了模块之间需要符号接口的需求,并允许从原始传感器输入中联合优化驾驶目标。然而,这些系统通常是为特定驾驶任务专门设计的,并在有限的训练数据集上训练,阻碍了它们泛化到罕见或新颖场景的能力。多模态大型语言模型(MLLMs)为自动驾驶中的AI提供了一个有前景的新范式,可能有助于解决这些挑战。
简介
我们介绍了EMMA,一个端到端的自动驾驶多模态模型。基于多模态大型语言模型的基础,EMMA直接将原始相机传感器数据映射到各种特定于驾驶的输出中,包括规划器轨迹、感知对象和道路图元素。EMMA通过将所有非传感器输入(例如导航指令和自我车辆状态)和输出(例如轨迹和3D位置)表示为自然语言文本,最大化了预训练大型语言模型的世界知识效用。这种方法允许EMMA在统一的语言空间中联合处理各种驾驶任务,并使用特定于任务的提示生成每个任务的输出。实证上,我们通过实现在nuScenes上的运动规划达到最先进性能以及在Waymo开放运动数据集(WOMD)上的竞争性结果来证明EMMA的有效性。EMMA还在Waymo开放数据集(WOD)上的相机主导的3D物体检测上取得了有竞争力的结果。我们展示了与规划器轨迹、物体检测和道路图任务共同训练EMMA在所有三个领域都产生了改进,突出了EMMA作为自动驾驶应用通用模型的潜力。然而,EMMA也存在一些局限性:它只能处理少量的图像帧,没有集成像激光雷达或雷达这样的精确3D感测方式,而且在计算上也很昂贵。我们希望我们的结果能够激发进一步的研究,以减轻这些问题,并推动自动驾驶模型架构的进一步发展。
方法与模型
EMMA建立在Gemini之上,这是一个由谷歌开发的MLLM家族。我们利用自回归的Gemini模型,这些模型经过训练以处理交织的文本和视觉输入,以产生文本输出。
我们将自动驾驶任务映射到基于Gemini的EMMA公式中。所有传感器数据都表示为缝纫图像或视频作为V;所有路由器命令、驾驶上下文和特定任务的提示都表示为T;所有输出任务都呈现为语言输出O。一个挑战是许多输入和输出需要捕获3D世界坐标,例如运动规划中的航点BEV(鸟瞰视图)位置(x, y)以及3D盒子的位置和大小。我们选择文本表示,以便所有任务都能共享相同的统一语言表示空间,并且它们可以最大限度地重用预训练权重中的知识,即使文本呈现可能产生的标记数超过专门的标记化。
1、端到端运动规划
EMMA采用统一的、端到端的训练模型,直接从传感器数据生成自动驾驶车辆的未来轨迹。然后,这些生成的轨迹被转换为特定于车辆的控制动作,如加速和转向,用于自动驾驶车辆。EMMA的端到端方法旨在模拟人类驾驶行为,重点关注两个关键方面:(1)首先,使用导航系统(例如谷歌地图)进行路线规划和意图确定;(2)其次,利用过去的行为来确保在时间上平稳一致的驾驶。
我们的模型包含三个关键输入,以与这些人类驾驶行为保持一致:
(1)周围视图摄像头视频(V):提供全面的环境信息。
(2)高级意图命令(Tintent):源自路由器,包括指令如“直行”、“左转”、“右转”等。
(3)历史自我状态集(Tego):以鸟瞰视角(BEV)空间的一组航点坐标表示,Tego = {(xt, yt)}−Tht=−1 对于Th时间戳。所有航点坐标都以纯文本形式表示,不使用专门的标记。这也可以扩展以包括更高阶的自我状态,如速度和加速度。
模型生成未来轨迹,用于运动规划,表示为同一BEV空间中本车未来的轨迹航点集合,其中所有输出航点也以纯文本形式表示。
2、使用链式思维推理进行规划
链式思维提示[Wei等人,2022]是MLLM中的一个强大工具,它增强了推理能力并提高了可解释性。在EMMA中,我们通过要求模型在预测最终的未来轨迹航点Otrajectory的同时,阐述其决策理由Orationale,将链式思维推理整合到端到端规划器轨迹生成中。
我们按层次结构构建驾驶理由,从粗粒度信息到细粒度信息分为四种类型:
(1)场景描述广泛描述了驾驶场景,包括天气、一天中的时间、交通情况和道路状况。
(2)关键对象是可能影响本车驾驶行为的在路上实体,我们需要模型识别它们的精确3D/BEV坐标。
(3)关键对象的行为描述描述了被识别关键对象的当前状态和意图。
(4)元驾驶决策包括12个高级驾驶决策类别,总结了根据先前观察给出的驾驶计划。
3、EMMA Generalist
虽然端到端运动规划是最终的核心任务,但一个全面的自动驾驶系统需要额外的能力。具体来说,它必须感知三维世界并识别周围的物体、道路图和交通状况。为了实现这一目标,我们将EMMA构建为一个能够通过训练混合体处理多个驾驶任务的Generalist模型。
我们的视觉语言框架将所有非传感器输入和输出表示为纯文本,提供了必要的灵活性,以纳入许多其他驾驶任务。我们采用指令微调这一在大型语言模型(LLMs)中广泛采用的成熟方法,共同训练所有任务,并结合输入方程式1中的特定任务提示。我们将这些任务组织成三个主要类别:空间推理、道路图估计和场景理解。
4、Generalist Training
我们的统一视觉-语言公式使得多个任务能够与单一模型同时训练,在推理时通过任务提示Ttask的简单变化进行特定任务的预测。训练过程既直接又灵活。
对于每个任务,我们构建一个包含|Dtask|个训练样本的数据集Dtask。在每次训练迭代中,我们从可用的数据集中随机抽取一批样本,选择特定数据集的样本概率与数据集大小成正比:即|Dtask|/t |Dt|。
实验与结果
实验细节
我们强调了用于验证EMMA模型有效性的实验。我们利用了Gemini团队Google发布的Gemini 1.0 Nano-1的最小尺寸,即所有实验都是使用Gemini 1.0 Nano-1进行的。我们首先在两个公共数据集上端到端规划器轨迹生成的结果。接下来,我们在内部数据集上进行额外的实验,研究思维链和数据规模对性能的影响。
定量实验结果
可视化结果
致谢
如果您觉得这篇文章对你有帮助或启发,请不吝点赞、在看、转发,让更多人受益。同时,欢迎给个星标⭐,以便第一时间收到我的最新推送。每一个互动都是对我最大的鼓励。让我们携手并进,共同探索未知,见证一个充满希望和伟大的未来!
技术交流
加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!