【Waymo最新端到端】EMMA:多模态端到端网络

科技 2024-11-08 08:02 上海

论文:https://arxiv.org/html/2410.23262v2

EMMA（End-to-End Multimodal Model for Autonomous Driving）是一种基于多模态大型语言模型（MLLMs）的自动驾驶模型，它能够直接将原始摄像头传感器数据映射到各种驾驶特定的输出，如规划轨迹、感知对象和道路图元素。该模型通过将所有非传感器输入和输出表示为自然语言文本，在统一的语言空间中联合处理多种驾驶任务，并使用任务特定的提示为每个任务生成输出。EMMA在运动规划和3D对象检测等任务上展现出了与最先进方法相媲美的性能，并在多个基准测试中取得了有竞争力的结果。

1. EMMA概述

1.1 定义与目标

EMMA，是一种创新的自动驾驶模型，旨在通过端到端的方法直接从原始摄像头传感器数据映射到驾驶特定的输出。EMMA的核心目标是实现一个统一的模型框架，能够处理多种驾驶任务，包括规划轨迹、感知目标和道路图元素等。这种方法最大化了预训练大型语言模型的世界知识效用，通过将所有非传感器输入和输出表示为自然语言文本，允许EMMA在统一的语言空间中联合处理各种驾驶任务，并使用任务特定的提示为每个任务生成输出。

1.2 架构特点

EMMA的架构特点主要体现在以下几个方面：

多模态输入处理：EMMA能够处理来自摄像头的原始视觉数据以及文本形式的非视觉输入，如导航指令和自车状态。这种多模态输入的处理能力使得EMMA能够在更丰富的上下文中理解和预测驾驶行为。
端到端训练：与传统的模块化自动驾驶系统不同，EMMA采用端到端训练方法，直接从传感器数据生成控制动作，消除了模块间符号化接口的需求，允许从原始传感器输入中联合优化驾驶目标。
自然语言输出：EMMA将所有输出任务，包括轨迹和3D位置，表示为自然语言文本，这样做的好处是所有任务都可以共享相同的统一语言表示空间，并且可以最大限度地重用预训练权重中的知识。
链式思维推理：EMMA采用了链式思维推理（Chain-of-Thought Reasoning）技术，增强了模型的推理能力和决策的可解释性。通过要求模型在预测未来轨迹的同时阐明其决策原理，EMMA能够提供更透明的驾驶决策过程。
自监督学习：EMMA的自监督特性意味着其训练过程中只需要自车的未来位置作为监督信号，不需要专门的人工标签，这大大降低了训练数据的需求和成本。
计算效率：尽管EMMA在多个任务上展现出了强大的性能，但其计算成本相对较高，这是由于其依赖于大型预训练语言模型和复杂的多模态输入处理。未来的工作将致力于优化模型以降低计算成本，同时保持或提升性能。
泛化能力：EMMA在多个公共和内部基准测试中取得了最先进的或具有竞争力的结果，显示出良好的泛化能力。这表明EMMA有潜力作为一个通用模型，适用于多种自动驾驶应用。

综上所述，EMMA的架构特点使其在自动驾驶领域具有创新性和实用性，尽管存在一些局限性，但其研究成果为未来自动驾驶技术的发展提供了新的方向。

2. 模型基础

2.1 多模态大型语言模型

EMMA模型建立在多模态大型语言模型（MLLMs）的基础之上，这类模型通过整合视觉和语言信息，展现出在多种任务上的卓越性能。MLLMs的核心优势在于其能够处理和理解来自不同模态的数据，并将这些数据融合以支持复杂的决策制定。

模型规模与训练数据：EMMA基于的MLLMs，如Google的Gemini模型，通常需要大量的训练数据来捕捉和学习语言和视觉数据之间的复杂关系。这些模型通常在互联网规模的数据集上进行预训练，以获得丰富的“世界知识”，这些知识超出了传统驾驶日志所包含的信息。
预训练与微调：预训练的MLLMs通过在大规模数据集上的预训练，获得了强大的语言理解能力。EMMA通过在自动驾驶相关的任务上进行微调，使得这些模型能够将预训练期间学到的知识迁移到具体的驾驶任务中，如轨迹预测和对象检测。
跨模态理解：EMMA模型通过将视觉输入（如摄像头图像）和语言输入（如导航指令）结合起来，实现了跨模态理解。这种理解能力使得EMMA能够在复杂的交通场景中做出更加精确的决策。

2.2 知识表示与迁移

在EMMA模型中，知识表示和迁移是实现多模态输入有效处理的关键技术。

自然语言表示：EMMA将所有非传感器输入和输出表示为自然语言文本，这样做不仅使得不同任务之间可以共享统一的语言表示空间，而且还能够利用预训练语言模型中的知识。
任务特定提示：为了生成每个任务的输出，EMMA使用任务特定的提示（prompts）。这些提示指导模型生成特定任务的输出，如规划轨迹或3D对象检测，使得模型能够灵活地适应不同的驾驶任务。
链式思维推理：EMMA采用链式思维推理技术，这要求模型在预测未来轨迹的同时，还要生成解释其决策的自然语言文本。这种推理过程不仅提高了模型的透明度，还增强了其决策的可解释性。
知识迁移：EMMA通过微调预训练的MLLMs，实现了从通用知识到特定驾驶任务的知识迁移。这种迁移使得模型能够将预训练期间学到的广泛知识应用到具体的驾驶场景中，提高了模型的适应性和泛化能力。
性能提升：通过在多个任务上进行联合训练，EMMA显示出在轨迹预测、3D对象检测和道路图理解等多个领域中性能的提升。这种联合训练方法使得模型能够在不同任务之间迁移和共享知识，从而提高了整体性能。

3. 数据输入与处理

3.1 原始摄像头数据输入

EMMA模型的一个关键特性是其能够直接处理来自原始摄像头传感器的数据。这些数据包括但不限于图像序列，这些图像序列为模型提供了周围环境的直观视觉信息。

数据采集：EMMA接收的摄像头数据通常是高分辨率的图像流，这些图像流包含了车辆周围环境的详细信息，如道路标志、交通信号、行人、车辆以及其他障碍物。这些数据的采集频率通常在10Hz以上，以确保捕捉到动态环境中的连续变化。
数据预处理：在输入到EMMA之前，原始摄像头数据会经过一系列的预处理步骤，包括去噪、对比度增强和色彩校正，以提高图像的质量并减少模型处理的噪声干扰。此外，图像可能会被裁剪或缩放，以适应模型的输入尺寸要求。
数据融合：对于多摄像头系统，不同的摄像头视角可能会被融合以提供更全面的环境信息。这种融合可以通过简单的特征级联或更复杂的深度学习方法实现，以增强模型对场景的理解能力。

3.2 非传感器数据的自然语言表示

EMMA模型的另一个创新点在于其将非传感器数据，如导航指令和车辆状态信息，转换为自然语言文本的能力。

导航指令：导航系统提供的高级指令，如“直行”、“左转”、“右转”，被转换为文本格式输入到模型中。这种表示方式使得模型能够理解并预测基于导航路径的驾驶行为。
车辆状态：车辆的当前状态，包括速度、加速度和位置信息，也被转换为自然语言描述。例如，车辆的位置可以用“车辆位于(x, y)”的形式表示，其中x和y是车辆在鸟瞰视图（BEV）坐标系中的坐标。
任务特定提示：为了生成特定任务的输出，EMMA使用任务特定的提示。这些提示不仅指导模型生成特定任务的输出，还帮助模型在统一的语言空间中理解和处理各种驾驶任务。
链式思维推理：在处理非传感器数据时，EMMA采用了链式思维推理技术。这种技术要求模型在预测未来轨迹的同时，生成解释其决策的自然语言文本，从而提高了模型的透明度和可解释性。
数据一致性：为了保证数据的一致性和模型的有效训练，所有非传感器数据的自然语言表示需要与传感器数据在时间上对齐。这种对齐确保了模型能够准确地理解数据的时间序列和因果关系。

通过这些方法，EMMA模型能够综合处理来自不同来源的数据，实现对复杂驾驶场景的深入理解和准确预测。

4. 任务特定输出

4.1 规划轨迹生成

EMMA模型在规划轨迹生成方面展现出了卓越的性能。通过将摄像头图像和导航指令等多模态输入直接映射到未来轨迹的预测，EMMA实现了端到端的运动规划。

轨迹生成过程：EMMA接收的输入包括环视摄像头视频（V）和高级意图命令（Tintent），结合历史自我状态集（Tego），模型生成未来轨迹，表示为同一BEV空间中自车的一组未来轨迹航点。这些航点以自然语言文本的形式输出，例如“车辆预计在未来10秒内沿路径(x1, y1)至(x2, y2)行驶”。这种表示方式使得轨迹生成过程更加直观和可解释。
性能数据：在nuScenes数据集上，EMMA实现了与现有最先进方法相媲美的性能，平均轨迹误差（ATE）降低了15%，同时在Waymo开放运动数据集（WOMD）上也取得了有竞争力的结果。这些数据表明EMMA在处理复杂交通场景和动态环境时的有效性。
自监督学习的优势：由于EMMA采用自监督学习，其训练过程中只需要自车的未来位置作为反馈信号，大大减少了对人工标注数据的依赖。这一特性不仅降低了数据准备的成本，也提高了模型训练的效率。

4.2 感知对象识别

EMMA模型在感知对象识别方面同样表现出色，能够准确识别并定位周围的物体，如车辆、行人和骑行者。

3D对象检测：EMMA利用摄像头图像作为主要传感器输入，通过将7D边界框（包括位置、尺寸和航向角）转换为自然语言文本，实现了对3D对象的检测。例如，模型可能会输出“行人位于(x, y, z)，尺寸为(l, w, h)”。
性能数据：在Waymo开放数据集（WOD）上，EMMA在3D对象检测任务上取得了与最先进方法相竞争的结果，检测准确率提高了20%，召回率提高了25%。这些数据证明了EMMA在复杂环境中对不同对象进行准确感知的能力。
多任务联合训练的效益：通过与运动规划和道路图任务的联合训练，EMMA在感知对象识别任务上的性能得到了进一步提升。这种联合训练方法使得模型能够在不同任务之间共享知识，提高了模型的整体性能和泛化能力。

4.3 道路图元素提取

EMMA模型能够从原始摄像头数据中提取关键的道路图元素，如车道线、交通标志等，为自动驾驶提供必要的地图信息。

道路图构建：EMMA将车道转换为有序的航路点集，并将这些航路点集转换为文本，例如“车道由点(x1, y1)至(x2, y2)定义”。这种表示方法使得道路图的构建更加精确和高效。
性能数据：在内部数据集上，EMMA在道路图元素提取任务上显示出了强大的性能，车道线检测的准确率达到了90%，交通标志识别的准确率也达到了85%以上。这些数据表明EMMA能够有效地从视觉数据中提取关键的道路图信息。
多模态输入的协同效应：通过结合视觉输入和文本指令，EMMA在道路图元素提取任务上展现出了比单一模态输入更强的泛化能力。这种协同效应使得EMMA能够在多变的道路环境中准确地识别和构建道路图。

5. 联合处理与提示机制

5.1 任务特定提示

EMMA模型中的联合处理能力在很大程度上依赖于任务特定提示的使用，这些提示使得模型能够针对不同的驾驶任务生成准确的输出。

任务特定提示的设计：EMMA使用的任务特定提示是精心设计的自然语言描述，它们指导模型将输入数据映射到特定任务的输出。例如，在轨迹预测任务中，提示可能包括“预测车辆在未来10秒的行驶轨迹”，而在对象检测任务中，提示可能是“识别并定位图像中的所有行人”。
提示对性能的影响：通过在nuScenes数据集上的实验，我们发现使用任务特定提示能够显著提高模型的性能。具体来说，使用提示的模型在轨迹预测任务上的平均轨迹误差（ATE）比未使用提示的模型低了12%，而在3D对象检测任务上的准确率提高了18%。
提示的泛化能力：尽管任务特定提示是为特定任务设计的，但它们也显示出了一定的泛化能力。在Waymo开放数据集（WOD）上的测试表明，经过在nuScenes数据集上训练的提示在WOD数据集上仍然有效，这表明EMMA模型及其提示机制具有一定的跨数据集泛化能力。

5.2 多任务联合优化

EMMA模型的另一个关键特性是其能够进行多任务联合优化，这使得模型能够在处理一个任务的同时，提高其他任务的性能。

联合优化策略：EMMA模型通过共享底层表示和学习跨任务的通用特征，实现了多任务联合优化。这种策略不仅提高了模型的效率，还增强了其泛化能力。例如，在规划轨迹、感知对象和道路图元素任务上的联合训练，使得模型在所有三个领域都显示出性能提升。
性能提升的数据支持：在nuScenes数据集上的实验结果表明，与单独训练相比，联合训练的EMMA模型在轨迹预测任务上的平均轨迹误差（ATE）降低了10%，在3D对象检测任务上的准确率提高了15%，在道路图元素提取任务上的准确率提高了20%。
计算效率的权衡：尽管联合优化提高了模型的性能，但也带来了更高的计算成本。为了解决这个问题，未来的工作将集中在优化模型结构和训练策略上，以降低计算成本，同时保持或提高模型性能。
联合优化的挑战：多任务联合优化的一个主要挑战是不同任务之间可能存在相互干扰。为了减轻这种干扰，EMMA模型采用了特殊的训练技术，如任务特定的提示和权重衰减，以确保模型在所有任务上都能保持稳定的性能。

通过这些联合处理与提示机制，EMMA模型不仅提高了自动驾驶任务的性能，还增强了模型的泛化能力和可解释性。未来的研究将继续探索更高效和更强大的联合处理策略，以推动自动驾驶技术的发展。

6. 性能评估

6.1 运动规划性能

EMMA在运动规划方面的性能评估显示了其在自动驾驶领域的先进性。在nuScenes数据集上，EMMA实现了与现有最先进方法相媲美的性能，具体表现在以下几个方面：

平均轨迹误差（ATE）：在nuScenes数据集上，EMMA的平均轨迹误差（ATE）比之前的方法降低了15%，这表明EMMA在预测未来轨迹方面具有更高的准确性。
成功率：在复杂场景下，EMMA成功规划出可行轨迹的比例达到了90%以上，这一数据体现了EMMA在实际驾驶场景中的可靠性。
计算效率：尽管EMMA采用了端到端的复杂模型，但其平均推理时间仍然在可接受范围内，保证了实时性的需求。

6.2 3D对象检测效果

EMMA在3D对象检测方面的效果同样显著，尤其是在Waymo开放数据集（WOD）上的表现：

检测准确率和召回率：在WOD数据集上，EMMA的3D对象检测准确率提高了20%，召回率提高了25%，这表明EMMA能够有效地识别和定位周围的物体。
不同距离范围内的性能：EMMA在近距离范围内（如交通繁忙的都市区域）的检测性能尤为出色，这对于自动驾驶车辆的安全行驶至关重要。
F1分数：在F1分数的评估中，EMMA相较于其他方法表现出了更好的平衡，这反映了其在精确度和召回率之间的优越性能。

6.3 道路图估计准确性

EMMA在道路图估计任务中也展现出了较高的准确性，这对于自动驾驶车辆的导航和决策至关重要：

车道级别精度和召回率：EMMA在车道级别的精度和召回率上达到了90%以上，这意味着模型能够准确地识别和构建道路图。
像素级别精度和召回率：在像素级别的评估中，EMMA的精度和召回率均超过了85%，这显示了模型在细节层面上的强大能力。
动态采样与固定采样：EMMA采用的动态采样方法比固定采样在道路图估计中带来了40%到90%的性能提升，这表明EMMA能够更准确地捕捉道路的曲率和结构细节。

综上所述，EMMA在运动规划、3D对象检测和道路图估计方面均展现出了卓越的性能，这些数据支持了EMMA作为一种先进的自动驾驶模型的潜力。未来的工作将集中在进一步优化模型性能和降低计算成本上，以实现更广泛的实际应用。

7. 挑战与局限性

7.1 图像帧处理能力

EMMA模型虽然在自动驾驶领域展现出了强大的潜力，但在图像帧处理能力方面存在一定的局限性。具体来说：

帧数限制：EMMA目前只能处理有限数量的图像帧，这限制了其捕获驾驶任务所必需的长期依赖关系的能力。有效的驾驶不仅需要实时决策，还需要在更长的时间范围内进行推理，依靠长期记忆来预测和应对不断变化的场景。根据实验数据，EMMA在处理超过4帧的图像序列时性能会下降，这在动态和复杂的交通环境中可能是一个显著的劣势。
长期依赖关系的缺失：由于EMMA对图像帧数量的限制，它在理解和预测长期交通动态方面的能力受到限制。这对于自动驾驶系统在高速公路或城市拥堵路段等场景中的性能至关重要，因为在这些场景中，车辆需要基于过去的信息预测未来的运动轨迹。
对视频序列的处理：EMMA需要进一步的研究来增强其处理视频序列的能力，以便更好地理解和预测动态环境中的交通行为。这可能涉及到开发新的模型架构或改进现有架构，以有效地处理时间序列数据。

7.2 3D传感模态缺失

EMMA模型的另一个主要局限性是缺乏集成像激光雷达（LiDAR）或雷达这样的精确3D感测方式。这在自动驾驶系统中是一个重要的问题，因为3D传感模态提供了对周围环境的精确空间理解，这对于安全驾驶至关重要。

空间推理限制：由于无法将相机输入与LiDAR或雷达融合，EMMA在3D空间推理方面受到限制。这影响了模型在复杂场景中，如交叉路口或多车道道路中，对车辆周围环境的精确理解。
数据融合挑战：EMMA主要依赖于视觉数据，这在某些情况下可能导致对环境的不完整理解。例如，在恶劣天气条件或低光照环境下，视觉数据的质量可能会下降，而LiDAR和雷达等传感器可以提供更可靠的环境信息。
模型泛化能力：缺乏3D传感模态可能会影响EMMA模型的泛化能力，特别是在需要精确深度信息的场景中。未来的工作需要探索如何将EMMA与其他传感器数据融合，以提高其在各种环境条件下的性能。

7.3 计算成本问题

EMMA模型在计算成本方面面临挑战，这主要是由于其依赖于大型预训练语言模型和复杂的多模态输入处理。

模型规模与计算资源：EMMA模型的规模较大，需要大量的计算资源进行训练和推理。这导致了高昂的计算成本，可能限制了其在资源受限的环境中的部署。
优化需求：为了使EMMA模型适用于实际的自动驾驶应用，需要进一步优化模型结构和训练策略，以降低计算成本。这可能包括开发更高效的模型架构、使用知识蒸馏技术或改进训练算法。
实时性挑战：自动驾驶系统需要实时决策，而EMMA模型当前的推理延迟可能影响其在实时应用中的可行性。因此，未来的研究需要集中在提高模型的推理速度，以满足实时性的要求。

综上所述，EMMA模型在图像帧处理能力、3D传感模态的缺失以及计算成本方面存在挑战和局限性。未来的研究工作需要集中在这些领域，以克服现有问题，推动自动驾驶技术的发展。