面向规划的自主驾驶

文摘汽车 2023-09-29 11:09 北京

编者按：UniAD 首次将感知、预测、规划等三大类主任务、六小类子任务(目标检测、目标跟踪、场景建图、轨迹预测、栅格预测和路径规划)整合到统一的端到端网络框架下，实现了全栈关键任务驾驶通用模型，是首个具备全栈关键任务的端到端自动驾驶模型，提出一个端到端的感知决策一体框架，融合了多任务联合学习的新范式，使进行更有效的信息交换，协调感知预测决策，以进一步提升路径规划能力，开创了以终极任务为全局优化目标的先例。在 nuScenes 真实场景数据集下，所有任务均达到领域SOTA，尤其是预测和规划效果远超之前最好方案。
通过多个共享BEV 特征的Transformer 网络首次将跟踪，建图，轨迹预测，占据栅格预测统一到一起，并且使用不依赖高精地图的Planner 作为一个最终的目标输出，同时使用规划结果作为整体训练的loss。虽然整体称为端到端，但是各个模块直接确实有着明显的界限和区隔，各个模块之间可以解耦，并非一个整体黑盒网络。各个模块间有相当的可解释性，为自动驾驶端到端的设计提供了一个很好的范本。

本文译自：

《Planning-oriented Autonomous Driving》

文章来源：

Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023: 17853-17862.

作者：

Yihan Hu^1,2, Jiazhi Yang¹, Li Chen¹, Keyu Li¹, Chonghao Sima¹, Xizhou Zhu^3,1, Siqi Chai², Senyao Du², Tianwei Lin², Wenhai Wang¹, Lewei Lu³, Xiaosong Jia¹, Qiang Liu², Jifeng Dai¹, Yu Qiao¹, Hongyang Li¹

作者单位：

1 上海人工智能实验室，OpenDriveLab和OpenGVLab平台

2 武汉大学

3 商汤科技

原文链接：

https://doi.org/10.48550/arXiv.2212.10156

代码链接：

https://github.com/OpenDriveLab/UniAD

摘要：现代自动驾驶系统的特点是按顺序执行模块化任务，即感知、预测和规划。为了执行广泛多样的任务并实现高级智能，目前的方法要么为单个任务部署独立模型，要么设计具有独立头部的多任务范式。然而，他们可能会受到误差累积或任务协调不足的影响。相反，我们认为，为了追求最终目标，即自动驾驶汽车的规划，应该设计和优化一个有利的框架。针对这一点，我们重新审视感知和预测，并对任务进行优先级排序，以便所有这些任务都有助于规划。我们提出了一个最新的综合框架——统一自动驾驶（UniAD），这个框架将全栈驾驶任务集成在一个网络中。它经过精心设计，可以利用每个模块的优势，并从全局角度为智能体交互提供互补的特性抽象。任务通过统一的查询接口进行通信，以便于彼此进行规划。我们在具有挑战性的nuScenes基准上测试了UniAD。通过广泛的消融实验，使用这种设计哲学的有效性被证明在各个方面都大大优于以前的最先进水平。代码和模型是公开的。

关键词：端到端自动驾驶, 联合训练 , 面向规划 , 多任务范式

1 引言

随着深度学习的成功发展，自动驾驶算法被组装成一系列任务，包括感知中的检测、跟踪、建图；以及预测中的运动预测和占用预测。如图1(a)所示，只要车载芯片的资源带宽允许，大多数工业界解决方案为每个任务部署独立的模型[68,71]。尽管这种设计简化了跨团队的研发难度，但由于优化目标的隔离，它存在信息丢失、误差积累和特征不对齐的问题[57,66,82]。

图1. 自动驾驶框架不同设计的比较。(a)大多数工业界解决方案为不同的任务部署独立的模型。(b)多任务学习方案与划分的任务头共享骨干网络。(c)端到端范式将感知和预测模块统一起来。先前的尝试要么在(c.1)中直接优化规划任务，要么在(c.2)中使用部分组件设计系统。相反，在（c.3）中，我们认为一个理想的系统应该以规划任务为导向，并正确组织之前的任务以促进规划。

一种更优雅的设计是将广泛多样的任务纳入多任务学习（MTL）范式中，通过将多个特定任务的头插入到共享的特征提取器中，如图1(b)所示。这是许多领域的常见做法，包括通用视觉[79,92,108]、自动驾驶[15,60,101,105]，例如Transfuser[20]、BEVerse [105]以及工业界产品，如Mobileye[68]、Tesla[87]、NVIDIA[71]等。在MTL中，跨任务的联合训练策略可以利用特征抽象；它可以轻松地扩展到其他任务，并为车载芯片节省计算成本。然而，这样的方案可能会导致不良的“负迁移”[23,64]。

表1. 任务比较和分类。“Design”列按照图1分类。“Det.”表示3D物体检测，“Map”表示在线建图，“Occ.”表示占用地图预测。†：这些工作不是直接提出用于规划的，但它们仍然具有联合感知和预测的设计理念。UniAD执行五个关键的驾驶任务以促进规划任务。

相比之下，端到端自动驾驶的出现 [11, 15, 19, 38, 97] 将感知、预测和规划等所有节点整合为一个整体。前置任务的选择和优先级应当以规划为导向来确定。系统应当以规划为中心，通过巧妙设计包含一定的组件，这样就可以避免独立选项中的累积误差，或者MTL方案中的负迁移。表1描述了不同框架设计的任务分类。

遵循端到端范式的方法之一是"tabula-rasa"实践，即直接预测规划后的轨迹，而不需要对感知和预测进行明确的监督，如图1(c.1)所示。先驱性的工作 [14, 16, 21, 22, 78, 95, 97, 106] 在封闭环模拟 [26] 中验证了这种基本设计。虽然这个方向值得进一步探索，但对于高度动态的城市场景来说，它在安全性保证和可解释性方面是不足的。在本文中，我们倾向于另一个角度，并提出以下问题：朝着一个可靠的、以规划为导向的自动驾驶系统，如何设计流程以支持规划？哪些前置任务是必要的？

一种直观的解决方案是明确感知周围对象、预测未来行为，并规划安全操纵，如图1(c.2)所示。现代方法 [11, 30, 38, 57, 82] 提供了很好的见解并取得了令人印象深刻的性能。然而，我们认为魔鬼在细节中；以前的工作或多或少地忽视了某些组件（见表1中的块(c.2)），与规划导向的精神相去甚远。我们在补充材料中详细阐述了这些模块的详细定义和术语，以及它们的必要性。

为此，我们引入了UniAD，一个统一的自动驾驶算法框架，以实现朝着安全稳健系统的目标。如图1(c.3)和表1(c.3)所示，UniAD的设计以规划为导向。我们认为这不是简单地堆叠任务，而是需要精心设计的组件来连接所有节点。与传统的边界框表示相比，查询受益于更大的感受野，可以减少上游预测的累积误差。此外，查询可以灵活地建模和编码各种交互，例如多个代理之间的关系。据我们所知，UniAD是第一个在自动驾驶领域全面研究感知、预测和规划等多种任务联合合作的工作。

其贡献总结如下：

(a) 我们采用规划导向的理念，提出了一个新的自动驾驶框架观点，并证明了有效的任务协调的必要性，而不是单独的设计或简单的多任务学习。
(b) 我们提出了UniAD，一个全面的端到端系统，利用广泛的任务。关键组件是查询设计，作为连接所有节点的接口。因此，UniAD具有灵活的中间表示，并在规划过程中交换多任务知识。
(c) 我们在具有现实场景的挑战性基准上实现了UniAD。通过大量的消融实验，我们验证了我们的方法在各个方面优于以前的最先进方法。

我们希望这项工作能为自动驾驶系统的目标驱动设计提供启示，为协调各种驾驶任务提供一个起点。

2 方法

概述。 如图2所示，UniAD包括四个基于Transformer解码器的感知和预测模块，以及一个规划器。查询Q在连接流程中发挥着重要作用，用于建模驾驶场景中实体的不同交互。具体而言，一系列多相机图像被输入到特征提取器中，得到的透视视图特征通过BEVFormer [55]中的现成BEV编码器转换为统一的鸟瞰图特征B。需要注意的是，UniAD并不局限于特定的BEV编码器，可以利用其他替代方案提取更丰富的BEV表示，包括长期时间融合 [31, 74] 或多模态融合 [58, 64] 的方法。在TrackFormer中，我们称为轨迹查询的可学习嵌入从B中获取有关代理信息，用于检测和跟踪代理。MapFormer使用地图查询作为道路元素（例如车道和隔离带）的语义抽象，并执行地图的全景分割。通过上述代表智能体和地图的查询，MotionFormer可以捕获智能体和地图之间的交互，并预测每个智能体的未来轨迹。由于每个智能体的行为会显著影响场景中的其他智能体，因此该模块对所考虑的所有智能体进行联合预测。同时，我们设计了一个自车查询来显式地对自车建模，并使其能够在这种以场景为中心的范式中与其他智能体进行交互。OccFormer采用BEV特征B作为查询，以每个智能体作为键和值，在保留智能体身份的情况下预测未来多步的空间占用情况。最后，Planner利用来自MotionFormer的自车查询来预测规划结果，并使自车远离OccFormer预测的占用区域，以避免碰撞。

图2 统一自动驾驶管道(UniAD)。它是按照面向规划的哲学精巧设计的。我们不是简单的任务堆栈，而是研究每个模块在感知和预测中的影响，利用联合优化从前面的节点到驾驶场景中的最终规划的好处。所有感知和预测模块都在变压器解码器结构中设计，任务查询作为连接每个节点的接口。考虑到从前面的节点中提取的知识，最后使用简单的基于注意力的规划器来预测自我车辆的未来航路点。占用率上的地图仅用于视觉目的。

2.1. Perception: Tracking and Mapping

TrackFormer 是一种联合执行检测和多目标跟踪（MOT）的方法，而无需进行不可微的后处理。受[100, 104]的启发，我们采用了类似的查询设计。除了在目标检测[8, 109]中使用的常规检测查询外，还引入了额外的跟踪查询以跟踪跨帧的代理。具体而言，在每个时间步骤中，初始化的检测查询负责检测第一次被感知到的新生智能体，而跟踪查询则继续对之前帧中检测到的智能体进行建模。检测查询和跟踪查询都通过关注BEV特征来捕获智能体的抽象信息。随着场景的不断演变，当前帧中的跟踪查询与之前记录的查询在自我注意力模块中交互以聚合时间信息，直到相应的智能体完全消失（在一定时间段内未被跟踪）。与[8]类似，TrackFormer包含层，最终的输出状态为下游预测任务提供了关于个有效智能体的信息。除了编码在自车周围其他智能体的查询，我们还引入了一个独特的自车查询去显式地对自车进行建模，以便之后用于规划模块。

MapFormer 是基于2D全景分割方法Panoptic SegFormer [56]设计的。我们将道路元素稀疏地表示为地图查询，以帮助下游的运动预测，并编码位置和结构知识。对于驾驶场景，我们将车道、隔离带和交叉口设置为things，可行驶区域设置为stuff[50]。MapFormer也有个堆叠层，每层的输出结果都受到监督，但只有最后一层中更新的查询会被传播到MotionFormer进行智能体-地图的交互。

2.2. Prediction: Motion Forecasting

最近的研究已经证明了Transformer结构在运动预测任务上的有效性[43,44,63,69,70,84,99]，受此启发，我们提出了端到端的MotionFormer。通过来自TrackFormer和MapFormer的高度抽象的动态智能体查询和静态地图查询，MotionFormer以场景为中心的方式预测所有智能体的多模态未来的运动，即top-k个可能的轨迹。这种范式通过单次前向传递在帧中生成多智能体的轨迹，大大节省了将整个场景与每个智能体的坐标对齐的计算成本[49]。同时，我们通过MotionFormer将来自TrackFormer的自车查询传递，以考虑未来的动态并使自车与其他智能体进行交互。形式上，输出运动被表示为其中表示智能体，表示轨迹的模态，是预测时间范围的长度。

MotionFormer 由层网络构成，每层捕捉了三种不同的交互：智能体-智能体，智能体-地图，智能体-目标点。对每个预测查询（稍后定义，在以下上下文中为简洁起见，我们省略下标，），它与其他智能体或地图元素之间的交互可以表示为：

其中，和分别表示多头交叉注意力和多头自注意力[91]。由于关注预期位置（即目标点）对于优化预测轨迹也非常重要，因此我们通过可变形注意力[109]设计了智能体-目标点注意力机制，如下所示：

其中是前一层预测轨迹的终点。可变形注意力模块接受查询、参考点和空间特征，并在参考点周围对空间特征执行稀疏注意力机制。通过这种方式，预测轨迹在考虑终点周围环境的情况下进一步细化。这三个交互并行建模，生成的，和被连接并传递到多层感知机(MLP)中，生成查询上下文。然后，被传递到后续层进行细化或在最后一层解码为预测结果。

运动查询。 MotionFormer每一层的输入查询称为运动查询，由两个部分组成：前一层产生的查询上下文和查询位置。具体来说，对位置知识进行了四重整合，如公式(3)所示：(1)场景级锚点的位置；(2) Agent级锚点的位置；(3)智能体的当前位置和(4)预测的目标点。

这里使用正弦位置编码和对位置点进行编码，并在第一层(下标,也被省略)中设置为。场景级锚点代表全局视角下的先验运动统计，而智能体级锚点捕捉局部坐标下的可能意图。两者均采用k-means算法对真实轨迹的端点进行聚类，以减小预测的不确定性。与先验知识相反，起始点为每个智能体提供定制的位置嵌入，预测的端点以由粗到精的方式作为动态锚点逐层优化。

非线性优化。 与传统的运动预测工作直接获得真实的感知结果，即智能体的位置和相应的轨迹不同，我们在端到端范式中考虑了来自先验模块的预测不确定性。从不完美的检测位置或航向角粗暴地回归地面真实航路点可能会导致大曲率和加速度的不切实际的轨迹预测。为了解决这个问题，我们采用非线性平滑器[7]来调整目标轨迹，并在上游模块预测的起始点不精确的情况下使其物理可行。其过程是：

其中""和""表示真实轨迹和平滑轨迹，由多重打靶[3]生成，代价函数如下：

式中：和为超参数，运动学函数集包含加加速度、曲率、曲率导数、加速度和侧向加速度5项。代价函数将目标轨迹正则化，使其服从运动学约束。这种目标轨迹优化只在训练中进行，不影响推理。

2.3. 预测：占有率预测

占用栅格地图是一个离散化的BEV表示，其中每个单元格都持有一个表示是否被占用的信念，而占用预测任务是发现栅格地图在未来是如何变化的。以往的方法利用RNN结构从观测到的BEV特征[35,38,105]中对未来预测进行时间扩展。然而，它们依赖于高度手工设计的聚类后处理来生成每个代理的占用图，因为它们大多是代理无关的，通过将BEV特征整体压缩到RNN隐藏状态。由于缺乏对智能体知识的利用，他们很难在全局范围内预测所有智能体的行为，这对于理解场景是如何演化的至关重要。为了解决这个问题，我们提出了OccFormer，在两个方面融合场景级和代理级语义：(1)稠密的场景特征在展开到未来视域时通过精心设计的注意力模块获得代理级特征；(2)通过代理级特征和稠密场景特征之间的矩阵乘法，我们很容易产生实例级占用率，而无需繁重的后处理。

OccFormer由序列块组成，其中表示预测时域。值得注意的是，在运动任务中，通常小于，这是因为密集表示占用的计算成本很高。每个分块将上一层的丰富代理特征和状态(稠密特征) 作为输入，综合考虑实例级和场景级信息，生成时步的。为了得到具有动力学和空间先验的智能体特征，我们在模态维度上对MotionFormer进行max-pool运动查询，记为，其中为特征维度。然后将其与上游轨迹查询和当前位置嵌入通过时间特定的MLP进行融合：

其中，表示拼接。对于场景级知识，为了训练效率，BEV特征被缩减到1/4分辨率以用作第一块输入。为了进一步节省训练记忆，每个块遵循下采样-上采样的方式，其中注意力模块在两者之间，以在1/8下采样特征处进行像素-智能理交互，表示为。

像素-智能体交互 旨在预测未来占用率时统一场景和智能理级别的理解。我们将密集特征作为查询，将实例级特征作为键和值，以随着时间的推移更新密集特征。详细地说，通过自注意力层来对远处网格之间的响应进行建模，然后交叉注意力层对智能理特征和每个网格特征之间的交互进行建模。此外，受[17]的启发，为了对齐像素-智能理的对应关系，我们通过一个注意力掩码来约束交叉注意力，该掩码限制每个像素仅查看在时间步长占据它的智能体。密集特征的更新过程公式：

注意力掩码在语义上类似于占用，并且是通过将额外的智能体级特征和密集特征相乘而生成的，其中，我们将智能体级特征在这里命名为掩码特征。在等式(7)的交互过程之后，被上采样到的尺寸的1/4。我们进一步将块输入和相加作为残差连接，并且将得到的特征传递到下一个块。

实例级占用率。 它表示每个智能体的身份都被保留的占用情况。它可以简单地通过矩阵乘法描绘，就像最近基于查询的分割工作[18, 52]一样。形式上，为了得到BEV特征的原始尺寸的占用预测，场景级特征通过一个卷积解码器上采样为，其中是通道维度。对于智能级特征，我们进一步通过另一个MLP将粗掩模特征更新为占用特征。根据经验我们发现，从掩模特征而不是原始智能体特征生成导致出色的性能。时间步长的最终实例级占用率为：

2.4. 规划

没有高清(HD)地图或预定义路线的规划通常需要一个高级命令来指示前进方向[11, 38]。接下来，我们将原始导航信号（即向左、向右和保持前进）转换为三个可学习的嵌入，称为命令嵌入。由于MotionFormer的本车查询已经表达了其多模态意图，我们为其配备了命令嵌入，形成了一个“计划查询”。我们打算对BEV特征的计划进行查询，使其了解周围环境，然后将其解码为未来的路点。

为了进一步避免碰撞，在推理过程中，我们基于牛顿方法优化，公式如下：

其中，是原始规划预测，表示优化后的规划，该规划是从多重射击[3]轨迹中选择的，以最小化代价函数。是从OccFormer的实例占用预测合并而来的经典二进制占用图。代价函数的计算公式为：

其中，,和是超参数，表示未来视野的时间步长。成本将轨迹拉向原始预测的轨迹，而碰撞项将其推离已占用的网格，考虑到周围位置被限制在。

2.5. 学习

UniAD分两个阶段进行训练。我们首先联合训练几个周期的感知部分，即跟踪和映射模块（在我们的实验中为6个周期），然后使用所有感知、预测和规划模块端到端地训练20个周期的模型。经验发现，两个阶段的训练更加稳定。我们将详细地向读者介绍每一个损失函数。

共享匹配 由于UniAD涉及实例建模，因此在感知和预测任务中需要将预测与地面实况集配对。与DETR [8，56]类似，在跟踪和在线映射阶段采用二分匹配算法。至于跟踪，来自检测查询的候选者与新生的地面实况对象配对，并且来自跟踪查询的预测继承来自先前帧的分配。跟踪模块中的匹配结果在运动和占用节点中被重复使用，以在端到端框架中从历史轨迹到未来运动一致地建模代理。

表2. 关于每项任务有效性的详细消融。我们可以得出结论，两个感知子任务极大地帮助运动预测，预测性能也受益于统一的两个预测模块。通过所有先前的表示，我们的目标规划显著提高，以确保安全。UniAD算法在预测和规划任务方面的性能优于朴素MTL算法，并且具有感知性能不会出现显著下降的优势。为了简洁起见，仅示出了主要度量。“avg.L2”和“avg.Col”是整个计划范围内的平均值。* ：ID-0是MTL方案，每个任务都有单独的头。

3 实验

我们在具有挑战性的nuScenes数据集上进行了实验[6]。在本节中，我们将从三个方面验证设计的有效性：揭示了任务协调优势的联合结果及其对规划的影响，模块化的每个任务的结果与以前方法的比较以及具体模块的设计空间的消融。由于篇幅有限，补充报告中提供了全套方案、一些消融和可视化。

3.1联合成果

我们进行了如表2所示的广泛消融，以证明端到端管道中前述任务的有效性和必要性。此表的每一行都显示了合并第二个模块列中列出的任务模块时的模型性能。第一行（ID-0）用作普通多任务基线，其中包含用于比较的单独任务头。每个指标的最佳结果以粗体标记，亚军结果在每列中以下划线标出。

安全规划路线图 由于预测与感知相比更接近于规划，因此我们首先研究了我们框架中的两种类型的预测任务，即运动预测和占用预测。在实验10-12中，只有当两个任务同时引入时（实验12），与没有任何中间任务的朴素端到端规划相比（实验10，图1（c.1）），规划L2和冲突率的度量都实现了最佳结果。因此，我们的结论是，这两个预测任务都需要一个安全的规划目标。退一步说，在实验7 -9中，我们展示了两种类型的预测的协同效应。当它们紧密结合时，两个任务的性能得到改善（实验9，-3.5%minADE，-5.8%minFDE，-1.3MR（%），+2.4IoUf.（%），+2. 4VPQ-f.（%）），这表明有必要包括代理和场景表示。同时，为了实现上级的运动预测性能,我们将在实验4 -6中探讨感知模块的作用。值得注意的是，合并跟踪和映射节点两者带来了对预测结果的显著改善（-9.7%minADE，-12.9%minFDE，-2.3MR（%））。我们还提出了实验1 -3，这表明训练感知子任务一起引起可比较的结果变为一个单一的任务。此外，与朴素多任务学习（实验0，图1（b））相比，实验12在所有基本指标中显著优于它（-15.2% minADE，17.0% minFDE，-3.2MR（%）），+4. 9 IoU-f.（%）.，+5.9 VPQf.（%），-0.15mavg.L2，-0.51平均Col.（%）），显示了我们规划导向设计的优越性。

3.2模块化结果

按照感知预测规划的顺序，与nuScenes验证集上的现有技术相比，我们报告了每个任务模块的性能。请注意，UniAD通过单个训练网络联合执行所有这些任务。每个任务的主要指标在表格中以灰色背景标记。

感知结果。对于表3中的多目标跟踪，与MUTR3D[104]和ViP3D[30]相比，UniAD分别产生了+6.5和+14.2AMOTA(%)的显着改进。此外，UniAD获得了最低的ID切换分数，显示了每个tracklet的时间一致性。对于表4中的在线地图，UniAD在分段车道上表现良好（与BEVFormer相比，+7.4IoU(%)），这对于运动模块中的下游智能道路交互至关重要。由于我们的跟踪模块遵循端到端范例，它仍然不如具有复杂关联的检测跟踪方法，例如Immortal Tracker[93]，并且我们的映射结果落后于之前针对特定类别的面向感知的方法。我们认为UniAD是通过感知信息来促进最终规划，而不是通过完整的模型能力来优化感知。

表3 多目标跟踪。UniAD在所有指标上都优于以前的端到端MOT技术（仅使用图像输入）。†：带有后关联的检测跟踪方法，用BEVFormer重新实现以进行公平比较。

表4 在线地图。UniAD凭借全面的道路语义，实现了与最先进的感知导向方法的竞争性能。我们报告分割IoU(%)。†：用BEVFormer重新实现。

预测结果。运动预测结果如表5所示，其中UniAD明显优于之前基于视觉的端到端方法。与PnPNet-vision[57]和ViP3D[30]相比，它在minADE上的预测误差分别减少了38.3%和65.4%。就表6中报告的占用率预测而言，UniAD在附近区域取得了显着的进步，与大量增强的FIERY[35]和BEVerse[105]相比，在IoU-near(%)上分别获得了+4.0和+2.0。

表5 运动预测。UniAD的性能明显优于之前基于视觉的端到端方法。我们还报告了具有恒定位置或速度的建模车辆的两种设置作为比较。†：用BEVFormer重新实现。

表6 占用率预测。UniAD在附近地区取得了显着改善，这对规划更为重要。“n.”和“f.”分别表示近（30×30m）和远（50×50m）评价范围。†：经过大量增强训练。

规划结果。受益于自我车辆查询和占用中丰富的时空信息，UniAD与ST-P3[38]相比，就规划范围的平均值而言，将规划L2错误和碰撞率降低了51.2%和56.3%。此外，它的性能明显优于几种基于激光雷达的同类产品，这通常被认为对感知任务具有挑战性。

表7 规划。UniAD在所有时间间隔内实现了最低的L2错误和碰撞率，甚至在大多数情况下优于基于LiDAR的方法(†)，验证了我们系统的安全性。

表8 为运动预测模块中的设计进行消融。所有的部件都对最终的性能做出贡献。“Scenel. Anch.”表示旋转的场景级锚点。"Goal Inter. '表示车-目标点的交互。" Ego Q '代表自我车辆查询，' NLO '是非线性优化策略。∗：一个同时考虑检测和预测精度的度量，我们在附录中给出了详细的说明。

3.3.定性结果

图3可视化了一个复杂场景的所有任务的结果。自我车辆驾驶时会注意到前方车辆和车道的潜在运动。在补充材料中，我们展示了更多具有挑战性的场景的可视化和面向规划的设计的一个有希望的案例，即先前模块中出现不准确的结果，而后面的任务仍然可以恢复，例如，尽管对象具有较大的航向，但计划的轨迹仍然是合理的角度偏差或跟踪结果无法检测到。此外，我们分析UniAD的故障案例主要是在一些长尾场景下，例如大卡车和拖车，如补充材料中所示。

图3 可视化结果。我们展示了环视图像和BEV中所有任务的结果。运动和占用模块的预测是一致的，在这种情况下，自我车辆屈服于前面的黑色汽车。每个特工都以独特的颜色进行说明。仅选择来自运动预测的top-1和top-3轨迹分别用于图像视图和BEV上的可视化。

3.4 消融实验

MotionFormer模型的设计影响。表格8显示，我们在第2.2节中描述的所有提出的组件都对minADE、minFDE、Miss Rate和minFDE-mAP指标的最终性能做出了贡献。值得注意的是，旋转的场景级锚点显示出了显著的性能提升（-15.8%的minADE，-11.2%的minFDE，+1.9的minFDE-mAP(%)），这表明以场景为中心进行运动预测是必要的。代理-目标点交互将运动查询与面向规划的视觉特征相结合，周围的代理可以进一步从考虑自车意图中受益。此外，非线性优化策略通过在端到端场景中考虑感知不确定性来提高性能（-5.0%的minADE，-8.4%的minFDE，-1.0的MR(%)，+0.7的minFDE-mAP(%)）。

OccFormer模型的设计影响。如表9所示，没有考虑局部约束条件，将每个像素都与所有代理进行关联（Exp.2）会导致性能略微下降，与无关注机制的基准模型（Exp.1）相比。而基于占据情况的关注掩码解决了这个问题，并带来了收益，特别是对于附近区域（Exp.3，+1.0的IoU-n.(%)，+1.4的VPQ-n.(%)）。此外，重复使用掩码特征Mt来获取占据特征，而不是代理特征，进一步提高了性能。

Planner的设计影响。我们在表格10中对规划器中提出的设计进行了消融实验，包括关注BEV特征、使用碰撞损失进行训练以及采用占据优化策略。与先前的研究[37, 38]类似，对于安全性而言，更低的碰撞率优于简单的轨迹复制（L2度量），并且在UniAD中应用了所有部分后，碰撞率得到了降低。

图3 可视化结果。我们展示了环视图像和BEV中所有任务的结果。运动和占据模块的预测是一致的，在这种情况下，自车正在让前方的黑色汽车。每个代理都用不同的颜色表示。仅在图像视图和BEV上选择来自运动预测的前1和前3条轨迹进行可视化。

表9 占据预测模块设计的消融实验。使用掩码的交叉注意力和掩码特征的重复使用有助于提高预测性能。“Cross. Attn.”和“Attn. Mask”分别表示像素-代理交互中的交叉注意力和注意力掩码。“Mask Feat.”表示实例级占据的掩码特征的重复使用。

表10 规划模块设计的消融实验。结果表明了每个前置任务的必要性。“BEV Att.”表示关注BEV特征。“Col. Loss”表示碰撞损失。“Occ. Optim.”是基于占据情况的优化策略。

4 总结和未来工作

我们讨论了自动驾驶算法框架的系统级设计。提出了面向规划的流水线，旨在最终追求规划，即UniAD。我们对感知和预测中每个模块的必要性进行了详细分析。为了统一任务，提出了基于查询的设计，以连接UniAD中的所有节点，从而受益于环境中代理交互的更丰富表示。广泛的实验验证了所提出的方法在各个方面的有效性。

局限性和未来工作。协调具有多个任务的综合系统是非常困难的，需要大量的计算能力，特别是在使用时序历史数据进行训练时。如何设计和优化系统以实现轻量级部署，值得未来的探索。此外，是否将更多的任务，如深度估计、行为预测等，纳入到系统中，以及如何将它们嵌入到系统中，也是值得未来探索的方向。

致谢。本工作部分得到了国家重点研发计划（2022ZD0160100）的支持，以及上海市科技委员会（21DZ1100100）和国家自然科学基金委员会（62206172）的资助。

参考文献

联系人：唐老师

电话：13917148827

邮箱：tangyanqin@tongji.edu.cn

点“阅读原文”获取论文

http://mp.weixin.qq.com/s?__biz=MzU4OTU1MjcyMw==&mid=2247519654&idx=1&sn=cd626b9b862f57108b30f7b8a41ef7e1

同济智能汽车研究所

同济智能汽车研究所公共信息展示平台