清华 && 地平线 SparseDrive:重新定义端到端自动驾驶任务设计,所有任务都超过 SOTA 的方法!

汽车   2024-06-20 07:00   上海  

来源:智驾实验室 | 首图图源:网络
全文 6500+ 字,预计阅 35-40 分钟
进群交流:点此处


已建立的模块化自动驾驶系统被分解为不同的独立任务,例如感知、预测和规划,这些模块之间存在信息丢失和错误累积的问题。

相比之下,端到端范式将多任务统一到一个完全可微分的框架中,能够以规划为导向进行优化。

尽管端到端范式具有巨大潜力,但现有方法在性能和效率方面均不尽人意,特别是在规划安全性方面。作者将这归因于计算昂贵的鸟瞰图(BEV)特征以及预测和规划的直接设计。为此,作者探索了稀疏表示并重新审视了端到端自动驾驶的任务设计,提出了一个名为SparseDrive的新范式。

具体来说,SparseDrive包括一个对称稀疏感知模块和一个并行运动规划器。稀疏感知模块通过对称的模型架构统一了检测、跟踪和在线建图,学习驾驶场景的完全稀疏表示。对于运动预测和规划,作者审视了这两个任务之间的巨大相似性,导致了运动规划器的并行设计。

基于这种并行设计,将规划建模为一个多模态问题,作者提出了一种分层规划选择策略,其中包含一个考虑碰撞的重评分模块,以选择合理且安全的轨迹作为最终的规划输出。

凭借这些有效的设计,SparseDrive在所有任务上的性能都超过了先前最先进的方法,同时实现了更高的训练和推理效率。

代码将可在https://github.com/swc-17/SparseDrive获取,以促进未来的研究。

1 Introduction

传统的自动驾驶系统特点是按顺序排列的模块化任务。虽然在解释和错误跟踪方面有利,但这不可避免地导致信息在连续模块间丢失和累积错误,从而限制了系统的最佳性能潜力。

近期,端到端的驾驶范式作为一个有前景的研究方向出现。这种范式将所有任务整合到一个整体模型中,并可以针对最终的规划追求进行优化。然而,现有的方法[15; 20]在性能和效率方面并不令人满意。一方面,先前的方法依赖于计算昂贵的鸟瞰图(BEV)特征。另一方面,对于预测和规划的直接设计限制了模型性能。作者在图1a中将先前的方法总结为BEV中心范式。

为了充分利用端到端范式的潜力,作者回顾了现有方法的任务设计,并认为以下三个主要平行线在运动预测和规划中被忽视:一是旨在预测周围代理和自我车辆的未来轨迹,运动预测和规划都应考虑道路代理之间的高阶和双向交互。然而,先前的方法通常采用对运动预测和规划的顺序设计,忽略了自我车辆对周围代理的影响。二是准确预测未来轨迹需要用于场景理解的语义信息以及预测代理未来运动的几何信息,这些信息适用于运动预测和规划。尽管这些信息在上游感知任务中针对周围代理提取,但对于自我车辆却被忽视了。三是运动预测和规划都是具有内在不确定性的多模态问题,但先前的方法仅对规划预测确定性轨迹。

为此,作者提出了SparseDrive,一个如图1(b)所示的稀疏中心范式。具体来说,SparseDrive由一个对称稀疏感知模块和一个并行运动规划器组成。通过对解耦的实例特征和几何 Anchor 作为一个实例(一个动态道路代理或一个静态地图元素)的完整表示,对称稀疏感知用对称的模型架构统一了检测、跟踪和在线映射任务,学习了一个完全稀疏的场景表示。在并行运动规划器中,首先从自我实例初始化模块获得一个语义和几何感知的自我实例。利用稀疏感知的自我实例和周围代理实例,同时进行运动预测和规划,以获得所有道路代理的多模态轨迹。为了确保规划的合理性和安全性,应用了一个包含碰撞感知资源模块的分层规划选择策略,从多模态轨迹 Proposal 中选择最终的规划轨迹。

通过上述有效设计,SparseDrive释放了端到端自动驾驶的巨大潜力,如图1(c)所示。在没有花哨的装饰下,作者的基础模型SparseDrive-B,将平均L2误差降低了19.4%(0.58m对0.72m)并将碰撞率降低了71.4%(0.06%对0.21%)。与先前的SOTA(最先进)方法UniAD[15]相比,作者的小型模型SparseDrive-S在所有任务中实现了更优越的性能,同时训练速度提高了7.2倍(20小时对144小时)和推理速度提高了5.0倍(9.0 FPS对1.8 FPS)。

作者工作的主要贡献总结如下:

  • 作者探索了端到端自动驾驶的稀疏场景表示,并提出了一种名为SparseDrive的稀疏中心范式,该范式用稀疏实例表示统一了多个任务。

  • 作者修订了运动预测和规划之间的高度相似性,相应地导致了运动规划器的并行设计。作者进一步提出了一个包含碰撞感知重打分模块的分层规划选择策略,以提高规划性能。

  • 在具有挑战性的nuScenes[1]基准测试中,SparseDrive在所有指标上都超过了先前的SOTA方法,尤其是在安全关键的碰撞率指标上,同时保持了更高的训练和推理效率。

2 相关工作

Multi-view 3D Detection

多视角3D检测是自动驾驶系统安全的先决条件。LSS[42]利用深度估计将图像特征提升到3D空间,并将特征溅射到BEV平面。后续工作将提升-溅射操作应用到3D检测领域,并在准确性和效率[37; 17]方面取得了显著改进。一些研究[26; 48; 21; 5]预先定义一组BEV Query ,并将它们投影到透视视图中进行特征采样。另一条研究线路移除了对密集BEV特征的依赖。PETR系列[35; 36; 47]引入了3D位置编码和全局注意力来隐式学习视角转换。Sparse4D系列[31; 32; 33]在3D空间中设置明确的 Anchor 点,将它们投影到图像视图中以聚合局部特征,并以迭代的方式细化 Anchor 点。

End-to-End Tracking

大多数多目标跟踪(MOT)方法采用了检测后跟踪的方式,这种方式依赖于数据关联等后处理步骤。这样的流程不能完全发挥神经网络的潜力。受到[2]中目标 Query 的启发,一些研究[52; 55; 50; 41; 46; 54]引入了跟踪 Query 来以流式方式建模被跟踪的实例。MOTR[52]提出了轨道感知标签分配,它强制跟踪 Query 持续检测同一个目标,并且存在检测与关联[55; 50]之间的冲突。Sparse4Dv3证明了时间传播的实例已经具有身份一致性,并且通过一个简单的ID分配过程实现了最先进的跟踪性能。

Online Mapping

在线映射被提出作为高清地图的替代方案,因为高清地图的构建成本高昂且需要大量的人力。HDMapNet[23] 将鸟瞰图(BEV)语义分割与后处理组合起来,以获得向量化的地图实例。VectorMapNet[34] 利用两阶段的自回归 Transformer 进行在线地图构建。MapTR[29] 将地图元素建模为等效排列的点集,从而避免了地图元素定义的歧义。BeMapNet 采用分段贝塞尔曲线来描述地图元素的细节。StreamMapNet[51] 引入了鸟瞰图(BEV)融合和 Query 传播以进行时间建模。

End-to-End Motion Prediction

提出端到端的运动预测方法以避免传统流水线中的级联错误。FaF[40]使用单个卷积网络来预测当前和未来的边界框。IntentNet[3]更进一步,推理高层行为和长期轨迹。PnPNet[28]引入了一个在线跟踪模块,以聚集轨迹 Level 的特征来进行运动预测。ViP3D[10]使用代理 Query 进行跟踪和预测,输入为图像和高清地图。PIP[19]用局部向量地图取代了人工标注的高清地图。

End-to-End Planning

自上世纪以来,端到端规划的研究一直在进行中[43]。早期的工作[6; 7; 44]省略了如感知和运动预测等中间任务,这些任务缺乏可解释性且难以优化。一些研究[14; 4; 45; 8]通过从感知或预测结果构建显式成本图来增强可解释性,但依赖于手工制定的规则来选择具有最小成本的最佳轨迹。最近,UniAD[15]提出了一种统一的 Query 设计,将各种任务整合到一个目标导向的模型中,在感知、预测和规划方面取得了显著性能。VAD[20]使用向量化的表示进行场景学习和规划约束。GraphAD[56]利用图模型处理交通场景中的复杂交互。FusionAD[49]将端到端驾驶扩展到多传感器输入。然而,先前的方法主要关注场景学习,对预测和规划采用了直接的设计,没有充分考虑这两项任务的相似性,极大地限制了性能。

3 Method

Overview

稀疏驱动(SparseDrive)的总体框架如图2所示。具体来说,稀疏驱动由三部分组成:图像编码器、对称稀疏感知和平行运动规划器。给定多视角图像,图像编码器(包括一个 Backbone 网络和一个 Neck )首先将图像编码为多视角多尺度特征图 ,其中 是尺度数量, 是相机视角数量。在对称稀疏感知模块中,特征图 被聚集成两组实例,以学习驾驶场景的稀疏表示。这两组实例分别代表周围代理和地图元素,被送入平行运动规划器与初始化的自身实例进行交互。运动规划器同时预测周围代理和自车多模态轨迹,并通过分层规划选择策略选择一条安全轨迹作为最终的规划结果。

img

Symmetric Sparse Perception

如图3所示,稀疏感知模块的模型结构展现出结构对称性,将检测、跟踪和在线映射统一在一起。

稀疏检测。周围的代理由一组实例特征 和 Anchor 框 表示,其中 是 Anchor 的数量, 是特征通道维度。每个 Anchor 框以位置、尺寸、偏航角和速度的格式表示:

稀疏检测分支由 个解码器组成,包括一个单一的非时间解码器和 个时间解码器。每个解码器接收特征图 、实例特征 和 Anchor 框 作为输入,输出更新的实例特征和精炼的 Anchor 框。非时间解码器接收随机初始化的实例作为输入,而时间解码器的输入来自当前帧和历史帧。具体来说,非时间解码器包括三个子模块:可变形聚合、前馈网络(FFN)以及用于精炼和分类的输出层。可变形聚合模块围绕 Anchor 框 生成固定或可学习的关键点,并将它们投影到特征图 上进行特征采样。实例特征 通过与采样特征的求和进行更新,并在输出层负责预测 Anchor 框的分类分数和偏移量。时间解码器有两个额外的多头注意力层:来自上一帧的时间实例与当前实例之间的时间交叉注意力,以及当前实例之间的自注意力。在多头注意力层中, Anchor 框被转换成高维 Anchor 嵌入 ,并作为位置编码。

稀疏在线映射。在线映射分支与检测分支共享相同的模型结构,除了不同的实例定义。对于静态地图元素, Anchor 被表述为带有 个点的折线:

然后所有的地图元素可以由地图实例特征 和 Anchor 折线 表示,其中 是 Anchor 折线的数量。

稀疏跟踪。对于跟踪,作者遵循Sparse4Dv3[33]的ID分配过程:一旦一个实例的检测置信度超过阈值 ,它就会被锁定为一个目标并被分配一个ID,这个ID在时间传播中保持不变。这种跟踪策略不需要任何跟踪约束,从而为稀疏感知模块实现了一个优雅且简单的对称设计。

Parallel Motion Planner

如图4所示,并行运动规划器由三部分组成:自我实例初始化、时空交互和分层规划选择。

自我实例初始化。与周围代理类似,自我车辆由自我实例特征 和自我 Anchor 框 表示。尽管在先前方法中,自我特征通常是被随机初始化的,作者认为自我特征在规划时也需要丰富的语义和几何信息,这与运动预测相似。然而,周围代理的实例特征是从图像特征图 聚合而来的,这对于自我车辆是不可行的,因为自我车辆处于相机的盲区。因此,作者使用前摄像头最小的特征图来初始化自我实例特征:

这样做有两个优点:最小的特征图已经编码了驾驶场景的语义背景,而密集特征图作为对稀疏场景表示的补充,以防有些黑名单障碍在稀疏感知中无法检测到。

对于自我 Anchor  ,位置、尺寸和偏航角可以自然设定,因为作者了解自我车辆的这些信息。对于速度,直接从 GT 速度初始化会导致自我状态泄露,如[27]所示。因此,作者添加了一个辅助任务来解码当前自我状态 ,包括速度、加速度、角速度和转向角。在每一帧,作者使用上一帧预测的速度作为自我 Anchor 速度的初始化。

时空交互。为了考虑所有道路代理之间的高级交互,作者将自我实例与周围代理连接起来得到代理级实例:

由于自我实例没有时间线索进行初始化,这对规划来说很重要,作者设计了一个大小为 的实例记忆队列来进行时间建模, 是存储的帧数。然后执行三种类型的交互来聚合时空上下文:代理-时间交叉关注、代理-代理自关注和代理-地图交叉关注。注意,在稀疏感知模块的时间交叉关注中,当前帧的实例与所有时间实例交互,作者称之为场景级交互。而对于这里的代理-时间交叉关注,作者采用实例级交互,使每个实例专注于自身的历史信息。

然后,作者预测多模态轨迹 和分数 ,用于周围代理和自我车辆, 分别是运动预测和规划的模式数, 分别是运动预测和规划的未来时间戳数, 是规划中的驾驶命令数。按照常见做法[15, 20],作者使用三种驾驶命令:左转、右转和直行。对于规划,作者还从自我实例特征中额外预测当前自我状态。

分层规划选择。现在作者有了多模态规划轨迹 Proposal ,为了选择一个安全的轨迹 来遵循,作者设计了一个分层规划选择策略。首先,作者选择与高级命令 对应的轨迹 Proposal 子集 。然后,采用一种新颖的碰撞感知重评分模块来确保安全。利用运动预测结果,作者可以评估每个规划轨迹 Proposal 的碰撞风险,对于具有高碰撞概率的轨迹,作者降低该轨迹的分数。在实践中,作者将碰撞轨迹的分数简单地设置为 。最后,作者选择分数最高的轨迹作为最终的规划输出。

End-to-End Learning

多阶段训练。SparseDrive的训练分为两个阶段。在第一阶段,作者从零开始训练对称的稀疏感知模块以学习稀疏场景表示。在第二阶段,稀疏感知模块与并行运动规划器一起训练,不冻结任何模型权重,充分享受端到端优化的好处。更多的训练细节在附录B.4中提供。

损失函数。损失函数包括四个任务的损失,每个任务的损失可以进一步分为分类损失和回归损失。对于多模态运动预测和规划任务,作者采用胜者全得策略。对于规划,还有一个针对自身状态的额外回归损失。作者还引入深度估计作为辅助任务,以增强感知模块的训练稳定性。端到端训练的整体损失函数为:

关于损失函数的更多细节在附录B.3中提供。

4 Experiments

作者的实验是在具有挑战性的nuScenes[1]数据集上进行的,该数据集包含1000个复杂的驾驶场景,每个场景持续大约20秒。每个任务的评估指标在附录A中描述。

作者的模型有两个变体,它们仅在 Backbone 网络和输入图像分辨率上有所不同。

对于作者的小型模型SparseDrive-S,作者使用ResNet50[11]作为 Backbone 网络,输入图像大小为256704。对于作者的基础模型SparseDrive-B,作者将 Backbone 网络更改为ResNet101,输入图像大小更改为5121408。

所有实验都是在8个NVIDIA RTX 4090 24GB GPU上进行的。

Main Results

作者与之前的现有技术水平进行了比较,包括模块化方法和端到端方法。在端到端方法中,作者轻量级的模型SparseDrive-S在所有任务上都超过了之前的SOTA,而作者的基础模型SparseDrive-B则将性能边界进一步推进了一步。每个任务的主要指标在表中的灰色背景中标记。

感知。在表0(a)中的3D检测中,SparseDrive达到了49.6%的mAP和58.8%的NDS,与UniAD[15]相比,mAP显著提高了+11.6%,NDS提高了+9.0%。在表0(b)的多目标跟踪中,SparseDrive实现了50.1%的AMOTA,以及最低的ID切换次数632,与UniAD[15]相比,AMOTA提高了**+14.2%,ID切换次数减少了30.2%,显示了跟踪轨迹的时间一致性。在表0(c)的在线建图中,SparseDrive获得了56.2%的mAP,也超过了之前的端到端方法VAD[20]的+8.6%**。

预测。在表1(a)的运动预测中,SparseDrive以0.60m的最小平均位移误差(minADE)、0.96m的最小最终位移误差(minFDE)、13.2%的漏检率(MissRate)和0.555的预期路径准确率(EPA)实现了最佳性能。与UniAD[15]相比,SparseDrive在minADE和minFDE上分别减少了**15.5%5.9%**的误差。

规划。在表1(b)的规划中,在所有方法中,SparseDrive实现了卓越的规划性能,具有最低的L2误差0.58m和碰撞率**0.06%。与之前的SOTA VAD[20]相比,SparseDrive将L2误差减少了19.4%,碰撞率减少了71.4%**,这证明了作者方法的有效性和安全性。

效率。如表3所示,除了出色的性能外,SparseDrive在训练和推理方面也实现了更高的效率。使用相同的 Backbone 网络,与UniAD[15]相比,作者基础模型在训练上快了**4.8,在推理上快了4.1。作者的轻量级模型可以在训练和推理上实现7.2 5.0**的速度提升。

Ablation Study

作者进行了广泛的消融研究,以证明作者的设计选择的有效性。作者使用SparseDrive-S作为消融实验的默认模型。

运动规划器中设计的影响。为了强调考虑预测与规划之间相似性的重要性,作者设计了几项特定的实验,如表4所示。ID-2通过将预测和规划的并行设计改为顺序执行,忽略了 ego 车辆对周围代理的影响,导致运动预测和碰撞率表现更差。ID-3随机初始化 ego 实例特征并将 ego  Anchor 的所有参数设置为0。移除 ego 实例的语义和几何信息导致 L2 错误和碰撞率性能下降。ID-4将规划视为一个确定性问题,只输出一条确定的轨迹,结果是碰撞率最高。

此外,ID-5移除了实例级代理-时间交叉注意力,严重降低了 L2 错误至0.77米。关于碰撞感知重评分,作者将在下面的小节中进行详细讨论。碰撞感知重评分。在先前的方法[15, 56]中,采用了一种基于感知结果的后期优化策略来确保安全。然而,作者认为这种策略破坏了端到端范式,导致 L2 错误严重下降,如表5所示。此外,在作者重新实现的碰撞率指标下,后期优化并没有使规划更安全,反而使其更危险。相比之下,作者的碰撞感知重评分模块将碰撞率从0.12%降低到0.08%,而L2误差的增加可以忽略不计,显示了作者方法的优越性。

多模态规划。作者对规划模式的数量进行了实验。如表6所示,随着规划模式的数量增加,规划性能持续改进,直到在6种模式时达到饱和,再次证明了多模态规划的重要性。

5 Conclusion and Future Work

在这项工作中,作者探讨了稀疏场景表征,并回顾了端到端自动驾驶领域中的任务设计。由此产生的端到端范式SparseDrive既实现了卓越的性能,又具有高效率。

作者希望SparseDrive的出色性能能够启发社区重新思考端到端自动驾驶的任务设计,并推动该领域的技术进步。

未来工作。作者的工作仍然存在一些局限性。

首先,作者的端到端模型的性能仍然落后于单任务方法,例如在线建图任务。

其次,数据集的规模不足以充分利用端到端自动驾驶的潜力,而开环评估无法全面代表模型性能。

作者将这些问题留待未来探索。

参考

[1].SparseDrive: End-to-End Autonomous Driving via Sparse Scene Representation.

<-  联 系 & 声 明  ->
【声明】除文内特殊声明外,本公众号内所有文章编写或转载的目的仅用于学习和交流,不予以商用,不代表本号观点及立场。本公众号内资讯及正文引用图片均由个人公众号 ADS 智库六耳基于官网或公开信息梳理或引用。本公众号所引用及转载内容版权均归原作者所有,凡是注明来源 “ XXX ADS 智库 ” 或作者为 “ XXX 六耳、XXX ADS 智库 ” 的文章转载或引用时请注明来源 ADS 智库。若有版权或其他任何问题请联系六耳( 微信号:adas_miao ),本号将及时处理。

转发、点赞、在看
,安排一下?

ADS智库
聚焦 ADAS \x26amp; ADS 相关内容,公号发消息『我来了』免费领取 10G+ 自动驾驶资料
 最新文章