无需模块化和 3D 手动标注的端到端自动驾驶,UAD框架解析(1)

文摘   2024-07-29 01:24   上海  


https://arxiv.org/pdf/2406.17680

本期概述

喽大家周一好~又开始了新一轮的周一盼周五。。。

我们来看今天的分享内容!一篇非常有趣的端到端自动驾驶模型:UAD。UAD提出了一个无监督的任务,以舍弃端到端自动驾驶中对3D手动标注为要求,从而可以将训练数据扩展到数十亿级别而不会产生任何标注过载问题。此外,本文引入了一种新颖的自监督方向感知学习策略,以最大限度地提高不同增强视图下预测轨迹的一致性,从而增强了转向场景中的规划稳健性。

创新点:

1.无监督的角度感知预任务:设计了一个新的角度感知预任务来消除对注释的需求。该预任务通过预测角度空间中的物体存在性和时间动态来建模驾驶场景,无需手动注释。

2.自监督的方向感知学习策略:提出了一种自监督训练策略,通过学习不同增强视图下预测轨迹的一致性来增强转向场景中的规划稳健性。

3.高效的数据使用和训练推理:UAD 比 UniAD 在 nuScenes 上的平均碰撞率降低了 38.7%,在 CARLA 的 Town05 Long 基准测试中的驾驶得分超过 VAD 41.32 分。此外,UAD 仅消耗 UniAD 44.3% 的训练资源,推理速度提高了 3.4 倍。

Pipeline

UAD框架的结构。推理流程用蓝色背景下的黑色箭头标出,基于输入的多视角图像规划自车轨迹。训练流程包括角度感知预任务(Angular Perception Pretext,橙色箭头和卡其背景)和方向感知规划(Direction-Aware Planning,橙色箭头和紫色背景)。

1.BEV编码多视角图像通过BEV编码器(BEV Encoder)生成BEV特征图。使用OS 2D检测器(OS 2D Detector,开集2D检测器)检测到的2D框,通过视图转换器转换为BEV空间中的物体掩码(位于上图中左上角)。该掩码用于生成角度空间内每个扇区区域的物体存在性标签(Angular Objectness Label),并计算物体存在性损失。角度查询被引入以提取特征并预测物体存在性。

2.角度感知预任务(Angular Perception Pretext)

角度感知预任务包括空间表示学习(Spatial Representation Learning)和时间表示学习(Temporal Representation Learning) 

2.1.空间表示学习 (Spatial Representation Learning) :本文模型尝试通过预测BEV (Bird's Eye View,鸟瞰图)空间中每个扇区区域的物体存在性来获取驾驶场景的空间知识。具体而言,模型将多视角图像作为输入,首先通过BEV编码器提取视觉信息,生成BEV特征图 。然后, 被划分为具有均匀角度 个扇区,每个扇区包含若干BEV空间中的特征点,表示为 。为减少特征点数量不足的问题,对少于 点的扇区进行零填充。
由于在没有深度信息的情况下,BEV空间中对应于2D图像中的ROI (Region of Interest,兴趣区域)的区域是一个扇区。因此,本文将矩形的BEV特征划分为角度格式。通过将3D采样点投影到图像并验证它们在2D ROI中的存在性,生成BEV物体掩码 。采样点落在2D ROI内的区域被标记为1,其余为 0 。为了使物体存在性标签更加紧凑,本文将 均匀地划分为 个相等的部分,重叠部分的片段被赋值为 1 ,构成了角度物体存在性标签 。这种设计不仅消除了3D注释的需求,还大大减少了训练预算。
为了预测每个扇区的物体存在性分数,本文定义了角度查询 来总结 ,每个角度查询 通过交叉注意力与对应的特征 进行交互:
最后,本文将 映射到物体存在性分数 ,用线性层进行监督,通过二元交叉摘损失(表示为 ) 来优化。

2.2.时间表示学习(Temporal Representation Learning)本文提出使用角度梦境解码器(Angular-wise Dreaming Decoder)来捕捉驾驶场景的时间信息。可以被视为一个增强的世界模型,能够自回归地预测未来状态。这个模块学习空间知识并将2D兴趣区域(Regions of Interests, ROIs)投影到BEV空间,从而生成监督标签,而无需3D注释

假设规划模块预测未来  步的轨迹,梦境解码器包括  层,每层更新输入角度查询  和角度BEV特征  ,基于学到的时间动态。在第 步,查询  首先通过门控循环单元 (GRU) 获取环境动态,生成隐藏状态  :
在之前的世界模型中,隐藏状态  仅用于感知观察到的场景,GRU迭代在  时结束,得到最终观察到的  。在本文的框架中,  还用于预测未来的自车轨迹。然而,未来的观察  是不可用的,因此本文提出使用伪观察  来更新  :
然后,通过  和  生成  。
根据世界模型中的损失设计,本文分别将  和  映射到分布  和  ,并最小化它们的KL散度:

对于来自  的先验分布,将其视为没有观察的情况下对未来动态的预测。相比之下,来自  的后验分布代表了与观察  一起的未来动态。两者之间的KL散度度量了想象的未来 (先验) 与真实未来 (后验) 之间的差距。本文期望通过优化梦境损失  来增强对长期驾驶安全的未来预测能力。

3.方向感知规划(Direction-Aware Planning):通过不同旋转角度增强的BEV特征图生成旋转的BEV表示和自车轨迹。应用自监督一致性损失到每个增强视图下预测的轨迹,以提高方向变化和输入噪声的稳健性。方向感知学习策略通过自监督的方式,最大化增强视图下预测轨迹的一致性,从而增强转向场景中的规划稳健性。

3.1.规划头 (Planning Head) :角度感知预任务的输出包含一组角度查询 。对于规划,初始化对应的 个自车查询 ,以提取与规划相关的信息并预测每个未来时间步的自车轨迹。通过交叉注意力机制,这些自车查询与角度查询进行交互:
自车查询 用于预测未来 步的自车轨迹 。规划头接收连接的自车特征 和驾驶命令 作为输入,输出规划的轨迹 :
本文使用 损失最小化预测的自车轨迹 与真实轨迹 之间的距离,表示为 。值得注意的是, 很容易获取在实际场景中不需要手动注释
3.2.方向增强(Directional Augmentation

方向增强策略图解

由于训练数据中直行场景占主导地位,提出方向增强策略以平衡数据分布。将BEV特征 以不同角度 进行旋转,得到增强特征 。这些增强特征用于预训练和规划任务,并由损失函数监督。提出辅助任务来增强转向能力,预测ego车打算操作的方向 (左转、直行或右转)。方向标签 通过比较ego轨迹和阈值 确定:

3.3.方向一致性(Directional Consistency:为增强方向一致性,提出方向一致性损失,以自监督方式改进增强平面训练。增强轨迹预测考虑不同旋转角度的相同场景信息。一致性损失应用于增强轨迹预测,计算旋转后增强轨迹与原始轨迹的差异:
4.整体损失:训练结合物体损失、驾驶损失、模仿学习损失、方向损失和一致性损失,形成总体损失函数:
其中 是权重系数。

Experiments

在nuScenes中的开环规划性能。†表示基于lidar的方法,‡表示VAD和ST-P3中使用的TemAvg评价协议。⋄是指在规划模块中的自我状态,并根据BEV-Planner计算碰撞率

CARLA simulator中的闭环评估。†表示基于激光雷达的方法。

在损失函数上的消融实验。

dreaming decoder上的消融实验

方向感知学习策略的消融实验

本期结语

在文章的结尾,作者对自我状态与开环规划评估问如何保证当前端到端自动驾驶系统的安全问题进行了讨论,李小毛还觉得非常有趣,但是限于篇幅原因,我们明天继续深入地讨论该部分内容!明天早上我们再见哟!

如果对你的开发、科研有帮助,拜托拜托关注我们,我们将持续奉上优秀的端到端自动驾驶领域研究的分享干货!

温馨提示:点赞=学会,收藏=精通

点击在看,我们一起充电!

端到端自动驾驶
关注AD(Autonomous Driving)行业最前沿的人工智能解决方案,致力于打造为一个自动驾驶从业者及相关科研学者们的课外充电,技术分享,以及社区交流的服务平台!
 最新文章