https://arxiv.org/pdf/2406.17680
本期概述
哈喽大家周一好~又开始了新一轮的周一盼周五。。。
我们来看今天的分享内容!一篇非常有趣的端到端自动驾驶模型:UAD。UAD提出了一个无监督的任务,以舍弃端到端自动驾驶中对3D手动标注为要求,从而可以将训练数据扩展到数十亿级别而不会产生任何标注过载问题。此外,本文引入了一种新颖的自监督方向感知学习策略,以最大限度地提高不同增强视图下预测轨迹的一致性,从而增强了转向场景中的规划稳健性。
创新点:
1.无监督的角度感知预任务:设计了一个新的角度感知预任务来消除对注释的需求。该预任务通过预测角度空间中的物体存在性和时间动态来建模驾驶场景,无需手动注释。
2.自监督的方向感知学习策略:提出了一种自监督训练策略,通过学习不同增强视图下预测轨迹的一致性来增强转向场景中的规划稳健性。
3.高效的数据使用和训练推理:UAD 比 UniAD 在 nuScenes 上的平均碰撞率降低了 38.7%,在 CARLA 的 Town05 Long 基准测试中的驾驶得分超过 VAD 41.32 分。此外,UAD 仅消耗 UniAD 44.3% 的训练资源,推理速度提高了 3.4 倍。
Pipeline
UAD框架的结构。推理流程用蓝色背景下的黑色箭头标出,基于输入的多视角图像规划自车轨迹。训练流程包括角度感知预任务(Angular Perception Pretext,橙色箭头和卡其背景)和方向感知规划(Direction-Aware Planning,橙色箭头和紫色背景)。
1.BEV编码:多视角图像通过BEV编码器(BEV Encoder)生成BEV特征图。使用OS 2D检测器(OS 2D Detector,开集2D检测器)检测到的2D框,通过视图转换器转换为BEV空间中的物体掩码(位于上图中左上角)。该掩码用于生成角度空间内每个扇区区域的物体存在性标签(Angular Objectness Label),并计算物体存在性损失。角度查询被引入以提取特征并预测物体存在性。
2.角度感知预任务(Angular Perception Pretext):
角度感知预任务包括空间表示学习(Spatial Representation Learning)和时间表示学习(Temporal Representation Learning)
2.2.时间表示学习(Temporal Representation Learning):本文提出使用角度梦境解码器(Angular-wise Dreaming Decoder)来捕捉驾驶场景的时间信息。可以被视为一个增强的世界模型,能够自回归地预测未来状态。这个模块学习空间知识并将2D兴趣区域(Regions of Interests, ROIs)投影到BEV空间,从而生成监督标签,而无需3D注释。
3.方向感知规划(Direction-Aware Planning):通过不同旋转角度增强的BEV特征图生成旋转的BEV表示和自车轨迹。应用自监督一致性损失到每个增强视图下预测的轨迹,以提高方向变化和输入噪声的稳健性。方向感知学习策略通过自监督的方式,最大化增强视图下预测轨迹的一致性,从而增强转向场景中的规划稳健性。
方向增强策略图解
Experiments
在nuScenes中的开环规划性能。†表示基于lidar的方法,‡表示VAD和ST-P3中使用的TemAvg评价协议。⋄是指在规划模块中的自我状态,并根据BEV-Planner计算碰撞率
在CARLA simulator中的闭环评估。†表示基于激光雷达的方法。
在损失函数上的消融实验。
在dreaming decoder上的消融实验
方向感知学习策略的消融实验
本期结语
在文章的结尾,作者对自我状态与开环规划评估问题和如何保证当前端到端自动驾驶系统的安全问题进行了讨论,李小毛还觉得非常有趣,但是限于篇幅原因,我们明天继续深入地讨论该部分内容!明天早上我们再见哟!
温馨提示:点赞=学会,收藏=精通
点击在看,我们一起充电!