0. 简介
本文介绍了探索端到端自动驾驶的因果关系。基于深度学习的模型被广泛部署在自动驾驶领域中,特别是越来越受关注的端到端解决方案。然而,这些模型的黑盒属性引发了人们对其在自动驾驶中的可信度和安全性的担忧,并且如何调试因果关系已经成为一个紧迫的问题。
尽管已有一些关于自动驾驶可解释性的研究,但是目前还没有系统性的解决方案来帮助研究者调试和识别导致端到端自动驾驶最终预测行为的关键因素。《Exploring the Causality of End-to-End Autonomous Driving》提出了一种全面的方法来探索和分析端到端自动驾驶的因果关系。首先,本文通过使用受控变量和反事实干预进行定性分析来验证最终规划所依赖的基本信息。然后,本文通过可视化和统计分析关键模型输入的响应,定量评估影响模型决策的因素。最后,根据多因素端到端自动驾驶系统的全面研究,本文开发了一个强大的基线和工具,用于探索闭环仿真器CARLA中的因果关系。它利用重要的输入源来获取一个精心设计的模型,从而实现高度竞争力。据我们所知,本项工作首次揭示了端到端自动驾驶的奥秘,并且将黑盒转化为白盒。深入的闭环实验表明,本文方法可以应用于端到端自动驾驶解决方案,用于实现因果关系调试。
1. 主要贡献
本文的主要贡献总结如下:
1)本文首次提出了调试和分析解决方案和基线,通过明确解释多因素决策的因果关系来揭示黑盒端到端自动驾驶的奥秘;
2)本文进行详细的定量消融和反事实干预实验,并且提出了两种类型的响应可视化方法:组件级可视化和激活地图可视化。组件级可视化从响应的时间一致性和场景相关性的角度进行深入分析,而激活地图可视化则说明了语义特征影响的空间分布;
3)通过首先采用反事实推理定性地找出导致最终预测行为的最具影响力的特征,然后应用基于注意力的策略定量分析每个因素对调整端到端模型的贡献,从而能够全面理解决策过程。
2. 方法
在本节中,我们描述了提出的端到端自动驾驶模型框架,名为DriveInsight,其整体架构如图1所示。给定多视角图像和点云输入,我们首先引入特定于模态的编码器,分别提取和转换它们独特的特征为BEV表示(第3节)。随后,利用多模态和时间融合模块,我们将这些表示融合在一起,得出统一的BEV特征(第4节)。最后,应用规划解码器根据生成的BEV标记和其他环境指标,预测自我代理的未来轨迹(第5节)。
图1:我们DriveInsight框架的整体架构。LiDAR点云和多视角图像分别在各自的编码器中进行处理。然后,得到的特征依次输入多模态融合和时间融合模块,以获得融合的BEV特征。此外,我们将其他传感器信息,包括交通标志、目标点、指令、路径规划等,转换为环境令牌嵌入。将这些令牌与BEV令牌一起发送到变压器解码器中,以预测未来的轨迹。
3. 特定于模态的编码器
3.1 摄像头编码器
对于多视角摄像头图像,我们首先采用图像主干架构(如ResNet [16])与特征金字塔网络,提取富含语义的多尺度图像特征。遵循广泛采用的LSS [32],我们使用估计的深度将多视图特征提升到3D视锥体,并将视锥体投影到参考平面上生成BEV特征。具体来说,该过程始于深度预测网络(DepthNet)为每个像素预测离散深度分布,然后使用该深度将每个像素散射到沿着摄像头射线的离散点。在每个点上,结果特征被确定为预测深度乘以相应像素特征。在BEV特征聚合的每个网格内,使用视锥体池化进行聚合,该池化将来自网格内部的点的特征合并在一起。
3.2 激光雷达编码器
对于给定的激光雷达点云,我们首先将输入点分箱成均匀的体素,并使用一系列3D稀疏卷积块在体素空间中提取局部3D形状信息,与该领域中已建立的方法一致。接下来,我们采用一个沙漏卷积网络作为BEV特征提取器,将3D特征展平为2D BEV视图,以捕获富含上下文信息的BEV表示。为了最大化多尺度语义的利用,我们采用特征金字塔网络,整合来自各个层次的特征,从而产生具有尺度感知的BEV输出特征。
4. 融合编码器
4.1 多模态融合
在将所有感知特征转换为统一的鸟瞰图(BEV)表示之后,我们采用多模态融合技术将两组不同的特征融合在一起,产生融合的多模态特征。首先,使用一系列2D卷积层将两组不同的BEV特征分别标准化到统一维度,然后将它们连接在一起,并通过一系列2D卷积层进行处理。为了增强通道间的交互作用,我们应用多个Squeeze-and-Excitation(SE)块[19]来操纵融合后的特征。鉴于最终规划预测中孤立的直接监督无法有效解决高维多传感器输入的复杂性,我们引入了受DriveAdapter [25]启发的BEV特征图的辅助特征级监督。
4.2 时间融合
为了充分利用广泛的历史背景,我们开发了时间融合模块,用于对齐和整合时间线索,以实现更准确的预测。首先,我们构建一个存储上下文特征和相对姿态的记忆库Q。需要注意的是,存储在记忆库中每帧对应的特征通过姿态变换映射到当前帧的坐标系。在获取当前帧的BEV特征后,我们将这些特征与存储在记忆库中的所有特征连接起来,并应用卷积层来减少通道维度以节省计算资源。随后,利用SE块促进交互作用,从而促进为当前帧推导出时间融合特征。这些融合特征随后被合并到记忆库中,同时最早的帧被移除以实现对库的必要更新。
5. 规划解码器
规划解码器的输入包括两个部分:第一个是BEV 特征,它简洁地模拟了当前环境的感知;第二个部分包含额外的结构化信息,主要包括三个类别:自车状态、环境信息和导航信息。自车状态信息包括当前时刻和历史时刻的速度,而环境信息包括高清地图、障碍物、交通灯和停车标识的结构化信息。 通常,这些信息可以通过模型的辅助任务模块进行预测。但是,在本研究中,为了简化任务并集中精力进行事故分析本身,相关数据直接由模拟环境提供。导航信息包括指令、目标点和路由。指令表示高级规划器的信息,如直行、右转、左转等。目标点指示目标的位置和方向,而路由是车道级别的一组密集导航点。BEV 特征和结构化信息通过多层感知机分别编码,然后串联起来得到最终的增强特征,为下游的行为规划提供了丰富而必要的指导。为了避免捷径学习问题,在训练阶段采用随机屏蔽一定概率的某些输入的dropout 策略。在测试阶段,dropout 率设置为0。类似于UniAD[21],我们使用基于查询的设计,使用一个自车查询来执行与上述特征的交叉注意力,最终获得自车的未来轨迹T。
图2:不同仿真时间步的可视化。最后一列显示了点云和组件信息的可视化。绿色曲线代表路径规划,红色点表示目标点,深蓝色线条代表矢量化地图,浅蓝色矩形表示障碍物。仿真时间步t0t0、t1t1和t2t2分别对应于图3和图4中的三个采样时刻(在图中分别表示为蓝色、橙色和绿色)
图3:模拟时间步长内关于不同标记的梯度可视化。其中,x 和 y 方向上的梯度分别用 Gx 和 Gy 表示。水平轴表示沿当前路径经过的时间。我们抽样了三个代表性时刻,分别用蓝色、橙色和绿色垂直线在图中表示,分别标记为t1、t2 和 t3。
招募要求
完成符合要求的机器人相关视频制作
总时长需达到 3小时以上
视频内容需为精品课程,确保高质量和专业性
讲师奖励
享受课程收入分成
赠送 2门 古月学院在售精品课程(训练营除外)
联系我们
添加工作人员微信:GYH-xiaogu
点击“阅读原文”查看详情