经典文献阅读 | 探索端到端自动驾驶的因果关系

科技 2024-10-29 17:20 湖北

0. 简介

本文介绍了探索端到端自动驾驶的因果关系。基于深度学习的模型被广泛部署在自动驾驶领域中，特别是越来越受关注的端到端解决方案。然而，这些模型的黑盒属性引发了人们对其在自动驾驶中的可信度和安全性的担忧，并且如何调试因果关系已经成为一个紧迫的问题。

尽管已有一些关于自动驾驶可解释性的研究，但是目前还没有系统性的解决方案来帮助研究者调试和识别导致端到端自动驾驶最终预测行为的关键因素。《Exploring the Causality of End-to-End Autonomous Driving》提出了一种全面的方法来探索和分析端到端自动驾驶的因果关系。首先，本文通过使用受控变量和反事实干预进行定性分析来验证最终规划所依赖的基本信息。然后，本文通过可视化和统计分析关键模型输入的响应，定量评估影响模型决策的因素。最后，根据多因素端到端自动驾驶系统的全面研究，本文开发了一个强大的基线和工具，用于探索闭环仿真器CARLA中的因果关系。它利用重要的输入源来获取一个精心设计的模型，从而实现高度竞争力。据我们所知，本项工作首次揭示了端到端自动驾驶的奥秘，并且将黑盒转化为白盒。深入的闭环实验表明，本文方法可以应用于端到端自动驾驶解决方案，用于实现因果关系调试。

1. 主要贡献

本文的主要贡献总结如下：

1）本文首次提出了调试和分析解决方案和基线，通过明确解释多因素决策的因果关系来揭示黑盒端到端自动驾驶的奥秘；

2）本文进行详细的定量消融和反事实干预实验，并且提出了两种类型的响应可视化方法：组件级可视化和激活地图可视化。组件级可视化从响应的时间一致性和场景相关性的角度进行深入分析，而激活地图可视化则说明了语义特征影响的空间分布；

3）通过首先采用反事实推理定性地找出导致最终预测行为的最具影响力的特征，然后应用基于注意力的策略定量分析每个因素对调整端到端模型的贡献，从而能够全面理解决策过程。

2. 方法

在本节中，我们描述了提出的端到端自动驾驶模型框架，名为DriveInsight，其整体架构如图1所示。给定多视角图像和点云输入，我们首先引入特定于模态的编码器，分别提取和转换它们独特的特征为BEV表示（第3节）。随后，利用多模态和时间融合模块，我们将这些表示融合在一起，得出统一的BEV特征（第4节）。最后，应用规划解码器根据生成的BEV标记和其他环境指标，预测自我代理的未来轨迹（第5节）。

图1：我们DriveInsight框架的整体架构。LiDAR点云和多视角图像分别在各自的编码器中进行处理。然后，得到的特征依次输入多模态融合和时间融合模块，以获得融合的BEV特征。此外，我们将其他传感器信息，包括交通标志、目标点、指令、路径规划等，转换为环境令牌嵌入。将这些令牌与BEV令牌一起发送到变压器解码器中，以预测未来的轨迹。

3. 特定于模态的编码器

3.1 摄像头编码器

对于多视角摄像头图像，我们首先采用图像主干架构（如ResNet [16]）与特征金字塔网络，提取富含语义的多尺度图像特征。遵循广泛采用的LSS [32]，我们使用估计的深度将多视图特征提升到3D视锥体，并将视锥体投影到参考平面上生成BEV特征。具体来说，该过程始于深度预测网络（DepthNet）为每个像素预测离散深度分布，然后使用该深度将每个像素散射到沿着摄像头射线的离散点。在每个点上，结果特征被确定为预测深度乘以相应像素特征。在BEV特征聚合的每个网格内，使用视锥体池化进行聚合，该池化将来自网格内部的点的特征合并在一起。

3.2 激光雷达编码器

对于给定的激光雷达点云，我们首先将输入点分箱成均匀的体素，并使用一系列3D稀疏卷积块在体素空间中提取局部3D形状信息，与该领域中已建立的方法一致。接下来，我们采用一个沙漏卷积网络作为BEV特征提取器，将3D特征展平为2D BEV视图，以捕获富含上下文信息的BEV表示。为了最大化多尺度语义的利用，我们采用特征金字塔网络，整合来自各个层次的特征，从而产生具有尺度感知的BEV输出特征。

4. 融合编码器

4.1 多模态融合

在将所有感知特征转换为统一的鸟瞰图（BEV）表示之后，我们采用多模态融合技术将两组不同的特征融合在一起，产生融合的多模态特征。首先，使用一系列2D卷积层将两组不同的BEV特征分别标准化到统一维度，然后将它们连接在一起，并通过一系列2D卷积层进行处理。为了增强通道间的交互作用，我们应用多个Squeeze-and-Excitation（SE）块[19]来操纵融合后的特征。鉴于最终规划预测中孤立的直接监督无法有效解决高维多传感器输入的复杂性，我们引入了受DriveAdapter [25]启发的BEV特征图的辅助特征级监督。

4.2 时间融合

为了充分利用广泛的历史背景，我们开发了时间融合模块，用于对齐和整合时间线索，以实现更准确的预测。首先，我们构建一个存储上下文特征和相对姿态的记忆库Q。需要注意的是，存储在记忆库中每帧对应的特征通过姿态变换映射到当前帧的坐标系。在获取当前帧的BEV特征后，我们将这些特征与存储在记忆库中的所有特征连接起来，并应用卷积层来减少通道维度以节省计算资源。随后，利用SE块促进交互作用，从而促进为当前帧推导出时间融合特征。这些融合特征随后被合并到记忆库中，同时最早的帧被移除以实现对库的必要更新。

5. 规划解码器

规划解码器的输入包括两个部分：第一个是BEV 特征，它简洁地模拟了当前环境的感知；第二个部分包含额外的结构化信息，主要包括三个类别：自车状态、环境信息和导航信息。自车状态信息包括当前时刻和历史时刻的速度，而环境信息包括高清地图、障碍物、交通灯和停车标识的结构化信息。通常，这些信息可以通过模型的辅助任务模块进行预测。但是，在本研究中，为了简化任务并集中精力进行事故分析本身，相关数据直接由模拟环境提供。导航信息包括指令、目标点和路由。指令表示高级规划器的信息，如直行、右转、左转等。目标点指示目标的位置和方向，而路由是车道级别的一组密集导航点。BEV 特征和结构化信息通过多层感知机分别编码，然后串联起来得到最终的增强特征，为下游的行为规划提供了丰富而必要的指导。为了避免捷径学习问题，在训练阶段采用随机屏蔽一定概率的某些输入的dropout 策略。在测试阶段，dropout 率设置为0。类似于UniAD[21]，我们使用基于查询的设计，使用一个自车查询来执行与上述特征的交叉注意力，最终获得自车的未来轨迹T。

图2：不同仿真时间步的可视化。最后一列显示了点云和组件信息的可视化。绿色曲线代表路径规划，红色点表示目标点，深蓝色线条代表矢量化地图，浅蓝色矩形表示障碍物。仿真时间步t0t0、t1t1和t2t2分别对应于图3和图4中的三个采样时刻（在图中分别表示为蓝色、橙色和绿色）

图3：模拟时间步长内关于不同标记的梯度可视化。其中，x 和 y 方向上的梯度分别用 G_x和 G_y表示。水平轴表示沿当前路径经过的时间。我们抽样了三个代表性时刻，分别用蓝色、橙色和绿色垂直线在图中表示，分别标记为t₁、t₂和 t₃。

讲师招募

招募要求

完成符合要求的机器人相关视频制作

总时长需达到 3小时以上

视频内容需为精品课程，确保高质量和专业性

讲师奖励

享受课程收入分成

赠送 2门古月学院在售精品课程（训练营除外）

联系我们

添加工作人员微信：GYH-xiaogu

点击“阅读原文”查看详情

http://mp.weixin.qq.com/s?__biz=MzU1NjEwMTY0Mw==&mid=2247600037&idx=1&sn=1a4a92cef1aa5d5bf3bf5f0b8fec8259

古月居

专业的ROS机器人知识社区和产业服务平台

最新文章

ROSCon China 2024 大会议程公布

大会前探004 | 超强互动体验来袭！此次参会你将收获哪些惊喜？

今晚20点直播预告 | 从自动驾驶到具身智能漫谈

手搓ROS应用 | 多机器人路径规划与调度

活动报名 | ROSCon China 2024 正式门票开售

ROS安利 | ROS一键安装脚本

活动报名 | ROSCon China 2024 正式门票开售

新课来袭 | 基于AutoGen的大模型多智能体开发入门和应用 • 潘智祥

活动报名 | ROSCon China 2024 正式门票开售

新手友好 | 在C++上实现反射用法

活动报名 | ROSCon China 2024 正式门票开售

手搓ROS应用 | 全局规划与局部避障系统

下周四直播预告 | 从自动驾驶到具身智能漫谈

活动报名 | ROSCon China 2024 正式门票开售

新手友好 | 简单几步快速实现MQTT与云平台通信

活动报名 | ROSCon China 2024 正式门票开售

新手友好 | 如何使用Tracy完成在线的性能分析

活动报名 | ROSCon China 2024 正式门票开售

ROS学习 | ROS1 Nodelets 与 ROS2 rclcpp_components 多节点运行以及功能插件

活动报名 | ROSCon China 2024 正式门票开售

大会前探003 | ROSCon China 2024 大会最新进展分享

活动报名 | ROSCon China 2024 正式门票开售

ROS自主无人机18天训练营，第2期开营啦！名额有限~

2024福建省大学生机器人大赛报名开启啦！

【双11最后7小时】友情提示：所有优惠券今天截止！

机器学习 | LangChain框架快速入门

【ROSCon China 2024】正式门票开售

新手友好 | 一文了解ARM内部架构

【双11最后3天】会员卡买一送二，全年最低价！限量秒杀！

GitHub学习教程 | GitHub Pages自定义域名配置指南：从购买到HTTPS启用

【ROSCon China 2024】正式门票开售

时事分享 | Oasis：首款AI实时生成游戏的震撼登场与热议

机器学习 | 强化学习如何让机器自主决策并优化行为

探秘篇 | 00后参与组织的大会是什么样的？

速刷人工智能算法 | 基本遗传算法

【ROSCon China 2024】正式门票开售

Navigation2 详解与自定义使用

好课推荐 | 具身智能入门与 gym 仿真实战 • 木木老师

【ROSCon China 2024】正式门票开售

预售新课 | 具身智能入门与 gym 仿真实战 • 木木老师

【ROSCon China 2024】正式门票开售

【双11大促】古月居全年最低价！

【双11大促】全年最低价！今晚8点限量抢购！

ROSCon China 2024 | 正式门票今晚8点开售

大会前探002｜ROS领航者，默默推动机器人的产业未来（嘉宾篇一）

ROSCon China 2024 | 早鸟票还剩最后一天！！

经典文献阅读 | 探索端到端自动驾驶的因果关系

ROSCon China 2024 | 早鸟票最后两天啦！

新手友好 | USB 系统框架和电气信号分析

ROSCon China 2024 | 早鸟票最后三天啦！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉