无需模块化和 3D 手动标注的端到端自动驾驶，UAD框架解析(1)

文摘 2024-07-29 01:24 上海

https://arxiv.org/pdf/2406.17680

本期概述

哈喽大家周一好~又开始了新一轮的周一盼周五。。。

我们来看今天的分享内容！一篇非常有趣的端到端自动驾驶模型：UAD。UAD提出了一个无监督的任务，以舍弃端到端自动驾驶中对3D手动标注为要求，从而可以将训练数据扩展到数十亿级别而不会产生任何标注过载问题。此外，本文引入了一种新颖的自监督方向感知学习策略，以最大限度地提高不同增强视图下预测轨迹的一致性，从而增强了转向场景中的规划稳健性。

创新点：

1.无监督的角度感知预任务：设计了一个新的角度感知预任务来消除对注释的需求。该预任务通过预测角度空间中的物体存在性和时间动态来建模驾驶场景，无需手动注释。

2.自监督的方向感知学习策略：提出了一种自监督训练策略，通过学习不同增强视图下预测轨迹的一致性来增强转向场景中的规划稳健性。

3.高效的数据使用和训练推理：UAD 比 UniAD 在 nuScenes 上的平均碰撞率降低了 38.7%，在 CARLA 的 Town05 Long 基准测试中的驾驶得分超过 VAD 41.32 分。此外，UAD 仅消耗 UniAD 44.3% 的训练资源，推理速度提高了 3.4 倍。

Pipeline

UAD框架的结构。推理流程用蓝色背景下的黑色箭头标出，基于输入的多视角图像规划自车轨迹。训练流程包括角度感知预任务（Angular Perception Pretext，橙色箭头和卡其背景）和方向感知规划（Direction-Aware Planning，橙色箭头和紫色背景）。

1.BEV编码：多视角图像通过BEV编码器（BEV Encoder）生成BEV特征图。使用OS 2D检测器（OS 2D Detector，开集2D检测器）检测到的2D框，通过视图转换器转换为BEV空间中的物体掩码（位于上图中左上角）。该掩码用于生成角度空间内每个扇区区域的物体存在性标签（Angular Objectness Label），并计算物体存在性损失。角度查询被引入以提取特征并预测物体存在性。

2.角度感知预任务（Angular Perception Pretext）：

角度感知预任务包括空间表示学习(Spatial Representation Learning)和时间表示学习(Temporal Representation Learning)

2.1.空间表示学习 (Spatial Representation Learning) ：本文模型尝试通过预测BEV (Bird's Eye View，鸟瞰图）空间中每个扇区区域的物体存在性来获取驾驶场景的空间知识。具体而言，模型将多视角图像作为输入，首先通过BEV编码器提取视觉信息，生成BEV特征图。然后，被划分为具有均匀角度的个扇区，每个扇区包含若干BEV空间中的特征点，表示为。为减少特征点数量不足的问题，对少于点的扇区进行零填充。

由于在没有深度信息的情况下，BEV空间中对应于2D图像中的ROI (Region of Interest，兴趣区域)的区域是一个扇区。因此，本文将矩形的BEV特征划分为角度格式。通过将3D采样点投影到图像并验证它们在2D ROI中的存在性，生成BEV物体掩码。采样点落在2D ROI内的区域被标记为1，其余为 0 。为了使物体存在性标签更加紧凑，本文将均匀地划分为个相等的部分，重叠部分的片段被赋值为 1 ，构成了角度物体存在性标签。这种设计不仅消除了3D注释的需求，还大大减少了训练预算。

为了预测每个扇区的物体存在性分数，本文定义了角度查询来总结，每个角度查询通过交叉注意力与对应的特征进行交互:

最后，本文将映射到物体存在性分数，用线性层进行监督，通过二元交叉摘损失（表示为 ) 来优化。

2.2.时间表示学习（Temporal Representation Learning）：本文提出使用角度梦境解码器（Angular-wise Dreaming Decoder）来捕捉驾驶场景的时间信息。可以被视为一个增强的世界模型，能够自回归地预测未来状态。这个模块学习空间知识并将2D兴趣区域（Regions of Interests, ROIs）投影到BEV空间，从而生成监督标签，而无需3D注释。

假设规划模块预测未来步的轨迹，梦境解码器包括层，每层更新输入角度查询和角度BEV特征，基于学到的时间动态。在第步，查询首先通过门控循环单元 (GRU) 获取环境动态，生成隐藏状态 :

在之前的世界模型中，隐藏状态仅用于感知观察到的场景，GRU迭代在时结束，得到最终观察到的。在本文的框架中，还用于预测未来的自车轨迹。然而，未来的观察是不可用的，因此本文提出使用伪观察来更新 :

然后，通过和生成。

根据世界模型中的损失设计，本文分别将和映射到分布和，并最小化它们的KL散度:

对于来自的先验分布，将其视为没有观察的情况下对未来动态的预测。相比之下，来自的后验分布代表了与观察一起的未来动态。两者之间的KL散度度量了想象的未来 (先验) 与真实未来 (后验) 之间的差距。本文期望通过优化梦境损失来增强对长期驾驶安全的未来预测能力。

3.方向感知规划（Direction-Aware Planning）：通过不同旋转角度增强的BEV特征图生成旋转的BEV表示和自车轨迹。应用自监督一致性损失到每个增强视图下预测的轨迹，以提高方向变化和输入噪声的稳健性。方向感知学习策略通过自监督的方式，最大化增强视图下预测轨迹的一致性，从而增强转向场景中的规划稳健性。

3.1.规划头 (Planning Head) ：角度感知预任务的输出包含一组角度查询。对于规划，初始化对应的个自车查询，以提取与规划相关的信息并预测每个未来时间步的自车轨迹。通过交叉注意力机制，这些自车查询与角度查询进行交互：

自车查询用于预测未来步的自车轨迹。规划头接收连接的自车特征和驾驶命令作为输入，输出规划的轨迹 :

本文使用损失最小化预测的自车轨迹与真实轨迹之间的距离，表示为。值得注意的是， 很容易获取，在实际场景中不需要手动注释。

3.2.方向增强（Directional Augmentation）

方向增强策略图解

由于训练数据中直行场景占主导地位，提出方向增强策略以平衡数据分布。将BEV特征以不同角度进行旋转，得到增强特征。这些增强特征用于预训练和规划任务，并由损失函数监督。提出辅助任务来增强转向能力，预测ego车打算操作的方向 (左转、直行或右转)。方向标签通过比较ego轨迹和阈值确定：

3.3.方向一致性（Directional Consistency）：为增强方向一致性，提出方向一致性损失，以自监督方式改进增强平面训练。增强轨迹预测考虑不同旋转角度的相同场景信息。一致性损失应用于增强轨迹预测，计算旋转后增强轨迹与原始轨迹的差异：

4.整体损失：训练结合物体损失、驾驶损失、模仿学习损失、方向损失和一致性损失，形成总体损失函数：

其中是权重系数。

Experiments

在nuScenes中的开环规划性能。†表示基于lidar的方法，‡表示VAD和ST-P3中使用的TemAvg评价协议。⋄是指在规划模块中的自我状态，并根据BEV-Planner计算碰撞率

在CARLA simulator中的闭环评估。†表示基于激光雷达的方法。

在损失函数上的消融实验。

在dreaming decoder上的消融实验

方向感知学习策略的消融实验

本期结语

在文章的结尾，作者对自我状态与开环规划评估问题和如何保证当前端到端自动驾驶系统的安全问题进行了讨论，李小毛还觉得非常有趣，但是限于篇幅原因，我们明天继续深入地讨论该部分内容！明天早上我们再见哟！

如果对你的开发、科研有帮助，拜托拜托关注我们，我们将持续奉上优秀的端到端自动驾驶领域研究的分享干货！

温馨提示：点赞＝学会，收藏＝精通

点击在看，我们一起充电！

端到端自动驾驶

关注AD（Autonomous Driving）行业最前沿的人工智能解决方案，致力于打造为一个自动驾驶从业者及相关科研学者们的课外充电，技术分享，以及社区交流的服务平台！

最新文章

DeepSeek预测：2030年将实现完全自动驾驶

草履虫都能看懂的误差状态卡尔曼滤波器（附实验）

transformer手绘图解（注意力机制的本质）

研究方向分享(1)：冷门但不偏门～业界急需...

卡尔曼滤波器图解（细节&全局理解的船新版本！！！）

最新研究 | V2X-VLM：E2E协同自动驾驶框架

西湖大学&理想汽车 | Delphi：基于扩散模型的长视频生成方法

大语言模型&多模态模型在自动驾驶中的应用综述（2）

被连续举报的第五天 | 自动驾驶基础模型的综述

理想汽车&中科院 | PlanAgent：使用MLLM的自动驾驶闭环运动规划

理想汽车：UA-Track，3D多目标跟踪（MOT）框架

CVPR 2024 | 理想汽车方案：场景数据检索方法处理长尾问题

Co-Driver：使用Qwen-VL（通义千问）实现辅助驾驶

ECCV 2024 | 弃用低精地图？EP-BEV：跨视角地图定位方案

ECCV 2024 | GeMap：矢量化高精地图在线构建

FastBEV 作者首次公开解读---《中低算力平台友好的环视特征融合方案》完整视频版

在端到端的浪潮下，感知&规划(模型)方向是否还会单独存在？

百度智驾 | 跨模态匹配算法实现厘米级高精定位！

中科院&加州大学 | GenAD：生成式端到端自动驾驶框架

理想汽车自动驾驶方案 | DriveVLM：自动驾驶与大型视觉语言模型的融合方法

强推收藏！使用大语言模型的自动驾驶方案研究综述

PAMI 2024 | 端到端自动驾驶的主流方案汇总(1)

提前过年？20.99万元起！2025款极氪001、007上市！

秦通新作 | CS-NeRF：通过NeRF模型重建众包地图

CVPR 2024 | BEVSee：无需相机标定的BEV感知

CVPR2024 | 通过大语言模型实现可编辑逼真3D驾驶场景的仿真

CVPR自动驾驶公开赛冠军！Hydra-MDP: 端到端多模态规划与多目标 Hydra 蒸馏

哈工大&杭电 | MVPbev：BEV到透视图的端到端转换框架

IROS2024 | ParkingE2E：端到端自动泊车模型

39.98万起！享界S9上市！

港大&华为诺亚 | DriveGPT4：可解释的端到端自动驾驶！

GigaAI 和清华大学联合发布 | DriveDreamer：真实世界驾驶场景的开创性世界模型

深度解读｜U-BEV：自动驾驶场景的重建和定位

深度解读 | P-MapNet：结合SDMap和HDMap先验的地图生成器！

小鹏汽车AI智驾技术发布会小鹏汽车XNGP史上最大更新！智驾体验全面升级

高度提炼 | Fast-BEV：高效的BEV感知框架

无需模块化和 3D 手动标注的端到端自动驾驶，UAD框架解析(1)

GaussianBEV：首次将3D Gaussian引入BEV感知应用

高度提炼 | DreamCar？？严肃！这个可不是魅族汽车！在moving-froward场景中的3D车辆重建！

ICML 2024 | Best Paper新鲜出炉！AIGC持续霸榜中... ...

CVPR 2024 | LMDrive：使用大语言模型的闭环端到端自动驾驶模块实现

CVPR 2024 | LMDrive：使用大语言模型的闭环端到端自动驾驶 Pipeline详解

CVPR 2024 | 华为诺亚：注入BEV视角的多模态大模型

深度聚焦｜最强落地端到端自动驾驶算法！Tesla FSD v12公开模型分享！

高度提炼｜自动驾驶算法船新框架？CVPR 2023 Best PaperUniAD代码解析(2)

高度提炼｜自动驾驶算法船新框架？CVPR 2023 Best PaperUniAD框架解析(1)

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉