中科院&加州大学 | GenAD：生成式端到端自动驾驶框架

文摘 2024-08-18 23:56 上海

Arxiv：https://arxiv.org/pdf/2402.11502

Projection：https://github.com/wzzheng/GenAD

本期概述

哈咯大家周末快乐！黑神话悟空上线倒计时两天！据说最终boss不能透漏，只能稍微告知一点，是一个带条狗的神仙。。。好难猜啊，这么难的题得使用排除法

建议首先排除成吉思汗！

周末也不能忘记充电！今天我们继续学习最新的端到端自动驾驶方案GenAD: Generative End-to-End Autonomous Driving，一种通过生成式框架，直接从视觉输入生成驾驶规划结果的文章。GenAD通过一种实例中心的场景表示方法，将周围场景转化为地图感知的实例表示，随后使用变分自编码器（VAE）在潜在结构空间中学习未来轨迹的分布，进而进行运动预测和规划。

GenAD的创新点为以下内容！

生成式模型框架：将端到端自动驾驶建模为一个生成问题，能够同时进行运动预测和规划。
实例中心场景表示：引入实例中心的场景表示方法，更好地捕捉自主车与其他交通参与者的高阶交互特征。
变分自编码器的应用：利用变分自编码器在潜在结构空间中建模轨迹先验，使得生成的轨迹更加符合实际驾驶的运动学特征。

PipeLine

GenAD包括场景表示和未来生成两个主要部分。场景表示部分，首先图像主干网络（Image Backbone）提取图像多尺度特征。随后BEV 编码器（BEV Encoder）生成BEV Tokens。然后可变形的交叉注意力（Deformable Cross-Attention）将这些BEV Tokens转换为地图和代理（即交通参与者）的Tokens。（还额外引入了自车Token（Ego Token）我们下文展开）。未来生成部分，使用未来轨迹编码器（Future Trajectory Encoder），将真实轨迹（Ground-truth Trajectories）编码到潜在轨迹空间中，随后通过轨迹生成器（Future Trajectory Generator）生成未来的运动轨迹。

(1)实例中心场景表示（Instance-Centric Scene Representation）：将传感器输入处理为结构化的场景表示，以用于后续的运动预测和规划。包括以下数据流：

图像到乌瞰视角 (Image to BEV)：通过卷积神经网络（CNN）和特征金字塔网络（FPN）从摄像头输入中提取多尺度图像特征是。然后，通过使用可变形交叉注意力 (Deformable CrossAttention），将这些多尺度图像特征转换为鸟瞰视角（BEV）表示的特征，生成BEV tokens :

其中，表示可变形注意力模块，是初始的 BEV tokens，这些tokens与多尺度图像特征进行交叉注意力操作，最终生成了BEV特征。

BEV到地图 (BEV to Map)：采用了一组地图tokens 表示语义地图信息，每个地图token可以解码为BEV空间中的一组点，代表着不同类别的地图元素（例如车道线、道路边界和人行横道）。这些地图tokens通过全局交叉注意力机制 (Cross-Attention) 从BEV tokens 中提取信息，生成更新后的地图tokens :

其中，是初始的地图tokens，表示交叉注意力模块。这样可以确保地图tokens携带足够的空间信息用于后续的任务。

BEV到代理 (BEV to Agent) ：使用了一组代理tokens 来表示场景中的交通参与者（代理）的3D位置。代理tokens通过可变形交叉注意力从BEV tokens 中更新:

其中，是初始的代理tokens。这些代理tokens解码后可获得每个交通参与者的位置信息、方向和类别信息。

实例中心场景表示 (Instance-centric Scene Representation)：在代理tokens 的基础上，加入了一个自车token ，从而构成了一个实例tokens的集合：

为了更好地模拟自车与其他交通参与者之间的高阶交互，论文在实例tokens上使用了自注意力机制：

其中，表示自注意力模块。

为了进一步提升预测和规划的准确性，采用交叉注意力机制，将地图信息与实例tokens进行融合，生成最终的实例中心场景表示：

(2)轨迹先验建模（Trajectory Prior Modeling）：通过变分自编码器（Variational Autoencoder, VAE）在潜在空间中对未来轨迹进行建模。将真实的轨迹映射到潜在空间中的一个高斯分布。这一映射过程将轨迹转换为具有均值和方差的高斯分布:

其中，表示一个均值为，方差为的高斯分布。

VAE论文：Diederik P Kingma and Max Welling. Auto-encoding variational bayes. arXiv preprint arXiv:1312.6114, 2013. 4

(3)未来轨迹生成（Latent Future Trajectory Generation）：通过将轨迹生成问题分解为逐步生成的过程。轨迹可以表示为一个序列，根据上一时刻状态推测下一时刻轨迹。未来轨迹的生成被表示为联合分布的因式分解：

在这个分解中，轨迹点是在给定初始潜在状态的条件下生成的，以此类推。通过一个简单的基于多层感知机（MLP）的解码器来解码出当前时间戳的轨迹点 :

依次计算后续的时间戳，就可以生成完整的轨迹。

最后，为了允许模型捕捉到交通参与者在时间维度的动态特性引入了门控循环单元（GRU）来处理潜在空间中的时间序列数据。GRU模块接收当前时间点的潜在状态作为输入，并将其转换为下一时间点的潜在状态 :

使用解码器来生成对应时间点的轨迹点:

轨迹先验建模和未来轨迹生成的过程。左下侧为真实的轨迹，通过未来轨迹编码器映射到高斯分布。门控循环单元（GRU）逐步生成潜在空间中下一时间步的轨迹状态。解码器接收从GRU生成的潜在状态，将其解码为具体的轨迹点。

(４)损失函数：包括轨迹损失、Kullback-Leibler散度损失、地图分割损失和 3 D 物体检测损失。总体损失函数为:

其中，和为超参数。

Experiments

GenAD框架与VAD框架在自动驾驶场景中的实验结果对比。尤其是在复杂的道路条件下，如急转弯或多车辆交汇的路口，GenAD生成的轨迹（左侧图示）显得更加流畅和自然

本期结语

生成式的自动驾驶轨迹预测！小编注意到，GenAD是完全没有使用车辆的运动学模型进行约束的，只是通过潜在特征进行硬拟合。

另外，这篇文章只是和VAD进行了比较，VAD是一篇23年的文章，不知道他和最新的研究内容相比效果如何呢？

往期回顾

理想汽车自动驾驶方案 | DriveVLM：自动驾驶与大型视觉语言模型的融合方法

CVPR2024 | 通过大语言模型实现可编辑逼真3D驾驶场景的仿真

强推收藏！使用大语言模型的自动驾驶方案研究综述

PAMI 2024 | 端到端自动驾驶的主流方案汇总(1)

如果对你的开发、科研有帮助，拜托拜托关注我们，我们将持续奉上优秀的端到端自动驾驶领域研究的分享干货！

温馨提示：点赞＝学会，收藏＝精通

点击在看，我们一起充电！

端到端自动驾驶

关注AD（Autonomous Driving）行业最前沿的人工智能解决方案，致力于打造为一个自动驾驶从业者及相关科研学者们的课外充电，技术分享，以及社区交流的服务平台！

最新文章

DeepSeek预测：2030年将实现完全自动驾驶

草履虫都能看懂的误差状态卡尔曼滤波器（附实验）

transformer手绘图解（注意力机制的本质）

研究方向分享(1)：冷门但不偏门～业界急需...

卡尔曼滤波器图解（细节&全局理解的船新版本！！！）

最新研究 | V2X-VLM：E2E协同自动驾驶框架

西湖大学&理想汽车 | Delphi：基于扩散模型的长视频生成方法

大语言模型&多模态模型在自动驾驶中的应用综述（2）

被连续举报的第五天 | 自动驾驶基础模型的综述

理想汽车&中科院 | PlanAgent：使用MLLM的自动驾驶闭环运动规划

理想汽车：UA-Track，3D多目标跟踪（MOT）框架

CVPR 2024 | 理想汽车方案：场景数据检索方法处理长尾问题

Co-Driver：使用Qwen-VL（通义千问）实现辅助驾驶

ECCV 2024 | 弃用低精地图？EP-BEV：跨视角地图定位方案

ECCV 2024 | GeMap：矢量化高精地图在线构建

FastBEV 作者首次公开解读---《中低算力平台友好的环视特征融合方案》完整视频版

在端到端的浪潮下，感知&规划(模型)方向是否还会单独存在？

百度智驾 | 跨模态匹配算法实现厘米级高精定位！

中科院&加州大学 | GenAD：生成式端到端自动驾驶框架

理想汽车自动驾驶方案 | DriveVLM：自动驾驶与大型视觉语言模型的融合方法

强推收藏！使用大语言模型的自动驾驶方案研究综述

PAMI 2024 | 端到端自动驾驶的主流方案汇总(1)

提前过年？20.99万元起！2025款极氪001、007上市！

秦通新作 | CS-NeRF：通过NeRF模型重建众包地图

CVPR 2024 | BEVSee：无需相机标定的BEV感知

CVPR2024 | 通过大语言模型实现可编辑逼真3D驾驶场景的仿真

CVPR自动驾驶公开赛冠军！Hydra-MDP: 端到端多模态规划与多目标 Hydra 蒸馏

哈工大&杭电 | MVPbev：BEV到透视图的端到端转换框架

IROS2024 | ParkingE2E：端到端自动泊车模型

39.98万起！享界S9上市！

港大&华为诺亚 | DriveGPT4：可解释的端到端自动驾驶！

GigaAI 和清华大学联合发布 | DriveDreamer：真实世界驾驶场景的开创性世界模型

深度解读｜U-BEV：自动驾驶场景的重建和定位

深度解读 | P-MapNet：结合SDMap和HDMap先验的地图生成器！

小鹏汽车AI智驾技术发布会小鹏汽车XNGP史上最大更新！智驾体验全面升级

高度提炼 | Fast-BEV：高效的BEV感知框架

无需模块化和 3D 手动标注的端到端自动驾驶，UAD框架解析(1)

GaussianBEV：首次将3D Gaussian引入BEV感知应用

高度提炼 | DreamCar？？严肃！这个可不是魅族汽车！在moving-froward场景中的3D车辆重建！

ICML 2024 | Best Paper新鲜出炉！AIGC持续霸榜中... ...

CVPR 2024 | LMDrive：使用大语言模型的闭环端到端自动驾驶模块实现

CVPR 2024 | LMDrive：使用大语言模型的闭环端到端自动驾驶 Pipeline详解

CVPR 2024 | 华为诺亚：注入BEV视角的多模态大模型

深度聚焦｜最强落地端到端自动驾驶算法！Tesla FSD v12公开模型分享！

高度提炼｜自动驾驶算法船新框架？CVPR 2023 Best PaperUniAD代码解析(2)

高度提炼｜自动驾驶算法船新框架？CVPR 2023 Best PaperUniAD框架解析(1)

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉