中科院&加州大学 | GenAD:生成式端到端自动驾驶框架

文摘   2024-08-18 23:56   上海  
Arxiv:https://arxiv.org/pdf/2402.11502
Projection:https://github.com/wzzheng/GenAD
本期概述
哈咯大家周末快乐!黑神话悟空上线倒计时两天!据说最终boss不能透漏,只能稍微告知一点,是一个带条狗的神仙。。。好难猜啊,这么难的题得使用排除法
建议首先排除成吉思汗!
周末也不能忘记充电!今天我们继续学习最新的端到端自动驾驶方案GenAD: Generative End-to-End Autonomous Driving,一种通过生成式框架,直接从视觉输入生成驾驶规划结果的文章。GenAD通过一种实例中心的场景表示方法,将周围场景转化为地图感知的实例表示,随后使用变分自编码器(VAE)在潜在结构空间中学习未来轨迹的分布,进而进行运动预测和规划。
GenAD的创新点为以下内容
  1. 生成式模型框架:将端到端自动驾驶建模为一个生成问题,能够同时进行运动预测和规划。
  2. 实例中心场景表示:引入实例中心的场景表示方法,更好地捕捉自主车与其他交通参与者的高阶交互特征。
  3. 变分自编码器的应用:利用变分自编码器在潜在结构空间中建模轨迹先验,使得生成的轨迹更加符合实际驾驶的运动学特征。
PipeLine
GenAD包括场景表示和未来生成两个主要部分场景表示部分,首先图像主干网络(Image Backbone)提取图像多尺度特征。随后BEV 编码器(BEV Encoder)生成BEV Tokens。然后可变形的交叉注意力(Deformable Cross-Attention)将这些BEV Tokens转换为地图和代理(即交通参与者)的Tokens。(还额外引入了自车Token(Ego Token)我们下文展开)。未来生成部分,使用未来轨迹编码器(Future Trajectory Encoder),将真实轨迹(Ground-truth Trajectories)编码到潜在轨迹空间中,随后通过轨迹生成器(Future Trajectory Generator)生成未来的运动轨迹。
(1)实例中心场景表示(Instance-Centric Scene Representation):将传感器输入处理为结构化的场景表示,以用于后续的运动预测和规划。包括以下数据流:
图像到乌瞰视角 (Image to BEV): 通过卷积神经网络(CNN)和特征金字塔网络(FPN)从摄像头输入 中提取多尺度图像特征 是。然后,通过使用可变形交叉注意力 (Deformable CrossAttention),将这些多尺度图像特征转换为鸟瞰视角(BEV)表示的特征,生成BEV tokens :
其中, 表示可变形注意力模块, 是初始的 BEV tokens,这些tokens与多尺度图像特征 进行交叉注意力操作,最终生成了BEV特征
BEV到地图 (BEV to Map):采用了一组地图tokens 表示语义地图信息,每个地图token可以解码为BEV空间中的一组点,代表着不同类别的地图元素(例如车道线、道路边界和人行横道)。这些地图tokens通过全局交叉注意力机制 (Cross-Attention) 从BEV tokens 中提取信息,生成更新后的地图tokens :
其中, 是初始的地图tokens, 表示交叉注意力模块。这样可以确保地图tokens携带足够的空间信息用于后续的任务。
BEV到代理 (BEV to Agent) :使用了一组代理tokens 来表示场景中的交通参与者(代理)的3D位置。代理tokens通过可变形交叉注意力从BEV tokens 中更新:
其中, 是初始的代理tokens。这些代理tokens解码后可获得每个交通参与者的位置信息、方向和类别信息。
实例中心场景表示 (Instance-centric Scene Representation):在代理tokens 的基础上,加入了一个自车token ,从而构成了一个实例tokens的集合
为了更好地模拟自车与其他交通参与者之间的高阶交互,论文在实例tokens上使用了自注意力机制:
其中, 表示自注意力模块。
为了进一步提升预测和规划的准确性,采用交叉注意力机制,将地图信息与实例tokens进行融合,生成最终的实例中心场景表示:
(2)轨迹先验建模(Trajectory Prior Modeling):通过变分自编码器(Variational Autoencoder, VAE)在潜在空间中对未来轨迹进行建模。将真实的轨迹 映射到潜在空间中的一个高斯分布。这一映射过程将轨迹转换为具有均值 和方差 的高斯分布:
其中, 表示一个均值为 ,方差为 的高斯分布。
VAE论文:Diederik P Kingma and Max Welling. Auto-encoding variational bayes. arXiv preprint arXiv:1312.6114, 2013. 4
(3)未来轨迹生成(Latent Future Trajectory Generation):通过将轨迹生成问题分解为逐步生成的过程。轨迹可以表示为一个序列,根据上一时刻状态推测下一时刻轨迹。未来轨迹的生成被表示为联合分布的因式分解:
在这个分解中,轨迹点 是在给定初始潜在状态 的条件下生成的,以此类推。通过一个简单的基于多层感知机(MLP)的解码器 来解码出当前时间戳的轨迹点 :
依次计算后续的时间戳,就可以生成完整的轨迹。
最后,为了允许模型捕捉到交通参与者在时间维度的动态特性引入了门控循环单元(GRU)来处理潜在空间中的时间序列数据。GRU模块 接收当前时间点的潜在状态 作为输入,并将其转换为下一时间点的潜在状态 :
使用解码器 来生成对应时间点的轨迹点:
轨迹先验建模和未来轨迹生成的过程。左下侧为真实的轨迹,通过未来轨迹编码器映射到高斯分布门控循环单元(GRU)逐步生成潜在空间中下一时间步的轨迹状态。解码器接收从GRU生成的潜在状态,将其解码为具体的轨迹点。
(4)损失函数包括轨迹损失 、Kullback-Leibler散度损失 、地图分割损失 和 3 D 物体检测损失 。总体损失函数为:
其中, 为超参数。
Experiments
GenAD框架与VAD框架在自动驾驶场景中的实验结果对比。尤其是在复杂的道路条件下,如急转弯或多车辆交汇的路口,GenAD生成的轨迹(左侧图示)显得更加流畅和自然
本期结语
生成式的自动驾驶轨迹预测!小编注意到,GenAD是完全没有使用车辆的运动学模型进行约束的,只是通过潜在特征进行硬拟合。
另外,这篇文章只是和VAD进行了比较,VAD是一篇23年的文章,不知道他和最新的研究内容相比效果如何呢?
往期回顾
理想汽车自动驾驶方案 | DriveVLM:自动驾驶与大型视觉语言模型的融合方法
CVPR2024 | 通过大语言模型实现可编辑逼真3D驾驶场景的仿真
强推收藏!使用大语言模型的自动驾驶方案研究综述
PAMI 2024 | 端到端自动驾驶的主流方案汇总(1)
如果对你的开发、科研有帮助,拜托拜托关注我们,我们将持续奉上优秀的端到端自动驾驶领域研究的分享干货!
温馨提示:点赞=学会,收藏=精通
点击在看,我们一起充电!

端到端自动驾驶
关注AD(Autonomous Driving)行业最前沿的人工智能解决方案,致力于打造为一个自动驾驶从业者及相关科研学者们的课外充电,技术分享,以及社区交流的服务平台!
 最新文章