首页
时事
民生
政务
教育
文化
科技
财富
体娱
健康
情感
更多
旅行
百科
职场
楼市
企业
乐活
学术
汽车
时尚
创业
美食
幽默
美体
文摘
中科院&加州大学 | GenAD:生成式端到端自动驾驶框架
文摘
2024-08-18 23:56
上海
Arxiv:https://arxiv.org/pdf/2402.11502
Projection:
https://github.com/wzzheng/GenAD
本期概述
哈咯大家周末快乐!黑神话悟空上线倒计时两天!
据说最终boss不能透漏,只能稍微告知一点,是一个带条狗的神仙。。。
好难猜啊,这么难的题得使用排除法
建议首先排除成吉思汗!
周末也不能忘记充电!今天我们继续学习最新的端到端自动驾驶方案GenAD: Generative End-to-End Autonomous Driving,一种通过生成式框架,直接从视觉输入生成驾驶规划结果的文章。GenAD通过一种实例中心的场景表示方法,将周围场景转化为地图感知的实例表示,随后使用变分自编码器(VAE)在潜在结构空间中学习未来轨迹的分布,进而进行运动预测和规划。
GenAD的
创新点为以下内容
!
生成式模型框架
:将端到端自动驾驶建模为一个生成问题,能够同时进行运动预测和规划。
实例中心场景表示
:引入实例中心的场景表示方法,更好地捕捉自主车与其他交通参与者的高阶交互特征。
变分自编码器的应用
:利用变分自编码器在潜在结构空间中建模轨迹先验,使得生成的轨迹更加符合实际驾驶的运动学特征。
PipeLine
GenAD
包括场景表示和未来生成两个主要部分
。
场景表示部分
,首先图像主干网络(Image Backbone)提取
图像
多尺度特征。随后
BEV
编码器(BEV Encoder)生成BEV Tokens。然后可变形的交叉注意力(Deformable Cross-Attention)将这些BEV Tokens转换为地图和代理(即交通参与者)的Tokens。
(还额外引入了自车Token(Ego Token)我们下文展开)。
未来生成部分
,使用未来轨迹编码器(Future Trajectory Encoder),将真实轨迹(Ground-truth Trajectories)编码到潜在轨迹空间中,随后通过轨迹生成器(Future Trajectory Generator)生成未来的运动轨迹。
(1)实例中心场景表示(Instance-Centric Scene Representation)
:将传感器输入处理为结构化的场景表示,以用于后续的运动预测和规划。包括以下数据流:
图像到乌瞰视角 (Image to BEV):
通过卷积神经网络(CNN)和特征金字塔网络(FPN)从摄像头输入
中提取多尺度图像特征
是。然后,通过使用可变形交叉注意力 (Deformable CrossAttention),将这些多尺度图像特征转换为鸟瞰视角(BEV)表示的特征,生成BEV tokens
:
其中,
表示可变形注意力模块,
是初始的 BEV tokens,这些tokens与多尺度图像特征
进行交叉注意力操作,最终生成了BEV特征
。
BEV到地图 (BEV to Map):
采用了一组地图tokens
表示语义地图信息,每个地图token可以解码为BEV空间中的一组点,代表着不同类别的地图元素(例如车道线、道路边界和人行横道)。这些地图tokens通过全局交叉注意力机制 (Cross-Attention) 从BEV tokens
中提取信息,生成更新后的地图tokens
:
其中,
是初始的地图tokens,
表示交叉注意力模块。这样可以确保地图tokens携带足够的空间信息用于后续的任务。
BEV到代理 (BEV to Agent)
:使用了一组代理tokens
来表示场景中的交通参与者(代理)的3D位置。代理tokens通过可变形交叉注意力从BEV tokens
中更新:
其中,
是初始的代理tokens。这些代理tokens解码后可获得每个交通参与者的位置信息、方向和类别信息。
实例中心场景表示 (Instance-centric Scene Representation)
:在代理tokens
的基础上,加入了一个自车token
,从而构成了一个实例tokens的集合
:
为了更好地模拟自车与其他交通参与者之间的高阶交互,论文在实例tokens上使用了自注意力机制:
其中,
表示自注意力模块。
为了进一步提升预测和规划的准确性,采用交叉注意力机制,将地图信息与实例tokens进行融合,生成最终的实例中心场景表示:
(2)轨迹先验建模(Trajectory Prior Modeling):
通过变分自编码器(Variational Autoencoder, VAE)在潜在空间中对未来轨迹进行建模。
将真实的轨迹
映射到潜在空间中的一个高斯分布。这一映射过程将轨迹转换为具有均值
和方差
的高斯分布:
其中,
表示一个均值为
,方差为
的高斯分布。
VAE论文:Diederik P Kingma and Max Welling. Auto-encoding variational bayes. arXiv preprint arXiv:1312.6114, 2013. 4
(3)未来轨迹生成(Latent Future Trajectory Generation)
:通过将轨迹生成问题分解为逐步生成的过程。
轨迹可以表示为一个序列,
根据上一时刻状态推测下一时刻轨迹。
未来轨迹的生成被表示为联合分布
的因式分解:
在这个分解中,轨迹点
是在给定初始潜在状态
的条件下生成的,以此类推。
通过一个简单的基于多层感知机(MLP)的解码器
来解码出当前时间戳的轨迹点
:
依次计算后续的时间戳,就可以生成完整的轨迹。
最后,为了
允许模型捕捉到交通参与者在时间维度的动态特性
引入了门控循环单元(GRU)来处理潜在空间中的时间序列数据。GRU模块
接收当前时间点的潜在状态
作为输入,并将其转换为下一时间点的潜在状态
:
使用解码器
来生成对应时间点的轨迹点:
轨迹先验建模和未来轨迹生成的过程
。左下侧为真实的轨迹,通过
未来轨迹编码器
映射到高斯分布
。
门控循环单元(GRU)
逐步生成潜在空间中下一时间步的轨迹状态。
解码器
接收从GRU生成的潜在状态,将其解码为具体的轨迹点。
(4)损失函数
:
包括轨迹损失
、Kullback-Leibler散度损失
、地图分割损失
和 3 D 物体检测损失
。总体损失函数为:
其中,
、
和
为超参数。
Experiments
GenAD框架与VAD框架在自动驾驶场景中的实验结果对比。尤其是在复杂的道路条件下,如急转弯或多车辆交汇的路口,GenAD生成的轨迹(左侧图示)显得更加流畅和自然
本期结语
生成式的自动驾驶轨迹预测!小编注意到,
G
enAD是完全没有使用车辆的运动学模型进行约束的,只是通过潜在特征进行硬拟合。
另外,这篇文章只是和VAD进行了比较,VAD是一篇23年的文章,不知道他和最新的研究内容相比效果如何呢?
往期回顾
理想汽车自动驾驶方案 | DriveVLM:自动驾驶与大型视觉语言模型的融合方法
CVPR2024 | 通过大语言模型实现可编辑逼真3D驾驶场景的仿真
强推收藏!使用大语言模型的自动驾驶方案研究综述
PAMI 2024 | 端到端自动驾驶的主流方案汇总(1)
如果对你的开发、科研有帮助,拜托拜托关注我们,我们将持续奉上优秀的端到端自动驾驶领域研究的分享干货!
温馨提示:点赞=学会,收藏=精通
点击
在看
,我们一起充电!
端到端自动驾驶
关注AD(Autonomous Driving)行业最前沿的人工智能解决方案,致力于打造为一个自动驾驶从业者及相关科研学者们的课外充电,技术分享,以及社区交流的服务平台!
最新文章
DeepSeek预测:2030年将实现完全自动驾驶
草履虫都能看懂的误差状态卡尔曼滤波器(附实验)
transformer手绘图解(注意力机制的本质)
研究方向分享(1):冷门但不偏门~业界急需...
卡尔曼滤波器图解(细节&全局理解的船新版本!!!)
最新研究 | V2X-VLM:E2E协同自动驾驶框架
西湖大学&理想汽车 | Delphi:基于扩散模型的长视频生成方法
大语言模型&多模态模型在自动驾驶中的应用综述(2)
被连续举报的第五天 | 自动驾驶基础模型的综述
理想汽车&中科院 | PlanAgent:使用MLLM的自动驾驶闭环运动规划
理想汽车:UA-Track,3D多目标跟踪(MOT)框架
CVPR 2024 | 理想汽车方案:场景数据检索方法处理长尾问题
Co-Driver:使用Qwen-VL(通义千问)实现辅助驾驶
ECCV 2024 | 弃用低精地图?EP-BEV:跨视角地图定位方案
ECCV 2024 | GeMap:矢量化高精地图在线构建
FastBEV 作者首次公开解读---《中低算力平台友好的环视特征融合方案》完整视频版
在端到端的浪潮下,感知&规划(模型)方向是否还会单独存在?
百度智驾 | 跨模态匹配算法实现厘米级高精定位!
中科院&加州大学 | GenAD:生成式端到端自动驾驶框架
理想汽车自动驾驶方案 | DriveVLM:自动驾驶与大型视觉语言模型的融合方法
强推收藏!使用大语言模型的自动驾驶方案研究综述
PAMI 2024 | 端到端自动驾驶的主流方案汇总(1)
提前过年?20.99万元起!2025款极氪001、007上市!
秦通新作 | CS-NeRF:通过NeRF模型重建众包地图
CVPR 2024 | BEVSee:无需相机标定的BEV感知
CVPR2024 | 通过大语言模型实现可编辑逼真3D驾驶场景的仿真
CVPR自动驾驶公开赛冠军!Hydra-MDP: 端到端多模态规划与多目标 Hydra 蒸馏
哈工大&杭电 | MVPbev:BEV到透视图的端到端转换框架
IROS2024 | ParkingE2E:端到端自动泊车模型
39.98万起!享界S9上市!
港大&华为诺亚 | DriveGPT4:可解释的端到端自动驾驶!
港大&华为诺亚 | DriveGPT4:可解释的端到端自动驾驶!
GigaAI 和 清华大学联合发布 | DriveDreamer:真实世界驾驶场景的开创性世界模型
深度解读|U-BEV:自动驾驶场景的重建和定位
深度解读 | P-MapNet:结合SDMap和HDMap先验的地图生成器!
小鹏汽车AI智驾技术发布会 小鹏汽车XNGP史上最大更新!智驾体验全面升级
高度提炼 | Fast-BEV:高效的BEV感知框架
无需模块化和 3D 手动标注的端到端自动驾驶,UAD框架解析(1)
GaussianBEV:首次将3D Gaussian引入BEV感知应用
高度提炼 | DreamCar??严肃!这个可不是魅族汽车!在moving-froward场景中的3D车辆重建!
ICML 2024 | Best Paper新鲜出炉!AIGC持续霸榜中... ...
CVPR 2024 | LMDrive:使用大语言模型的闭环端到端自动驾驶 模块实现
CVPR 2024 | LMDrive:使用大语言模型的闭环端到端自动驾驶 Pipeline详解
CVPR 2024 | 华为诺亚:注入BEV视角的多模态大模型
深度聚焦|最强落地端到端自动驾驶算法!Tesla FSD v12公开模型分享!
高度提炼|自动驾驶算法船新框架?CVPR 2023 Best PaperUniAD代码解析(2)
高度提炼|自动驾驶算法船新框架?CVPR 2023 Best PaperUniAD框架解析(1)
分类
时事
民生
政务
教育
文化
科技
财富
体娱
健康
情感
旅行
百科
职场
楼市
企业
乐活
学术
汽车
时尚
创业
美食
幽默
美体
文摘
原创标签
时事
社会
财经
军事
教育
体育
科技
汽车
科学
房产
搞笑
综艺
明星
音乐
动漫
游戏
时尚
健康
旅游
美食
生活
摄影
宠物
职场
育儿
情感
小说
曲艺
文化
历史
三农
文学
娱乐
电影
视频
图片
新闻
宗教
电视剧
纪录片
广告创意
壁纸头像
心灵鸡汤
星座命理
教育培训
艺术文化
金融财经
健康医疗
美妆时尚
餐饮美食
母婴育儿
社会新闻
工业农业
时事政治
星座占卜
幽默笑话
独立短篇
连载作品
文化历史
科技互联网
发布位置
广东
北京
山东
江苏
河南
浙江
山西
福建
河北
上海
四川
陕西
湖南
安徽
湖北
内蒙古
江西
云南
广西
甘肃
辽宁
黑龙江
贵州
新疆
重庆
吉林
天津
海南
青海
宁夏
西藏
香港
澳门
台湾
美国
加拿大
澳大利亚
日本
新加坡
英国
西班牙
新西兰
韩国
泰国
法国
德国
意大利
缅甸
菲律宾
马来西亚
越南
荷兰
柬埔寨
俄罗斯
巴西
智利
卢森堡
芬兰
瑞典
比利时
瑞士
土耳其
斐济
挪威
朝鲜
尼日利亚
阿根廷
匈牙利
爱尔兰
印度
老挝
葡萄牙
乌克兰
印度尼西亚
哈萨克斯坦
塔吉克斯坦
希腊
南非
蒙古
奥地利
肯尼亚
加纳
丹麦
津巴布韦
埃及
坦桑尼亚
捷克
阿联酋
安哥拉