深度解读 | P-MapNet:结合SDMap和HDMap先验的地图生成器!

文摘   2024-08-03 01:02   上海  

Arxiv:https://arxiv.org/pdf/2403.10521

本期概述

喽大家好!属于是失踪人口回归了。。近期版本赶发布,连续两天干到两点钟。。不过别担心~失误只会发生一次!李小毛以后多备点存稿!

本期介绍一个高效的感知模型:P-MapNet:由 SDMap 和 HDMap 先验增强的具有远见的地图生成器。主要研究了在自动驾驶领域中通过利用先验地图信息来增强高精度地图(HDMap)生成的方法。该网络通过结合标准定义地图(SDMap)和高精度地图(HDMap)的先验知识来提高地图生成的性能和精度。主要创新点如下:

结合SDMap和HDMap的先验知识提出了同时利用SDMap和HDMap先验信息的创新方法,通过多头交叉注意力机制实现了SDMap和BEV特征的有效融合。使用MAE进行HDMap先验的捕捉和应用,从而提高生成地图的结构化程度和真实性

适应远距离感知的地图生成:P-MapNet被设计为一种“远视”解决方案,特别是在车辆前方较远距离的地图生成中表现优异,适用于感知距离超过100米的场景。通过结合先验信息,模型能够在远距离的交叉路口和车道中提供更准确的地图预测

灵活的推理模式:P-MapNet支持不同的推理模式,如仅使用SDMap先验(S模式)或结合SDMap和HDMap先验(S+H模式)。

PipeLine

P-MapNet Pipeline主要由三个部分组成:BEV特征提取、SDMap特征提取和HDMap先验精细化。BEV特征提取图像通过神经视图变换进行处理,以获取鸟瞰图(BEV)特征,同时使用PointNet框架处理LiDAR数据以获得空间特征。进一步通过卷积神经网络(CNN)进行处理。SDMap特征提取模块:从OpenStreetMap中SDMap,经过卷积神经网络处理生成SDMap先验特征。最后采用多头注意力机制(包括自注意力和交叉注意力)来对齐并融合BEV特征和SDMap先验特征。HDMap先验精细化:通过预训练的掩码自动编码器(MAE)对HDMap先验进行精细化处理。利用ViT模型和分割头,该模块对初始HDMap预测进行精细化,生成最终的高精度地图预测。

1. SDMap先验模块(SDMap Prior Module):主要目标是解决车载传感器固有的挑战(如远距离道路不可见性和恶劣天气条件),进而提供一个稳定一致的环境轮廓。

输入LiDAR点云、多视角图像、SDMap(可能存在错位
输出初始HDMap预测  融合了SDMap先验信息


为了解决BEV特征与SDMap特征无法解决空间上的错位问题,采用了多头交叉注意力模块来优化SDMap先验和BEV 特征的对齐。

(1)通过卷积网络对BEV特征进行降采样,减少低级特征图的内存消耗,并部分缓解图像BEV特征与LiDAR BEV特征之间的错位问题。降采样后的BEV特征表示为 ,其中 为降采样因子。这些特征结合正弦位置嵌入并压缩为一维,形成BEV查询
(2)匹配的(虽然是错位的)SDMap通过卷积网络和正弦位置嵌入进行处理,产生SDMap先验标记 。之后利用多头交叉注意力模块将SDMap先验信息整合到BEV查询中,增强其特征表示:
其中, 是第 个单头交叉注意力, 是头数, 是投影层。增强后的BEV特征经过分割头生成初始的HDMap预测,记为 ,其中 表示地图元素类别总数,包括一个背景类。

2. HDMap先验模块(SDMap Prior Module):旨在生成更精确和真实的远视高精度地图(HDMap)。该模块通过自监督学习预训练的掩码自动编码器(MAE)来捕捉 HDMap的分布特征,从而提高地图生成的连续性和真实性。

输入初始HDMap预测  、掩码后的HDMap真值。

输出:最终HDMap预测。

2.1.MAE模块:采用了一种Vision Transformer模型和全卷积分割头。通过在数据集的训练集中对 HDMap的真实值进行掩码处理,并使用ViT模型对其进行编码,从而生成掩码后的HDMap。分割头用于将掩码后的HDMap还原为其原始的HDMap真实值,这一过程通过像素级交叉熵损失进行自监督

2.2HDMap掩码该模块尝试了两种不同的掩码策略来预训练模块,分别是网格掩码和随机掩码。网格掩码策略采用固定的掩码块大小,而随机掩码策略则从—组候选中随机选择掩码块大小和掩码比例,以减轻预训练期间的过拟合问题。随机掩码策略随机选择掩码补丁大小和掩码比率,以增加数据多样性,从而更好地捕捉HDMap的先验信息。

HDMap先验模块的训练分为两个步骤:首先,使用自监督学习训练MAE模块以捕捉HDMap的分布;其次,加载第一步中的权重,并以初始 HDMap预测  作为输入进行微调。

Experiments

P-MapNet在nuScenes和Argoverse2数据集上的定性实验结果。在nuScenes数据集中,P-MapNet在多种天气条件下表现出色,无论是在白天还是夜间,都能够生成更准确的地图预测。在Argoverse2数据集中,P-MapNet在视角遮挡场景下也能够生成更为准确和稳定的地图,尤其是在复杂的城市环境中。

P-MapNet在60×120m范围内各个模块的运行时间分布,在一台RTX 3090 GPU上进行(Orin的浮点算力大概是3090的1/5)。HDMap先验精细化模块占用了66.87%的总计算时间,耗时66.12毫秒,这是整个系统中最耗时的部分。
本期结语
李小毛最近和自动驾驶行业的大佬们讨论,一直认为未来的自动驾驶领域中,依靠AIGC脑补进行推理的方案一定占有一席之地!今后我们会继续分享该方面的文章!欢迎大神们来深度讨论!
往期回顾
高度提炼 | Fast-BEV:高效的BEV感知框架
GaussianBEV:首次将3D Gaussian引入BEV感知应用
如果对你的开发、科研有帮助,拜托拜托关注我们,我们将持续奉上优秀的端到端自动驾驶领域研究的分享干货!

温馨提示:点赞=学会,收藏=精通
点击在看,我们一起充电!



端到端自动驾驶
关注AD(Autonomous Driving)行业最前沿的人工智能解决方案,致力于打造为一个自动驾驶从业者及相关科研学者们的课外充电,技术分享,以及社区交流的服务平台!
 最新文章