深度解读 | P-MapNet：结合SDMap和HDMap先验的地图生成器！

文摘 2024-08-03 01:02 上海

Arxiv：https://arxiv.org/pdf/2403.10521

本期概述

哈喽大家好！属于是失踪人口回归了。。近期版本赶发布，连续两天干到两点钟。。不过别担心~失误只会发生一次！李小毛以后多备点存稿！

本期介绍一个高效的感知模型：P-MapNet：由 SDMap 和 HDMap 先验增强的具有远见的地图生成器。主要研究了在自动驾驶领域中通过利用先验地图信息来增强高精度地图（HDMap）生成的方法。该网络通过结合标准定义地图（SDMap）和高精度地图（HDMap）的先验知识来提高地图生成的性能和精度。主要创新点如下：

结合SDMap和HDMap的先验知识：提出了同时利用SDMap和HDMap先验信息的创新方法，通过多头交叉注意力机制实现了SDMap和BEV特征的有效融合。使用MAE进行HDMap先验的捕捉和应用，从而提高生成地图的结构化程度和真实性

适应远距离感知的地图生成：P-MapNet被设计为一种“远视”解决方案，特别是在车辆前方较远距离的地图生成中表现优异，适用于感知距离超过100米的场景。通过结合先验信息，模型能够在远距离的交叉路口和车道中提供更准确的地图预测。

灵活的推理模式：P-MapNet支持不同的推理模式，如仅使用SDMap先验（S模式）或结合SDMap和HDMap先验（S+H模式）。

PipeLine

P-MapNet Pipeline主要由三个部分组成：BEV特征提取、SDMap特征提取和HDMap先验精细化。BEV特征提取：图像通过神经视图变换进行处理，以获取鸟瞰图（BEV）特征，同时使用PointNet框架处理LiDAR数据以获得空间特征。进一步通过卷积神经网络（CNN）进行处理。SDMap特征提取模块：从OpenStreetMap中SDMap，经过卷积神经网络处理生成SDMap先验特征。最后采用多头注意力机制（包括自注意力和交叉注意力）来对齐并融合BEV特征和SDMap先验特征。HDMap先验精细化：通过预训练的掩码自动编码器（MAE）对HDMap先验进行精细化处理。利用ViT模型和分割头，该模块对初始HDMap预测进行精细化，生成最终的高精度地图预测。

1. SDMap先验模块(SDMap Prior Module)：主要目标是解决车载传感器固有的挑战（如远距离道路不可见性和恶劣天气条件），进而提供一个稳定一致的环境轮廓。

输入：LiDAR点云、多视角图像、SDMap（可能存在错位）

输出：初始HDMap预测（融合了SDMap先验信息）

为了解决BEV特征与SDMap特征无法解决空间上的错位问题，采用了多头交叉注意力模块来优化SDMap先验和BEV 特征的对齐。

（1）通过卷积网络对BEV特征进行降采样，减少低级特征图的内存消耗，并部分缓解图像BEV特征与LiDAR BEV特征之间的错位问题。降采样后的BEV特征表示为

，其中为降采样因子。这些特征结合正弦位置嵌入并压缩为一维，形成BEV查询。

（2）匹配的（虽然是错位的）SDMap通过卷积网络和正弦位置嵌入进行处理，产生SDMap先验标记。之后利用多头交叉注意力模块将SDMap先验信息整合到BEV查询中，增强其特征表示:

其中，是第个单头交叉注意力，是头数，是投影层。增强后的BEV特征经过分割头生成初始的HDMap预测，记为，其中表示地图元素类别总数，包括一个背景类。

2. HDMap先验模块（SDMap Prior Module）：旨在生成更精确和真实的远视高精度地图（HDMap）。该模块通过自监督学习预训练的掩码自动编码器（MAE）来捕捉 HDMap的分布特征，从而提高地图生成的连续性和真实性。

输入：初始HDMap预测、掩码后的HDMap真值。

输出：最终HDMap预测。

2.1.MAE模块：采用了一种Vision Transformer模型和全卷积分割头。通过在数据集的训练集中对 HDMap的真实值进行掩码处理，并使用ViT模型对其进行编码，从而生成掩码后的HDMap。分割头用于将掩码后的HDMap还原为其原始的HDMap真实值，这一过程通过像素级交叉熵损失进行自监督

2.2HDMap掩码：该模块尝试了两种不同的掩码策略来预训练模块，分别是网格掩码和随机掩码。网格掩码策略采用固定的掩码块大小，而随机掩码策略则从—组候选中随机选择掩码块大小和掩码比例，以减轻预训练期间的过拟合问题。随机掩码策略随机选择掩码补丁大小和掩码比率，以增加数据多样性，从而更好地捕捉HDMap的先验信息。

HDMap先验模块的训练分为两个步骤：首先，使用自监督学习训练MAE模块以捕捉HDMap的分布；其次，加载第一步中的权重，并以初始 HDMap预测作为输入进行微调。

Experiments

P-MapNet在nuScenes和Argoverse2数据集上的定性实验结果。在nuScenes数据集中，P-MapNet在多种天气条件下表现出色，无论是在白天还是夜间，都能够生成更准确的地图预测。在Argoverse2数据集中，P-MapNet在视角遮挡场景下也能够生成更为准确和稳定的地图，尤其是在复杂的城市环境中。

P-MapNet在60×120m范围内各个模块的运行时间分布，在一台RTX 3090 GPU上进行（Orin的浮点算力大概是3090的1/5）。HDMap先验精细化模块占用了66.87%的总计算时间，耗时66.12毫秒，这是整个系统中最耗时的部分。

本期结语

李小毛最近和自动驾驶行业的大佬们讨论，一直认为未来的自动驾驶领域中，依靠AIGC脑补进行推理的方案一定占有一席之地！今后我们会继续分享该方面的文章！欢迎大神们来深度讨论！

往期回顾

高度提炼 | Fast-BEV：高效的BEV感知框架

GaussianBEV：首次将3D Gaussian引入BEV感知应用

如果对你的开发、科研有帮助，拜托拜托关注我们，我们将持续奉上优秀的端到端自动驾驶领域研究的分享干货！

温馨提示：点赞＝学会，收藏＝精通

点击在看，我们一起充电！

端到端自动驾驶

关注AD（Autonomous Driving）行业最前沿的人工智能解决方案，致力于打造为一个自动驾驶从业者及相关科研学者们的课外充电，技术分享，以及社区交流的服务平台！

最新文章

DeepSeek预测：2030年将实现完全自动驾驶

草履虫都能看懂的误差状态卡尔曼滤波器（附实验）

transformer手绘图解（注意力机制的本质）

研究方向分享(1)：冷门但不偏门～业界急需...

卡尔曼滤波器图解（细节&全局理解的船新版本！！！）

最新研究 | V2X-VLM：E2E协同自动驾驶框架

西湖大学&理想汽车 | Delphi：基于扩散模型的长视频生成方法

大语言模型&多模态模型在自动驾驶中的应用综述（2）

被连续举报的第五天 | 自动驾驶基础模型的综述

理想汽车&中科院 | PlanAgent：使用MLLM的自动驾驶闭环运动规划

理想汽车：UA-Track，3D多目标跟踪（MOT）框架

CVPR 2024 | 理想汽车方案：场景数据检索方法处理长尾问题

Co-Driver：使用Qwen-VL（通义千问）实现辅助驾驶

ECCV 2024 | 弃用低精地图？EP-BEV：跨视角地图定位方案

ECCV 2024 | GeMap：矢量化高精地图在线构建

FastBEV 作者首次公开解读---《中低算力平台友好的环视特征融合方案》完整视频版

在端到端的浪潮下，感知&规划(模型)方向是否还会单独存在？

百度智驾 | 跨模态匹配算法实现厘米级高精定位！

中科院&加州大学 | GenAD：生成式端到端自动驾驶框架

理想汽车自动驾驶方案 | DriveVLM：自动驾驶与大型视觉语言模型的融合方法

强推收藏！使用大语言模型的自动驾驶方案研究综述

PAMI 2024 | 端到端自动驾驶的主流方案汇总(1)

提前过年？20.99万元起！2025款极氪001、007上市！

秦通新作 | CS-NeRF：通过NeRF模型重建众包地图

CVPR 2024 | BEVSee：无需相机标定的BEV感知

CVPR2024 | 通过大语言模型实现可编辑逼真3D驾驶场景的仿真

CVPR自动驾驶公开赛冠军！Hydra-MDP: 端到端多模态规划与多目标 Hydra 蒸馏

哈工大&杭电 | MVPbev：BEV到透视图的端到端转换框架

IROS2024 | ParkingE2E：端到端自动泊车模型

39.98万起！享界S9上市！

港大&华为诺亚 | DriveGPT4：可解释的端到端自动驾驶！

GigaAI 和清华大学联合发布 | DriveDreamer：真实世界驾驶场景的开创性世界模型

深度解读｜U-BEV：自动驾驶场景的重建和定位

深度解读 | P-MapNet：结合SDMap和HDMap先验的地图生成器！

小鹏汽车AI智驾技术发布会小鹏汽车XNGP史上最大更新！智驾体验全面升级

高度提炼 | Fast-BEV：高效的BEV感知框架

无需模块化和 3D 手动标注的端到端自动驾驶，UAD框架解析(1)

GaussianBEV：首次将3D Gaussian引入BEV感知应用

高度提炼 | DreamCar？？严肃！这个可不是魅族汽车！在moving-froward场景中的3D车辆重建！

ICML 2024 | Best Paper新鲜出炉！AIGC持续霸榜中... ...

CVPR 2024 | LMDrive：使用大语言模型的闭环端到端自动驾驶模块实现

CVPR 2024 | LMDrive：使用大语言模型的闭环端到端自动驾驶 Pipeline详解

CVPR 2024 | 华为诺亚：注入BEV视角的多模态大模型

深度聚焦｜最强落地端到端自动驾驶算法！Tesla FSD v12公开模型分享！

高度提炼｜自动驾驶算法船新框架？CVPR 2023 Best PaperUniAD代码解析(2)

高度提炼｜自动驾驶算法船新框架？CVPR 2023 Best PaperUniAD框架解析(1)

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉