ExelMap创新方案:解决HD地图变更检测的精确性与解释性挑战 !

文摘   2024-12-10 11:11   中国香港  

自动驾驶之星


点击上方蓝字关注 自动驾驶之星

点击下方卡片,关注“自动驾驶之星
这里有一群奋斗在自动驾驶量产第一线的小伙伴等你加入

在实现自动驾驶的高清(HD)地图部署过程中,获取和维护是两个核心问题,目前文献中存在两种研究潮流:在线 HD 地图生成和 HD 地图变更检测。

然而,目前生成的地图质量还不足以实现安全部署,许多变更检测方法无法精确地定位和提取变更的地图元素,因此不具备解释性,也可能阻止潜在的车队协作 HD 地图更新的可能性。

在本文中,作者提出了一种可解释元素基础的 HD 地图变更检测和更新的新任务。

在扩展使用过时地图先验信息的在线制图技术进行 HD 地图更新的最近方法的基础上,作者提出了 ExelMap,这是一种可解释元素基础的地图更新策略,它专门识别变更的地图元素。在这一背景下,作者讨论了目前使用的度量标准无法捕捉到变更检测性能,同时允许在无先验地图生成方法和有先验地图生成方法之间进行不公正的比较。

最后,作者在 Argoverse 2 地图变更数据集的现实生活中相关变化进行了实验研究。

据作者所知,这是第一次对实际端到端元素基础的 HD 地图变更检测和更新进行全面的调查,而 ExelMap 是第一个提出的解决方案。

1 Introduction

对于自动驾驶车辆(AV)的下游应用来说,对道路的准确理解是基础。高分辨率(HD)地图是实现这一技术的关键部分,它提供详细的道路环境表示,有助于基于精准的传感数据进行导航 [4]。然而,作者所居住的世界具有动态性,这使得HD地图的持续更新成为一个重要的挑战,这个过程被称为HD地图变化检测 [8]。

近年来,由于高标注成本和地图维护的挑战,HD地图相关的研究发生了转向,最近的重点是传感器导向的HD地图生成,而不是变化检测。在线地图方法旨在从镜头图像中提取拓扑结构、车道几何、类型和方向,或人行横道。虽然已经取得了令人鼓舞的改进,但结果仍然远远不够用于实际驾驶任务,因为准确性和通用性还不够。

为提高性能,最近的研究探索了将标准定义(SD)地图 [18]或过时HD地图 [21]作为除传感器数据之外的第二输入进行集成。因此,网络的任务从先验不明确的生成转移到将当前传感器数据和编码的先验地图数据进行融合。有趣的是,如果编码的先验是过时的HD地图,那么这些工作在于在线地图生成和变化检测的交点,或者说,如[1]指出的:HD地图更新。

HD地图更新的结果已经报告出了一些有前途的成果,但仍存在一些尚未解决的重要问题。首先,像[8]所显示的那样,HD地图元素过时的时间较低是一个重大挑战,无论是训练还是评估。由于真实世界的变化很少而且公共数据集无法提供大量的过时和最新的地图对,大多数工作都采用合成先验噪声模型 。尽管希望足够多样化的地图扰动能填补在合成数据上训练和实际环境中评估模特之间的性能差距,但性能还是明显下降了[1]。

第二个问题与先验信息导向的地图更新管线有关,这部分源自该领域的历史演变。如[21]或[1]所示的先验信息更新的工作使用mAP在所有预测元素上,类似于无先验信息的地图生成框架MapTR [12]。不仅因为考虑到在编码的过时HD地图中很可能本来就存在大量已有的ground truth地图元素而使用这种比较是不公平的,而且也不能同时用所有地图元素来捕捉先验导向地图更新管线的实际变化检测或地图更新性能。

最后,第三个问题存在于唯一的公开数据集 for change detection:Argoverse 2 Map Change Dataset[8] - 也称为Trust,但Verify(TbV)- 提出了一种确定传感器数据是否与先验地图完全一致的方法,与潜在的变化无关。尽管这个指标捕捉了变化检测性能,但它缺乏解释地图哪些部分已发生变化。

在本工作中,作者提出了一种基于元素的新 HD 地图变化检测和更新,解决了当前的挑战。作者的主要贡献包括

  • 提出了一种可解释的、基于元素的 HD 地图变化检测和更新的新任务,作为对上述挑战的回答。
  • 提出ExelMap,第一个端到端的解析元素基 HD 地图变化检测和更新架构,包括地图更新。
  • 探讨了当前对变化检测和地图更新的评估策略的缺陷,并讨论了全面度量的性质。

2 Related work

HD-Map Change Detection

保持高精度地图的实时更新对于L4级自动驾驶至关重要,因为许多下游任务如规划和情境意识都需要地图作为道路的完全准确表示 [4]。因此,研究重点集中在比较在线传感器数据与可能过时的先验高精度地图上的变化,因为专门的映射车辆无法以足够高的频率更新全球高精度地图 [8, 19]。尽管这种系统仍然需要先验获取高精度地图,但在线变化处理可以促进其维护,防止在极少但至关重要的道路环境变化中产生有害后果。

尽管变化检测领域是一个活跃的研究方向,但它是高度异构的,这是由于不同的地图定义和使用场景 [20]。高精度地图变化检测研究涉及不同的方面,但尚未提出统一的变更检测方法 [4, 20]。不同 Pipeline 的输出的变化范围从每个像素的变化概率 [6]到检测特定的“变化类别”(如人行横道 [2] 或环岛 [27]),到针对每个输入帧的二进制变化分数 [8]。

目前 change detection 研究的一个尚未关注到的方面是可解释性。唯一专用公共数据集,Argoverse 2 Map Change Dataset (TbV) [8] 中提出的变更检测任务并未捕获网络实际表示的变更。这对高精度地图验证中至关重要的人类在环任务产生了负面影响,因为假设需要不断降低地图的安全性。此外,识别和定位更改元素对于可能的基于船队的地图维护工作至关重要,以减少计算负载并促进信息共享。

HD-Map Generation

随着高质量地图的获取成为自动驾驶车辆(AVs)可扩展性的瓶颈,另一种研究趋势专注于从传感器数据中学习局部高精度地图,以避免标注成本和制图停机时间。这种趋势通过鸟类瞰(BEV)特征 Backbone 的发展而得到推动,这些 Backbone 提供了一种单一、紧凑的图像特征表示方式。早期的工作主要关注鸟瞰视图下的语义分割 [26],对于复杂的公路拓扑、重叠要素及其关系,出现了难题。

早期的尝试生成更加紧凑的,即向量化的,局部地图表示,是HDMapNet [9]。在这里,耗时的后处理将语义分割、实例嵌入和方向预测的结果合并,以生成向量化的地图元素,但它并没有考虑到元素之间的复杂关系。为了解决这个问题,VectorMapNet [16] 提出了一种直接的表示方法,即通过BEV为基础的解码方案,将每个地图元素表示为一系列点,进行类级关键点位置提取。MapTR [12]及其继任者MapTR-v2 [13]通过引入一种统一的置换等效方法来解码地图元素,从而提高了推理速度并减少了建模的歧义。在扩展生成的HD地图的信息内容方面,LaneSegNet [10] 将地图元素几何体的检测与拓扑关系的感知结合在一起,同时提供了集成语义车道信息的选项,如车道类型。在大多数以前的工作都依赖于单一帧传感器输入的情况下,StreamMapNet [25] 提出了帧间时间融合,以增加稳定性和改善遮挡处理。

虽然在HD地图生成功能方面取得了相当大的进展,但这种结果在实际中的适用性值得商榷。地图元素的伪迹在输出中无处不在,遮挡处理不完整,而且只有约100x50平方米的地图大小,预测的地图无法满足HD地图的先验要求 [4]。此外,最近的工作对两种 commonly used 的公共数据集进行了质疑 - Argoverse 2 [23] 和 nuScenes [3] -,揭示了最先进方法性能的膨胀,以及在mAP中的预期性能下降有时会超过45个百分点 。

Prior-aided HD-Map Update

近年来,在变化检测和局部图生成的交叉领域,一种潜在的新方法逐渐显露。针对主要的全图生成问题,即远程性能低和遮挡,标准传感器+ Pipeline 中的先验知识整合被认为是一种可行解决方案。这种先验知识由,例如,精度较低的地图-所谓标准定义(SD)地图[7, 18]-和过时的HD地图[1, 21]组成。

与作者工作最相关的是[1]和[21],这两种方法探讨了将过时的HD地图引入HD图生成 Pipeline : 这些模型并非维护一个最新的全局HD图,而是从传感器数据和过时地图先验中重新构建更新的局部道路表示。尽管这些方法与变化检测任务存在并行,但变化的概念在这些设置中并未出现,因为需要在后处理中匹配更新的地图先验以提取更改的元素。尽管这样的方法可能比后续地图更新的变化检测方法更简洁,但“隐式”变化检测会降低验证能力和网络输出控制,因为可能包含从过时HD地图中通过的潜在信息与新生成特征混合在一起。

验证问题的存在也体现在当前的评价策略中,因为大部分研究仍然使用第2.2节[1, 21]中描述的先验图生成任务中的指标。由于现实世界中地图变化的频率较低,使用先验图生成技术将与传统无先验传感器+方法进行比较可能掩盖地图更新性能,因为过时的地图可能已经包含大量的真实值在输入中。

最后一个问题涉及到适当数据的可用性和质量。在这方面,似乎基于先验的图生成方法面临变化检测社区长期以来已知的长期问题:没有过时地图和升级地图的配对[4, 8]。作为一种权宜之计,[21]和[1]通过,例如,特征的离散修改或复制特征或连续修改来通过在合成 GT 地图的修改。然而,当在真实变化[1]上评估时,这会导致相当大的模拟真实世界(Sim-2-Rea)差距。

在这篇论文中,作者主张在可解释的变化检测和更新HD图维护的新任务中,可以首先解决或避免一些这些挑战。实际上,由于地图预测方法的普遍解码范式是在逐元素的基础上进行的,通过元素逐变化评估来确保可解释性是内在可能的,而地图更新则可以无缝地从 Pipeline 输出中继。最后,虽然数据集和评价问题仍需决定性地解决,但元素结合适当的变换检测指标可能会对底层挑战有更好的理解。

3 Methodology

作者的方法基于 LaneSegNet [10],但它可以灵活地适应其他最先进的地图生成方法。作者选择 LaneSegNet,因为生成的地图默认包含语义属性(如车道类型),并且可以很容易地扩展到预测向前视角的地图元素(如交通信号灯和标识)。此外,该网络基于所谓的车道段运行,车道段被表示为向量化中心线和相应的车道边界,

然后,通过分类 Head  [10] 的输出,确定具体地图元素(车道或人行横道)的类别。这种统一表示对于设计一个可以同时灵活检测车道和人行横道变化的检测 Pipeline 是有益的。图1 显示了作者的方法 ExelMap 的结构。在下文中,作者将详细说明作者的方法在何处扩展了 LaneSegNet 的 Backbone ,以便更轻松地复制作者的结果。

Stale HD-Map Encoder

为了将过时的车道分割图集成到LaneSegNet Backbone 结构中,作者利用了[18]中的轻量级SD图分词器,并将其适应到作者的HD图需求。作者使用的过时HD图包含局部车道段的几何信息、它们的类别(人行横道或车道)以及它们语义属性(车道边界类型,即虚线、实线或不可见)。此外,车道段之间的连接保存在局部道路图(lane segment connectivity)中,但后者尤其是标注和保持更新成本极高。因此,作者将局部图结构的预测留给了流水线生成部分,以减轻HD图先验的需求。

作者从过时的HD图中提取所有个车道段的几何表示,这些车道段根据[10]的定义包括左侧、右侧和中心线的10个等间隔点,作者用表示。此外,作者还提取了左、右侧车道边界类型,即不可见、虚线或实线,如图1所示。根据[18],作者选择一个正弦/余弦位置编码来充分捕捉个空间编码后的微观弯曲,同时使用维度为的one-hot编码方案来表示右侧和左侧车道边界类型。

接着,作者将编码的地理坐标和one-hot编码的边界类型拼接起来,形成 desired polyline 序列,其形状为,其中为位置编码维度。随后,堆叠并编码的输入被输入到一个由6层组成的transformer图编码器中,该编码器包括自注意力块和遵循[18]的自回归网络。

Encoded Map Prior Integration

为了消耗地图预测 Pipeline 中编码的旧地图特征,文献中普遍有两种思路:

(1)通过额外的交叉注意力步骤关注编码的地图;

(2)使用编码的地图作为最终地图解码模型的 Query 。

这两种方法具有直观的解释:

(1)旧地图只是传感器数据编码在BEV特征中的第二来源;(2)地图先验被用作解码器 Token ,随后通过关注BEV特征进行改进。与作者的工作最相关的两篇文章[21]和[1],选择了第二种方法,并认为这使模型可以有意义地利用先验信息,然而[21]的作者提到模型有时不会考虑现有的地图信息,如果单独留下,网络甚至不能识别完全准确的先验 Query ,他们通过在额外的匹配步骤中预先归因于相应旧地图元素来解决这个问题。

[1]的作者报告,对于更复杂的先验偏差,模型只返回重置先验。这与作者的观察一致,作者怀疑该行为是由旧地图中更改和未更改元素的不平衡造成的,这使得学习渗透功能具有诱惑却有害于更大的地图变化。

因此,作者选择了策略(1),并设计完全可学习的地图解码器 Query ,以使网络有足够的灵活性,能同时合并传感器数据和旧地图。为了避免[1]提到这种方法的主要问题 - 即交叉注意力不足以强烈地将先验信息合并到模型中 - 作者提出了一种新颖的双交叉注意力结合方案。可以考虑在 Pipeline 中的两个位置使用先验:

(1)基于BEVformer的[24,11] Transformer 编码器,将ResNet-backbone的传感器特征表示转换为鸟瞰视角,或者(2)在地图解码器中,通过Cross-attending to BEV特征提取地图特征表示。与[18]不同,作者在BEV编码器中的每个空间交叉注意力之后和地图解码器中的每个空间交叉注意力之后进行交叉注意力。

Change Detection Heads

为了适应车道SegNet Backbone 网络解释性元素基变化检测,作者将标准的预测分支扩展以提取每个元素的改变状态,以及几何、语义和拓扑方面的信息。作者选择添加两个独立运行的二进制输出头,分别用于元素 Level 的删除和插入检测。作为损失函数,作者发现Focal Loss [15] 适合,因为作者存在改变和未改变地图元素以及包含变化或不含变化的帧之间的强烈类不平衡。鉴于基于车道段的方法,改变元素(行人过街或车道)类别由标准分类头独立确定。

两种变化检测Head都由一系列ReLU激活和Dropout的线性层组成,并输出一个形状为的张量。作者选择将删除和插入检测的 Head 分离,因为二分类对网络来说更具挑战性。令人惊讶的是,尽管它们并行运行,但作者从未观察到它们之间存在冲突的行为。

有了这些额外的头,网络的输出是两倍:遵循传统的高分辨率地图更新工作的道路场景的高清(HD)表示,以及一个新颖的变化图,其中每个预测元素都有一个改变状态(即未改变、插入或删除),允许在该安全性关键区域进行可解释的人机合作变化验证。

Datasets and Synthetic Change Generation

正如仅公开的HD地图变化检测数据集TbV的 authors所指出的那样,变化检测算法的开发和训练以及它们在实际变化上的评估之间存在巨大的差距。为了填补这一差距,TbV [8] 是第一个提供超过200个具有实际变化的场景的数据集,主要涉及道路几何变化或语义车道属性的变化,以及人行横道。对于训练,他们再次提出使用合成方法修改 GT 地图。

因此,作者选择在TbV的实际地图变化上评估作者的网络,并在没有实际地图变化的情况下使用建议的训练划分进行训练。尽管作者的方法能够检测到所有车道段的变化,即无论人行横道还是车道,但作者只关注与人行横道相关的变化,因为缺少或 newly 涂刷的人行横道是常见的地图变化。这类变化容易通过合成生成,且具有突出且易于检测和评估的特征。因此,在训练中,作者随机删除个别人行横道。对于插入,作者手动编辑地图代替使用[8]中提出的自动工具包,因为后者无法提供适当的实时地图变化。

最后,作者对训练数据进行预处理,以与最常用的地图生成数据集(如[23] Argoverse 2,[3] nuScenes 和[22] Openlane-V2)的规格相匹配。作者将车道段开始或结束点的标准定义为连接性的变化或语义车道属性的变化,以便在进行与原始数据集[22]相比更加顺利的训练过程,得出更长车道段。由于作者主要关注扫描道路上的变化,将视野范围减少到[25m,25m]。

4 Experiments

对于作者的模型中所有配置,作者都使用预训练的ResNet-50 [5]作为图像表示学习中的图像backbone。从模型输出中,作者利用匈牙利算法进行一一对应的最优匹配。作者在8个NVIDIA A10G Tensor Core GPU上用AdamW优化器训练模型20个周期,批处理大小为8。从标注的验证集分割中,作者从33个驾驶序列中提取所有66个与行人过马路相关的变化,以及所有没有变化的序列,总共大约有3800帧。这些示例中,有46个是行人过马路删除的情况,有20个是插入的情况。作者不考虑元素的位置移动,因为它们在验证集中并未出现。此外,这种变化可以容易地用删除 followed by insertion的形式来表述。

Explainable Change Detection Metrics

作者提出的任务涉及新的问题,因此与现有工作的比较是非常困难的。此外,由于在第2.1和2.3节中讨论到的限制,作者无法简单地应用高分辨率地图生成或高分辨率地图更新的指标。相反,作者提供一个讨论应捕获此项任务所需的九种网络质量的讨论,并相应地评估作者的方法。这些属性部分灵感来自于[12]中所使用的地图生成指标,以及[8]中建立的指标。

一个适当的度量应该回答的问题是,网络如何检测到当前输入中是否有变化(不论变化的类型是什么),如图2(a)所示。这类似于对多帧(MF)的评价,即连续输入,并在这个两分类问题中计入精确率和召回率。因为作者的方法是基于单帧(SF)的,作者通过调整[8]来评估SF类型无关的变化检测准确率和无变化检测准确率。具体定义如下:

其中,的计算如下:

此外,作者还在图2中区分单帧(SF)和多帧(MF)的评估策略。

在本文中, 分别表示改变或不变,其中 分别表示改变和不变。 是第 个序列的第 个帧的真正 S 类型无偏更改得分。SF 预测 如果插入头 或删除头 中的任意一个预测元素上信号改变,并且预测元素得分 大于预设阈值 ,则为 1。

对于 MF 无类型更改检测准确率(见图2,(b)),作者定义

其中

对于 SF 和 MF 类型感知更改检测准确率,即表示帧或序列中一定类型的更改,作者评估第1式更改类型特定(见图2,(c)-(d))。在本案例中,,因此对于预测,作者作出以下适应:

根据公式(6),作者可以计算出检测到的变化相对于真实值的局部化情况。具体而言,首先作者计算预测的变化元素和真实的变化元素之间的交集。然后,对每个检测到的变化元素,作者需要将其归类为是否位于真实的变化元素的位置。这里作者使用来表示这个分类结果。

为了确定检测到的变化相对于真实值的局部化程度,作者定义了三个参数:(IoU阈值),表示IoU值的一个阈值。值越大,表示局部化程度越高。然后,作者计算局部化参数,它表示为所有局部化变化元素的数量除以检测到的变化元素的总数。对于类感知评估的结果(图2(f)),作者根据的值将插入和删除分开进行计算。而在稍微不同的评估模式下,作者只计算具有至少一个改变的真实元素的准确性,记作。通过比较的差异,作者可以了解这种局部化设置中假阳性检测的大小。

最后,作者使用LaneSegNet背书的指标来确定变化元素和更新的地图的AP(精度)。LaneSegNet是一个用于车道分割的示例,作者可以通过将其背书的指标应用于变化元素和地图更新研究中来得出变化元素和更新的地图的AP。请注意,图2(i)中的评估方法类似于[1],[21]中的现有做法。元素之间的距离可以用它们与左、右车道边界和中心线的距离的加权和来表示。

在预测和实际的情况下,如果元素是一个行人过街设施,那么只使用非方向性Chamfer Distance。最终的AP得分是根据车道和行人过街设施的三个匹配阈值米以及定义在[10]中的米计算的。

作者在九种评估策略下对模型进行了全面的评估,结果报告在表1中。在(a)-(d)部分,作者评估了元素分数阈值。在(e)和(f)部分,作者设置并评估了IoU阈值

5 Discussion

如图3所示,展示了与行人过街设施相关的基于元素的 Change Detection。从左到右,子图显示了过时的高清图(stale HD map)、SF相机输入、change得分预测及本地更新图。change得分采用颜色编码,绿色表示插入行人过街设施,虚红色表示删除,灰色表示不变。作者观察到对于所有不表示行人过街设施的车道段,网络通过交叉关注编码地图前特征成功地学习了一个通过函数,尽管车道精度存在一些减损。

在进行表1中的类型感知评估策略时,作者观察到与新插入的相比,删除的行人过街设施检测性能较低。这是由于作者的合成数据集对行人过街设施插入与删除的比例约为9:1,而且插入可以通过从 GT 中统计删除元素来轻松生成合成过的过时图。而互补过程不能自动化,需要手动标注,导致实验的失衡。将插入数量减少到比例水平的一致水平将导致插入检测精度相当一致的下降,这证明了适当的合成训练数据的重要性。

尽管网络能够捕获行人过街设施相关的大部分变化,但观察到一些故障模式。不难预见,被其他交通参与者或物体遮挡的部分发生变化元素是为作者 SF 方法的主要原因。作者的方法的一些副作用是对 的低评分。这是因为作者只评估了网络的伪MF版本,即仅将所有帧在序列中累加。当元素出现在视野边缘时,它通常过早地被分类为发生变化,而在后续帧中当接近到它时进行更正。此外,当实际变化出现在后视或前视摄像头中时,会被认为是变化,但是当它们仅部分出现在侧视图中被忽略。这表明将方法扩展到真正的MF设置至关重要。

关于 change 定位精度,作者观察到一个显著数量的预测变化无法与 GT 变化相关联。这与关于过早插入的讨论一致,预计在多帧设置中数量会上升。如果作者将删除行人过街设施的进行比较,作者会看到更高的数值为。这表明如果能够检测到删除,作者能够非常好地定位它们。

最后,插入的 AP 与 LaneSegNet 背架相当,与这些元素仅由传感器数据生成的特性相一致。作者观察到含有不变元素的元素的精度稍微下降,但这个问题可以通过推理通过输出从过时地图相应的元素来轻易解决,如果没有发生变化。

6 Conclusions and Future Work

作者的方法成功演示了基于元素的变化检测对于高精度地图维护中的安全关键任务的的重要性。作者通过网络设计和详细的评估策略来保证可解释性。

尽管作者的方法可以检测到车道和人行横道上的变化,但由于合成训练数据的可用性,作者仅针对人行横道相关的变化进行了实验。

因此,在未来的研究中,将训练扩展到更复杂的变化场景中将是至关重要的,这可能需要在评估策略中进行一些适应性的调整。

来自对过时高精度地图的编码和融合策略的进一步完善、网络的帧式公式的发展以及对正向视图的变化的应用的外部发展可能将取得进步。

参考

[1].ExelMap: Explainable Element-based HD-Map Change Detection and Update+.

知识星球,新人优惠券来袭,结识一群志同道合的小伙伴一起成长。

下一个风口会不会是生成式AI 与具身智能的时代,我们特意创建了生成式AI与具身智能交流社区,关于大模型,机器人的相关业界动态,学术方向,技术解读等等都会在社区与大家交流,欢迎感兴趣的同学加入我们(备注具身智能)!  

自动驾驶之星知识星球主打自动驾驶量产全技术栈学习,并包括: 学习板块,求职面试,有问必答,论文速递,行业动态五大板块!星球内部包括端到端大模型,VLM大模型,BEV 障碍物/车道线/Occ 等的学习资料!

生成式AI与具身智能知识星球,我们相信生成式AI 与具身智能会碰撞出出乎我们意料的内容,本知识形象并包括: 学习板块,求职面试,有问必答,论文速递,行业动态五大板块!星球内部包括生成式AI大模型,具身智能,业界资料整理等的学习资料!


自动驾驶之星是面向自动驾驶&智能座舱量产向相关的交流社区,欢迎大家添加小助手加入我们的交流群里,这里有一批奋斗在量产第一线的小伙伴等你的加入!

👇点个“赞”和“在看”吧

自动驾驶之星
自动驾驶之星,是一个以自动驾驶\x26amp;智能座舱量产交流为主的社区。这里有自动驾驶\x26amp;智能座舱量产第一线的前沿动态,有一群奋斗在自动驾驶\x26amp;智能座舱量产第一线的小伙伴在分享他们的量产经历。期待你的加入!希望每个人在这个浪潮中都能成为自动驾驶之星!
 最新文章