了解道路场景中的拓扑是自动驾驶的一项重要任务,因为它提供了有关可行驶区域以及交通信号的信息。最近,拓扑推理任务因其在自我规划中的重要应用而引起了社区的高度关注(Chai et al., 2020; Casas et al., 2021; Hu et al., 2023)。具体来说,给定多视图图像,拓扑推理旨在学习中心线和交通元素之间的矢量化道路图(Li et al., 2023;Wang et al., 2023)。它由四个主要任务组成:中心线检测、交通元素检测、车道-车道拓扑和车道-交通拓扑推理。图 1:左:使用真实拓扑(表示为“Topo GT”)替换预测拓扑同时保留检测结果时的拓扑评估。右:缺失检测(用虚线表示)如何影响拓扑推理的图示。他们揭示了一个基本事实:基本检测对于拓扑推理至关重要。 与包含多个独立任务的传统感知流程不同(Li et al., 2022b; Liu et al., 2023b),这四个任务自然具有逻辑顺序,即先检测然后推理。如果某些车道和交通实例没有被检测到,就会错过相应的拓扑连接,如图1右所示。这自然引出了一个问题:基本检测对拓扑推理的定量作用有多大?为了回答这个问题,我们通过改变主干来对检测性能进行详细的消融研究。结果表明,随着检测能力的增强,拓扑性能不断提高。当基本检测被冻结时,我们发现用地面实况(GT)替换拓扑预测带来了微小的改进。例如,使用 Swin-B 主干时,拓扑 GT 的 TOP ll 和 TOP lt 分数分别为 10.0% 和 30.9%,仅比使用拓扑预测高 0.5%分别为2.6%和2.6%。这种现象鼓励我们优先考虑两个探测器的设计。 具体来说,我们采用两个基于查询的检测分支:一个(Liu et al., 2023b)专用于 3D 中心线检测,另一个(Zhu et al., 2021)用于 2D 交通检测。3D 车道检测器利用平滑的车道表示并将每个车道查询解释为贝塞尔曲线的一组控制点。受 MOTRv2 (Zhang et al., 2023) 的启发,由于 2D 交通检测器在检测交通灯等小物体方面的优势,通过添加额外的 YOLOv8(可选)物体检测器可以进一步增强 2D 交通检测器的性能。 尽管有基本的检测,驾驶拓扑推理的另一个挑战是如何有效地对车道和交通元素之间的连接进行建模。之前的工作(Langenberg 等人,2019;Can 等人,2021;2022)采用了一种简单的方法,即使用多层感知器(MLP)来预测拓扑关系。然而,他们主要关注在图像域中关联不同的车道。为了应对 3D 空间,一些后续方法(Li et al., 2023; Xu et al., 2023)倾向于利用基于图的建模来预测拓扑结构。 在本文中,我们开发了一个简单而有效的框架,称为 TopoMLP,用于拓扑推理。我们的工作受到人与物体交互检测中成对表示的启发(Gao et al., 2018; Chao et al., 2018; Wang et al., 2019),类似于拓扑推理。成对表示是通过将人/物体对框编码为两个掩码嵌入来构建的。这些嵌入连接在一起,并进一步用于通过简单的 MLP 执行动作分类。我们想知道是否有可能开发一个简单的基于 MLP 的框架来充分理解驱动拓扑推理中的关系。以车道-车道拓扑为例,如果准确预测车道,则可以很容易地推理出车道之间的交叉点(见图2)是重叠的。对于车道交通拓扑,通过交通边界框和车道点之间的相对位置,可以轻松地将交通元素与相应的中心线匹配。因此,一个简单的 MLP 似乎足以进行有效的拓扑推理。具体来说,我们将交通元素和中心线的查询表示转换为两个嵌入,并将它们连接在一起,通过附加的 MLP 进行拓扑分类。 此外,我们注意到 OpenLane-V2 的拓扑指标有一些缺点。它使用基于图的 mAP,同时更关注预测的顺序。来自不匹配车道或交通元素的一些误报默认为高置信度分数,即 1.0。因此,手动降低这些假阳性预测的优先级(或增加真阳性预测的优先级)能够大幅提高总体 mAP 分数。为了解决这个问题,我们建议包含一个基于现有拓扑度量的正确性因子来纠正这个缺陷。 本文的具体贡献有以下几点:
这不是一个新问题,以前有相关的研究。 车道线检测方法:长期以来,检测车道标记一直是自动驾驶领域最重要的课题之一。先前的工作通常使用外观和几何线索来检测道路(Tan et al., 2006; Alvarez & Ĺopez, 2010; Paz et al., 2015)。随着深度学习的进步,车道检测的发展取得了长足的进步。其中,一些方法尝试使用分割图来描述道路车道(Batra et al., 2019; Can et al., 2022; He & Balakrishnan, 2022)。目前,基于矢量的方法已经成为主流,因为它们可以很好地处理3D车道检测(Garnett等人,2019;Guo等人,2020;Yan等人,2022;Chen等人,2022)。然而,这些方法基于查询中一组预定义的 Y 轴点来预测 3D 车道,无法仅在 Y 轴上进行 3D 车道预测。最近,TopoNet(Li et al., 2023)将每个车道建模为锚查询,但它错过了带有平滑曲线的先验车道。在我们的研究中,我们在提供更平滑的表示之前充分利用了这一点。 车道拓扑学习:学习车道拓扑在自动驾驶的场景理解中发挥着重要作用。早期的工作(Chu et al., 2019;Homayounfar et al., 2019;He et al., 2020;Bandara et al., 2022)专注于从航空图像生成道路图。然而,使用航拍图像对于行驶中的车辆来说是不合理的。因此,直接使用车载传感器来检测车道拓扑因其有价值的应用而变得流行。STSU(Can et al., 2021)使用基于 Transformer 的模型来一起检测中心线和对象,然后通过 MLP 预测格式化为有向图的中心线关联。TopoRoad(Can et al., 2022)进一步引入了额外的最小循环查询,以确保保留交叉点的顺序。Can et al., 2023还通过将中心线视为聚类中心来分配对象来提供对关系的额外监督,并极大地改进车道图估计。 LaneGAP(Liao 等人,2023)设计了一种基于启发式的算法来从一组车道中恢复图形。 CenterLineDet (Xu et al., 2023) 和 TopoNet (Li et al., 2023) 将中心线视为顶点,并设计图模型来更新中心线拓扑。在这项工作中,我们关注车道拓扑性质,并采用简单而优雅的位置嵌入来增强拓扑建模。高清地图感知:高清地图感知旨在理解驾驶场景的布局,例如车道线、人行横道、可行驶区域,反映了驾驶场景推理的概念。最近的研究重点是使用分割和矢量化技术来学习高清地图,以满足低成本要求。HDMapNet(Li et al., 2022a)探索通过复杂的后处理对分段地图进行分组和矢量化。VectorMapNet(Liu et al., 2023a)直接使用点序列来表示每个地图元素,进一步解码车道线位置。一些后续方法提出了不同的建模策略来表示点的序列,例如基于排列(Liao et al., 2022)、分段贝塞尔曲线(Qiao et al., 2023)、基于枢轴的映射(丁等人,2023)。与上述方法不同,我们的方法采用简单而优雅的建模,每个查询都引用一个车道。
车道检测器:我们的车道检测器受到先进的 3D 多视图对象检测器 PETR (Liu et al., 2022; 2023b) 的启发,它首先将 3D 位置嵌入 (3D PE) 引入到基于查询的框架 DETR (Carion et al., 2020)朱等人,2021)。在这项工作中,我们将每条中心线表示为一条平滑的贝塞尔曲线,在 3D 空间内带有 控制点,每条曲线都指一个车道查询。我们的车道检测器在Transformer解码器中与多视图视觉特征的车道查询之间执行直接交互,并输出控制点,进一步转换为车道坐标。在 Transformer 解码器之上,我们采用两个独立的 MLP 分别预测控制点的偏移和分类分数。最终的控制点输出是通过添加具有相对偏移量的基本锚点来排序和获得的。将控制点转换为车道点以进行训练和测试。
交通元素检测器:驾驶拓扑推理中交通元素检测的流行方法主要是基于查询和端到端部署(Li et al., 2023; Kalfaoglu et al., 2023; Lu et al., 2023)。尽管这种简单的端到端实现很有吸引力,但由于小目标和类不平衡问题,检测性能远不如专门的 2D 检测器,例如 YOLO 系列。为了解决这些限制,我们建议通过优雅地合并额外的对象检测器 YOLOv8 来选择性地改进基于查询的检测器。我们的交通元素检测器通常遵循 Deformable DETR(Zhu et al., 2021)中的头部设计来预测边界框和分类分数。它采用查询嵌入来生成一组参考点作为锚点。我们将参考格式修改为具有中心点、高度和宽度的参考框。作为替代方案,YOLOv8 的高质量提案可以用作锚框初始化,提供更好的局部先验。它极大地简化了拓扑推理和流量检测之间的权衡。
参考文献- TOPOMLP: A SIMPLE YET STRONG PIPELINE
FOR DRIVING TOPOLOGY REASONING. 2024- Improving online lane
graph extraction by object-lane clustering. In ICCV, 2023.- Persformer: 3d lane detection via perspective transformer and
the openlane benchmark. In ECCV, 2022.- ican: Instance-centric attention network for humanobject interaction detection. In BMVC, 2018
- Gen-lanenet: A generalized and scalable approach for 3d lane detection. In ECCV, 2020.