【自动驾驶】一个简单且强大的自动驾驶拓扑推理流程TopoMLP

文摘 2024-07-07 09:25 美国

一只采鸟，主要传递正能量，顺便分享小知识

今日热搜#今日中国再不是1937年的中国#，87年前的今天“七七事变”爆发，如今硝烟散去，铭记历史，缅怀先烈！珍惜和平，吾辈自强。

拓扑推理旨在全面理解道路场景并呈现自动驾驶中的可行驶路线。它需要检测道路中心线（车道）和交通要素，进一步推理它们的拓扑关系，即车道-车道拓扑、车道-交通拓扑。今天一起来看看北京理工大学提出的TopoMLP方法《TOPOMLP: A SIMPLE YET STRONG PIPELINE FOR DRIVING TOPOLOGY REASONING》。一句话总结：这篇文章介绍了TopoMLP，一个简单而高效的自动驾驶场景拓扑推理流程，通过结合强大的3D车道检测器和改进的2D交通元素检测器，实现了在OpenLane-V2基准测试上的最先进性能。

【自动驾驶】首个端到端的基于图的驾驶场景拓扑推理框架TopoNet

【自动驾驶】清华团队新作RoadBEV | 通过鸟瞰路面重建让车辆有效避“坑”

【自动驾驶】综述 | 从信息融合视角看Occupancy！

【自动驾驶】矢量化地图HIMap | 面向端到端矢量化高精地图构建的HybrId表示学习！

【机器人+自动驾驶】港科大提出DetCLIPv3 | 不仅支持开集检测，还能为目标生成层次化标签！

【机器人+自动驾驶】替代COLMAP？MIT开源一种E2E的相机姿态和深度估计方法FlowMap！

【自动驾驶】一种用于 3D 检测和跟踪的Camera-Radar融合方法CR3DT

【自动驾驶】比MobileSAM还快的RepViT-SAM，迈向实时分割万物！

【自动驾驶】CVPR2024-Rein，更强、更少、更好！中科大团队提出利用VFM进行领域泛化语义分割！

【机器人+自动驾驶】使用规范的相机空间，Metric3D-v2在单目度量深度估计中取得新突破！

了解道路场景中的拓扑是自动驾驶的一项重要任务，因为它提供了有关可行驶区域以及交通信号的信息。最近，拓扑推理任务因其在自我规划中的重要应用而引起了社区的高度关注（Chai et al., 2020; Casas et al., 2021; Hu et al., 2023）。具体来说，给定多视图图像，拓扑推理旨在学习中心线和交通元素之间的矢量化道路图（Li et al., 2023；Wang et al., 2023）。它由四个主要任务组成：中心线检测、交通元素检测、车道-车道拓扑和车道-交通拓扑推理。

图 1：左：使用真实拓扑（表示为“Topo GT”）替换预测拓扑同时保留检测结果时的拓扑评估。右：缺失检测（用虚线表示）如何影响拓扑推理的图示。他们揭示了一个基本事实：基本检测对于拓扑推理至关重要。

与包含多个独立任务的传统感知流程不同（Li et al., 2022b; Liu et al., 2023b），这四个任务自然具有逻辑顺序，即先检测然后推理。如果某些车道和交通实例没有被检测到，就会错过相应的拓扑连接，如图1右所示。这自然引出了一个问题：基本检测对拓扑推理的定量作用有多大？为了回答这个问题，我们通过改变主干来对检测性能进行详细的消融研究。结果表明，随着检测能力的增强，拓扑性能不断提高。当基本检测被冻结时，我们发现用地面实况（GT）替换拓扑预测带来了微小的改进。例如，使用 Swin-B 主干时，拓扑 GT 的 TOP ll 和 TOP lt 分数分别为 10.0% 和 30.9%，仅比使用拓扑预测高 0.5%分别为2.6%和2.6%。这种现象鼓励我们优先考虑两个探测器的设计。

具体来说，我们采用两个基于查询的检测分支：一个（Liu et al., 2023b）专用于 3D 中心线检测，另一个（Zhu et al., 2021）用于 2D 交通检测。3D 车道检测器利用平滑的车道表示并将每个车道查询解释为贝塞尔曲线的一组控制点。受 MOTRv2 (Zhang et al., 2023) 的启发，由于 2D 交通检测器在检测交通灯等小物体方面的优势，通过添加额外的 YOLOv8（可选）物体检测器可以进一步增强 2D 交通检测器的性能。

尽管有基本的检测，驾驶拓扑推理的另一个挑战是如何有效地对车道和交通元素之间的连接进行建模。之前的工作（Langenberg 等人，2019；Can 等人，2021；2022）采用了一种简单的方法，即使用多层感知器（MLP）来预测拓扑关系。然而，他们主要关注在图像域中关联不同的车道。为了应对 3D 空间，一些后续方法（Li et al., 2023; Xu et al., 2023）倾向于利用基于图的建模来预测拓扑结构。

在本文中，我们开发了一个简单而有效的框架，称为 TopoMLP，用于拓扑推理。我们的工作受到人与物体交互检测中成对表示的启发（Gao et al., 2018; Chao et al., 2018; Wang et al., 2019），类似于拓扑推理。成对表示是通过将人/物体对框编码为两个掩码嵌入来构建的。这些嵌入连接在一起，并进一步用于通过简单的 MLP 执行动作分类。我们想知道是否有可能开发一个简单的基于 MLP 的框架来充分理解驱动拓扑推理中的关系。以车道-车道拓扑为例，如果准确预测车道，则可以很容易地推理出车道之间的交叉点（见图2）是重叠的。对于车道交通拓扑，通过交通边界框和车道点之间的相对位置，可以轻松地将交通元素与相应的中心线匹配。因此，一个简单的 MLP 似乎足以进行有效的拓扑推理。具体来说，我们将交通元素和中心线的查询表示转换为两个嵌入，并将它们连接在一起，通过附加的 MLP 进行拓扑分类。

此外，我们注意到 OpenLane-V2 的拓扑指标有一些缺点。它使用基于图的 mAP，同时更关注预测的顺序。来自不匹配车道或交通元素的一些误报默认为高置信度分数，即 1.0。因此，手动降低这些假阳性预测的优先级（或增加真阳性预测的优先级）能够大幅提高总体 mAP 分数。为了解决这个问题，我们建议包含一个基于现有拓扑度量的正确性因子来纠正这个缺陷。

本文的具体贡献有以下几点：

首先，我们深入分析驱动拓扑推理的本质。它需要遵循“先检测，然后推理”的理念，以实现更好的拓扑预测。
其次，我们提出了一个简单但强大的模型，名为 TopoMLP。它包括两个精心设计的高性能检测器和两个优雅的 MLP 网络，具有用于拓扑推理的位置嵌入。
第三，我们认为当前的拓扑推理评估存在重大漏洞。为了纠正这个问题，我们通过合并正确性因子来增强拓扑度量。
第四，所有实验都是在流行的驾驶拓扑推理基准 OpenLane-V2 上进行的，表明 TopoMLP 达到了最先进的性能。此外，TopoMLP在自动驾驶挑战赛第一届OpenLane拓扑中排名第一。

这不是一个新问题，以前有相关的研究。

车道线检测方法：长期以来，检测车道标记一直是自动驾驶领域最重要的课题之一。先前的工作通常使用外观和几何线索来检测道路（Tan et al., 2006; Alvarez & Ĺopez, 2010; Paz et al., 2015）。随着深度学习的进步，车道检测的发展取得了长足的进步。其中，一些方法尝试使用分割图来描述道路车道（Batra et al., 2019; Can et al., 2022; He & Balakrishnan, 2022）。目前，基于矢量的方法已经成为主流，因为它们可以很好地处理3D车道检测（Garnett等人，2019；Guo等人，2020；Yan等人，2022；Chen等人，2022）。然而，这些方法基于查询中一组预定义的 Y 轴点来预测 3D 车道，无法仅在 Y 轴上进行 3D 车道预测。最近，TopoNet（Li et al., 2023）将每个车道建模为锚查询，但它错过了带有平滑曲线的先验车道。在我们的研究中，我们在提供更平滑的表示之前充分利用了这一点。

车道拓扑学习：学习车道拓扑在自动驾驶的场景理解中发挥着重要作用。早期的工作（Chu et al., 2019；Homayounfar et al., 2019；He et al., 2020；Bandara et al., 2022）专注于从航空图像生成道路图。然而，使用航拍图像对于行驶中的车辆来说是不合理的。因此，直接使用车载传感器来检测车道拓扑因其有价值的应用而变得流行。STSU（Can et al., 2021）使用基于 Transformer 的模型来一起检测中心线和对象，然后通过 MLP 预测格式化为有向图的中心线关联。TopoRoad（Can et al., 2022）进一步引入了额外的最小循环查询，以确保保留交叉点的顺序。Can et al., 2023还通过将中心线视为聚类中心来分配对象来提供对关系的额外监督，并极大地改进车道图估计。 LaneGAP（Liao 等人，2023）设计了一种基于启发式的算法来从一组车道中恢复图形。 CenterLineDet (Xu et al., 2023) 和 TopoNet (Li et al., 2023) 将中心线视为顶点，并设计图模型来更新中心线拓扑。在这项工作中，我们关注车道拓扑性质，并采用简单而优雅的位置嵌入来增强拓扑建模。

高清地图感知：高清地图感知旨在理解驾驶场景的布局，例如车道线、人行横道、可行驶区域，反映了驾驶场景推理的概念。最近的研究重点是使用分割和矢量化技术来学习高清地图，以满足低成本要求。HDMapNet（Li et al., 2022a）探索通过复杂的后处理对分段地图进行分组和矢量化。VectorMapNet（Liu et al., 2023a）直接使用点序列来表示每个地图元素，进一步解码车道线位置。一些后续方法提出了不同的建模策略来表示点的序列，例如基于排列（Liao et al., 2022）、分段贝塞尔曲线（Qiao et al., 2023）、基于枢轴的映射（丁等人，2023）。与上述方法不同，我们的方法采用简单而优雅的建模，每个查询都引用一个车道。

笔者看了文章之后觉得以下几点值得关注：1.模型结构如何设计？2.如何进行LL和LT拓扑推理？3.指标如何改进？

1. 模型框架如何设计？

作者主要是改进了车道检测器和交通元素检测器。

图 2：TopoMLP 的整体架构。车道解码器将每条中心线描绘为贝塞尔曲线，以实现平滑表示。交通解码器可以选择通过额外的 YOLOv8 提议来增强。车道-交通 (LT) 和车道-车道 (LL) 拓扑的预测是通过具有位置嵌入的 MLP 来完成的。“

车道检测器：我们的车道检测器受到先进的 3D 多视图对象检测器 PETR (Liu et al., 2022; 2023b) 的启发，它首先将 3D 位置嵌入 (3D PE) 引入到基于查询的框架 DETR (Carion et al., 2020)朱等人，2021）。在这项工作中，我们将每条中心线表示为一条平滑的贝塞尔曲线，在 3D 空间内带有 $𝑀$ 控制点，每条曲线都指一个车道查询。我们的车道检测器在Transformer解码器中与多视图视觉特征的车道查询之间执行直接交互，并输出控制点，进一步转换为车道坐标。在 Transformer 解码器之上，我们采用两个独立的 MLP 分别预测控制点的偏移和分类分数。最终的控制点输出是通过添加具有相对偏移量的基本锚点来排序和获得的。将控制点转换为车道点以进行训练和测试。

交通元素检测器：驾驶拓扑推理中交通元素检测的流行方法主要是基于查询和端到端部署（Li et al., 2023; Kalfaoglu et al., 2023; Lu et al., 2023）。尽管这种简单的端到端实现很有吸引力，但由于小目标和类不平衡问题，检测性能远不如专门的 2D 检测器，例如 YOLO 系列。为了解决这些限制，我们建议通过优雅地合并额外的对象检测器 YOLOv8 来选择性地改进基于查询的检测器。我们的交通元素检测器通常遵循 Deformable DETR（Zhu et al., 2021）中的头部设计来预测边界框和分类分数。它采用查询嵌入来生成一组参考点作为锚点。我们将参考格式修改为具有中心点、高度和宽度的参考框。作为替代方案，YOLOv8 的高质量提案可以用作锚框初始化，提供更好的局部先验。它极大地简化了拓扑推理和流量检测之间的权衡。

2.如何进行拓扑推理？

车道-车道拓扑推理:该分支旨在预测车道-车道连接关系。为了合并有区别的车道信息，我们将预测的车道点集成到车道查询特征中。具体来说，我们实现 MLP 来嵌入车道坐标，然后将它们添加到解码的车道查询特征 $\hat {𝑸}^𝐿∈ℝ^{𝑁_𝐿×𝐶}$ 中。为了概念简单起见，我们仍然使用 $\hat {𝑸}^𝐿$ 来表示集成的查询功能。它们被重复 $𝑁_𝐿$ 次，生成两个大小为 $𝑁_𝐿×(𝑁_𝐿)×𝐶$ 和 $(𝑁_𝐿)×𝑁_𝐿×𝐶$ 的特征，其中 $(𝑁_𝐿)$ 定义不同的重复方向。连接操作生成 $𝑸^{𝐿𝐿}∈ℝ^{𝑁_𝐿×𝑁_𝐿×2𝐶}$ 后，我们应用 MLP 进行二分类：

$G^{LL}=MLP(\hat{Q}^{LL})\in ℝ^{N_L \times N_L}$

其中 $𝑮^{𝐿𝐿}$ 是车道-车道拓扑预测。

车道交通拓扑推理：我们的车道交通拓扑推理的关键思想是将两种特征投射到同一空间中。给定从 3D 空间嵌入 $\hat{Q}^L \in ℝ^{N_L \times C}$ 的车道查询，我们将其从 3D 到透视图的视图变换矩阵 $𝑨∈ℝ^{3×3}$ 相加，即 $\hat{𝑸}^𝐿+MLP(𝑨)$ 。这里，视图变换矩阵 $𝑨$ 是根据相机内在和外在来制定的。与车道-车道拓扑类似，转换后的车道查询特征和交通查询嵌入 $\hat{𝑸}^𝑇∈ℝ^{𝑁_𝑇×𝐶}$ 通过重复和连接操作转换为 $\hat{𝑸}^{𝐿𝑇}∈ℝ^{𝑁_𝐿×𝑁_𝑇×2𝐶}$ 。MLP 网络用于生成车道交通拓扑预测 $𝑮^{𝐿𝑇}$ ：

3.指标如何改进？

作者首先回顾了拓扑度量的定义。在拓扑推理中，我们有一个真实的图 $G=(V,E)$ 和一个预测的图 $\hat{G}=(\hat{V},\hat{E})$ 。通过使用Fréchet距离和IoU距离来衡量车道中心线和交通元素之间的相似性，建立顶点之间的投影关系。如果检测器无法识别某些实例，这些实例的置信度分数将默认为1.0，即存在许多高置信度的假阳性。这可能导致评估指标的不准确。为了解决这个问题，作者提出了一个包含正确性因子的新的拓扑度量方法。这个新度量考虑了真正例（NT P）和假正例（NF P）的数量，以调整预测的精度。即：

$\mathrm{TOP}^{\dagger}=\frac{1}{|V|} \sum_{v \in V} \frac{\sum_{\hat{n}^{\prime} \in \hat{N}^{\prime}(v)} P\left(\hat{n}^{\prime}\right) \mathbf{1}_{\text {condition. }}\left(\hat{n}^{\prime} \in N(v)\right) \frac{N_{T P}}{\left(N_{T P}+N_{F P}\right)}}{|N(v)|},$

图 5：TOP 指标漏洞说明。提高预测分数会导致真阳性先于来自不匹配实例的一些假阳性，从而进一步提高精度。

表 4：使用或不使用增强预测时原始 TOP 指标与调整后的 TOP（用 $†$ 标记）的比较。我们使用与我们的 TopoMLP 相同的主干 ResNet-50 重新实现了 TopoNet。实验在 $OpenLane-V2 𝑠 𝑢 𝑏 𝑠 𝑒 𝑡 _ 𝐴$ 上进行。

State-of-the-art Comparison

表 1：在 $OpenLane-V2 𝑠 𝑢 𝑏 𝑠 𝑒 𝑡 _ 𝐴$ 集上与最先进方法的性能比较。现有方法的结果来自 TopoNet。TopoMLP 是端到端训练的，而“*”表示使用额外的 YOLOv8 提案。

表 2：在 $OpenLane-V2 𝑠 𝑢 𝑏 𝑠 𝑒 𝑡 _ 𝐵$ 集上与最先进方法的性能比较。现有方法的结果来自 TopoNet。

可视化结果

图 3：TopoMLP 车道检测和车道-车道拓扑的定性结果。考虑到多视图图像，我们的方法可以预测最多的车道，并在各种挑战下正确连接它们，例如遮挡车道和复杂的十字路口。绿色车道是地面实况，红色车道是预测，被投影到图像和 BEV 地图中。

图 4：TopoMLP 的流量检测和车道流量拓扑。我们的方法可以检测前视图中的交通元素并将它们与车道相关联。绿色代表GT，红色代表我们的预测。流量预测根据类别以不同颜色为基础。

在本文中，我们提出了一种简单而强大的用于驱动场景拓扑的流程，名为 TopoMLP。它开始了一个重要的观察：推理性能受到检测分数的限制。因此，我们首先专注于设计两个强大的检测器，分别用于 3D 车道检测和 2D 交通检测。至于拓扑推理，将受欢迎的位置嵌入和优雅的 MLP 网络相结合足以实现令人印象深刻的性能。TopoMLP 是自动驾驶挑战赛第一届 OpenLane 拓扑的第一个解决方案。我们希望我们的工作能够为探索驱动拓扑推理开辟新的见解。

参考文献

- TOPOMLP: A SIMPLE YET STRONG PIPELINE FOR DRIVING TOPOLOGY REASONING. 2024

- Improving online lane graph extraction by object-lane clustering. In ICCV, 2023.

- Persformer: 3d lane detection via perspective transformer and the openlane benchmark. In ECCV, 2022.

- ican: Instance-centric attention network for humanobject interaction detection. In BMVC, 2018

- Gen-lanenet: A generalized and scalable approach for 3d lane detection. In ECCV, 2020.

http://mp.weixin.qq.com/s?__biz=MzkzMTM4OTI3Nw==&mid=2247486124&idx=1&sn=d1523c22e6c7748892cab6f0b39805b1

Ai创研社

专注分享图像/视频生成、LLM、3D、机器人、自动驾驶等领域的前沿动态！日常闲聊包括C++、设计模式、LeetCode、ROS、数学和AIGC等！欢迎点赞+关注！