【自动驾驶】清华团队新作RoadBEV | 通过鸟瞰路面重建让车辆有效避“坑”

文摘   2024-06-12 09:02   美国  

 一只采鸟,主要传递正能量,顺便分享小知识


    今日热搜#韩国vs国足#,世预赛亚洲区36强赛最后一轮,国足客场挑战韩国队。国足最终1球小负韩国,只要泰国不能大胜新加坡,国足还有出线可能。

    路面状况,尤其是几何形状,极大地影响自动驾驶汽车的驾驶性能。基于视觉的在线道路重建有望提前捕获道路信息。单目深度估计和立体匹配等现有解决方案的性能还比较差。今天一起来看看清华大学团队提出的RoadBEV方法《RoadBEV: Road Surface Reconstruction in Bird’s Eye View》。一句话总结本文提出了两种基于单目和立体图像的模型,RoadBEV-mono 和 RoadBEV-stereo,用于在鸟瞰视角下重建道路表面的高度,以提高自动驾驶车辆的驾驶性能。

【自动驾驶】矢量化地图HIMap | 面向端到端矢量化高精地图构建的HybrId表示学习!
【自动驾驶】综述 | 从信息融合视角看Occupancy!
【机器人+自动驾驶】港科大提出DetCLIPv3 | 不仅支持开集检测,还能为目标生成层次化标签!
【机器人+自动驾驶】替代COLMAP?MIT开源一种E2E的相机姿态和深度估计方法FlowMap!
【自动驾驶】一种用于 3D 检测和跟踪的Camera-Radar融合方法CR3DT
【自动驾驶】比MobileSAM还快的RepViT-SAM,迈向实时分割万物!
【自动驾驶】CVPR2024-Rein,更强、更少、更好!中科大团队提出利用VFM进行领域泛化语义分割!

【机器人+自动驾驶】使用规范的相机空间,Metric3D-v2在单目度量深度估计中取得新突破!


    近年来,地面无人车辆(UGV)的快速发展对车载感知系统提出了更高的要求。实时了解驾驶环境和条件对于精确的运动规划和控制至关重要[1,2,3]。对于车辆来说,道路是唯一与物理世界接触的媒介。路面状况决定了车辆的许多特性和驾驶性能[4]。颠簸、坑洼等路面不平整现象(如图1(a)所示)会加剧乘用车的乘坐体验,这是直观可察觉的。实时路面状况感知,尤其是几何高度,对规划和控制系统在提高安全性和乘坐舒适度方面做出了巨大贡献[5,6,7]。

图 1:我们的动机。(a) 我们在 BEV 中的重建方法在单目和立体配置的图像视图中都优于这些重建方法。(b) 对于图像视图中的深度估计,搜索方向偏离道路高度方向。道路轮廓特征在深度视图中稀疏。坑洼无法清晰识别。(c) 在 BEV 中,可以精确捕获坑洼、路边台阶甚至车辙等轮廓振动。道路垂直方向高度特征更加密集,更容易识别。
    与无人车中的其他感知任务(如分割和检测)相比,路面重建(RSR)是最近受到更多关注的新兴技术。与现有的感知流程类似,RSR通常利用车载激光雷达和摄像头传感器来保留路面信息。LiDAR 直接扫描道路轮廓并生成点云 [8, 9]。可以直接提取车辆轨迹上的道路高度,无需复杂的算法。然而,激光雷达传感器成本高昂,限制了其在经济型量产车辆上的应用。与车辆、行人等大尺寸交通物体不同,道路不平整度一般幅度较小,因此点云精度至关重要。实时道路扫描需要运动补偿和滤波,这进一步需要厘米级的高精度定位
    基于图像的 RSR 是一种 3D 视觉任务,在精度和分辨率方面比 LiDAR 更有前景。路面纹理也被保留,从而实现更全面的道路感知。基于视觉的道路高度重建实际上是一个深度估计问题。对于单目相机,可以实现基于单图像的单目深度估计或基于序列的多视点立体(MVS)来直接估计深度[10]。对于立体相机,立体匹配会回归视差图,可以将视差图转换为深度[11, 12]。给定相机参数,恢复相机坐标中的道路点云。通过初级后处理流程最终获得道路结构和高度信息。在地面实况 (GT) 标签的监督下,可以实现高精度且可靠的 RSR。
    然而,图像视图中的 RSR 存在固有的缺点。对特定像素的深度估计实际上是沿着垂直于图像平面的方向寻找最佳的bin,如图1(b)中的橙色点所示。深度方向与路面有一定的角度偏差。道路轮廓特征的变化和趋势与搜索方向不一致。在深度视图中,有关道路高度变化的信息线索很少。此外,每个像素的深度搜索范围都是相同的,导致模型捕获全局几何层次结构而不是局部表面结构。细粒度的道路高度被全局但粗略的深度搜索破坏。当我们关注垂直方向的高度时,在深度方向上所做的努力就被浪费了。远距离的纹理细节在透视图中丢失,这进一步对没有进一步先验约束的有效深度回归提出了挑战[13]。

    从自上而下的视图(即 BEV)估计道路标高是一个自然的想法,因为标高本质上描述了垂直振动。BEV 是一种在统一坐标中表示多模态和多视图数据的有效范例 [14, 15]。最近在 3D 对象检测和分割任务上的 SOTA 性能是通过基于 BEV 的方法实现的 [16],该方法通过在视图变换图像特征上引入估计头来与透视图不同。图 1 显示了我们的动机。BEV 中的重建不是专注于图像视图中的全局结构,而是直接识别一定小范围内沿垂直方向的道路特征。 BEV 中的投影道路特征密集地反映了结构和轮廓变化,有助于有效和细粒度的搜索。透视效果的影响也被抑制,因为道路被统一地呈现在垂直于视角的平面上。基于BEV特性的道路改造有望取得更高的性能。

    为了解决这个问题本文提出了一种鸟瞰路面重建方法,名为RoadBEV。
    本文的具体贡献有以下几点:
  • 我们首次通过分析和实验证明了BEV路面重建的必要性和优越性

  • 对于基于单目和立体的方案,我们相应地提出了两种模型,分别是RoadBEV-mono和RoadBEV-stereo。详细解释了它们的机制。

  • 对所提模型的性能进行全面测试和分析,为今后的研究提供有价值的见解和展望。
    这不是一个新问题,以前有相关研究。
    通过视觉进行路面重建通过视觉进行路面重建。现有道路重建方案采用基于单目或立体图像的透视图[17]。早期工程通过引入先前的几何约束来恢复道路剖面并检测异常[18,19]。基于已知的路面视差,构建道路视差或V视差图[20]。进行基于v视差的仿射变换来定位不规则不均匀[21]。通过引入V视差道路模型和可视里程表,从立体图像中连续提取道路高度和可行驶面积。上述几何约束仍然依赖于精确的视差估计。基于[ 22 中的序列图像,使用运动结构 (SfM) 稀疏重建路面。他们假设局部路面是已知的,并更多地关注使用自适应卡尔曼滤波进行运动估计,这有利于大规模户外场景中的全局重建。最近的研究通过道路网格表示实现了大规模的单目重建,恢复了几何形状和纹理[23,24]。然而,道路高度的准确性较差,因为它们更注重纹理,而几何图形则由稀疏标签监督。
    BEV表达:BEV表示为自动驾驶提供了连贯的视角,促进了来自多个传感器的准确对象定位和简化数据融合[25,26]。这种方法巧妙地结合了空间和时间数据,以增强场景理解。其应用涵盖各种实际用途,包括3D物体检测[27,28,29,30,31,32],占用预测[33,34],运动规划[35]和在线构建高清地图[36]。根据视图变换,当前的工作可以分为两大类:基于几何和基于Transformer。基于Transformer的检测器,如BEVFormer [ 30],遵循一种方法,即他们首先设计了一组BEV网格查询。然后,利用这些查询通过与图像要素的交叉注意力来促进视图转换。基于几何的方法,如LSS[37],涉及根据深度[38,28,39]或高度[31,32]估计将每个图像提升到特征的视锥体中,然后将这些视锥体溅射到光栅化的BEV网格中。BEVDet [ 28] 将图像直接投射到 BEV 空间中,用于 3D 目标检测。随后的研究工作引入了LiDAR传感器[29]或多视图立体技术[40]的深度监督,以提高深度估计的精度,从而在该领域达到最前沿的性能水平。路面和BEV网格之间的空间分布具有天然的一致性,这使得BEV范式自然适用于RSR任务。在BEV空间水平信息提供的基础上,我们进一步引入了高度估计,其特点是分布密集,易于网络预测,以实现准确的RSR。

    笔者看了文章之后觉得以下几点值得关注:1.数据集真值如何制作?2.特征体素如何表达?3.RoadBEV-Mono的架构如何设计?4.RoadBEV-stero架构如何设计?5.Loss如何设计?

1. 数据集真值如何制作?

    我们利用之前发布的数据集,名为路面重建数据集(RSRD)[41],作为测试模型性能的基准。这是一个专门用于路面重建目的的大规模、高精度数据集,提供2800对高分辨率立体图像、密集点云标签以及密集子集中的运动姿态信息。与现有的自动驾驶感知视觉数据集不同,它只关注路面,并保留了丰富的道路纹理。它涵盖了沥青和混凝土道路的各种条件,包括典型的平坦和不平坦的情况,如坑洼和减速带。我们采用半分辨率(即 960*540)的子集。为了开发更可靠的模型并展示该应用任务的重要性,我们从原始数据集中提取了具有更严重不均匀性的代表性样本。本文使用的数据集包含 1,210 个训练样本和 371 个测试样本。

图 2:坐标图示和 GT 高度标注的生成。(a) 坐标。(b) 图像视图中的ROI区域。(c) BEV的ROI区域。(d) 在网格中生成GT标签。

    我们首先介绍图2(a)所示的坐标定义。  是具有一定俯仰角的原始相机坐标,与水平面相距一定。  水平参考坐标,位于水平面上并 𝑌𝑐 指向垂直方向(即零滚动角和俯仰角)。原始坐标和参考坐标可以利用 IMU 测量的姿态相互转换。与图像视图中的深度估计一样,相机平面指示零参考,道路高度也需要参考基础来正确描述轮廓。为了便于算法开发和后续应用,我们在相机参考坐标下方 𝑋𝑟-𝑌𝑟-𝑍𝑟 垂直引入了另一个道路坐标。 𝑋𝑟  𝑌𝑟 轴平行 𝑋𝑐  𝑍𝑐 分别表示道路的横向和纵向。 𝑍𝑟 现在,轴描述道路剖面,为参考平面上方的道路生成正高度值;否则为负数。根据我们对数据集的统计分析,我们将  和  之间的参照高度(即相机和道路参考平面之间的垂直距离)设置为 1.10m。尽管由于车辆悬架压缩和伸长,相机与道路的确切距离会发生变化,但变化很小,下面定义的特征体素可以覆盖细微的变化。

    由于我们的目标是从自上而下的角度重建路面,因此需要进行视图变换来生成 BEV 中的 GT 道路高度标签。由于只有车辆经过的道路区域会影响车辆响应,因此我们关注某个 ROI 而不是整个图像。如图2(b)和(c)所示,我们将沿  和  轴的范围设置为[-1.0m,0.9m]和[2.1m,7.1 m]。1.9 m 的横向范围覆盖了大多数乘用车的宽度,确保左右轮胎轨迹的道路信息可用。矩形道路区域应离散化,以便于数字化道路高度图。如图2(d)所示,我们将横向和纵向的道路网格分辨率设置为3.0 cm,这对于汽车工程中感兴趣的最小道路不平坦波长约为10 cm来说已经足够精细了。我们获得  纵向和  横向网格,在我们的设置中分别为164和64。

    首先将相机坐标下的完整路面点云转换为相机参考坐标,然后转换为道路参考坐标。ROI 中的点被裁剪掉。然后对每个 3*3 厘米大小的方格内的点进行索引和分组。网格的GT高度值是其内部点的平均  坐标值。由于可能存在没有任何点落入的网格,因此构建了二进制掩码M来记录具有可用标签的网格。最终生成每个图像样本形状为164*64的GT高度图E,如图3所示。

图3:道路图像和GT高度图示例。

2. 特征体素如何表达?

    在BEV(Bird's Eye View,鸟瞰图)感知范式中,首先定义了3D体素来促进从透视图到3D视图的转换和特征投影。与主流检测或分割任务不同,道路表面重建(RSR)任务的规模较小,因此体素间隔也应减小以确保高精度。垂直体素间隔设置为1.0厘米,横向和纵向间隔为3.0厘米。考虑到实际道路不平顺模式,设置垂直方向的体素范围为[-20cm, 20cm],共有40个体素,以覆盖大多数常见道路不平顺的最大范围。通过将体素中心投影到图像平面,并使用外部和内部参数索引相应的像素特征,来填充体素的特征。

    高度回归(Elevation Regression)任务的目标是为每个网格估计连续的高度值,这可以自然地定义为一个回归任务。深度学习中的端到端回归通常面临性能不佳的问题,因为搜索空间巨大,常用的回归损失函数(如L1和MSE损失)无法有效约束模型的学习。为了解决这个问题,作者将回归任务视为在预定义的高度范围内的分类问题。真实值也被转换为相应箱位的独热标签。对于RoadBEV-mono模型,总损失是每个具有有效标签的网格g的交叉熵损失之和。

3. RoadBEV-Mono

    图 5 显示了 RoadBEV-mono 的架构。输入的 RGB 图像经历了从 EfficientNet-B6 [42] 简化的特征提取主干。与检测中的常见结构类似,它包含一个具有  分辨率的特征金字塔,其中  。多尺度特征图保留低级几何信息和高级语义信息。然后将特征金字塔插值到  分辨率,沿通道维度连接,最后融合为具有  个通道的地图。通过将体素中心的坐标投影到图像平面来确定特征体素的相应索引像素。然后用  维像素特征填充体素,产生体素特征  。如[43]中所示,为了促进下游任务更有效的特征提取,BEV特征   是通过重塑体素特征的垂直维度来导出的。然后,BEV 特征与简化的 EfficientNet-B0 进行 2D 卷积,这比 3D 更具成本效益。

图 5:RoadBEV-mono 的架构。我们利用 3D 到 2D 投影来查询像素特征。高度估计头利用 2D 卷积来提取重塑的 BEV 特征上的特征。

4. RoadBEV-Stereo

    图 7 显示了 RoadBEV-stereo 的架构。与 RoadBEV-mono 和一般立体匹配模型类似,左右图像首先使用共享权重进行特征提取。CNN主干的设置与RoadBEV-mono相同,即EfficientNet-B6。唯一的区别是特征图分辨率被插值到 FPN 中的  。下面对分辨率进行解释和分析。特征体素被投影到两个图像平面上,并从左右视角查询特征。由此获得具有相同形状  的左右体素特征  和   。在立体匹配模型的架构中,然后通过相关运算建立两个特征图的成本体积编码相似度。

图 7:RoadBEV 立体声架构。左相机坐标下定义的体素查询左右特征图的像素特征。我们通过左右体素特征之间的相关性构建 BEV 中的成本量。然后 3D 卷积将 4D 体积聚合为 BEV。

5.Loss如何设计?

    如上所述,我们通过对箱进行分类来回归道路高度。我们将类间隔设置为 0.5 cm,表示 [-20cm, 20cm] 的高度范围  =80。RoadBEV-mono 预测的高度图的总损失是具有有效标签的每个网格 𝑔 的交叉熵损失之和:

  

    其中M是二进制 GT 掩码, 𝑐 是类索引。RoadBEV-stereo 的损失是相同的,但将   替换为  

    在本节中,我们全面测试所提出模型的性能并验证其在实际 RSR 应用中的优越性。我们将 RoadBEV-mono 与现有的单目深度估计模型进行比较,并将 RoadBEV-stereo 与公共立体匹配方法进行比较。进行消融和比较研究以调查各种参数的影响。

1.性能及比较

    图 9显示了所提出的两个模型的训练损失。它们都在设定的训练时期达到收敛,证实了模型结构和损失函数的有效性。对于相同的 GT 标签和损失函数,基于立体的模型优于基于单目的模型,损失值更低。RoadBEV-stereo 的收敛更稳定、更快。与 RoadBEV-mono 中莫名其妙的拟合相比,立体信息的引入显着为有效学习垂直方向的道路特征提供了更多线索。

图 9:(a) 的训练损失。RoadBEV-mono 和 (b)。RoadBEV 立体声。

    表1所示,我们与在公共数据集上实现 SOTA 性能的深度估计和立体匹配方法进行了比较。由于比较模型最终提供了相机坐标中的深度,因此我们将它们转换为 BEV 并生成与 GT 标签样式相同的高度图。对于基于单目的道路重建,我们的模型提升了具有显着优势的指标。绝对高度误差和 RMSE 分别比 AdaBins 提高了 23.3% 和 25.8%。BEV中的直接高度估计是通过在垂直方向上统一提取和聚合特征来实现的。1.83 厘米的误差水平捕捉到了最严重的道路不平整度,这会影响车辆的乘坐舒适度,但不足以应对轻微的道路起伏。此外,AdaBins 使用直接回归实现了比其他模型更高的准确度,验证了 bin 分类的必要性。

2.道路重建的可视化
    RoadBEV-mono 重建的道路高度图如图 11 所示。准确捕捉道路表面结构和趋势,没有整体偏差。第一个样本的推断地图代表平坦的路面,没有明显的不平坦,显示出稳定的高度。这对于下游任务至关重要,因为错误检测可能会导致不必要的操作。第二个样本中的细长裂纹以及远距离处的突然凸起都以高精度恢复,因为残差图在相应区域中没有显示出明显的错误。我们的模型也捕捉到了第三个样本中的规律,验证了其恢复全局结构和局部精细变化的能力。第四个样本中的直线减速带与 GT 非常吻合。虽然残差图显示中间部分的幅度误差较大,但仍然可以清楚地识别为凸起。最大绝对误差限制在 2.5 厘米以内。可以实施后处理方法来细化凸块的轮廓。

图 11:RoadBEV-mono 重建路面的可视化。从左到右:RGB 图像、GT 高度图、估计高度图和残差图。红色边框表示 ROI。

    图 12 显示了 RoadBEV-stereo 的重建结果。第二列显示了BEV中带有颜色的点云,这是通过立体匹配模型GwcNet获得的。最后一列可视化重建的 3D 道路网格。与图11中的相比,恢复的高度图更加平滑,没有杂乱的噪声或意外的图案。RoadBEV-stereo 能够比 RoadBEV-mono 保留更详细的结构。第二个和最后一个样本中坑洞的形状和边缘被精确恢复。正如 3D 网格所示,从坑洞边缘到中心的坡度也被精确捕获。在第三个样品中,裂纹区域和均匀区域之间的陡峭区域清晰可辨。所有提供的示例都证明了我们的方法处理复杂道路模式的能力。

图 12:RoadBEV-stereo 重建路面的可视化。从左到右:左图像、BEV 中恢复的带有颜色的道路点云、GT 高度图、估计高度图和估计道路网格。

   

    我们充分探索了所提出的两种模型的性能和适用性。重建的路面高度在有利于自动驾驶车辆的规划、控制和测试方面具有巨大的潜力。然而,实际的车载应用仍然存在挑战。

    图 10 中的可视化表明误差随时间的增加趋势。对于单目和立体视觉来说,纵向距离仍然存在。这是透视相机的固有缺陷,在近距离处纹理和结构细节得以保留,而在远处则丢失。虽然 BEV 范式直接从自上而下的角度重建路面,但特征仍然是从透视图像中提取的。 BEV 是抑制这种现象的一种有前途的方法,需要进一步的努力和更先进的策略。

图 10:基于单目和基于立体的 SOTA 模型的距离方向高度误差比较。

    在我们的实现中,我们仅采用当前的框架。RoadBEV-stereo 表明,从其他角度引入信息可以极大地提升模型性能。因此,利用序列图像有望带来进一步的增强。在视图变换中,我们将体素中心投影到图像平面上并索引相应的像素特征。为了更准确的特征查询,投影多个体素位置并融合附近的像素特征值得关注。

    我们研究了相同水平分辨率(即 164*64 网格)下的模型性能。与立体匹配一样,BEV体积可以首先以较低分辨率构建,然后积分插值到全分辨率,这有效地减少了计算量。在本文中,我们仅关注重建道路几何结构,即高度。对于未来的研究,可以利用 NeRF [53] 和 3D Gaussian Splatting [54] 等最新技术来探索联合几何和纹理重建。

    数据规模和多样性是实际场景应用需要考虑的最本质问题。我们利用之前的工作 RSRD 来生成该算法和应用程序原型。虽然覆盖了典型的路况,但多样性仍然不足,尤其是各种极端情况。努力贡献更多高质量的路面数据。

参考文献


[0] RoadBEV: Road Surface Reconstruction in Bird’s Eye View. 2024.
[1] Autonomous vehicles: Autodriver algorithm and vehicle dynamics. 2019
[2] Road friction estimation based on vision for safe autonomous driving. 2024
[3]Autonomous vehicles perception (avp) using deep learning: Modeling, assessment, and challenges.2022
[4]A comprehensive implementation of road surface classification for vehicle driving assistance: Dataset, models, and deployment.2023
[5] A hierarchical scheme of road unevenness perception with lidar for autonomous driving comfort.2024

Ai创研社
专注分享图像/视频生成、LLM、3D、机器人、自动驾驶等领域的前沿动态! 日常闲聊包括C++、设计模式、LeetCode、ROS、数学和AIGC等!欢迎点赞+关注!