VisionPAD:一种以视觉为中心的自动驾驶预训练范式！

文摘 2025-01-04 11:21 中国香港

自动驾驶之星

点击上方蓝字关注自动驾驶之星

点击下方卡片，关注“自动驾驶之星”

这里有一群奋斗在自动驾驶量产第一线的小伙伴等你加入Introduction

本文介绍了一种名为VisionPAD的新颖自监督预训练范式，该范式专为自动驾驶中的以视觉为中心的算法设计。与先前的采用神经渲染和显式深度监督的方法不同，VisionPAD利用更高效的3D高斯插值来仅使用图像作为监督重建多视图表示。
具体而言，作者提出了一种自监督的 Voxel 速度估计方法。通过将 Voxel 变形到相邻帧并监督渲染输出，模型在连续数据中有效地学习运动线索。
此外，作者采用了一种多帧光度一致性方法来增强几何感知。该方法根据渲染深度和相对位置将相邻帧投影到当前帧，通过纯图像监督增强3D几何表示。
在自动驾驶数据集上的广泛实验表明，VisionPAD在三维目标检测、占用预测和地图分割方面显著提高了性能，远远超过了最先进的预训练策略。

1 Introduction

近年来，由于视觉输入具有成本效益、可扩展性和丰富的语义信息，基于视觉的自动驾驶领域的最新进展得到了社区的广泛关注。当前的方法在推导鸟瞰视角（BEV）和占用特征方面表现出卓越的能力，在各种下游应用中实现了显著的性能。然而，这些模型主要依赖于精确的3D标注，这由于涉及标注收集的挑战，如占用[39]，3D边界框[2]等，而成为一个显著的 Bottleneck 。

数据标注的高昂成本使得预训练对于自动驾驶等下游应用的规模化变得至关重要。一些先前的方法依赖于监督预训练来解决诸如3D目标检测和占用预测[36, 41]等任务。然而，这些方法需要大量的标注数据集，这在许多情况下是不现实的。相反，其他一些方法利用对比学习[32]和遮挡自编码器（MAE）[28]进行自监督预训练。然而，它们依赖于粗糙的监督使其难以同时有效地捕捉语义、3D几何和时间动态[42]。最近，UniPAD[45]提出了一种预训练范式，通过从 Voxel 特征（见图1(a)）重建多视图深度图和图像。这种方法使用可微分体积渲染来重建完整的几何表示。在这一基础上，ViDAR[46]采用Transformer并预测下一帧，同时由未来的激光雷达帧渲染相应的深度图。然而，这两种技术仍然严重依赖来自激光雷达数据的显式深度监督来学习3D几何。仅依赖图像监督会导致不满意的结果，限制了它们在基于相机的自动驾驶系统中的应用。

在本文中，作者提出了一种名为 VisionPAD的视觉中心数据自监督预训练框架（参见图1(b)）。与先前的方法利用体积渲染进行图像重建不同，作者利用更高效的基于 Anchor 点的3D高斯插值（3D-GS）[15]。这使得作者可以在相同的计算预算下，利用相同的计算预算重建更高分辨率的图像，捕捉到更细微的色彩细节，无需光采样[11]。此外，为了仅从图像中学习运动线索，作者提出了一种自监督的 Voxel 速度估计方法。

作者使用辅助头预测每个 Voxel 的速度，并使用时间戳近似 Voxel 流以模拟相邻帧。随后，作者将当前帧的 Voxel 进行变换以模拟相邻帧，并使用相应的图像监督3D-GS重建。这种速度预测使得模型能够解耦动态和静态 Voxel ，从而促进下游任务中的运动感知。此外，作者采用多帧光度一致性损失进行3D几何预训练，这是一种自监督深度估计中的技术[10]，其中算法根据渲染的深度和相对位置将相邻帧投影到当前帧。

在竞争的nuScenes数据集[2]上进行了广泛的实验，涵盖三个下游任务，展示了基于相机的预训练方法的优势。具体来说，仅在多帧图像监督上进行预训练时，作者的方法在3D目标检测上比最先进的预训练方法提高了+2.5 mAP，在语义占用预测上提高了+4.5 mIoU，在地图分割上提高了+4.1 IoU。

本文的贡献有三点：

截至目前，作者提出了首个以视觉为中心的预训练范式，该范式利用3D-GS解码器进行图像重建，以提高视觉为中心算法的性能。
作者提出一种自监督 Voxel 速度估计方法，用于区分静态和动态 Voxel ，并将运动信息纳入预训练模型中。作者进一步采用光度一致性损失，通过跨帧相对位姿进行学习3D几何。
作者的方法在三个下游任务上取得了显著的改进，超过了先前的最先进的状态估计预训练方法。

2 Related Works

自动驾驶的预训练。预训练在自动驾驶领域得到了广泛的探索，以提高在不同驾驶环境下的可扩展性和适应性。现有方法可以广泛分为监督学习、对比学习、 Mask 信号建模和渲染方法。监督学习方法利用标注的驾驶数据来学习针对特定任务的结构化表示。对比学习方法利用正负样本对数据学习具有鲁棒性的、视角不变的表示，这些表示对驾驶场景内的变化具有抵抗性。 Mask 信号建模方法重构被 Mask 或 Mask 的感官信号，有助于理解场景语义的整体性。

近年来，基于渲染的预训练在将视觉特征集成到统一的体积表示中以实现自动驾驶感知方面提出了新颖策略。与先前的方法相比，这些基于渲染的方法的一个关键区别是利用神经渲染[26]，这有效地在学习的体积特征中强制编码丰富的几何和外观线索。UniPAD[45]引入了一个用于部分输入遮挡的 Mask 生成器和一个针对模态特性的编码器，以在体块空间中提取多模态特征，然后使用基于体积的神经渲染进行RGB和深度预测。ViDAR[46]根据历史周围图像观察预测未来的点云。MIM4D[53]将 Mask 的多帧、多视角图像作为输入，并使用体积渲染重建目标RGB和深度，同时还包括一个潜在的BEV序列扩散模型，用于根据相应的动作预测未来的BEV Token 。然而，上述方法仍然严重依赖于明确的深度监督，这本质上限制了它们在仅使用相机的场景中的适用性。

近年来，基于3D高斯分摊（3D-GS）的方法已取得了显著进展。3D-GS允许使用3D高斯原语表示场景，通过分摊实现实时的渲染，并具有较小的内存占用。已经提出了几种使用这种技术重建驾驶场景的方法。PVG [5] 提出了周期性振动高斯用于大规模动态驾驶场景的重构。DrivingGaussian [51] 采用分级的顺序多传感器数据来分层模拟复杂的驾驶场景。此外，[43] 提出了Street-Gaussians，并结合跟踪姿态优化策略和4D球面谐波外观模型来解决移动车辆的动力学问题。HUGS [50] 引入了一种利用3D Gaussian Splatting的新颖 Pipeline ，用于整体城市场景的理解。这种方法需要使用静态和动态的3D高斯进行几何、外观、语义和运动的联合优化。最近的工作[9, 14]和[3]分别利用3D-GS进行占用和BEV感知。然而，在自动驾驶的预训练中应用3D-GS仍属未探领域。

3 Proposed Method

本文节详细阐述了所提出的VisionPAD，概括其主要组成部分和关键创新点。

Overview

视觉PAD的整体框架如图2所示，包括四个关键模块。首先，视觉PAD利用历史多帧、多视图像，并采用具有明确表示的视觉中心感知网络作为后端，即占用（第3.2节）。

其次，提出了一种新颖的3D高斯插值解码器，从 Voxel 表示重建当前帧的多视图像（第3.3节）。

第三，提出了一种 Voxel 速度估计策略，以预测 Voxel 速度，实现当前帧 Voxel 特征向目标帧的变换，从而便于通过3D高斯插值解码器重构多视相邻帧图像和深度图（第3.4节）。最后，利用当前帧的目标深度图，视觉PAD通过光度一致性损失引入3D几何约束（第3.5节）。第3.6节展示了最终预训练损失。

Volume Construction

给定一组历史多视图像作为输入到代表视觉中心的框架，VisionPAD 采用共享图像 Backbone 提取 2D 图像特征，得到 Voxel 特征表示，其中、和分别表示视图数量、图像高度和宽度。然后，采用视图变换 [12, 20] 将这些 2D 特征提升到 3D 自我中心的坐标系，生成 Voxel 特征。最后，包含多个卷积层的项目层进一步优化 Voxel 表示，该表示被定义为。

3D Gaussian Splatting Decoder

初步。3D高斯分片（3D-GS）[15]将3D场景表示为一组高斯基本元，其中每个高斯由以下参数定义：

3D位置
协方差
不透明度
球谐函数（SH）系数

为了通过梯度下降进行有效优化，协方差矩阵通常表示为标量矩阵和旋转矩阵的乘积：

将3D高斯分布投影到2D图像平面上涉及一个视角变换和投影变换的仿射近似 Jacobian 。然后得到的2D协方差矩阵可以表示为：

将给定的视角渲染图像，每个像素的特征通过将个有序高斯分布进行混合计算：应用了alpha混合渲染过程[26]。

代表由对应像素的光线相交的 Gaussian 集，其中密度是由具有协方差的二维 Gaussian 以及每个点上的透明度相乘得到的。

为了进一步提高几何表示，作者采用了多视图深度图重建方法，该方法参考了文献[6]中提出的方法：

不同于体积渲染[26]，3D-GS 通过基于斑点的渲染实现高效渲染。将3D高斯分布在目标2D视图上，并使用局部2D高斯分布渲染图像块。与从图像中恢复深度信息的方法不同，本文的方法利用深度信息来提高图像质量。具体来说，本文方法通过估计相机内参和外参，以及场景深度，来恢复图像的三维结构。

作者观察到，仅使用RGB监督进行预训练时，NeRF在每个迭代中只能采样有限数量的射线，这限制了其学习详细场景几何的能力。相比之下，3D-GS由于其高效的基于splat的渲染，计算成本对图像分辨率不太敏感，从而实现了更高分辨率图像的渲染，并促进了表示学习。

基于 Anchor 点的3D高斯分片预测利用如[4]中提出的基于 Anchor 点的3D高斯分片，作者将 Voxel 特征转换为一组3D高斯，如图2所示。每个 Voxel 中心都作为多个高斯原语的 Anchor 点，从这些 Anchor 点预测多个高斯原语的属性。具体而言，作者使用MLP对每个高斯原语在 Anchor 点（, Anchor 点MLP）上的参数进行回归，包括其相对于 Voxel 中心的偏移量、球谐系数、不透明度、尺度和旋转。这种表示有助于通过不同的可微渲染方式高效的多视角图像合成，利用已知的相机内参和外参，通过等式3。最后，3D-GS解码器生成多视角图像，这些图像由当前帧中的多视角图像监督，其中表示视点数量，和分别表示图像的高度和宽度。

高斯滤波。 为了在预训练期间降低计算开销，作者根据预测的不确定性过滤低置信高斯。具体来说，使用tanh激活函数预测不透明度，并将预测的不透明度小于0的高斯滤波器舍弃。

Self-supervised Voxel Velocity Estimation

在本文中，作者提出一种自监督方法，用于估计每个 Voxel 的速度，该方法利用了场景内物体的固有时间一致性。这种运动信息丰富了表示，有助于理解动态场景。

如图3所示，作者将一个辅助速度头附加到 Voxel 特征上，该头在world坐标系中回归每个 Voxel 的局部速度向量。然后，作者通过将预测速度乘以帧间时间间隔来近似每个 Voxel 的 Stream ，从而实现从当前帧到相邻帧的 Voxel 特征变换。接着，作者将 Voxel 特征变形到相邻帧的估计位置。上述过程可以通过_GridSample_运算符轻松实现。

相邻帧渲染。在获取相邻帧的扭曲 Voxel 特征后，作者使用3D-GS解码器（第3.3节）渲染多视图图像。然后，作者将这些渲染图像与相邻帧对应的 GT 图像进行比较，使用监督损失。值得注意的是，在反向传播过程中，仅更新速度头参数。这种有针对性的优化策略鼓励网络优先学习判别性运动特征，从而提高性能。

Photometric Consistency

提出了光度一致性用于自监督深度估计[10]。它利用目标帧的预测深度图重新投影源帧到源视角：

其中表示可微分网格采样运算符，表示目标帧的预测深度图，是从帧到的相对姿态变换点，表示相机内参。计算源帧中对应于投影深度值的二维像素坐标。然后计算光度一致性损失：

目标帧和重新投影后的图像，分别对应于是平衡SSIM和项的加权超参数。

为了增强几何表示，作者在预训练阶段利用当前帧的渲染深度图作为出现在公式 5 中。这种深度图是通过 3D 高斯插值解码器（见第 3.3 节）生成的，可以表示为：

其中 , 和分别表示体积特征、相机内参和外参。

首先，作者应用L1重构损失到通过当前帧的 Voxel 特征生成的多视图图像，与相应的真实图像进行比较。其次，自监督速度估计受到一个L1损失的监督，该损失应用于通过变形的 Voxel 特征生成的多视图图像。这种损失通过确保运动补偿后的一致性来鼓励精确的速度预测。最后，作者引入了光度一致性损失，进一步优化模型对场景几何的理解。这三种损失的组合可以表示为：

0.5, 1, 1, 分别对应ω1, ω2, ω3。

4 Experiments

Experimental Settings

数据集和指标作者在nuScenes数据集[2]上评估作者的方法，该数据集是一个大规模的自动驾驶基准测试，包括700个训练场景、150个验证场景和150个测试场景。每个场景都提供同步的六个摄像头全景图像和激光雷达点云，捕捉了多样城市环境中丰富的3D信息。该数据集具有全面的目标标注，例如3D目标检测和3D地图分割。语义占用预测的标注由[35]提供。

作者使用标准nuScenes检测评分（NDS）和平均精确率（mAP）来评估3D目标检测任务。使用平均交并比（mIoU）和交并比（IoU）分别评估语义占用预测和地图分割性能。

实现细节：作者的实现基于MMDetection3D [7]。遵循UniPAD [45]的配置，作者使用ConvNeXt-small [24]作为默认图像编码器，输入分辨率为1600×900像素。构建的体积在有效感知范围内具有形状180×180×5，其中X和Y轴的感知范围为[-54m, 54m]，Z轴的感知范围为[-5m, 3m]。通道数量设置为256用于体积特征。在预训练期间，数据增强包括随机缩放和旋转，以及部分输入 Mask （图像大小=32，比率=0.3）。预训练解码器包括两个MLP层和中间使用ReLU激活函数的3D卷积-批处理归一-ReLU微调网络（用于速度头），另一个包括两个MLP层，中间使用ReLU激活函数作为激活层，用于预测高斯基本原理。该模型使用AdamW优化器预训练12个周期，初始学习率设置为2×10^-4，总批处理大小为4。微调遵循官方的下游模型配置。

Main Results

作者在三个具有挑战性的下游感知任务上评估了VisionPAD的有效性：3D目标检测、语义占用预测和地图分割。3D目标检测的可视化结果见图5。

3D Object Detection. 如图1所示，作者在nuScenes验证集上比较了最先进的以视觉为中心的3D目标检测方法，并使用UVTR [17]作为基准。尽管UniPAD预训练仅基于图像数据，但VisionPAD相较于基准实现了显著的改进，在无多帧输入的情况下，实现了1.7 NDS和3.8 mAP的提升。值得注意的是，在测试时没有进行增强、模型集成或LiDAR监督，VisionPAD达到了49.7 NDS和41.2 mAP，超过了使用历史帧的现有最先进方法。

相比之下，在相同的监督信号下，UniPAD预训练只能带来微小的改进，甚至从45.0下降到44.8的NDS。尽管将LiDAR投影的深度图作为额外的监督可以提高性能，但这突显了仅依赖从RGB图像中推导出的几何监督的局限性，这限制了一般化能力。具有强大显式深度监督的VisionPAD，始终优于UniPAD，证明了作者所提出方法的有效性。

语义占用预测如表2所示，作者仅使用图像语义的预训练方法在某些3D检测有监督预训练方法之上，达到35.4%，而TPVFormer的这一比例为34.2%。此外，其性能甚至可以与利用长期线索的方法相媲美。在相同的设置下，作者的预训练技术显著提高了mIoU性能，从UVTR的30.1%提高到35.4%。值得注意的是，在预训练过程中没有深度监督，UniPAD仅实现了1%的mIoU改进。即使使用了一个更强的 Baseline （即，BEVDet[12]，使用七个历史帧作为输入），使用VisionPAD进行预训练仍然在性能上取得了显著的改进，从39.3%提高到42.0%。这些结果突显了VisionPAD在密集占用预测方面的有效性。

地图分割。表3展示了作者在地图分割任务上，作者的方法（UniPAD）与UniAD的地图解码器（用于地图分割预测）相较于UVTR的性能提升。结果表明，UniPAD仅在UVTR上实现了+1.3%的改进，而VisionPAD则大幅度提升了性能，达到+5.4%。

Comprehensive Analysis

为了减少训练时间，作者采用了一种 轻量级 Backbone 模型，参考了UniPAD [45]以提高数据效率并进行消融研究实验。具体来说，作者将 Voxel 特征的尺寸从0.6增加到0.8，而保持Z轴分辨率不变，从而得到一个具有形状的 Voxel 特征。中间特征的通道维度也从256减少到128。在进行消融研究时，作者使用50%的数据进行预训练，25%进行微调。

数据效率。 预训练的一个关键优势在于，在有限的 Token 数据的情况下，它可以提高下游任务的数据效率。为了进一步验证在作者拥有丰富预训练数据而下游数据稀缺时，作者的预训练方法的优势，作者进行了使用不同比例的nuScenes训练集（10%，25%，50%和100%）来微调在完整nuScenes训练数据集上预训练的模型的实验。

图4说明了VisionPAD在数据效率方面的优势。当仅使用图像监督进行预训练时，经过完整数据集训练和微调的VisionPAD在NDS和mAP方面都优于UniPAD，分别提高了+5.3和+4.5。这种优势在微调数据减少时更加明显。例如，当在数据集的50%和25%上进行微调时，mAP改进约增加了+6 mAP。这些结果强调了VisionPAD在利用纯视觉监督获得显著性能提升方面的有效性，尤其是在数据稀缺的情况下。

Ablation Study。表4展示了一个消融研究，以剖析作者提出的模型中每个组件的贡献。上半部分建立了使用UVTR [17]的性能 Baseline ，以及使用UniPAD [45]得到的结果。作者观察到，仅使用UniPAD进行图像预训练，在微调阶段会导致NDS和mAP性能降低。这表明无法充分利用多视图图像监督所包含的信息。

下面部分详细阐述了作者的修改所带来的影响。模型A用作者的3DGS解码器替换了UniPAD的体积渲染。利用全图像渲染和更高分辨率的监督，3DGS解码器在细调性能上优于体积渲染。模型B引入了低置信高斯滤波器的过滤，有效提高了预训练性能。仅使用单帧环绕视图图像进行监督预训练，该模型在细调阶段实现了+0.6 NDS的改进。

模型C引入了 Voxel 速度估计（V.V. Est），在下游细调中实现了+1.2 mAP的改进。模型D中加入了光度一致性损失（P.C.),显著提升了预训练性能，与模型C相比，实现了+2.4 NDS和+4.4 mAP的提升。最后，作者的完整模型VisionPAD，结合光度一致性损失和 Voxel 速度估计，在基准上实现了显著的改进，实现了+4.5 NDS和+7.1 mAP的提升。这证明了作者所提出组件的有效性。

视觉渲染的展示。如图6所示，仅使用多视图图像进行自监督预训练，VisionPAD表现出令人期待的深度和图像重建能力。

5 Conclusion

本文介绍了VisionPAD，这是一种针对以视觉为中心的自动驾驶的新型自监督预训练框架。利用高斯分层、自监督的体素速度估计和光度一致性方法，VisionPAD消除了对显式深度监督的依赖。

作者的研究结果表明，与现有需要深度监督的基于神经渲染的方法相比，VisionPAD在性能上有所提升，并减少了计算开销。

这项工作为高效且可扩展的自监督视觉中心预训练建立了一种新的范式。

参考文献

[0]. VisionPAD: A Vision-Centric Pre-training Paradigm for Autonomous Driving.

最后的最后欢迎感兴趣的同学关注我们的知识星球！知识星球，新年优惠券重磅来来袭！，结识一群志同道合的小伙伴一起成长

下一个风口会不会是生成式AI 与具身智能的时代，我们特意创建了生成式AI与具身智能交流社区，关于大模型，机器人的相关业界动态，学术方向，技术解读等等都会在社区与大家交流，欢迎感兴趣的同学加入我们(备注具身智能)！

自动驾驶之星知识星球主打自动驾驶量产全技术栈学习，并包括: 学习板块，求职面试，有问必答，论文速递，行业动态五大板块！星球内部包括端到端大模型，VLM大模型，BEV 障碍物/车道线/Occ 等的学习资料！

生成式AI与具身智能知识星球，我们相信生成式AI 与具身智能会碰撞出出乎我们意料的内容，本知识形象并包括: 学习板块，求职面试，有问必答，论文速递，行业动态五大板块！星球内部包括生成式AI大模型，具身智能，业界资料整理等的学习资料！

自动驾驶之星是面向自动驾驶&智能座舱量产向相关的交流社区，欢迎大家添加小助手加入我们的交流群里，这里有一批奋斗在量产第一线的小伙伴等你的加入！

👇点个“赞”和“在看”吧

自动驾驶之星

自动驾驶之星，是一个以自动驾驶\x26amp;智能座舱量产交流为主的社区。这里有自动驾驶\x26amp;智能座舱量产第一线的前沿动态，有一群奋斗在自动驾驶\x26amp;智能座舱量产第一线的小伙伴在分享他们的量产经历。期待你的加入！希望每个人在这个浪潮中都能成为自动驾驶之星！