论文链接:https://arxiv.org/pdf/2501.04005
项目链接:https://ldkong.com/LargeAD
写在前面 && 笔者理解
近期视觉基础模型(vision foundation models, VFMs)在2D视觉领域取得了显著进展,比如:SAM, X-Decoder, SEEM等等。这些模型在从2D图像中提取丰富的像素级语义方面表现出色。然而,将这些进步扩展到3D领域仍然是一个有待探索。
在本文中,作者提出了LargeAD,这是一个新颖且可扩展的框架,用于跨多种传感器的大规模3D预训练。将VFMs引入3D领域,以实现几个关键目标:i)使用原始点云作为输入,消除对昂贵标签的需求,ii)利用驾驶场景中的空间和时间线索进行稳健的表示学习,以及iii)确保对预训练数据之外的下游数据集的泛化能力。
这篇工作的关键创新可以总结如下:
VFM驱动的超像素生成:通过VFMs从2D图像中生成语义丰富的超像素,这些超像素与LiDAR点云对齐,以构建高质量的对比样本,减少了对比学习中的“自我冲突”问题。 VFM辅助的对比学习策略:对齐多模态特征,解决了图像和LiDAR特征之间的跨模态差异。 超点时间一致性:通过时间一致性机制增强点云表示的稳定性,减轻了LiDAR和相机传感器之间不完美同步的错误。 多源数据预训练:利用多种LiDAR数据集进行预训练,构建了一个能够适应不同传感器配置的通用模型,提高了模型的可扩展性。
相关工作
基于LiDAR的场景理解
对于自动驾驶车辆而言,准确且密集的3D感知对于安全导航至关重要。研究人员开发了各种点云分割方法,包括基于原始点、范围视图、鸟瞰图、体素以及多视图融合的方法。尽管取得了显著进展,但这些模型通常依赖于大量标注的数据集,这带来了可扩展性问题。为了减轻标注负担,最近的研究探索了半监督、弱监督以及主动学习方法,以及领域适应技术。本工作采用自监督学习策略,通过相机到LiDAR的关联从VFMs中提炼知识,从而在预训练期间消除了对手动标注的需求。
视觉基础模型
计算机视觉领域被开发出利用大量训练数据的视觉基础模型(VFMs)所改变以及复杂的自监督学习技术。其中,Segment Anything Model,即SAM,在通用图像分割方面树立了新的基准,在一系列下游任务中展示了令人印象深刻的零样本转移能力。其他值得注意的VFMs,如X-Decoder、OpenSeeD、SegGPT和SEEM,进一步展示了这些模型在处理多样化图像相关任务中的多功能性。本工作将VFMs的利用扩展到点云学习领域,利用它们的语义理解来增强3D表示学习中的空间和时间线索。
3D中的表示学习
3D自监督学习起源于基于图像的技术,通常侧重于以对象为中心的点云或室内场景,使用预训练任务、对比学习或掩码建模。这些方法通常缺乏户外驾驶场景所需的规模和多样性。如PointContrast、DepthContrast和SegContrast等努力开创了小规模点云的对比目标。最近,Sautier等人引入了SLidR,这是第一个在大规模点云上进行图像到LiDAR表示蒸馏的跨模态自监督学习方法。Mahmoud等人进一步完善了这种方法,引入了语义容忍的对比约束和类别平衡损失。SuperFlow引入了一个时空一致性框架,以高效地捕获多个时间步长的动态线索。作者的框架在SLidR的基础上,利用VFMs创建了一个更有效的跨模态对比目标。作者还引入了一个超点时间一致性正则化,以增强在多样化和动态的现实世界驾驶场景中的特征学习和稳健性。
图像到LiDAR数据预训练
问题表述
定义一个点云 ,由LiDAR传感器收集的 个点组成。每个点 表示3D坐标,而 表示其特征嵌入,例如强度、延伸率等。本工作旨在将知识从一组由 个同步的RGB相机捕获的环视图像 转移到点云 。每张图像 具有由高度 和宽度 定义的空间分辨率。鉴于LiDAR和相机传感器被假设为良好校准,每个LiDAR点 可以投影到图像平面上作为一个像素 ,使用以下坐标变换:
其中 表示相机内参矩阵,而 是从LiDAR到相机坐标系的转换矩阵。之前的工作使用无监督的SLIC算法将具有相似RGB属性的图像区域聚合成一组超像素,记为 。随后,使用式(1)推导出对应的超点集 。为了促进从图像到LiDAR域的知识转移,这些方法通常在超像素和超点的表示之间进行跨模态对比学习。
超像素驱动的对比学习
早期的方法,如PPKT,通过对比学习将图像像素与对应的LiDAR点对齐。然而,PPKT在应用于稀疏点云数据时,往往会遇到一些限制,例如由于视点差异导致的错位、局部语义建模不足、密集和稀疏区域的权重不平衡以及对假阴性的处理不佳。尽管它在密集区域(例如靠近车辆的地方)表现良好,但其在稀疏区域的有效性显著下降,限制了其整体泛化能力。为了克服这些问题,SLidR引入了一种使用SLIC算法将相似像素聚合成一致超像素的超像素驱动蒸馏方法。通过在图像中的超像素和LiDAR数据中的超点之间进行对比学习,SLidR减少了由于传感器视点导致的对齐错误,并增强了局部语义一致性。在超像素和超点级别聚合特征解决了PPKT中存在的权重不平衡问题,确保了对密集和稀疏区域的更好处理。此外,对比学习覆盖更大区域有助于减少假阴性,从而实现更稳健的图像到LiDAR知识转移。
对比学习目标
设 表示一个可训练参数为 的LiDAR点云编码器,它处理点云 并为每个点输出一个 维的特征。另外,设 是一个图像编码器,参数为 ,从2D自监督预训练模型中初始化。为了计算超像素驱动的对比损失,作者构建了可训练的投影头 和 ,将3D点特征和2D图像特征映射到相同的 维嵌入空间。点投影头 是一个线性层,后跟 -归一化。图像投影头 包含一个 卷积层,后跟一个固定双线性插值层,在空间维度上输出,并进行 -归一化。目标是将2D网络的知识蒸馏到3D网络中,确保每个语义超点特征与其对应的语义超像素特征紧密相关。具体来说,超像素 和超点 用于分别对像素和点嵌入特征进行分组。对分组后的像素和点嵌入应用平均池化操作,以获得超像素嵌入特征 和超点嵌入特征 。对比损失 定义如下:
其中 表示超点和超像素嵌入特征之间的标量积,衡量它们的相似性。 是一个温度参数,用于缩放相似性分数。
LARGEAD:一个可扩展、多功能且通用的框架
从基础模型生成超像素
以往的研究利用SLIC将视觉上相似的图像区域聚合成超像素。然而,SLIC往往会过度分割语义连贯的区域(见图2),这给对比学习带来了挑战,特别是由于“自我冲突”现象。当语义相似的超像素被错误地视为负样本时,就会出现这种情况。SLIC缺乏对高级语义的理解加剧了对比学习中的困难。为了克服这些挑战,作者使用视觉基础模型(VFM)生成语义超像素,这些超像素在语义上丰富,显著提高了对LiDAR点云中近点和远点的表示学习(见图5)。
与依赖低级RGB特征的方法不同,作者的方法通过利用从大规模预训练图像编码器派生的VFM来增强超像素生成。与SLIC不同,VFM捕获高级语义信息(如图2所示),使作者能够创建更具语义意义的超像素集,记为 。生成过程从通过提示创建语义掩码开始。通过引入更抽象的特征,VFM有效地通过更连贯地分组语义相似区域来解决“自我冲突”问题,减少了对比学习期间的误分类风险。因此,生成的超像素更准确地代表了对象语义,而不仅仅是视觉相似性。使用式(1),建立对应的超点集 ,确保2D图像特征和3D LiDAR点特征之间的正确对齐。作者的VFM辅助超像素有两个主要目的:首先,它们增强了生成的超像素的语义丰富性;其次,它们改进了2D图像特征与3D LiDAR点云之间的对齐。通过利用VFM提供的高级语义特征,作者的方法有效地解决了传统基于低级RGB特征的方法中经常出现的错位和特征不一致问题。
语义空间一致性学习
在上一节的基础上,作者引入了一个VFM辅助的对比学习框架,利用这些高级视觉特征。主要目标是在统一的语义空间中对齐超像素与超点,确保在训练期间不同模态中的对应区域被视为正对。为了实现这个框架,作者使用了前面描述的相同的可训练LiDAR点云编码器 和冻结的图像编码器 ,分别从LiDAR点云和2D图像中提取特征。对于对比损失,作者使用投影头 和 ,将点和图像特征投影到共享的 维嵌入空间中。与SLIC生成的低级线索不同,VFM产生的超像素富含语义信息,导致更具连贯性和意义的表示。为了计算VFM辅助的对比损失,作者对由超像素集 和对应的超点集 分组的像素和点嵌入应用平均池化。这个过程产生了超像素嵌入 和超点嵌入 。VFM辅助的对比损失 定义如下:
对比学习框架从VFM提供的丰富语义信息中收获很多。首先,这些语义增强的超像素有助于缓解现有方法中普遍存在的“自我冲突”问题。其次,由VFM生成的高质量对比样本形成了一个更具连贯性的优化景观,与无监督超像素生成方法相比,实现了更快的收敛。最后,使用VFM的超像素将嵌入长度从数百(SLIC)减少到数十,提高了计算效率并加速了整体训练过程。
实例超点时间一致性
在现实部署中,完美同步的LiDAR和相机数据通常是不切实际的,限制了可扩展性。为了解决这个问题,作者依赖点云的准确几何信息来减轻同步约束。
隐式几何聚类。作者首先使用RANSAC算法从时间戳 的LiDAR点云 中移除地面平面点,选择非地面点 。然后,作者使用HDBSCAN算法将 分组为 个段,。为了在不同时间戳之间映射段视图,作者将LiDAR帧转换为全局坐标系,然后进行聚合。这给出了聚合点云 。同样,作者使用RANSAC从 中生成非地面平面 。以相同的方式,作者对 进行分组以获得 个段 。为了为 个扫描在 个连续时间戳上生成段掩码,即 ,作者保持从聚合点云 到 个单独扫描的点索引映射。
超点时间一致性。作者利用聚类段来计算相关语义超点之间的时间一致性损失。具体来说,给定采样的时间对 和 及其对应的段 和 ,作者从点投影头 计算点特征 和 。对于目标嵌入,作者根据段 和 将点特征 和 分成 组。然后,作者对 应用平均池化操作,以获得 个目标均值特征向量 ,其中 。设分割点特征 为 ,其中 且 是对应段中的点数。作者计算时间一致性损失 以最小化当前帧(时间戳 )中的点特征与下一帧(时间戳 )中对应段均值特征之间的差异,如下所示:
由于所有属于当前帧中一个段的点的目标嵌入都作为下一帧中对应段的均值表示,这个损失将迫使一个段中的点收敛到一个均值表示,同时与其他段分离,隐式地将来自同一实例的点聚类在一起。图4提供了作者对比学习框架中的正特征对应关系。此外,作者在生成目标均值嵌入特征时交换 ,形成对称表示。这样,对应关系从 和 都被鼓励,导致以下优化目标:。
点到段正则化。为了将属于同一实例的LiDAR点在时间戳 拉近,作者最小化点特征 与对应均值聚类特征 之间的距离。为了实现这一点,作者使用最大池化函数根据段对 进行池化,以获得 ,其中 。点到段正则化通过以下 损失函数实现:
其中 表示对应段中的点数。最终的优化目标是最小化上述语义空间一致性损失 、时间一致性损失 和点到段正则化损失 。作者的语义超点时间一致性利用点云的准确几何信息,确保跨时间戳的一致表示。当LiDAR和相机之间的2D-3D对应关系不可靠时,这种方法仍然稳健,减轻了校准或同步问题引起的错误。点到段正则化进一步改进了空间聚合,增强了模型区分实例的能力,例如“汽车”和“卡车”。作者的实验结果证实,这些正则化策略不仅改进了表示学习,而且在传感器扰动下仍然有效。
多源数据预训练
之前的工作主要关注使用单源LiDAR数据集进行模型预训练。这种方法在应用于源外任务时限制了其泛化能力,因为不同的LiDAR数据集通常表现出不同的特征。为了克服这些限制,作者提出了一种多源数据预训练策略,整合了多种数据集,提高了特征表示的稳健性。这种策略增强了模型对不同LiDAR传感器的适应性,并提高了其跨领域的泛化性能。多源对比学习。考虑来自 个不同源的多个LiDAR数据集 。作者的LiDAR点云网络 被设计为在所有传感器上表现一致。然而,这些数据集的特征分布存在显著差异。例如,nuScenes 中的强度值范围从0到255;而SemanticKITTI 中的强度值范围从0到1。这些差异在使用共享模型权重跨数据集学习时使学习过程复杂化。为了处理这些领域特定的变化,作者首先对每个数据源的特征嵌入进行归一化。对于每个数据集,作者计算特征分布的均值 和方差 ,然后按以下方式归一化特征嵌入:
这种归一化确保了跨数据集的一致特征表示,最小化了不同分布特征的影响。归一化后,特征嵌入被送入网络 ,生成点特征,这些特征被分组成每个领域的超点嵌入,。为了提高模型跨数据集的泛化能力,作者采用跨数据集预训练对比损失 ,鼓励模型学习跨数据源的共享表示,同时保留每个领域的独特特征。这个损失定义如下:
这里,这个损失确保了来自同一源的超点嵌入更加相似,同时在不同源的超点之间保持足够的分离。这个对比目标增强了模型处理多域数据的能力,并鼓励开发共享但可适应的特征表示。多源数据预训练利用多种数据源创建了一个更具弹性和灵活的模型。通过解决领域之间的显著分布差异,特征归一化确保了跨不同数据集的一致性,促进了更统一的表示空间。
整体框架
作者的框架整合了几个创新组件,以实现可扩展且稳健的3D场景理解。一个关键元素是使用VFM生成语义丰富的超像素,解决了传统方法中的过度分割和自我冲突问题。这使得2D图像特征与3D LiDAR数据之间的对齐更加准确,增强了整体表示学习。
作者的方法结合了VFM辅助对比损失 ,确保了超像素与超点之间的语义一致性,而时间一致性损失 维持了跨帧的稳定点表示。点到段正则化损失 进一步改进了段内的空间一致性。最后,跨数据集预训练损失 解决了领域特定的变化,增强了模型跨不同LiDAR传感器的泛化能力。这些目标共同创建了一个稳健且多功能的框架,确保在各种任务和领域中实现卓越性能,同时保持了在现实世界应用中的可扩展性和适应性。
实验及结果
数据集
作者使用十一个不同的数据集来评估作者的方法的有效性。第一组包括大规模真实世界的LiDAR数据集:nuScenes,SemanticKITTI 和Waymo Open,还包括ScribbleKITTI。对于非铺装路面场景,作者考虑RELLIS-3D ,它包含校园环境的多模态数据,以及SemanticPOSS ,这是一个关注动态对象的较小数据集。此外,作者还纳入了SemanticSTF ,它提供了在恶劣天气条件下收集的LiDAR扫描。作者还使用了三个合成数据集:SynLiDAR 、Synth4D 和DAPS-3D ,所有这些数据集都是使用模拟器生成的,以提供多样化的驾驶环境和场景。最后,作者在nuScenes-C 上评估鲁棒性,这是Robo3D挑战赛的一个基准,包含现实驾驶中常见的八种分布外干扰。
比较研究
与SOTA的比较。作者将所提出的LargeAD与随机初始化和十一种最先进预训练技术进行比较,使用线性探测(LP)和少样本微调协议在nuScenes上进行评估,结果如表1所示。结果表明预训练对下游任务性能有显著影响,特别是在1%、5%和10%的微调预算等低数据场景中。当从ResNet、ViT-S、ViT-B和ViT-L提炼知识时,作者的框架在LP设置下分别实现了46.13%、46.58%、47.84%和48.71%的mIoU分数,大幅超过了之前最佳模型。
此外,作者的框架在nuScenes上的几乎所有微调任务中都持续提供了最高性能,突出了VFM辅助对比学习、空间-时间一致性正则化和多源数据预训练组合的有效性。
下游泛化。为了彻底评估LargeAD的泛化能力,作者在总共九个自动驾驶数据集上进行了实验,结果总结在表1(SemanticKITTI和Waymo Open)和表3(其他七个数据集)。每个数据集都呈现出不同的挑战,包括传感器类型、采集环境、规模和数据保真度的变化,这使得对模型泛化能力的评估非常严格。作者的框架在SemanticKITTI和Waymo Open上分别实现了51.68%和52.68%的mIoU分数,当从ViT-L提炼时,为这些基准设定了新的标准。作者还在表3中的其他七个数据集上超过了SLidR和Seal,结果一致显示作者的方法在所有评估数据集上都优于现有的最先进方法。这些结果强调了作者的方法在广泛的真实世界汽车感知任务中的稳健性和适应性。
鲁棒性探测。评估在分布外数据上学习到的表示的鲁棒性至关重要,特别是在现实世界应用中环境不可预测的情况下。作者使用Robo3D基准中的nuScenes-C数据集来评估在各种干扰下的鲁棒性。如表4所示,自监督学习方法如PPKT和SLidR通常比传统的基线(随机初始化)如MinkUNet表现出更好的弹性。作者的方法,LargeAD,在几乎所有干扰类型中都实现了优越的鲁棒性,超过了其他最近的依赖不同LiDAR表示的分割骨干网络的方法,包括范围视图、鸟瞰图(BEV)、基于原始点的方法和多视图融合。这些结果强调了作者的预训练框架在多样化的真实世界自动驾驶条件下的适应性和弹性。
3D目标检测的改进。除了LiDAR语义分割外,作者还将框架扩展到nuScenes数据集上的3D目标检测任务,并与最先进预训练方法进行比较。结果如表5所示,表明作者的方法在5%、10%和20%的各种数据比例下,对于CenterPoint和SECOND骨干网络都持续优于竞争方法。
特别是,作者的方法在所有微调级别上都实现了最高的mAP和NDS,超过了最近的技术,如CSC和TriCC。值得注意的是,作者的框架在有限的微调数据下保持了卓越的性能,展示了其在3D目标检测中的稳健性和有效性。这些结果进一步验证了作者的框架在自动驾驶中的多个具有挑战性的任务中的泛化能力,从语义分割到目标检测。
定性评估。为了进一步评估作者框架的性能,作者在图6中可视化了nuScenes上的分割预测。预训练方法明显增强了与从随机初始化训练的模型相比的分割质量。在比较的方法中,LargeAD展示了最一致和准确的结果,特别是在复杂的驾驶环境中。这种改进可以归因于作者预训练策略中嵌入的稳健的空间和时间一致性学习。
消融研究
比较不同的基础模型。这是第一次尝试将VFM适应于大规模点云表示学习。作者在四个流行的VFM上进行了全面的消融研究,即SAM、XDecoder 、OpenSeeD 和SEEM,结果如表6所示。作者的实验表明,不同的VFM对对比学习目标有不同的影响。所有VFM都一致地优于传统的SLIC。有趣的是,SAM生成了更细粒度的超像素,这在使用更大的标注数据集进行微调时增强了性能。作者假设SAM提供了更多样化的负样本,这可能有利于超像素驱动的对比学习。在所有配置中,LargeAD都显著超过了SLidR,证实了作者提出的大型跨传感器数据预训练框架的有效性。
余弦相似度。作者在图5中可视化了各种VFM之间的特征相似性,提供了在微调之前表示之间差异的见解。像X-Decoder、OpenSeeD和SEEM这样的语义丰富的模型在对象和背景之间显示出清晰的特征区分。相比之下,像SLIC和SAM这样的无监督或过于细粒度的方法显示出较弱的语义意识。这些定性观察在从线性探测和微调任务(见表6)的性能结果中得到了反映,其中SEEM展示了在跨传感器表示学习中更强的一致性正则化,从而提高了下游任务的性能。
组件分析。LargeAD的核心组件的消融结果如表7所示。仅整合VFM(行c)在线性探测中就提供了4.20%的mIoU改进,而添加时间一致性学习(行b)又额外提供了1.65%的mIoU增益。将这两个组件结合起来(行d)总共提供了5.21%的mIoU提升。点到段正则化(行e)本身也贡献了显著的4.55% mIoU改进。当所有组件都整合在一起(行g)时,最终模型总共获得了6.33%的mIoU增益,超过了SLidR,在分布内和分布外基准测试中都优于所有最先进的方法。
随着数据源的扩展。作者进行了消融研究,以检查在预训练期间使用不同数据集的影响,如表8所示。结果表明,仅在一个数据集上进行预训练,即nuScenes(N)、SemanticKITTI(K)或Waymo Open(W),就比随机初始化提供了显著的改进,特别是在线性探测(LP)和1%微调评估中。然而,随着在预训练中结合更多的数据集,性能在分布内(预训练数据集)和分布外数据集上都持续提高。例如,在所有三个数据集(N + K + W)上进行预训练,结果在所有场景中都获得了最佳性能。有趣的是,多数据集预训练的好处在分布外结果中最明显,结合两个或三个数据集比单数据集预训练带来了显著的增益。例如,结合nuScenes和Waymo Open(N + W)在nuScenes上的LP达到了47.42%的mIoU,超过了单数据集预训练设置。同样,使用所有三个数据集在分布外场景中超过了两个数据集的组合,特别是在Waymo Open中,在1%微调中达到了51.52%的mIoU。这些结果突出了多源预训练的重要性,它不仅提高了在分布内数据集中的泛化能力,而且显著增强了分布外性能,展示了作者提出的框架的稳健性和可扩展性。
结论
本文介绍LargeAD,一个为大规模预训练设计的可扩展通用框架,适用于多种LiDAR数据集。该框架利用视觉基础模型(VFM)生成语义丰富的超像素,对齐2D图像特征与LiDAR点云,提升表示学习。通过VFM辅助对比学习、超点时间一致性和多源数据预训练,LargeAD在多个3D场景理解任务中达到顶尖性能,包括LiDAR语义分割和3D目标检测。广泛的实验表明,该框架在不同数据集上表现出色,具有良好的泛化和鲁棒性。消融研究证实了多数据集预训练和各组件的重要性。