点击下方卡片,关注“自动驾驶之星”
大规模场景的视角合成和自动标注
生成逼真的全新视角图像是计算机视觉和图形学领域中一个复杂且关键的挑战。随着神经辐射场的快速发展,自由视角合成逐渐扩展到大规模视角合成领域,尤其是在为自动驾驶提供关键街景图像的场景中。然而,由于地理位置的复杂性、多样化的环境以及变化的道路状况,模拟室外环境仍然面临诸多挑战。为了解决这些问题,图像到图像转换方法被提出,旨在通过学习源图像与目标图像之间的映射来生成具有语义标注的街景图像。尽管这些方法能够生成视觉效果惊艳的街景图像,但它们通常在局部细节上表现出明显的伪影和纹理不一致。此外,生成图像的视角通常较为单一,在复杂的自动驾驶场景中应用时存在一定困难。
为了应对这些挑战,Drive-3DAu引入了一种基于NeRF的3D数据增强方法,用于在3D空间中增强驾驶场景。DGNR提出了一种新框架,通过从场景中学习密度空间来指导基于点的渲染器的构建。同时,READ提供了一个大规模驾驶仿真环境,用于为高级驾驶辅助系统生成真实数据。由于其卓越的生成能力,基于3D GS的方法被用于合成驾驶场景。尽管这些方法能够生成适合自动驾驶的真实图像,但它们无法同时生成全新视角和对应的2D/3D标注框,而这些对于监督模型的训练至关重要。因此,增强大规模场景的全新视角合成能力并实现全新视角的自动标注,仍然是自动驾驶领域中的关键挑战。
项目链接:https://github.com/jiangxb98/EGSRAL
为了解决这些挑战,EGSRAL[1]被设计为一种基于增强3D Gaussian Splatting(3D GS)技术的新框架。该框架在提升全新视角合成质量的同时,能够同时生成对应的标注。具体而言,我们提出了一个变形增强模块,用于优化高斯变形场,从而提升动态物体和静态背景的建模能力。此外,我们引入了一个利用神经网络替代原始可学习参数的不透明度增强模块,大幅提升了复杂驾驶场景的建模能力。针对在大规模复杂场景中渲染不合理视角的问题,例如不应包含被遮挡的远处高斯,我们提出了一种分组策略来优化原始3D GS。
主要贡献:
提出了一种增强型基于3D GS的渲染器EGSRAL,该方法能够基于现有数据集的标注,生成带有对应标注的全新视角图像。EGSRAL引入了变形增强模块和不透明度增强模块,提升了3D GS对复杂场景的建模能力。 针对大规模复杂场景渲染中不合理视角的问题,我们提出了一种分组策略,用于优化原始3D GS。 与仅关注全新视角合成的现有方法不同,我们提出了一种带有三个约束的适配器,将相邻标注框转换为自动驾驶领域中的全新标注框。 实验结果表明,方法在大规模场景的渲染方法中表现优于现有方法。此外,带有对应标注的全新视角图像有效提升了2D/3D检测模型的性能。
具体方法
总览
给定驾驶场景的输入图像序列以及通过结构化运动(SfM)方法估算的点云,我们提出的EGSRAL框架能够从多个视角合成真实的驾驶场景,同时自动标注对应的全新合成视角图像。此外,我们还提出了一种分组策略,用于解决大规模驾驶场景中的视角问题。该框架分为两个部分:增强型3D GS渲染器和全新视角自动标注,如图1所示。
3D GS渲染器基于可变形3D GS,并通过创新模块进行了扩展,以改进全新视角的合成能力。对于自动标注,我们引入了一种适配器,用于变换相机姿态和边界框,从而生成全新视角的对应标注。
增强型3D GS渲染
3D Gaussian Splatting(3D GS)通常用于建模静态场景,其处理动态场景的能力有限。近期研究主要集中于提升动态场景的建模能力。我们基于可变形3D GS作为基线方法,并将其应用于自动驾驶场景的重建。此方法为静态背景和动态物体引入了统一的变形场。为了更好地表示每个高斯基元的状态,我们引入了一个状态属性 ,用于隐式指示该基元是静态的还是动态的。此外,我们通过引入一个变形增强模块优化了变形场,并提出了一个不透明度增强模块,以提高复杂驾驶场景的建模能力。
可变形3D GS网络
为了降低对数据的依赖性,我们仅使用图像数据进行驾驶场景重建。首先,我们通过SfM初始化一组3D高斯 ,其中 分别表示高斯基元的位置、四元数、缩放比例和不透明度。为了更好地建模动态3D高斯,可变形3D GS为3D高斯引入了一个变形场,该变形场以位置 和时间 为输入,预测位置、旋转和缩放的偏移量 。随后,这些变形后的3D高斯 会通过可微的瓦片光栅化器进行渲染,以生成全新图像:
其中, 是像素 的渲染颜色, 是透射率,由 定义, 是每个高斯基元的颜色, 是通过评估协方差矩阵的2D高斯并乘以一个可学习的不透明度参数得到的。
然而,可变形3D GS在建模动态物体和静态背景方面仍存在不足。这主要是因为3D高斯无法同时准确表示动态和静态元素。为了解决这一问题,我们为每个高斯基元引入了状态属性 ,并将其作为输入加入可变形网络,从而提升网络捕获高斯基元状态的能力:
其中, 表示可变形网络的参数, 是一个停止梯度操作, 是位置编码。
变形增强模块(DEM)
为了进一步增强动态物体的建模能力,我们提出了一个变形增强模块,基于时间 和高斯基元的状态属性 来微调变形场。具体而言,我们使用状态属性 和时间编码 作为输入,输出每个高斯基元的变形场调整因子 :
其中, 表示动态编码网络的参数, 是当前相机的坐标位置, 是激活函数。
此外,在驾驶场景中,为了更有效地建模动态物体的显现与消失,我们通过不透明度调整因子 动态调整动态物体的不透明度:
最终,通过调整因子 和 ,我们将变形后的3D高斯 修改为 ,从而使变形场能够更详细地建模动态物体和静态背景。
不透明度增强模块(OEM)
如图像渲染公式(公式1)所示,当前像素的渲染取决于高斯基元的颜色和不透明度。为了增强不透明度预测的能力,我们将高斯基元的不透明度初始化为一个可训练参数 ,并引入了一个轻量级网络来加速不透明度的优化:
其中, 是不透明度增强模块的参数。
分组策略(GPS)
现有基于3D GS的驾驶场景重建方法未考虑大规模场景的情况。为此,我们提出了一种分组策略。正如图2(a)所示,我们通过固定的图像间隔将场景划分为 个组,并为每个高斯基元分配一个组标识符 。这种策略允许我们基于组标识符执行后续的克隆、分离和渲染操作。通过分组策略,我们解决了视角不合理的问题。例如,在原始3D GS渲染视场中包含的远处高斯基元(图2(c)中的绿色矩形)是不合理的。而通过分组(红色矩形),我们将视场限制在特定范围内,从而通过排除此范围外的高斯基元降低优化负担。
与DrivingGaussian(Zhou et al., 2024)的静态增量训练模式不同,我们的方法避免了顺序分组训练以及为每个组分别训练可变形网络的需求,从而减少了模型数量并缩短了训练时间。然而,高斯基元的位置分布差异可能影响收敛性。为了解决这一问题,我们引入了一种多组联合优化策略。正如图2(b)所示,每个组独立执行前向传播以累积梯度。当所有组完成前向传播后,我们执行梯度反向传播以优化网络参数,从而稳定可变形网络的训练。
此外,为了解决3D GS在初始帧中重建质量较差的问题,我们提出了一种重叠训练策略。具体而言,对于每个组,我们使用前一组的 张图像来训练当前组,从而显著提高重建质量。详细算法见附录算法1。
全新视角自动标注
适配器的需求
我们的方法利用图像序列(数据集)通过结构化运动(SfM)方法构建场景点云,并估算相机姿态和参数。生成的点云和相机姿态被定义在SfM方法生成的新坐标系中。然而,图像序列的3D标注及其对应的相机姿态通常定义在原始世界坐标系(OWCS)中,例如在nuScenes数据集中。因此,存在两个不同的坐标系:原始世界坐标系(OWCS)和由SfM方法生成的估算世界坐标系(EWCS)。
我们的渲染器基于EWCS进行训练,因为它使用了在EWCS中估算的点和相机姿态作为输入。同时,用于生成全新视角图像的新相机姿态也基于EWCS,这使得数据集中3D标注在OWCS中的利用变得复杂。因此,需要一个变换适配器来建立这两个坐标系之间的关系,从而有效利用3D标注。通过该适配器,可以将原始世界坐标系(OWCS)中的全新视角相机姿态转换为估算世界坐标系(EWCS),并输入渲染器生成全新视角图像。
我们的适配器
我们采用神经网络来建模两个坐标系之间的相机姿态转换关系,输入为OWCS中的相机姿态,输出为EWCS中的对应相机姿态。我们将相机姿态表示为包含旋转和平移信息的 矩阵,因此输入和输出的形状均为 。我们使用多层感知器(MLPs)构建适配器,如图3所示,适配器的骨干网络由8层MLP组成,输出层是一个简单的线性层,用于预测EWCS中的相机姿态。为了优化适配器,我们在训练过程中引入了三种约束。
适配器的约束
为了有效训练适配器,我们需要来自数据集中定义于两个坐标系中的相机姿态。可以直接从这些系统中获得现有的相机姿态对,每对包含同一帧在OWCS和EWCS中的相机姿态。我们采用smoothL1损失(Girshick, 2015),确保适配器的预测结果与SfM生成的EWCS中的相机姿态相匹配。用于现有相机姿态约束的损失函数如下:
其中, 是现有相机姿态约束的损失, 是适配器根据OWCS中的相机姿态 预测的姿态, 是SfM在EWCS中生成的对应姿态。
通过施加初始约束,适配器可以在两个坐标系之间转换现有的相机姿态。然而,由于相机姿态对的数量有限,适配器的泛化能力受到限制,导致对现有对中未包含的新相机姿态表现不佳。为了解决这一问题,我们引入了新的相机姿态约束。
全新相机姿态约束
全新相机姿态约束通过利用现有数据约束新相机姿态,从而增强适配器的泛化能力。基于同一物体在两个相机坐标系中的投影一致性规则,我们可以为新相机姿态构造投影约束。具体而言,对于数据集中的某一相机姿态 ,我们使用随机位置变换(RPT)模块生成附近的全新姿态 。该姿态在EWCS中有对应的隐式姿态 ,但不可直接获得。然后,我们将该相机姿态的后续 帧相机姿态对分别投影到两个坐标系中的全新相机姿态平面上。对应的投影点应具有相同的像素坐标。
如图3所示,坐标转换模块(CCM)将点从OWCS转换到全新相机姿态的相机坐标系中,利用如下公式进行坐标变换:
其中, 是帧 在OWCS中的相机姿态, 是帧 附近随机采样的全新相机姿态,位于OWCS中。然后,我们利用相机内参将这些点投影到全新相机姿态平面上:
其中, 是相机内参矩阵, 是 的平移部分。投影约束的损失函数如下:
此外,为了弥补像素坐标约束的不足,我们引入了3D坐标系统中的位置约束:
最终的总损失函数为:
标注生成
在推理阶段,如图1所示,我们从数据集中获取原始相机姿态 (定义于OWCS),通过RPT模块生成全新姿态 。然后,我们将 输入适配器,生成EWCS中的对应姿态 。将 输入渲染器可生成对应的全新视角图像()。同样,将相同的仿射变换应用于数据集中的原始标注(),即可生成 。将 和 结合即可生成带有标注的全新视角图像,从而实现自动标注。
实验效果
总结一下
EGSRAL是一种新颖的基于3D GS的渲染器,结合了自动标注框架,能够生成带有对应标注的全新视角图像。在全新视角渲染方面,我们引入了两个有效的模块,以提高3D GS建模复杂场景的能力,并提出了一种分组策略来解决大规模场景中不合理视角的问题。在全新视角自动标注方面,我们提出了一种适配器,用于为全新视角生成新的标注。实验结果表明,EGSRAL在全新视角合成方面显著优于现有方法,并在带标注图像的目标检测性能上取得了优异的表现。
参考
[1] EGSRAL:An Enhanced 3D Gaussian Splatting based Renderer with Automated Labeling for Large-Scale Driving Scene