Abstract
现有的基于重建的驾驶场景新视图合成方法主要集中在合成沿自车记录轨迹的摄像头视图。当视点偏离记录轨迹时,这些方法的图像渲染性能会显著下降,因为相应的摄像头射线未经过训练。我们提出了FreeVS,这是一种全新的生成方法,可以在真实驾驶场景中的新自由轨迹上合成摄像头视图。为了控制生成结果在三维上与真实场景一致且视点精确,我们提出了视图先验的伪图像表示来控制生成过程。在伪图像上进行视点转换仿真,以模拟各个方向的摄像头移动。训练完成后,FreeVS 可以在任何验证序列上应用,而无需重建过程,能够在新轨迹上合成视图。此外,我们还提出了两个针对驾驶场景的新挑战基准,即新摄像头合成和新轨迹合成,突出了视点的自由性。由于在新轨迹上没有真实图像,我们还提出评估在新轨迹上生成的图像与三维感知模型的一致性。在Waymo Open Dataset上的实验表明,FreeVS在记录轨迹和新轨迹上的图像合成性能都非常出色。
项目地址:https://freevs24.github.io/
欢迎加入自动驾驶实战群
Introduction
场景重建和新视图合成(NVS)因其在闭环仿真系统中的潜力,在人工智能中备受关注。最近的进展显著提升了通用场景在多通道和多视图录制条件下的重建质量。然而,由于实际场景的非受控录制条件和观测稀疏性,驾驶场景的重建面临独特的挑战。与通常的通用场景重建不同,驾驶场景通常仅能获取沿单一车载轨迹的图像视图,这引发了一个关键问题:在超出记录轨迹的新视点上,驾驶场景的重建效果如何?
如图1所示,当渲染摄像头偏离记录轨迹时,现有代表性NVS方法的渲染质量显著下降。原因在于驾驶场景中记录的摄像头视点在三维空间中稀疏且沿记录轨迹呈现位置上的均匀性。这种稀疏性和均匀性导致从摄像头中心出发的新轨迹射线大部分未经训练。
我们提出FreeVS,以解决这一问题。FreeVS是一种全新的生成NVS方法,可以在记录和超出记录轨迹的驾驶场景中合成高质量的摄像头视图。在构建FreeVS时面临两大核心挑战。第一个挑战是,在保持生成视图的三维几何一致性的同时,精确控制摄像头位置。尽管之前的基于扩散的方法可以在粗略轨迹上控制摄像头运动,但其控制精度远不足以满足仿真安全性需求。第二个挑战是新轨迹上没有真实图像,难以直接训练模型生成超出记录轨迹的新视图。
为了解决这两个挑战,提出的FreeVS利用伪图像表示,这是一种通过有色三维点投影得到的稀疏而精确的三维场景表示。具体而言,对于每个现有视图,我们通过将彩色点云投影到该视图来创建其伪图像。在这种方式下,我们获得了训练数据对,用于训练一个生成模型,使其能够从伪图像生成真实图像。由于我们使用真实的摄像头模型创建伪图像,它们包含稀疏但高度准确的外观和几何特征,避免了精确控制摄像头位置的困难。在推理时,我们可以为超出记录轨迹的新视点创建伪图像,然后利用训练好的生成模型合成新的视图。这种设计大大缩小了记录轨迹内外视图合成的差距。
为了展示FreeVS的实用性,我们提出了两个评估驾驶场景NVS方法性能的新基准,比传统的记录轨迹评估更具实际意义。(i)在记录轨迹上,我们提出了新摄像头合成基准。与从视频序列中按间隔采样的测试帧上评估合成结果(即新帧合成)不同,我们提出删除整个轨迹中的某个摄像头视图(如前侧视图)的所有图像,并合成被删除的摄像头视图的图像。(ii)我们进一步提出新轨迹合成基准。由于在新轨迹上没有真实图像,我们通过三维检测器的性能来评估生成视图的几何一致性。在Waymo Open Dataset上的实验表明,FreeVS在两个更具实际意义的基准以及传统的新帧合成基准上都明显优于之前的NVS方法。
3.FreeVS
本节详细介绍了我们提出的FreeVS的设计,并在图2中总结了FreeVS的算法流程。
FreeVS概述
FreeVS是一个完全生成的模型,基于记录轨迹中对3D场景的观测,在新轨迹上合成新的摄像头视图。FreeVS实现为一个条件视频扩散模型。为确保模型生成的视图在视点上准确,并与真实3D场景在外观属性和三维几何上一致,我们将与3D场景相关的所有重要先验信息表述为伪图像,以控制扩散过程。基于视图先验条件,FreeVS在训练时通过去噪目标视图生成图像,在推理时则从纯噪声中合成目标视图。
3.1 用于视图生成的视图先验
统一的视图先验表示
生成新视图的一个主要挑战在于确保生成的图像与新视图的先验信息一致。这里的视图先验包括该视图的颜色、3D几何信息和摄像头姿态。然而,不同类型的先验信息属于完全不同的模态,这为扩散模型准确编码这些先验信息带来了很大挑战。例如,正如第1节讨论的,扩散模型无法精确控制摄像头的运动(即姿态)。为应对这一挑战,我们提出了一种伪图像表示,将所有类型的视图先验统一到一个模态中。伪图像通过彩色点云投影获得。具体而言,对于驾驶序列中的每一帧,我们首先合并附近的r帧中的LiDAR点。运动物体上的LiDAR点将沿物体的移动轨迹进行合并。最后,我们将合并后的彩色LiDAR点云投影到目标摄像头视点,生成伪图像。通过这种方式,我们将颜色信息、几何信息和视图姿态编码到一个统一的伪图像中,大大简化了生成模型的学习。
与直接将参考图像和视点变换输入扩散过程相比,伪图像表示极大地简化了生成模型的优化目标:在前者的输入下,模型需要正确理解3D场景几何以及视点变换,以基于参考图像生成正确的视图。相比之下,使用伪图像作为输入时,FreeVS只需基于稀疏的有效像素点恢复目标视图,这更类似于一个基本的图像补全任务。训练目标的简化极大地增强了模型对不熟悉视点变换的鲁棒性,因为生成的图像是基于稀疏但几何上准确的像素点进行补全的。
视点变换模拟
在新轨迹上生成新视图的另一个挑战来自于记录轨迹之外缺乏真实视图。我们只能在记录轨迹上训练生成模型,而视点变换的多样性极为有限。例如,我们无法获得将前置摄像头横向移动的训练样本。然而,这种视点变换对于在推理时在新轨迹上合成视图至关重要。这在生成模型的训练和推理之间带来了显著的差距。此外,我们提出了基于伪图像的视点变换模拟。在训练时,我们从与训练图像帧不匹配的帧中采样颜色和LiDAR先验。这意味着我们强制生成模型基于来自附近帧的观测恢复当前摄像头视图。通过这种方式,我们在伪图像先验上模拟了各个方向的摄像头移动,作为一种强大的数据增强。例如,当自车沿行驶方向前进时,侧摄像头实际上在向前或右移动。因此,尽管我们无法获得前置摄像头横向移动的训练数据,我们仍然可以通过在观测-监督帧不匹配的侧视图上训练FreeVS来模拟横向摄像头移动。
3.2 用于NVS的扩散模型
FreeVS的训练
在FreeVS的每次训练迭代中,我们从驾驶场景数据集中随机采样一个彩色LiDAR点云序列。是一个彩色点云序列,每帧点云包含一组六维的3D点。3D点以世界参考框架中的位置和其可见的颜色记录下来。从驾驶序列中,我们还采样一个目标摄像头视点序列,该序列包含帧和个周围摄像头的参数。每个摄像头参数表示一个摄像头视点的内参数和外参数。对于具有摄像头参数的目标视频视点,我们将彩色LiDAR点云投影到视点上生成伪图像。
FreeVS在每次迭代中的训练目标是基于伪图像序列,复原采样视点处的目标图像。在FreeVS的训练过程中,真实的摄像头视图也会沿视点序列进行采样。真实摄像头视图被编码为目标视频的潜在表示,通过冻结的VAE编码器获得。然后我们得到扩散输入,和分别表示扩散时间步长的噪声调度。我们还用一个同时训练的2D编码器将伪图像编码为潜在表示。我们将和连接作为扩散模型的输入,以预测在y上的噪声。我们有一个带参数θ的去噪模型,该模型以和为输入,通过最小化以下去噪目标进行优化:
其中为使用现成的CLIP-vision模型编码参考摄像头视图生成的描述条件,遵循扩散模型的惯例。是扩散时间上的均匀分布。
在新轨迹上使用FreeVS合成视图
在FreeVS的推理过程中,我们将每帧中的彩色LiDAR点投影到目标摄像头姿态中,以生成用于图像合成的伪图像序列。扩散模型接收伪图像潜在向量和纯噪声潜在向量的连接输入。扩散潜在向量通过现成的VAE解码器解码为合成视图。
3.3 在新摄像头和新轨迹上评估NVS
为了充分展示我们FreeVS的视角泛化能力,能够真正满足闭环化模拟的需求,我们提出了一种全面的评估基准,以用于驾驶场景中的新视角合成。图3展示了这一点:面板(a)和(b)总结了现有的评估基准,而面板©和(d)则介绍了我们提出的两个新的挑战性NVS基准。
在记录轨迹上评估NVS
当前所有的驾驶场景NVS方法都在记录轨迹中以固定间隔采样测试帧,以评估其NVS性能。一些之前的驾驶场景NVS方法仅考虑前置摄像头视角进行性能评估,如图3(a)所示。其他NVS方法则将多视角摄像头考虑在内,如图3(b)所示。以上两种评估基准均是沿轨迹周期性采样测试帧,即新帧合成。在这种情况下,测试帧中的摄像头视角可以直接从相邻帧推断,尤其是在视频帧率较高的数据集上(如WOD数据集的10Hz帧率)。为了为驾驶场景NVS方法提供更具挑战性的评估环境,我们提出了新的摄像头合成基准,如图3©所示。我们不是周期性地采样测试帧,而是将驾驶序列中的某些多视角摄像头所采集的图像作为测试视图。例如,对于WOD数据集中的某驾驶序列,我们使用前置和侧面摄像头视图作为训练视图,并在前-左和前-右视角上评估合成结果。在新摄像头合成基准下,NVS方法需要在未见过的摄像头视角上进行视图合成,这对3D场景的准确建模提出了更高要求。我们确保在验证序列中,前-侧摄像头中的大部分3D内容在沿自车轨迹的前方或侧面摄像头视图中均被观察到。
新轨迹合成
在从记录轨迹中采样的测试视图上,有真实的摄像头图像可用于评估合成图像的图像相似度指标,包括SSIM、PSNR和LPIPS 。不同的是,在驾驶场景中,在新轨迹上并没有真实的图像可用。Fréchet Inception Distance (FID)指标可以比较新轨迹上的合成图像与记录轨迹上的真实图像的总体图像分布,但它无法评估合成图像对3D场景的保真度。除了定性可视化比较外,我们还提出了感知鲁棒性评估,以评估NVS方法在新的自车轨迹上对几何一致性的表现。
在驾驶场景中,现代基于图像的3D感知模型已具备高度的鲁棒性。如图3(d)所示,假设某种NVS方法能够在新轨迹上以理想的图像质量合成视图,那么以合成视图作为输入的感知模型应能够在新轨迹上产生准确的预测。在这样的假设下,我们认为在新轨迹上的现成感知模型的性能可以反映出NVS方法合成图像的质量。在新轨迹合成基准下,我们将新轨迹上的合成图像和摄像头位姿输入到一个现成的基于3D摄像头的检测器中。检测结果在WOD数据集上用纵向误差容忍均值平均精度 (LET-mAP)指标进行评估。对于所有NVS方法,我们通过横向偏移每帧中的自车位置来修改新轨迹。我们将轨迹分别偏移1.0米、2.0米和4.0米,并报告均值评估结果作为和。
4.Experiment
4.1 在提出的具有挑战性的新基准下的SOTA对比
新摄像头合成
我们首先在表1中报告了各NVS方法在提出的多视角新摄像头合成基准下的表现。FreeVS在所有指标上均取得了显著领先的表现。先前的NVS方法在目标视图严重丢失场景信息的情况下,往往会渲染出带有严重图像畸变或大量不自然伪影的图像,如图4所示。同时,FreeVS能够在有限的3D场景观测基础上生成接近真实视图的摄像头视图。
新轨迹合成
我们还在表2中报告了各NVS方法在新轨迹上的FID和感知鲁棒性表现。提出的FreeVS在应用不同横向偏移量到视点后,在几乎所有指标上均优于先前的NVS方法。与先前的NVS方法相比,提出的FreeVS在FID指标上表现出非常强的性能。这主要是因为在新轨迹上合成图像时,FreeVS几乎没有图像劣化和伪影问题。FreeVS在所有NVS方法中还展现了最强的mAPLET表现,这表明作为生成式方法,FreeVS在新轨迹上渲染视图时,其对3D场景几何的保真度甚至超过了先前的基于重建的方法。我们在图5中还提供了可视化对比示例。
虽然FreeVS依赖于LiDAR点输入,EmerNerf和Street Gaussians在其训练过程中也依赖于LiDAR深度监督。因此在我们的实验中,FreeVS并未获得信息上的优势。此外,作为一种完全生成式的方法,FreeVS在应用于验证序列时不需要任何场景重建过程。在推理时,FreeVS即使与3DGS方法相比,也消耗更少的计算资源,而3DGS方法通常需要1-2小时来建模20秒的验证序列。
4.2 新帧合成下的SOTA对比
我们还在表3中报告了各NVS方法在传统的前视图新帧合成或多视图新帧合成基准下的表现。当仅考虑前视图摄像头时,先前的NVS方法表现强劲。然而,在更符合当前自动驾驶场景的多视图设置下,先前的NVS方法的性能被提出的FreeVS大幅超越。值得注意的是,在表3中,当考虑多视图摄像头时,所有先前基于重建的NVS方法都表现出显著的性能下降。我们认为这是由于训练视图数量的增加、可见3D场景范围的扩展以及侧视图中内容的快速变化,这些因素导致重建模型的收敛更为困难。
4.3 消融实验
视图先验条件的消融
我们首先对视图先验的表示形式进行消融,以作为扩散过程的条件,如表4所示。我们在伪图像表示上进行分解实验。模型训练了20,000次迭代。我们首先去除伪图像表示中的颜色信息,如表4(b)所示。去除颜色几乎不影响渲染结果的几何精度,但对图像相似度指标有显著影响。接着我们去除LiDAR输入©,此时参考图像和摄像头位姿变换矩阵(从参考视图到目标视图)由VAE或MLP编码器独立编码。在此设置下,我们发现扩散模型无法准确合成目标视角的视图。大多数情况下,模型忽略了位姿条件,通过其熟悉的视角变换移动摄像头视点(例如总是将前视摄像头向前或向后移动,或将侧视摄像头向左或向右移动)。基于©,我们尝试保留所有视图先验输入,但不将它们统一为伪图像(d)。LiDAR点云作为潜变量通过点云骨干网络编码。实验结果表明,由于与2D图像的显著差异,模型在设置(d)下未能利用LiDAR输入。大多数生成图像的视角错误,导致设置©和(d)下训练的模型具有极差的感知鲁棒性表现。由此可见,伪图像表示显著提升了图像生成的整体质量和视角控制性。最后,我们在设置(e)中比较了2D卷积编码器和2D注意力编码器对伪图像的编码效果。
视角转换模拟的消融研究
视角转换模拟旨在从记录序列中构建源帧和目标帧对,以模拟摄像头在各个方向上的移动。我们在表5中报告了伪图像情况下,FreeVS在多视图新帧合成和对记录轨迹应用2.0米横向偏移生成的新轨迹下的消融实验结果。如表5所示,从源帧的相邻±2或±4帧采样目标帧可以提升FreeVS在新轨迹上的视图合成性能。当时间采样窗口超过±4帧时,FreeVS在记录轨迹上的视图合成性能会受到负面影响。我们认为这是由于视图先验和目标图像之间的大时间戳差异阻碍了模型的收敛。
结论
本文的贡献总结如下:
本文提出了FreeVS,一种完全生成的视图合成方法,用于驾驶场景,在不需要耗时的重建情况下生成记录和新轨迹上的高质量三维一致性视图。
本文设计了两个新的基准,用于在记录轨迹之外的新轨迹上评估驾驶NVS方法。
在WOD上的实验表明,FreeVS在记录轨迹内外的摄像头视图合成中均表现优异。
文章引用:FREEVS: GENERATIVE VIEW SYNTHESIS ON FREE DRIVING TRAJECTORY
最后别忘了,帮忙点“在看”。
您的点赞,在看,是我创作的动力。
AiFighing是全网第一且唯一以代码、项目的形式讲解自动驾驶感知方向的关键技术。
长按扫描下面二维码,加入知识星球。