点击下方卡片,关注“3D视觉之心”公众号
>>点击进入→3D视觉之心技术交流群
SCI系统
高速成像技术广泛应用于科学研究、体育、航空航天等领域。然而,传统的高速成像技术通常需要昂贵的硬件设备和大量的存储空间。面对这些挑战,压缩感知(Compressed Sensing, CS)和视频快照压缩成像(Snapshot Compressive Imaging, SCI)技术应运而生。SCI系统通常由两个组件组成:硬件编码器和软件解码器。在曝光期间,硬件编码器利用多组设计的掩码将曝光过程划分为多个帧,并将其调制为一个压缩图像。随后,软件解码器利用这些掩码将压缩图像解码为高帧率图像。这使得使用普通相机拍摄高速视频成为可能,从而降低了硬件成本和存储成本。
针对SCI系统的硬件编码器,已有多个成熟的方案被提出,但解码部分仍然面临挑战。现有的解码方法主要分为基于模型的方法和基于深度学习的方法。基于模型的方法利用自然图像先验进行迭代优化,具有跨分辨率和压缩率的灵活性,但存在处理时间长和输出质量低的问题。相比之下,基于深度学习的方法通过网络架构对压缩图像进行端到端解码,实现了更高的实时性能和图像质量。然而,这两种方法均忽视了3D场景的结构,导致视角间的不一致性。为了解决这一问题,SCINeRF 通过联合优化NeRF和相机位姿,从单个压缩图像中恢复3D NeRF表示,取得了有希望的结果。然而,它在动态场景中表现不佳,而动态场景在高速摄影中十分常见。此外,基于NeRF的重建方法由于其MLP、CNN和Transformer架构中大量参数的存在,需耗费大量的训练时间和内存。
SCIGS[1]是第一个能够从单个压缩图像构建显式3D场景的方法,并进一步扩展至动态3D场景。由于无法从压缩图像中提取相机位姿和高斯分布的初始化,同时受3D高斯分布离散特性的限制,同时优化相机位姿和3D高斯分布存在挑战。为了解决这一问题,我们提出了一种转换网络,该网络不仅能够从压缩图像中分离出适应动态场景的转换场,还能为优化过程中相机位姿的振荡提供解决方案。随后,引入高频滤波器以抑制转换过程中生成的伪影。大量静态和动态场景的实验表明,所提方法在SCI解码任务中实现了更高的图像质量,并在压缩图像的3D场景重建中,尤其是动态场景中,优于其他方法。
主要贡献:
提出了SCIGS,这是首个在3D高斯光栅化(3D Gaussian Splatting, 3DGS)框架内,从单个快照压缩图像恢复显式3D表示的方法。 引入了相机位姿标记和高斯原语级别的转换网络,用高斯的转换替代了相机位姿的优化,等效解决了优化过程中的相机位姿振荡问题。 广泛的实验表明,SCIGS能够在静态和动态场景中合成高质量的新视图图像,超越了现有的SCI图像解码方法。
具体方法
本文提出的方法管线如图2所示。输入为单个压缩图像及一组掩码。从随机初始化的点云开始,生成一组初始3D高斯分布 ,定义为位置 、不透明度 以及通过四元数 和缩放向量 导出的3D协方差矩阵 。随后,基于随机外部参数及给定的内部参数定义固定视角的相机。每个视角下高斯分布的外观通过球谐函数(SH)表示。
为了用相机位姿感知的3D高斯分布转换替代直接的相机位姿变换,并适应动态场景,我们引入了一个转换网络 。该网络以每个3D高斯分布的位置和一个相机位姿标记(stamp)为输入,输出高斯分布的转换结果。为了消除转换过程中产生的高频伪影,还加入了高频滤波器。在差分高斯光栅化管线输出中间帧图像后,这些图像通过SCI系统的调制过程生成压缩图像。随着高斯分布的自适应密度控制,3D高斯分布及转换网络通过快速反向传播同时进行优化。
3D高斯光栅化
本文采用了高效可微光栅化管线,从3D高斯分布生成图像。作为3DGS的渲染原语,3D高斯分布定义为:
其中协方差矩阵 参数化为四元数 和3D缩放向量 的组合:
为了将3D高斯分布渲染到2D图像上,需要将其投影到2D成像平面上。投影后的2D高斯分布的协方差矩阵可以近似为:
其中, 表示投影变换的仿射近似的雅可比矩阵, 表示从世界坐标到相机坐标的视图矩阵。
在渲染过程中,给定像素 的颜色通过 个有序的2D高斯分布的透明度混合计算得出:
其中 是通过球谐系数计算的高斯颜色。
快照压缩成像模型
在SCI系统中捕获压缩图像的过程中,曝光时间被相应的 个编码掩码划分为 个时间间隔。在每个时间间隔内,每个像素的曝光由相应掩码位置的值决定,图像传感器在该时间间隔内将每个像素的曝光累积到压缩图像上,最终生成压缩图像。此外,在随机生成二进制掩码的过程中,选择掩码上某位置进行曝光的概率是固定的,称为重叠率(Overlap Ratio, OR),通过消融实验确定。整个成像过程可表示为:
其中 分别为压缩图像和曝光时间内的第 张虚拟图像, 表示时间压缩比(Compression Ratio, CR), 表示逐元素乘积, 为测量噪声。此外,该过程完全可微。
转换网络
本文以压缩图像作为输入,因此无法通过COLMAP提取相机位姿和点云,这要求同时优化相机位姿和3D高斯分布。
直接通过梯度下降优化相机位姿时,损失函数 对相机外参矩阵 的梯度可以表示为:
其中 和 分别表示渲染像素的颜色和第 个高斯分布的颜色, 表示可见的3D高斯分布数量。
如图3所示,3D高斯分布可能分为两种情况:(a) 高斯分布的投影与正确区域重叠,即有效高斯;(b) 高斯分布的投影未与正确区域重叠,即无效高斯。
当高斯 是无效高斯时,梯度 和 无法提供有效的优化方向。这会导致相机的优化朝混乱方向进行,特别是在目标相机位姿与初始位姿差异较大时,无效高斯的数量远多于有效高斯,从而阻碍相机位姿的收敛。
为了避免上述问题,本文从转换高斯分布原语的角度出发,提出了一个相机位姿感知的转换网络,其核心组件为多层感知机(MLP)。如公式(7)所示,该网络的输入为高斯分布的位置 和相机位姿标记(stamp),输出为位置和四元数的增量 :
其中, 是对位置的编码函数:
通过将初始相机移动到正确的位姿,等价于将3D高斯分布移动到相机前的正确位置。受自然图像局部平滑性先验的启发,相邻的高斯分布通常具有相似的颜色。在包含有效和无效高斯的邻域内,如图3(c)所示,有效高斯的正确梯度会引导转换网络朝正确方向优化。由于MLP的连续性,如图3(d)所示,附近的无效高斯点也会随着转换场被移动到正确方向,逐渐转化为有效高斯点。最终,该过程将3D高斯分布移动到正确的位姿。
得益于转换网络直接作用于高斯原语而非相机位姿,高斯原语可以在不同相机位姿下经历不同的转换。这为转换网络提供了学习场景中对象运动的潜力,使得SCIGS能够从单个SCI图像重建动态场景。
高频滤波器
在将3D高斯分布投影到成像平面时,为确保投影后的2D高斯分布大于一个像素,采用了固定的2D扩展因子。然而,这可能导致高斯的缩放被系统性地低估。当2D高斯分布彼此靠近时,渲染的高斯分布比实际看起来更薄,从而在渲染图像中表现为高频伪影。
如图4所示,在所提出的框架中,转换网络将基础高斯分布移动到适当位置。然而,类似上述现象,当基于某个标记位置优化时,另一个标记下的高斯分布可能以高频伪影的形式被渲染。为了解决这一问题,受Mip-Splatting的启发,本文引入了高频滤波器以消除高频伪影。
考虑渲染过程是对3D高斯分布的采样。根据Nyquist-Shannon采样定理:为了从采样信号中无失真地恢复原始信号,采样频率应大于信号最高频率的两倍。对于焦距为 的相机,其屏幕空间的采样间隔为一个像素,在相机坐标系下,深度为 的对象的采样间隔 和采样频率 可表示为:
根据采样定理,在光栅化过程中,小于 的原语可能会导致伪影,因为采样频率低于信号频率的两倍。由此,可以计算高斯 的最大采样频率:
其中 表示相机位姿标记的总数。
基于最大采样频率,如公式(11)所示,高频滤波器通过在光栅化管线之前将3D高斯分布与低通滤波高斯卷积来实现:
其中 是控制滤波器大小的超参数,低通滤波高斯的尺度为 ,确保滤波后的3D高斯分布的尺度不超过采样间隔。
实验效果
总结一下
SCIGS是一种从单个快照压缩图像中恢复动态三维场景表示的新方法。这是首次在该任务中引入动态显式表示,并将其应用扩展到动态场景中。该方法提出了一种转换网络,用于替代直接优化相机位姿,同时引入高频滤波器以消除转换过程中产生的伪影。与现有工作不同,该方法能够从压缩图像中充分重建动态场景,并提供了一种在缺少相机位姿和预训练的3DGS表示的情况下优化相机位姿的新思路。
为了验证SCIGS的有效性,在静态场景和动态场景中,与现有最先进的SCI图像恢复方法及基于SCI图像的重建方法进行了大量对比实验。结果表明,该方法在性能上显著优于现有方法,尤其是在动态场景中。
得益于SCI技术在存储成本方面的优势,以及基于3DGS框架在动态场景中展示出的优越性和可扩展性,该方法在诸如自动驾驶等高速动态场景中的低成本快速增量重建方面展现出巨大潜力。
参考
[1] SCIGS: 3D Gaussians Splatting from a Snapshot Compressive Image
本文仅做学术分享,论文汇总于『3D视觉之心知识星球』,欢迎加入交流!
扫码添加小助理进群
3D视觉之心知识星球主打3D感知全技术栈学习,星球内部形成了视觉/激光/多传感器融合SLAM、传感器标定、点云处理与重建、视觉三维重建、NeRF与Gaussian Splatting、结构光、工业视觉、高精地图等近15个全栈学习路线,每天分享干货、代码与论文,星球内嘉宾日常答疑解惑,交流工作与职场问题。