本文是VCC温志豪同学对论文 Real-time Large-scale Deformation of Gaussian Splatting 的解读,该工作来自中国科学院计算技术研究所、香港科技大学以及卡迪夫大学,并已发表在计算机图形学顶级会议SIGGRAPH Asia 2024上。
http://geometrylearning.com/GaussianMesh/ 该工作提出了一种新的基于网格表示的三维高斯泼溅的大尺度变形方法, 该方法的关键是设计一种创新的基于网格的高斯表示,将其集成到高斯的学习和操作中,并在此基础上引入了一种大尺度高斯变形技术来实现可变形高斯。所提出的三维高斯变形方法可以根据对相关网格的操作来改变高斯参数, 并能够以直观的交互方式来编辑三维高斯。 神经隐式表示,包括神经距离场和神经辐射场,已经证明了其对具有复杂几何和拓扑结构的表面重建能力,以及合成场景新视图的重要能力。然而,对于用户来说,在实时方式下直接变形甚至是使用大尺度变形来操纵这些隐式表示是具有挑战性的。与神经辐射场 (NeRF) 使用的连续表示相比,三维高斯泼溅 (3DGS) 方法[1]提供了明确的离散3D场景表示,其具有训练成本小、基于可微光栅化实现的高质量实时渲染等特点,能高质量实时合成新视图,但由于使用离散高斯函数和缺乏显式拓扑,使得原始的3DGS并不容易进行大尺度变形。现在也有一些工作尝试利用3DGS的特点实现实时变形:例如SC-GS[2]通过操纵稀疏点来实现运动变形,然而,由于缺乏拓扑先验,基于稀疏控制点的方法难以处理复杂的几何或变形;又例如SuGaR[3]从3DGS表示中提取显式网格,并正则化高斯分布在网格表面上,通过操纵网格来编辑3DGS的变形,然而在执行变形时,SuGaR只是简单地调整高斯参数以进行编辑,并没有对高斯核进一步合并或分裂,也没有考虑法线等网格属性,导致该方法在执行大尺度变形时,可能会极大地改变网格的形状。
为了解决上述问题,本次导读论文发现基于离散和非结构化高斯核的3DGS需要强大的拓扑信息来指导相邻高斯核的关系,以便在保持有意义的外观的同时进行大尺度变形。为此,本论文提出将网格和3DGS表示相互绑定,利用这种绑定以一种新颖的方式为3DGS的训练和变形提供指导。在3DGS的训练过程中,其调整策略有沿面分裂、沿法线运动这两种选择,并在此基础上引入了一种大尺度高斯变形技术来实现可编辑的高斯,该技术可以根据网格变形梯度来改变高斯参数。此外,本文还引入了正则化损失来增强高斯形状的空间连续性和局部合理性,避免三维高斯核的各向异性造成的视觉模糊。
基于网格的3DGS训练和变形流程如图1所示,给定一组校准图像,首先使用显式几何重建显式网格,然后初始化高斯。在学习过程中,根据显式网格分为沿面分裂、沿法线运动两种策略来指导高斯的学习,同时引入正则化损失来约束高斯函数的尺度,以防止具有极端各向异性的异常形状的高斯函数。由用户控制显式网格上的变形,根据变形梯度驱动高斯参数更新,产生变形后的高斯函数,用于新视图渲染。
图1 方法流程概览
3DGS虽然可以实时生成逼真的渲染图像,但很难准确地表示3D场景的细节和拓扑结构,尤其是在变形任务中,这种限制源自于其对离散高斯核的依赖。为了解决这些问题,本论文引入了基于网格的高斯泼溅。首先使用现有的高效方法[4]获得重建网格 作为显式先验约束,然后通过将高斯函数精确地锚定在网格表面上每个三角面的质心来初始化高斯函数。随后在基于网格的3DGS训练过程中,结合了图1中的两种策略来调节高斯核的参数以及高斯核的分裂: 1) 沿面分裂 (Face Split),通过在每个三角形的中点插入一个新的顶点,将单个三角形在表面上细分为四个更小的三角形,高斯核也以同样的方式分裂出相应数量的高斯; 2) 沿法线引导 (Normal Guidance),每个高斯函数都有一个垂直于表面的运动,该运动距离 是附加在高斯位置中的可学习参数。 第一种策略的目标是保证足够数量的高斯核,以便在网格表面的引导下准确地表示3D场景的视觉外观。而第二种策略则旨在提升3DGS在新视图合成中表示3D场景的细粒度纹理细节的能力。因此,质心坐标 和偏移距离 被参数化为用于3DGS位置学习的附加属性。质心坐标 表示高斯核附近三角形的三个顶点 的权值, 表示高斯核沿三角面法线 的位移。综上,高斯核在空间中的位置 表示为: 其中 是高斯核附近三角形的圆半径。利用显式网格先验,采用上述两种策略分别对高斯核位置进行调节、对高斯密度进行控制,以生成新的高斯核,并继续参与优化。 为了提高三维图像的视觉质量,本论文引入正则化来保证高斯分布的空间一致性和局部一致性。由于本文提出的方法支持任意变形,局部网格不可避免地会随着大尺度变形而发生剧烈变化。当学习到的高斯形状足够大并且覆盖了表面上的多个三角形时,由于三维高斯的各向异性,会导致视觉伪影。为了保证合理的变形结果,本文采用正则化损失来约束高斯函数的尺度,在训练过程中根据相邻三角形的大小调整高斯形状,确保在变形过程中学习到合适的高斯形状并保持局部连续性。该正则化损失项表示为: 其中 是每个高斯函数的三维缩放向量, 是高斯函数所在三角形的圆周半径, 是控制邻近三角形对高斯函数大小影响的超参数。 用户对原网格 进行编辑后,得到变形后的网格 对变形网格的顶点对应的变形梯度 进行极坐标分解可以得到仿射矩阵 和旋转矩阵 则变形梯度 和顶点的位移 可根据如下公式进行计算: 将上述变形梯度 和网格面的位移 应用在对应的高斯函数上,可得到变形后的高斯函数: 此外,由于3DGS采用球面谐波来表达颜色,从不同角度观看时会呈现不同的颜色,从而实现了视图依赖外观的建模。因此,对于变形后的高斯核 的球谐函数 需要通过将变形网格的局部旋转矩阵的逆应用到视图方向 来调整球面谐波的方向,即: 首先展示的是本文方法与三种最先进的 (SoTA) 方法在大尺度变形、新视图合成这两个任务中的结果对比,其中基线是原始3DGS的变形功能扩展。图2是大尺度变形的结果对比,从图中可以看出,NeRF-Editing无法处理大尺度变形,导致渲染结果模糊,特别是高频细节;而基线方法只是将高斯函数附加到网格表面上,导致某些不规则形状的高斯元素的存在并产生伪影;尽管SuGaR成功地从3DGS中重建网格,并通过调整高斯参数实现变形,但在大尺度变形中捕获高频特征并不理想。与上述方法相比,本文方法通过使用显式网格引导有效地模拟了更好的高斯分布,并成功地保留了大尺度变形后的高频细节。 图2 大尺度变形结果对比
表1是在NeRF-Synthetic数据集上进行新视图合成的结果对比,从表中可以看出,本文方法在PSNR和SSIM指标上都达到了最佳效果,并且在LPIPS上也达到了相当的性能。 实验结果表明,本文方法可以合成高保真的效果图,并支持任意编辑3D图像。
接下来我们主要展示本文对两种策略 (Face Split、Normal Guidance) 以及正则化损失项的消融实验结果。 图3是对沿面分裂以及正则化损失项进行消融实验的结果,从图中可以看出,在大尺度变形中,当仅去掉正则化损失项时,形状不合理的高斯函数数量会增加,当仅去掉沿面分裂策略时,会导致视觉上模糊的伪影,而同时具备这两项功能的完整方法,可以达到最佳的变形效果。 图3 沿面分裂与正则化消融实验结果 图4是对沿法线引导策略进行消融实验的结果,由于该策略主要是为了提高3DGS变形前后在新视图合成中捕获高频细节的能力,如果删除该策略,也会影响变形结果,所以本论文只在新视图合成任务上验证其效果。从图中可以看出,沿法线引导策略可以显著增强3DGS对高频细节和复杂结构的捕捉能力,成功地提高了视图的渲染质量。
高斯泼溅引起了学术界和工业界的广泛关注,其结合了显式和隐式表示的优势,并促进了高质量实时合成新视图。而变形建模是几何建模的关键技术之一,对不同的几何表征有相应专业的变形方法。本文通过利用显式表示的先验:表面属性(如网格的法线)和显式变形方法生成的梯度,开创了基于网格的变形对3DGS的适应。充分利用显式网格表示为3DGS提供的拓扑信息,提高了方法的可学习性和可变形性,解决了3DGS进行大尺度变形且变形时容易出现瑕疵的问题。 几何表征是三维重建和生成方法的基础,也是计算机图形学和三维计算机视觉的关键研究内容。3DGS可以视为从点云表征演变而来的一种新表征形式,如今也有不少工作尝试从3DGS中提取网格表征,或是将网格表征作为显式先验与3DGS相结合,未来可以尝试将不同表征的结合进一步运用到其他领域中。 Q: 若使用不同分辨率网格,对变形和渲染结果有影响吗? A: 由于本文引入Face Split策略来替代原始3DGS自适应密度控制中的分裂策略,该策略引入了显式网格作为约束,并与网格三角形的细分相一致,在对显式网格进行细分的同时,也尽可能地将高斯球分裂并绑定到新的网格面上,因此不同分辨率的网格对变形和渲染结果的影响并不大。
Q: 为什么本文能直接将网格变形梯度应用到高斯球上? A: 由于每个高斯球记录了所附着网格面的三个顶点的信息,并且高斯分布在变形变换后保持不变,因此可以将顶点变形前后的位移和变形梯度传递到附着在网格面上的高斯球,进而直接根据位移和变形梯度对其均值、协方差矩阵和球谐函数进行更新。 Q: 目前本论文提出的方法无法进一步编辑高斯函数的外观,如果希望不仅可以编辑高斯函数的几何形状,还可以支持编辑高斯函数的外观,我们还需要做哪些工作?
-- End--
[1] Bernhard Kerbl, Georgios Kopanas, Thomas Leimkühler and George Drettakis. 3D gaussian splatting for real-time radiance field rendering. ACM Transactions on Graphics (SIGGRAPH). 42(4), 139:1-139:14, 2023.
[2] Yi-Hua Huang, Yang-Tian Sun, Ziyi Yang, Xiaoyang Lyu, Yan-Pei Cao and Xiaojuan Qi. SC-GS: Sparse-controlled gaussian splatting for editable dynamic scenes. Conference on Computer Vision and Pattern Recognition (CVPR). 4220-4230, 2024.
[3] Antoine Guédon and Vincent Lepetit. Sugar: Surface-aligned gaussian splatting for efficient 3D mesh reconstruction and high-quality mesh rendering. Conference on Computer Vision and Pattern Recognition (CVPR). 5354-5363, 2024.
[4] Yiming Wang, Qin Han, Marc Habermann, Kostas Daniilidis, Christian Theobalt and Lingjie Liu. Neus2: Fast learning of neural implicit surfaces for multi-view reconstruction. International Conference on Computer Vision (ICCV). 3295-3306, 2023.