点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达
来源:3D视觉工坊
添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。
扫描下方二维码,加入「3D视觉从入门到精通」知识星球,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!
0. 论文信息
标题:Beyond Gaussians: Fast and High-Fidelity 3D Splatting with Linear Kernels
作者:Haodong Chen, Runnan Chen, Qiang Qu, Zhaoqing Wang, Tongliang Liu, Xiaoming Chen, Yuk Ying Chung
机构:University of Sydney、Beijing Technology and Business University
原文链接:https://arxiv.org/abs/2411.12440
代码链接:soon
1. 导读
3D高斯分布(3DGS)的最新进展极大地改进了新的视图合成,实现了高质量的重建和实时渲染。然而,模糊伪像,如浮动图元和过度重建,仍然具有挑战性。当前的方法通过改进场景结构、增强几何表示、解决训练图像中的模糊、提高渲染一致性和优化密度控制来解决这些问题,但是内核设计的作用仍然没有得到充分探索。我们认为高斯椭球的软边界是这些伪影的原因之一,限制了高频区域的细节捕捉。为了弥合这一差距,我们引入了3D线性Splatting (3DLS),它用线性核取代高斯核,以实现更清晰、更精确的结果,特别是在高频区域。通过对三个数据集的评估,3DLS展示了最先进的保真度和准确性,以及比基线3dg提高了30%的FPS。该实现将在接受后公开发布。
2. 引言
在计算机视觉领域,渲染高质量的三维(3D)内容仍是一项核心挑战,其应用场景涵盖神经渲染、虚拟现实(VR)、自动驾驶和实时模拟等。在最近的进展中,3D高斯溅射(3DGS)作为一种高效、基于点的三维渲染方法脱颖而出,利用连续溅射来紧凑地表示场景。尽管3DGS取得了诸多成功,但在具有复杂纹理和精细细节的高频区域,它仍存在局限性,如模糊和浮动基元等伪影会降低渲染质量。
为解决这些问题,已开发出一系列方法来细化场景结构、增强几何表示、改进模糊训练图像的处理、保持渲染一致性和优化密度控制。虽然这些方法提高了细节捕捉能力和视觉质量,但伪影问题依然存在,尤其是在需要高频细节和锐利过渡的区域。推荐课程:实时400FPS!高精NeRF/Gaussian SLAM定位与建图。
在本文中,我们通过研究3DGS中的核设计来应对这些局限性。我们的分析表明,高斯核是导致持久伪影的原因之一,这会妨碍方法的有效性。高斯核产生具有软边界的椭球体,这会使前景和背景基元的分离变得复杂,从而导致如浮动基元和过度平滑等伪影。相邻溅射之间的这种混合会导致模糊浮动的基元,掩盖了锐利过渡,并限制了3DGS准确捕捉高频细节的能力。
为解决这些问题,我们提出了3D线性溅射(3DLS),用线性核替换高斯核,以改善高频细节的捕捉。与高斯核相比,线性核的有界特性最大限度地减少了相邻基元之间的干扰,从而实现更锐利的过渡和更精确的重建。为进一步增强3DLS,我们引入了两项互补技术:分布对齐(DA)和自适应梯度缩放(AGS)。从一种核分布过渡到另一种核分布会引入基扩展的差异,这可能会破坏分布的覆盖范围。DA通过使线性核的扩展与基于高斯的方法对齐来解决这一挑战,从而确保与现有3DGS框架的兼容性并增强重建保真度。此外,改变核函数会改变梯度计算,从而影响训练稳定性。AGS通过平衡细节保留和计算效率来解决这一问题,从而稳定训练,并使3DLS能够有效捕捉精细细节、锐利过渡和高频内容。
我们在三个基准数据集上对3DLS进行了验证,结果表明,它在视觉保真度和准确性方面均达到了最先进水平(SOTA)。此外,与3DGS相比,3DLS在帧率(FPS)上提高了30%,同时内存开销最小,非常适合交互式渲染和VR等实时应用。
3. 效果展示
高斯核和线性核的3D splatting的比较。基于高斯核的斑点导致模糊效果、浮动伪像和过度重建,其中小尺度几何图形由过大的斑点表示,降低了高频区域的清晰度。面板(a)显示了3D高斯斑点(3DGS),其中软椭球边界导致前景和背景之间的干扰。画面(b)示出了高斯核的无界支持如何阻碍1D分布中的分离。相比之下,图(c)和(d)显示了我们的3D线性Splatting (3DLS),其中有界线性核减少了干扰并增强了分离,实现了更清晰和更准确的重建。
4. 主要贡献
我们的主要贡献包括:
提出了3D线性溅射(3DLS)这一新方法,用线性核替换高斯核,以改善高频区域的渲染质量,并为基于溅射的渲染中的核函数提供了新的视角。
提出了分布对齐(DA),通过使核扩展与高斯核对齐,来改善3DLS与现有框架的集成。
提出了自适应梯度缩放(AGS),以增强3DLS的训练稳定性,并在细节保留和计算效率之间取得平衡。
在基准数据集上进行了大量实验,证明了定性和定量改进,包括FPS提高了30%。
5. 方法
虽然3DGS在表示连续、平滑表面方面非常有效,但在捕捉高频区域(如精细细节和复杂纹理)时却面临挑战。这些局限性源于高斯核的固有平滑性,这可能会引入模糊和浮动伪影,尤其是在细节复杂的场景中。为克服这些挑战,我们提出了3D线性溅射(3DLS),用线性核替换高斯核,以更有效地捕捉高频细节并增强渲染清晰度。
图2展示了我们的方法在现有3DGS框架中的集成方式。首先,用线性核替换高斯核以改善细节捕捉。其次,引入分布对齐(DA)以确保全面的溅射覆盖和与现有框架的兼容性。最后,应用自适应梯度缩放(AGS)以支持稳定训练和改进收敛,从而实现更高的视觉保真度和效率。
6. 实验结果
表1综合比较了我们的方法与现有的辐射场渲染技术,评估指标包括结构相似性指数(SSIM,Structural Similarity)、峰值信噪比(PSNR,Peak Signal-to-Noise Ratio)以及使用VGG作为主干网络的感知图像块相似性(LPIPS,Learned Perceptual Image Patch Similarity)。结果显示,在各种数据集上我们的方法均有持续性的改进,突显了我们线性核方法的鲁棒性和多功能性。
Mip-NeRF360数据集上,我们的方法表现优异,在SSIM和PSNR方面均优于基于3DGS的方法。此外,我们在LPIPS评分上位居第二,仅次于在感知质量上表现卓越的AbsGS。这些结果强调了我们的方法在平衡结构准确性和视觉保真度方面的能力,有效捕捉复杂过渡并保留高频场景中的锐利细节。
Tanks&Temples数据集上,我们的方法在所有三项指标上均优于其他竞争方法。该数据集因其复杂的户外场景和广泛的视角变化而极具挑战性,而我们的结果强调了线性核在处理这些复杂性而不牺牲视觉清晰度方面的能力。
Deep Blending数据集以更平滑、更连续的表面为特征,我们的方法取得了具有竞争力的SSIM和PSNR分数,并获得了最佳的LPIPS结果。尽管在高频区域较少的场景中,线性核的优势不那么明显,但我们的方法在捕捉感知细节和最小化视觉伪影方面仍表现出色。
综上所述,我们的线性核在各种数据集和指标上均一致优于基线方法。添加抗锯齿功能进一步提升了我们的结果,在不同条件下提供了稳定性和鲁棒性。这些发现验证了我们的方法在实现锐度、保真度和感知质量之间平衡的有效性,适用于多种场景。
图4展示了我们的方法与当前最优方法(SOTA)之间的定性比较。在花园场景中,我们的方法在纹理背景墙上产生的伪影显著减少。对于如窗框等锐利过渡,我们的方法保持了窗户和墙壁之间的清晰分离。在房间场景中,吉他的黑色边缘完全恢复且未模糊,突显了我们方法有效保留锐利过渡的能力。
在火车场景中,我们方法的优势更加明显。对于前景铁路道砟(碎石),我们的方法和AbsGS都成功重建了高频细节,且模糊程度最小。然而,在背景的山林中,我们的方法是唯一能实现无明显模糊重建的方法。在卡车场景中,我们准确捕捉了背景建筑的精细细节,而其他方法难以达到这一精度水平。最后,在游乐室场景中,我们的方法在保留直线边缘(如门上的凹槽)方面表现优异,而其他方法则引入了不同程度的模糊。
总体而言,我们的方法通过减少伪影、保持锐利过渡以及在不同场景中前景和背景细节方面实现更高保真度,一致性地超越了现有方法。
7. 限制性 & 总结
虽然我们的线性核方法带来了显著的性能提升,但它也存在一定的局限性。控制基本元素生长和修剪的密集化阈值是经验设定的;跨不同场景的系统性优化可能进一步提升我们的结果。此外,由于我们的方法建立在3DGS基础上,它可能未充分利用线性核的潜力;针对线性核量身定制的架构调整可能带来进一步的性能提升。我们的方法在包含高频细节且锐度至关重要的数据集中表现出色,但在具有连续表面的更平滑数据集中影响较小。未来对自适应或混合核的研究可能使更广泛场景中的结果质量保持一致的高水平。
本研究引入了3DLS,这是一种通过解决传统3DGS方法的核心局限性来提高3D重建保真度的新方法。通过利用线性核,3DLS以极高的准确性捕捉高频细节,在不同数据集上均表现出卓越性能。大量实验表明,3DLS在复杂纹理和精细细节的场景中尤其优于现有方法。此外,3DLS在渲染速度上实现了显著提升,且内存开销最小,使其非常适合性能关键型应用。这些发现强调了基于splat的渲染中核设计的重要性,为探索自适应和混合核以进一步提高3D渲染系统的保真度和效率铺平了道路。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉、最前沿、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向,细分群包括:
工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机:四旋翼建模、无人机飞控等
2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿:具身智能、大模型、Mamba、扩散模型、图像/视频生成等
除了这些,还有求职、硬件选型、视觉产品落地、产品、行业新闻等交流群
添加小助理: cv3d001,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。
3D视觉工坊知识星球
「3D视觉从入门到精通」知识星球,已沉淀6年,星球内资料包括:秘制视频课程近20门(包括结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云等)、项目对接、3D视觉学习路线总结、最新顶会论文&代码、3D视觉行业最新模组、3D视觉优质源码汇总、书籍推荐、编程基础&学习工具、实战项目&作业、求职招聘&面经&面试题等等。欢迎加入3D视觉从入门到精通知识星球,一起学习进步。
3D视觉工坊官网:www.3dcver.com具身智能、3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪等。
3D视觉模组选型:www.3dcver.com
点这里👇关注我,记得标星哦~