还在用3DGS？更快、更真、更准的3DLS即将开源！

科技 2024-11-21 07:01 江苏

点击下方卡片，关注「3D视觉工坊」公众号
选择星标，干货第一时间送达

来源：3D视觉工坊

添加小助理：cv3d001，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入「3D视觉从入门到精通」知识星球，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0. 论文信息

标题：Beyond Gaussians: Fast and High-Fidelity 3D Splatting with Linear Kernels

作者：Haodong Chen, Runnan Chen, Qiang Qu, Zhaoqing Wang, Tongliang Liu, Xiaoming Chen, Yuk Ying Chung

机构：University of Sydney、Beijing Technology and Business University

原文链接：https://arxiv.org/abs/2411.12440

代码链接：soon

1. 导读

3D高斯分布(3DGS)的最新进展极大地改进了新的视图合成，实现了高质量的重建和实时渲染。然而，模糊伪像，如浮动图元和过度重建，仍然具有挑战性。当前的方法通过改进场景结构、增强几何表示、解决训练图像中的模糊、提高渲染一致性和优化密度控制来解决这些问题，但是内核设计的作用仍然没有得到充分探索。我们认为高斯椭球的软边界是这些伪影的原因之一，限制了高频区域的细节捕捉。为了弥合这一差距，我们引入了3D线性Splatting (3DLS)，它用线性核取代高斯核，以实现更清晰、更精确的结果，特别是在高频区域。通过对三个数据集的评估，3DLS展示了最先进的保真度和准确性，以及比基线3dg提高了30%的FPS。该实现将在接受后公开发布。

2. 引言

在计算机视觉领域，渲染高质量的三维（3D）内容仍是一项核心挑战，其应用场景涵盖神经渲染、虚拟现实（VR）、自动驾驶和实时模拟等。在最近的进展中，3D高斯溅射（3DGS）作为一种高效、基于点的三维渲染方法脱颖而出，利用连续溅射来紧凑地表示场景。尽管3DGS取得了诸多成功，但在具有复杂纹理和精细细节的高频区域，它仍存在局限性，如模糊和浮动基元等伪影会降低渲染质量。

为解决这些问题，已开发出一系列方法来细化场景结构、增强几何表示、改进模糊训练图像的处理、保持渲染一致性和优化密度控制。虽然这些方法提高了细节捕捉能力和视觉质量，但伪影问题依然存在，尤其是在需要高频细节和锐利过渡的区域。推荐课程：实时400FPS！高精NeRF/Gaussian SLAM定位与建图。

在本文中，我们通过研究3DGS中的核设计来应对这些局限性。我们的分析表明，高斯核是导致持久伪影的原因之一，这会妨碍方法的有效性。高斯核产生具有软边界的椭球体，这会使前景和背景基元的分离变得复杂，从而导致如浮动基元和过度平滑等伪影。相邻溅射之间的这种混合会导致模糊浮动的基元，掩盖了锐利过渡，并限制了3DGS准确捕捉高频细节的能力。

为解决这些问题，我们提出了3D线性溅射（3DLS），用线性核替换高斯核，以改善高频细节的捕捉。与高斯核相比，线性核的有界特性最大限度地减少了相邻基元之间的干扰，从而实现更锐利的过渡和更精确的重建。为进一步增强3DLS，我们引入了两项互补技术：分布对齐（DA）和自适应梯度缩放（AGS）。从一种核分布过渡到另一种核分布会引入基扩展的差异，这可能会破坏分布的覆盖范围。DA通过使线性核的扩展与基于高斯的方法对齐来解决这一挑战，从而确保与现有3DGS框架的兼容性并增强重建保真度。此外，改变核函数会改变梯度计算，从而影响训练稳定性。AGS通过平衡细节保留和计算效率来解决这一问题，从而稳定训练，并使3DLS能够有效捕捉精细细节、锐利过渡和高频内容。

我们在三个基准数据集上对3DLS进行了验证，结果表明，它在视觉保真度和准确性方面均达到了最先进水平（SOTA）。此外，与3DGS相比，3DLS在帧率（FPS）上提高了30%，同时内存开销最小，非常适合交互式渲染和VR等实时应用。

3. 效果展示

高斯核和线性核的3D splatting的比较。基于高斯核的斑点导致模糊效果、浮动伪像和过度重建，其中小尺度几何图形由过大的斑点表示，降低了高频区域的清晰度。面板(a)显示了3D高斯斑点(3DGS)，其中软椭球边界导致前景和背景之间的干扰。画面(b)示出了高斯核的无界支持如何阻碍1D分布中的分离。相比之下，图(c)和(d)显示了我们的3D线性Splatting (3DLS)，其中有界线性核减少了干扰并增强了分离，实现了更清晰和更准确的重建。

4. 主要贡献

我们的主要贡献包括：

提出了3D线性溅射（3DLS）这一新方法，用线性核替换高斯核，以改善高频区域的渲染质量，并为基于溅射的渲染中的核函数提供了新的视角。

提出了分布对齐（DA），通过使核扩展与高斯核对齐，来改善3DLS与现有框架的集成。

提出了自适应梯度缩放（AGS），以增强3DLS的训练稳定性，并在细节保留和计算效率之间取得平衡。

在基准数据集上进行了大量实验，证明了定性和定量改进，包括FPS提高了30%。

5. 方法

虽然3DGS在表示连续、平滑表面方面非常有效，但在捕捉高频区域（如精细细节和复杂纹理）时却面临挑战。这些局限性源于高斯核的固有平滑性，这可能会引入模糊和浮动伪影，尤其是在细节复杂的场景中。为克服这些挑战，我们提出了3D线性溅射（3DLS），用线性核替换高斯核，以更有效地捕捉高频细节并增强渲染清晰度。

图2展示了我们的方法在现有3DGS框架中的集成方式。首先，用线性核替换高斯核以改善细节捕捉。其次，引入分布对齐（DA）以确保全面的溅射覆盖和与现有框架的兼容性。最后，应用自适应梯度缩放（AGS）以支持稳定训练和改进收敛，从而实现更高的视觉保真度和效率。

6. 实验结果

表1综合比较了我们的方法与现有的辐射场渲染技术，评估指标包括结构相似性指数（SSIM，Structural Similarity）、峰值信噪比（PSNR，Peak Signal-to-Noise Ratio）以及使用VGG作为主干网络的感知图像块相似性（LPIPS，Learned Perceptual Image Patch Similarity）。结果显示，在各种数据集上我们的方法均有持续性的改进，突显了我们线性核方法的鲁棒性和多功能性。

Mip-NeRF360数据集上，我们的方法表现优异，在SSIM和PSNR方面均优于基于3DGS的方法。此外，我们在LPIPS评分上位居第二，仅次于在感知质量上表现卓越的AbsGS。这些结果强调了我们的方法在平衡结构准确性和视觉保真度方面的能力，有效捕捉复杂过渡并保留高频场景中的锐利细节。

Tanks&Temples数据集上，我们的方法在所有三项指标上均优于其他竞争方法。该数据集因其复杂的户外场景和广泛的视角变化而极具挑战性，而我们的结果强调了线性核在处理这些复杂性而不牺牲视觉清晰度方面的能力。

Deep Blending数据集以更平滑、更连续的表面为特征，我们的方法取得了具有竞争力的SSIM和PSNR分数，并获得了最佳的LPIPS结果。尽管在高频区域较少的场景中，线性核的优势不那么明显，但我们的方法在捕捉感知细节和最小化视觉伪影方面仍表现出色。

综上所述，我们的线性核在各种数据集和指标上均一致优于基线方法。添加抗锯齿功能进一步提升了我们的结果，在不同条件下提供了稳定性和鲁棒性。这些发现验证了我们的方法在实现锐度、保真度和感知质量之间平衡的有效性，适用于多种场景。

图4展示了我们的方法与当前最优方法（SOTA）之间的定性比较。在花园场景中，我们的方法在纹理背景墙上产生的伪影显著减少。对于如窗框等锐利过渡，我们的方法保持了窗户和墙壁之间的清晰分离。在房间场景中，吉他的黑色边缘完全恢复且未模糊，突显了我们方法有效保留锐利过渡的能力。

在火车场景中，我们方法的优势更加明显。对于前景铁路道砟（碎石），我们的方法和AbsGS都成功重建了高频细节，且模糊程度最小。然而，在背景的山林中，我们的方法是唯一能实现无明显模糊重建的方法。在卡车场景中，我们准确捕捉了背景建筑的精细细节，而其他方法难以达到这一精度水平。最后，在游乐室场景中，我们的方法在保留直线边缘（如门上的凹槽）方面表现优异，而其他方法则引入了不同程度的模糊。

总体而言，我们的方法通过减少伪影、保持锐利过渡以及在不同场景中前景和背景细节方面实现更高保真度，一致性地超越了现有方法。

7. 限制性 & 总结

虽然我们的线性核方法带来了显著的性能提升，但它也存在一定的局限性。控制基本元素生长和修剪的密集化阈值是经验设定的；跨不同场景的系统性优化可能进一步提升我们的结果。此外，由于我们的方法建立在3DGS基础上，它可能未充分利用线性核的潜力；针对线性核量身定制的架构调整可能带来进一步的性能提升。我们的方法在包含高频细节且锐度至关重要的数据集中表现出色，但在具有连续表面的更平滑数据集中影响较小。未来对自适应或混合核的研究可能使更广泛场景中的结果质量保持一致的高水平。

本研究引入了3DLS，这是一种通过解决传统3DGS方法的核心局限性来提高3D重建保真度的新方法。通过利用线性核，3DLS以极高的准确性捕捉高频细节，在不同数据集上均表现出卓越性能。大量实验表明，3DLS在复杂纹理和精细细节的场景中尤其优于现有方法。此外，3DLS在渲染速度上实现了显著提升，且内存开销最小，使其非常适合性能关键型应用。这些发现强调了基于splat的渲染中核设计的重要性，为探索自适应和混合核以进一步提高3D渲染系统的保真度和效率铺平了道路。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

本文仅做学术分享，如有侵权，请联系删文。

3D视觉交流群，成立啦！

目前我们已经建立了3D视觉方向多个社群，包括2D计算机视觉、最前沿、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向，细分群包括：

工业3D视觉：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机：四旋翼建模、无人机飞控等

2D计算机视觉：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿：具身智能、大模型、Mamba、扩散模型、图像/视频生成等

除了这些，还有求职、硬件选型、视觉产品落地、产品、行业新闻等交流群

添加小助理: cv3d001，备注：研究方向+学校/公司+昵称（如3D点云+清华+小草莓）, 拉你入群。

3D视觉工坊知识星球

「3D视觉从入门到精通」知识星球，已沉淀6年，星球内资料包括：秘制视频课程近20门（包括结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云等）、项目对接、3D视觉学习路线总结、最新顶会论文&代码、3D视觉行业最新模组、3D视觉优质源码汇总、书籍推荐、编程基础&学习工具、实战项目&作业、求职招聘&面经&面试题等等。欢迎加入3D视觉从入门到精通知识星球，一起学习进步。

▲长按扫码加入星球

3D视觉工坊官网：www.3dcver.com

具身智能、3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪等。

3D视觉模组选型：www.3dcver.com

— 完 —

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

3D视觉科技前沿进展日日相见 ~

http://mp.weixin.qq.com/s?__biz=MzU1MjY4MTA1MQ==&mid=2247711370&idx=2&sn=bbd1e6ac3b376c187580e8d3dad49253

3D视觉工坊

专注于工业3D视觉、SLAM、自动驾驶、三维重建、无人机、具身智能、扩散模型等前沿技术分享与产业落地，力争打造为国内最专业的3D视觉社区。官网：www.3dcver.com 佳v：cv3d007 或 13451707958

最新文章

谷歌2024博士奖学金名单公布

还在用3DGS？更快、更真、更准的3DLS即将开源！

彻底搞懂扩散模型数学基础剖析、公式推导、代码讲解

最新 IROS 2024：实时调整，灵活抓取！大语言模型赋能机械臂抓取

机器学习中有哪些形式简单却很巧妙的idea？

高精度三维重建，KW-P 3D相机能行吗？

彻底解决尺度漂移！浙大新作BEV-ODOM：使用BEV增强单目VO！定位精度SOTA！

用深度强化学习实现机械臂抓取，请问大家都是怎么做的仿真？现在有点迷茫?

为什么现在的 AI 大模型好像只有中美在做，世界上其他国家都好像完全消失了？

已注销！985新校区，不建了

COLMAP即将Out！图像没有任何重叠也能估计位姿！爆拉LoFTR & Dust3D十倍精度！

突破维度限制！GenXD：拿捏真实通用3D、4D生成！

给工坊的深度相机精度排个名，JD-500第6，第一名没有争议！

3D视觉课程&硬件汇总

国内外高校具身智能实验室汇总（国内、北美、欧洲篇）

告别CAD模型依赖！GS2Pose：用3D高斯点云重塑6D姿态估计！

UC伯克利开源！深度估计、光流、分割大一统！

配套源码！让VINS-Mono原地起飞！转弯也不跟丢！

结构光视觉如何用于工件位置和姿态测量，与双目视觉相比有何优劣势？

三维重建 3D reconstruction 有哪些实用算法？

持续提高SuperPoint+LightGlue匹配质量！万能辅助！任何情况都不会对结果产生负面影响！

NeurlPS'24开源 | Point-PRC：全新通用点云分析框架！

魔改一个loss可以发啥水平的文章?

新文章提出取消作者姓名排序，人人都是一作，你赞同这种署名方案吗？

复旦&蔚来开源DG-SLAM：第一个动态环境下的鲁棒GS SLAM！

更智能！更高效！国科大重磅！无人机视角下的目标识别：UEVAVD数据集与IBE-MAP策略

学LLM大模型算法，简历上写了“精通大模型”后......

为什么说px4仍然是无人机控制的核心？

NeurIPS'24开源 | 无惧遮挡！多实例点云配准新SOTA！简单而强大的3D聚焦和匹配网络

ECCV 2024 oral | 通过跟踪实现在线高清地图重建，达到SOTA性能！

全局与局部提示分离！GlocalCLIP：零样本异常检测！实现跨领域异常检测的高效突破！

各位被拒稿的理由都是啥？

MIT全新开源！回环准确性和语义一致性SOTA！SEO-SLAM：视觉SLAM的语义增强！

NeurIPS'24 | 端到端！英伟达全新LSM框架：从无姿态图像到语义3D重建！

AIGC是否会颠覆未来的生产模式？普通人如何利用AI提高效率？

国内 AI 大模型已近 200 个，为什么没有一个比的上 GPT-4o？

MIT开源！轨迹精度暴涨37%！ROMAN：无惧特征稀疏和感知混淆，超鲁棒的全局定位！

精度0.05mm！一款轻量化DLP单目结构光3D相机

李飞飞团队新作：空间智能版ImageNet来了！

研二计算机视觉方向，没有idea也不会写代码，该怎么办？

具身智能、扩散模型、大模型微信交流群成立啦！

2024年图像匹配挑战赛：银牌解决方案！

1W | 飞行器和地面车辆线路协同巡检项目(租借进行演示)

无惧透明物体！重新思考曲面重建：NeuS再升级！（中科院&NTU重磅开源）

站在AI前沿！为什么现在是学习LLM算法工程师的最好时机？

请问有哪些计算机视觉 CCF-B、C 类期刊和会议比较容易中稿？

今年毕业，要不要选3D视觉这个赛道？

比LoFTR快5倍！比LightGlue精度高20%！ETO：超快局部特征匹配！（浙大章国锋团队）

在所有基准创下新高！微软开源PF3plat：无需位姿先验，全新3DGS重建和新视角合成框架！

当审稿人给的意见，你无法修改的时候怎么办？

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉