性能速度快三个数量级！MIT最新3DGS-CD：首个只需用一张新图像，检测杂乱环境中的变化

文摘 2024-11-12 07:02 上海

点击下方卡片，关注“3D视觉之心”公众号

第一时间获取3D视觉干货

3DGS助力变更检测

3D变更检测是指通过两组在不同时间获取的局部观测或对先前建模场景的新观测来识别环境中发生变化的物体或区域。这不仅可以适应短期内完全观察到的场景动态变化，还可以适应通常无法观察到的长期场景变化。长期变化对于机器人操作尤为重要，因为环境中的变化常常发生在不被完全察觉或监控的情况下。

传统方法依赖于手工设计的技术，比如体素化、多视角立体和图像变形，以识别未对齐图像中的变化并升至3D。这些方法对遮挡和光照变化特别敏感，尤其是在两组图像间存在较大视角差异时。

基于NeRF的解决方案已在有限范围内进行了探索。然而，由于NeRF的基于光线投射的渲染计算成本高昂，这些方法受到限制。相比之下，3DGS提供了更高效的替代方案，能够在实时渲染中实现与NeRF相当或更高的质量。

3DGS-CD[1]利用3DGS作为场景表示来识别3D场景中的物体移除、插入和移动等变化，这些变化通过多视角图像进行观察。利用EfficientSAM的零样本分割能力，在相同视角下比较变化前后图像，将检测到的2D物体变化关联并融合，以获得准确的3D物体分割和姿态变化。

本方法具有以下主要优势：

可以处理稀疏的后变更图像输入，最低仅需一张新图像即可检测3D变化。
不需要深度传感器或单目深度估计器。
不依赖于预定义的物体类别、模型或物体检测器——物体仅在其被移动、移除或插入时被识别。
不需要用户指令，例如用户提供的点击或语言提示。

在公共和自收集的真实数据集上对本方法进行了评估，与最新的基于NeRF的变更检测方法相比，准确率最高提升14%，性能速度快三个数量级。这一显著的性能提升使其能够应用于广泛的实际场景，包括：

作为物体重建的提示进行物体移除
机器人工作空间复位
3DGS模型更新。

具体方法

我们的目标是通过两组RGB图像检测3D场景中的物体级变化：(1) 捕获场景初始静态状态的前变更图像；(2) 观察到场景变化状态的（可能稀疏的）后变更图像。方法输出：(1) 3D分割；(2) 每个被重新排列物体的姿态变化。

方法流程设计为模块化。图1所示包含以下子模块：

前变更3DGS训练
后变更相机定位
后变更视图的2D变化检测
后变更视图中的物体关联
物体3D分割
物体姿态变化估计和优化

前变更3DGS训练

首先在前变更图像集合上训练3DGS模型。遵循标准的3DGS训练流程，我们使用结构自运动（SfM）算法来估计前变更相机参数并生成稀疏点云，以此作为初始化3D高斯模型优化的基础。

在这一过程中，每个3D高斯由其位置（均值）、协方差矩阵、不透明度和颜色定义。为了从已知相机参数的视角渲染图像，这些3D高斯会被投影（即，进行splatting）到相机的2D图像平面。

后变更相机定位

在前变更3DGS的坐标系中，我们估计后变更图像集合的相机姿态。假设后变更图像所观察的大部分场景保持不变，我们使用标准的视觉定位流程将后变更相机定位到前变更生成的SfM点云上。

EfficientSAM嵌入用于2D变化检测

在后变更相机视角中，我们利用前变更的3DGS模型渲染RGB图像，并将其与捕获的后变更图像进行比较，以检测物体级别的变化。

首先使用EfficientSAM的图像嵌入粗略地检测2D变化（如图2 (a-c)所示）。SAM的图像嵌入包含丰富的语义信息，已证明能够支持稳健的零样本变化检测。然而，直接使用SAM的潜在空间进行探测计算成本较高。因此，我们采用轻量级的EfficientSAM编码器，对渲染和捕获的后变更图像进行图像嵌入提取，并对其余弦相似度图进行阈值处理以获得变化掩码：

其中，表示在视图上渲染的图像，图像嵌入在进行差异计算之前被放大至原始图像分辨率，且阈值由Otsu方法动态设定。

为了减小图像不对齐和3DGS浮动伪影对检测结果的影响，对渲染图像和捕获图像进行预对齐和模糊处理。

从变化掩码中，我们提取占据显著2D区域的轮廓，并使用其包围框在渲染和捕获的图像上查询EfficientSAM：

如图2 (d-e)所示，渲染图像上的高置信度2D分割用于重新排列物体的移出掩码（即先前位置），而捕获图像上的高置信度掩码则被识别为物体的移入掩码（即新位置）：

其中表示视图中高置信度掩码的索引。

基于变化的物体关联

将后变更相机视角中的2D物体分割进行关联，以初始化3D中重新排列的物体。如图1所示，每个初始化的物体模板包含一个密集点云和一个稀疏视觉特征点云。这些模板通过逐步聚合跨视图的空间邻近且语义相似的物体分割来构建。

首先使用前变更3DGS渲染移出掩码内的深度，并将其反投影到3D，以获得每视角的部分物体点云：

其中表示反投影函数，表示3DGS深度渲染函数，如公式（2）所示。

我们还提取EfficientSAM嵌入，用于移出掩码的图像嵌入，并计算其L1中位数，以获得每视角每物体的代表性嵌入向量：

这些嵌入向量仅用于物体关联阶段，不会包含在物体模板中。

此外，我们在物体移出掩码内检测稀疏视觉特征（例如SuperPoint），并将其反投影到3D以形成每视角的稀疏特征点云：

其中是特征检测函数，用于将2D特征位置反投影到3D。

从第一个视角的物体移出掩码开始，我们逐视角地关联分割，匹配当前物体点云与下一个分割的最邻近点，以建立对象模板。

物体3D分割

通过多视角掩码融合来建立每个物体模板的3D分割掩码。

由于在稀疏的后变更视图中，物体移出掩码可能不足以实现准确的融合，我们将移动和移除物体的点云投影到前变更图像上，并在其2D边界框内通过EfficientSAM查询额外的物体移出掩码。为了确保在遮挡情况下的鲁棒性，我们仅融合那些非遮挡或轻微遮挡的物体掩码，过滤掉那些包含少于80%投影2D物体点的掩码。

对于多视角掩码融合，我们在每个物体模板周围初始化一个3D二进制体素网格。如果一个体素投影到大部分物体的2D掩码中，该体素就被视为在物体内部：

其中为投影函数，为指示函数，为所有具有高置信度、低遮挡掩码的图像索引。实时运行时，可以使用三线性插值快速查询物体体素网格的任意3D位置，当某点的占据概率大于0.5时，该点被视为在物体内部。

物体姿态变化估计

对于移动的物体，使用建立的2D-3D对应关系，并应用RANSAC-PnP算法来粗略估计物体的姿态变化。

全局姿态优化

通过基于合成的分析方法来优化初始的相机和物体姿态变化估计。

在初始估计的基础上，我们将前变更3DGS模型中的3D高斯体按估计的姿态变化进行变换，将物体3D掩码内的高斯体移至新的位置。然后，我们利用变换后的3D高斯体（记为）在后变更视角下渲染图像，并将其与实际的后变更图像进行比较。我们冻结前变更的高斯参数，通过最小化渲染图像和捕获图像之间的光度误差来优化初始的姿态估计：

其中，是视角上物体移出掩码的反向掩码，用于排除物体重新排列后暴露出的先前未观察到的区域对前变更3DGS的影响。表示3DGS训练损失。上述优化通过标准的梯度下降算法进行求解。

基于遮挡的掩码投影

给定一个前变更或后变更的评估图像，如何在准确并考虑遮挡的情况下将3D物体分割投影到该相机视角？

首先，估计并优化评估视角的相机姿态。如果评估图像是后变更图像，将占据的物体体素进行变换，并将这些体素投影到评估图像上，以获得初始掩码。然后，使用前变更3DGS模型（针对前变更图像）或变换后的3DGS模型（针对后变更图像）在初始掩码范围内渲染深度，并将其反投影至3D空间。在像素级别，通过判断反投影深度是否位于3D分割内部来检测遮挡。遮挡的像素会被重置为0，以获得最终的评估视角掩码。

实验效果

总结一下

3DGS-CD是一种基于3D Gaussian Splatting (3DGS) 的全新变更检测方法，用于识别复杂现实环境中的3D物体级变化。该方法显著提高了基于辐射场的3D变更检测的准确性和效率，使其能够应用于广泛的实际场景。

局限性

非刚性物体变化：将物体位姿变化表示为6自由度的刚性变换，这限制了其在非刚性物体变化方面的直接应用。然而，我们的方法是模块化设计的，除了物体位姿估计模块外，其他组件并不依赖于刚性物体假设。因此，若集成非刚性位姿估计方法，本方法可以适应非刚性物体的变化。

严重遮挡：如果变化在所有后变更视图中都被严重遮挡，该方法可能会失败。这可能导致物体模板不完整，进而导致物体的3D分割失败。为了减轻这一问题，建议在可能的情况下从尽量减少遮挡的角度捕捉后变更图像。

参考

[1] 3DGS-CD: 3D Gaussian Splatting-based Change Detection for Physical Object Rearrangement

本文仅做学术分享，论文汇总于『3D视觉之心知识星球』，欢迎加入交流！

【3D视觉之心】技术交流群

3D视觉之心是面向3D视觉感知方向相关的交流社区，由业内顶尖的3D视觉团队创办！聚焦三维重建、Nerf、点云处理、视觉SLAM、激光SLAM、多传感器标定、多传感器融合、深度估计、摄影几何、求职交流等方向。扫码添加小助理微信邀请入群，备注：学校/公司+方向+昵称（快速入群方式）

扫码添加小助理进群

【3D视觉之心】知识星球

3D视觉之心知识星球主打3D感知全技术栈学习，星球内部形成了视觉/激光/多传感器融合SLAM、传感器标定、点云处理与重建、视觉三维重建、NeRF与Gaussian Splatting、结构光、工业视觉、高精地图等近15个全栈学习路线，每天分享干货、代码与论文，星球内嘉宾日常答疑解惑，交流工作与职场问题。

http://mp.weixin.qq.com/s?__biz=MzkyMDY0OTc1NA==&mid=2247516110&idx=1&sn=fdf9083af50a816a8aeda5b6999be9c3

3D视觉之心

3D视觉与SLAM、点云相关内容分享

最新文章

如何创立一家惯性导航公司

融合神经辐射场和视觉同时定位与地图构建的混合场景表示方法

宝可梦GO「偷家」李飞飞空间智能？全球最强3D地图诞生，150万亿参数解锁现实边界

克服LiDAR固定分辨率的限制！LiV-GS：首个大规模室外场景对齐离散点云与高斯地图的方法

MVSplat360：从稀疏视图到360°全景合成的前馈方法

Siggraph Asia 2024 | Adobe发布MagicClay：可通过文字引导对3D模型特定部分进行雕刻！

谷歌2024博士奖学金名单公布

首个基于高斯点云建图的动态SLAM框架！DGS-SLAM：解决动态物体引起的光度和几何不一致

无需视频流实现全景分割与深度估计MGNiceNet：统一的单目几何场景理解

ECCV 2024 | PARE-Net：用于鲁棒点云配准的位置感知旋转等变网络

NeurIPS 2024高中赛道开卷！人大附中、北师大实验中学等摘得3篇Spotlight

加州大学 | 基于视觉语言模型的端到端导航：零样本，无需数据训练！

港大DEIO：首个学习与传统非线性图优化结合的单目事件惯性里程计

基于语义似然与高精度地图匹配的智能车辆同时定位与检测

钻石冷却的GPU即将问世：温度能降20度，超频空间增加25%

超越现有3DGS网格重建方法！DyGASR：速度提高25%、内存使用量减少30%

复旦&蔚来开源DG-SLAM：第一个动态环境下的鲁棒GS SLAM！

身处相机内外参之间（EG3D/NeRF/3D Gaussian Splatting）

NeurIPS 2024 | 无需训练，一个框架搞定开放式目标检测、实例分割

突破多场景训练方法限制！ETH开源SplatFormer：首个专门设计用于在3DGS上运行的点变换器模型

【清华大学】RINO：基于非迭代估计的精确、鲁棒雷达惯性里程计

论文分享｜无监督点云语义分割

传说中Ilya Sutskever精选论文清单：AI领域40大论文完整版「破解」完成

丰田研究院综述「机器人领域中的神经场」

顶刊TGRS | 使用端到端深度神经网络从高分辨率遥感图像和数字表面模型中提取3D建筑实例

让纸片人动起来! DrawingSpinUp：从单个绘图生成高质量3D动画

浙大西湖大学开源MBA-SLAM！解决NeRF、3DGS中的运动模糊问题！

这三家国内机构合作成果，斩获EMNLP 2024最佳论文奖，主办方：明年苏州见！

ICP还能玩出什么花样？RA-L'24全新GenZ-ICP：根据环境几何特性自适应，解决依赖单一误差度量

英伟达最新！SCube：仅用三张图，就能实现即时大规模三维场景重建

更高轨迹精度、建图质量！基于NeRF轨迹平滑约束的SLAM优化

15 个改变世界的开源项目：塑造现代技术的先锋力量

多实例点云配准新SOTA！3DFMNet：简单而有效的3D聚焦与匹配网络(NeurIPS'24)

LidaRefer：户外3D视觉定位的创新框架

腾讯发布HunYuan-3D，支持文本到3D和图像到3D，10秒即可生成高分辨率细3D模型

Scaling Laws终结，量化无用，AI大佬都在审视这篇论文

新国立联合微软共同打造：3D和4D场景均可生成的GenXD来了！

MVDrag3D：灵活强大的拖拽式多视图3D编辑技术

基于单目视觉惯性的同步定位与地图构建方法综述

实现LiDAR和多视角摄像头数据的对齐、可控X-DRIVE：用于驾驶场景的跨模态一致多传感器数据合成

不用encoder也能重建点云？PCP-MAE：基于中心预测的点云MAE自监督新框架（NeurIPS'24 Spotlight）

商汤&浙大SfM新工作！LiVisSfM：利用激光雷达和视觉线索，获得精确鲁棒的三维重建

slam相关开源数据集资源汇总（KITTI、CODD、MAOMaps）

3D激光雷达分辨率对基于图的SLAM方法究竟有何影响？

3DV 2024 | 基于超点图聚类的可扩展三维全视分割

突发！OpenAI七年元老、安全副总裁Lilian Weng官宣离职！北大本科，决定专心写博客

倘若能有一场时空对话，我将告诉曾经的我如何做vslam

2024年图像匹配挑战赛：银牌解决方案！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉