点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达
来源:3D视觉工坊
添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。
扫描下方二维码,加入「3D视觉从入门到精通」知识星球,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!
0.这篇文章干了啥?
本文提出了一种用于姿态无关3D异常检测任务的实时推理方法,结合了基于SfM(Structure-from-Motion)和3DGS(3D Geometric Shape)模型的混合表示法来编码参考对象。该方法在无需已知姿态的查询图像条件下,通过高效定位和检测异常,以147倍于现有SOTA方法的速度进行推理,同时在图像级和像素级的检测精度上均有提升。实验结果表明,该方法在MAD-Sim数据集上优于现有方法,尤其在稀疏视图场景下展现出更高的鲁棒性,为工业级异常检测提供了有效的解决方案。
下面一起来阅读一下这项工作~
1. 论文信息
论文题目:SplatPose+: Real-time Image-Based Pose-Agnostic 3D Anomaly Detection
作者:Yizhe Liu , Yan Song Hu等
作者机构:University of Waterloo
论文链接:https://arxiv.org/pdf/2410.12080
2. 摘要
基于图像的无视位姿三维异常检测在工业质量控制中是一项重要任务。该任务旨在根据无异常物体的一组参考图像,从被测物体的查询图像中检测出异常。挑战在于查询视角(即位姿)未知,且可能与参考视角不同。当前出现了一些新方法,如OmniposeAD和SplatPose,它们通过在查询视角生成伪参考图像进行逐像素对比,试图弥补这一差距。然而,这些方法均无法实现实时推理,而实时性在大规模生产的工业质量控制中至关重要。为此,我们提出了SplatPose+,它采用了一种混合表示方法,结合了用于定位的运动恢复结构(SfM)模型和用于新视角合成的三维高斯投影(3DGS)模型。尽管我们的流程需要额外计算SfM模型,但与SplatPose相比,它提供了实时推理速度并加快了训练过程。在质量方面,我们在无视位姿异常检测基准测试中的多视角异常检测(MADSIM)数据集上实现了新的SOTA(最先进水平)。
3. 效果展示
3种稀疏视图设置下预测异常图的定性比较。我们的Psuedo Ref由SplatPose+生成,以帮助读者发现异常。
4. 主要贡献
首个基于图像的实时无视位姿三维异常检测方法。– 在MAD-Sim数据集上实现了最高的效率和最佳的异常检测及分割得分。– 在稀疏视角训练数据条件下具有鲁棒的异常检测性能。– 代码将会发布: https://github.com/Yizhe-Liu/SplatPosePlus.
5. 基本原理是啥?
该方法的基本原理在于利用混合3D表示来进行无姿态约束的异常检测,结合了结构自运动(Structure from Motion, SfM)和3D密集几何渲染(3D Geometry Splatting, 3DGS)模型。这两个模型各自发挥了不同的作用:
结构自运动 (SfM) 模型
SfM通过多视角图像生成参考对象的3D模型,具有良好的定位能力。在该方法中,SfM用于对无姿态的查询图像进行精确定位。即使在稀疏视图(少量参考图像)条件下,SfM也能根据有限的参考视图生成较为精确的3D表示,并将查询图像的位置与模型对齐。推荐课程:国内首个3D缺陷检测实战教程。3DGS模型
3DGS通过几何渲染实现对参考对象的密集表示,特别适合从多个角度生成逼真的视图。该模型能更好地模拟真实的物体表面特性,用于在定位后生成合成视图(novel view synthesis),帮助检测是否存在异常。3DGS可以识别物体表面的微小差异,以准确地分割出异常区域。
通过结合这两种模型,该方法首先利用SfM模型对无姿态的查询图像进行位置定位,然后利用3DGS生成该视角下的期望外观,与实际观察到的图像进行对比,从而检测并分割出异常。这种方法比传统的仅依赖单一3D模型的方法更准确,同时可以在稀疏视图条件下保持较高的性能,并且实现了实时推理。
6. 实验结果
在实验中,该方法在MAD-Sim数据集上进行了验证,取得了显著的效果:
图像级别异常检测
在图像级别异常检测任务中,该方法在MAD-Sim数据集的20个测试对象中,有18个对象的图像级别AUROC分数高于现有方法。总体上,该方法在图像级别的AUROC达到了96.4,展示了其在异常检测中的出色表现。像素级别异常分割
对于像素级别的异常分割任务,该方法的AUPRO分数达到了96.9,同样超越了现有方法。这表明其在细粒度异常检测(如局部缺陷)方面也具备很高的准确性。实时推理能力
在推理效率方面,该方法表现出色,能够达到实时推理的水平,平均每个查询视图的推理时间为34毫秒,相当于约30帧每秒(fps)。相比于之前的SOTA方法,速度提升了147倍,显著提高了工业应用中的实用性。稀疏视图条件下的鲁棒性
为了模拟现实中的稀疏视图情况(即仅有部分参考视图),该方法在20%、40%、60%、和80%的训练数据下进行了测试。结果显示,在所有稀疏视图设定下,SplatPose+在AUROC和AUPRO分数上均超过了现有方法,尤其在仅有20%的参考视图的条件下,优势最为显著。这证明了该方法在稀疏视图条件下的鲁棒性和适应性。
7. 总结 & 未来工作
在本文中,我们提出了第一个可在无姿态约束的3D异常检测任务中实现实时推理的方法。我们使用了由结构自运动(SfM)模型和3DGS模型组成的混合表示来编码参考对象。对于一个无姿态的查询图像,我们的方法能够更准确地对其进行定位并发现异常,比现有的最新技术快147倍。此外,我们的方法在稀疏视图设置下在定性和定量上均优于当前方法。未来的研究工作可以考虑引入更高效的3DGS实现,例如Compact3D,以进一步减少训练和推理时间。
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉、最前沿、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向,细分群包括:
工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机:四旋翼建模、无人机飞控等
2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿:具身智能、大模型、Mamba、扩散模型等
除了这些,还有求职、硬件选型、视觉产品落地、产品、行业新闻等交流群
添加小助理: cv3d001,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。
3D视觉工坊知识星球
「3D视觉从入门到精通」知识星球,已沉淀6年,星球内资料包括:秘制视频课程近20门(包括结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云等)、项目对接、3D视觉学习路线总结、最新顶会论文&代码、3D视觉行业最新模组、3D视觉优质源码汇总、书籍推荐、编程基础&学习工具、实战项目&作业、求职招聘&面经&面试题等等。欢迎加入3D视觉从入门到精通知识星球,一起学习进步。
3D视觉工坊官网:www.3dcver.com具身智能、3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪等。
3D视觉模组选型:www.3dcver.com
点这里👇关注我,记得标星哦~