告别CAD模型依赖!GS2Pose:用3D高斯点云重塑6D姿态估计!

科技   2024-11-18 07:03   江苏  

点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达

来源:3D视觉工坊

添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。

扫描下方二维码,加入「3D视觉从入门到精通」知识星球,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:近20门秘制视频课程最新顶会论文、计算机视觉书籍优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

0.这篇文章干了啥?

这篇文章提出了一种新颖的6D姿态估计方法——GS2Pose,旨在解决传统方法依赖高质量CAD模型的局限性。GS2Pose通过结合3D高斯点云和分段RGBD图像,采用两阶段架构来提高估计精度。第一阶段使用Pose-Net进行粗略估计,第二阶段通过GS-Refiner对结果进行精细优化。实验结果表明,GS2Pose在Linemod数据集上的表现优于多种现有的6D姿态估计模型,具有更高的计算效率和鲁棒性,尤其在处理新物体时展现了良好的适应性。

下面一起来阅读一下这项工作~

1. 论文信息

论文题目:GS2Pose: Two-stage 6D Object Pose Estimation Guided by Gaussian Splatting

作者:Jilan Mei, Junbo Li等

作者机构:Beihang University

论文链接:https://arxiv.org/pdf/2411.03807

2. 摘要

本文提出了一种新的方法,用于精确且鲁棒的6D物体姿态估计,称为GS2Pose。通过引入3D高斯溅射,GS2Pose可以利用重建结果,而无需高质量的CAD模型,这意味着它只需要分割的RGBD图像作为输入。具体来说,GS2Pose采用了一个两阶段结构,首先是粗略估计,然后是精细估计。在粗略阶段,设计了一个轻量级的U-Net网络,结合偏振注意力机制,称为Pose-Net。通过使用3DGS模型进行监督训练,Pose-Net可以生成NOCS图像以计算粗略姿态。在精细阶段,GS2Pose基于重投影或束调整(BA)的思想,制定了一个姿态回归算法,称为GS-Refiner。通过利用李代数扩展3DGS,GS-Refiner获得了一个姿态可微渲染管道,通过比较输入图像与渲染图像,精细化粗略姿态。GS-Refiner还通过选择性地更新3DGS模型中的参数,实现了环境适应,从而增强了算法对光照变化、遮挡以及其他挑战性干扰因素的鲁棒性和灵活性。GS2Pose通过在LineMod数据集上的实验进行评估,并与类似算法进行了比较,取得了高度竞争的结果。GS2Pose的代码将很快发布在GitHub上。

3. 效果展示

4. 主要贡献

  • 通过结合3DGS重建技术,实现了在没有CAD模型的情况下对之前未见物体进行轻量级6D姿态估计。

  • 通过使用李代数修改3DGS的可微渲染管道,开发了一个称为GS-Refiner的重投影迭代算法,使得物体姿态和相机姿态都能够得到修正。

  • 通过选择性地回归3DGS的参数,开发了一个对复杂光照、运动模糊和遮挡具有鲁棒性的6D姿态估计算法。

  • 通过在LineMod等数据集上的实验,GS2Pose模型在准确性、推理速度和计算资源效率方面显示了明显的优势。

5. 基本原理是啥?

  1. 3D高斯点云(3D Gaussian Splatting):GS2Pose利用3D高斯点云技术,将物体的几何形状表示为分布在三维空间中的高斯点。这种表示方式不仅能够高效地表达物体的结构,还能有效地处理新物体的姿态估计,尤其是在没有高质量CAD模型的情况下。

  2. RGBD图像分割(Segmented RGBD Images):该方法结合了RGBD图像(即包含颜色和深度信息的图像),并通过对图像进行分割,从中提取出物体的具体信息。这使得GS2Pose能够处理不同类型和复杂度的物体,避免了传统方法对CAD模型的依赖。推荐课程:国内首个面向工业级实战的点云处理课程

  3. 两阶段架构(Two-Stage Architecture):GS2Pose采用了两阶段的估计过程:

  • 粗略估计阶段(Pose-Net):首先,通过Pose-Net网络进行粗略的6D姿态估计。这一阶段快速地提供了初步的姿态预测。
  • 精细估计阶段(GS-Refiner):然后,通过GS-Refiner模块进一步优化和细化姿态估计结果,提供更加精确的物体姿态。
  • 高效性和可访问性:相比传统的依赖高质量CAD模型的姿态估计方法,GS2Pose大大提高了估计的效率,并且无需依赖精确的CAD模型,使得它在实际应用中更加灵活和易于获取。

  • 6. 实验结果

    在实验部分,GS2Pose的表现与多个先进的6D姿态估计模型进行了对比,以评估其有效性:

    A. 实验数据集和设置

    • 数据集:实验使用了两个公开可访问的6D姿态估计数据集:Linemod (LM) 数据集和 Linoplus (LP) 数据集。Linemod数据集包含15个注册的高清视频序列,每个序列包含超过1100帧图像,物体的尺度从100mm到300mm不等。数据集中的图像具有显著的光照强度变化,并且只有很小的遮挡现象。
    • 物体类别:选择了13种物体类别来评估模型的性能,具体包括:ape(猩猩)、bvise(布尔材料)、cam(相机)、can(罐头)、cat(猫)、driller(钻头)、duck(鸭子)、eggbox(蛋箱)、glue(胶水)、holep(孔)、iron(铁)、lamp(灯)和phone(电话)。

    B. 与现有模型的比较GS2Pose与几种先进的6D姿态估计模型进行了比较,包括:

    • Pix2Pose
    • SSD-6D
    • Lienet
    • Cai
    • DPOD
    • PVNet
    • CDPN

    这些模型都是目前领域内公认的高效方法,通过对比,GS2Pose在精度和计算效率方面展现了其优势。

    C. 实验结果

    • Pose-Net粗略估计性能:Pose-Net阶段能快速对物体姿态进行粗略估计,保证了整个系统在实时应用中的高效率。
    • GS-Refiner精细估计性能:GS-Refiner通过对粗略估计的结果进行优化,显著提升了估计的精确度,尤其是在物体的细节处理上表现出色。
    • 性能评估:在Linemod数据集上的实验结果表明,GS2Pose在多个物体类别中都表现出了较高的姿态估计精度,且在处理新物体时的表现优于传统的基于CAD模型的方法。

    D. 结果分析

    • 计算效率:相比一些现有的复杂算法,GS2Pose能够提供更高效的姿态估计,减少了计算负担,适用于实时或资源有限的应用场景。
    • 鲁棒性:实验表明,GS2Pose在处理不同的物体、光照条件和部分遮挡情况下仍然保持较高的准确性,具有很好的鲁棒性。

    7. 总结 & 未来工作

    总之,本文提出了GS2Pose,这是一种新颖的6D姿态估计方法,能够准确且稳健地估计新物体的姿态,有效克服了传统方法依赖高质量CAD模型的局限性。通过利用3D高斯点云和分割的RGBD图像,GS2Pose在姿态估计的效率和可访问性上取得了显著的进展。该方法采用了两阶段架构,包括通过Pose-Net进行的粗略估计和通过GS-Refiner进行的精细估计,展示了一种高度集成的方法,提升了姿态估计的精度。在线Mod数据集上的实验结果验证了GS2Pose的有效性,使其成为现有算法的有力竞争者。

    本文仅做学术分享,如有侵权,请联系删文。

    3D视觉交流群,成立啦!

    目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉最前沿工业3D视觉SLAM自动驾驶三维重建无人机等方向,细分群包括:

    工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

    SLAM:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

    自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

    三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

    无人机:四旋翼建模、无人机飞控等

    2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

    最前沿:具身智能、大模型、Mamba、扩散模型等

    除了这些,还有求职硬件选型视觉产品落地、产品、行业新闻等交流群

    添加小助理: cv3d001,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。

    ▲长按扫码添加助理:cv3d001

    3D视觉工坊知识星球

    「3D视觉从入门到精通」知识星球,已沉淀6年,星球内资料包括:秘制视频课程近20门(包括结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云等)、项目对接3D视觉学习路线总结最新顶会论文&代码3D视觉行业最新模组3D视觉优质源码汇总书籍推荐编程基础&学习工具实战项目&作业求职招聘&面经&面试题等等。欢迎加入3D视觉从入门到精通知识星球,一起学习进步。

    ▲长按扫码加入星球
    3D视觉工坊官网:www.3dcver.com

    具身智能、3DGS、NeRF结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制无人机仿真C++、三维视觉python、dToF、相机标定、ROS2机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪等。

    长按扫码学习3D视觉精品课程

    3D视觉模组选型:www.3dcver.com

    —  —

    点这里👇关注我,记得标星哦~

    一键三连「分享」、「点赞」和「在看」

    3D视觉科技前沿进展日日相见 ~ 

    3D视觉工坊
    专注于工业3D视觉、SLAM、自动驾驶、三维重建、无人机、具身智能、扩散模型等前沿技术分享与产业落地,力争打造为国内最专业的3D视觉社区。官网:www.3dcver.com 佳v:cv3d007 或 13451707958
     最新文章