点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达
来源:3D视觉工坊
添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。
扫描下方二维码,加入「3D视觉从入门到精通」知识星球,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!
0.这篇文章干了啥?
这篇文章提出了一种新颖的6D姿态估计方法——GS2Pose,旨在解决传统方法依赖高质量CAD模型的局限性。GS2Pose通过结合3D高斯点云和分段RGBD图像,采用两阶段架构来提高估计精度。第一阶段使用Pose-Net进行粗略估计,第二阶段通过GS-Refiner对结果进行精细优化。实验结果表明,GS2Pose在Linemod数据集上的表现优于多种现有的6D姿态估计模型,具有更高的计算效率和鲁棒性,尤其在处理新物体时展现了良好的适应性。
下面一起来阅读一下这项工作~
1. 论文信息
论文题目:GS2Pose: Two-stage 6D Object Pose Estimation Guided by Gaussian Splatting
作者:Jilan Mei, Junbo Li等
作者机构:Beihang University
论文链接:https://arxiv.org/pdf/2411.03807
2. 摘要
本文提出了一种新的方法,用于精确且鲁棒的6D物体姿态估计,称为GS2Pose。通过引入3D高斯溅射,GS2Pose可以利用重建结果,而无需高质量的CAD模型,这意味着它只需要分割的RGBD图像作为输入。具体来说,GS2Pose采用了一个两阶段结构,首先是粗略估计,然后是精细估计。在粗略阶段,设计了一个轻量级的U-Net网络,结合偏振注意力机制,称为Pose-Net。通过使用3DGS模型进行监督训练,Pose-Net可以生成NOCS图像以计算粗略姿态。在精细阶段,GS2Pose基于重投影或束调整(BA)的思想,制定了一个姿态回归算法,称为GS-Refiner。通过利用李代数扩展3DGS,GS-Refiner获得了一个姿态可微渲染管道,通过比较输入图像与渲染图像,精细化粗略姿态。GS-Refiner还通过选择性地更新3DGS模型中的参数,实现了环境适应,从而增强了算法对光照变化、遮挡以及其他挑战性干扰因素的鲁棒性和灵活性。GS2Pose通过在LineMod数据集上的实验进行评估,并与类似算法进行了比较,取得了高度竞争的结果。GS2Pose的代码将很快发布在GitHub上。
3. 效果展示
4. 主要贡献
通过结合3DGS重建技术,实现了在没有CAD模型的情况下对之前未见物体进行轻量级6D姿态估计。
通过使用李代数修改3DGS的可微渲染管道,开发了一个称为GS-Refiner的重投影迭代算法,使得物体姿态和相机姿态都能够得到修正。
通过选择性地回归3DGS的参数,开发了一个对复杂光照、运动模糊和遮挡具有鲁棒性的6D姿态估计算法。
通过在LineMod等数据集上的实验,GS2Pose模型在准确性、推理速度和计算资源效率方面显示了明显的优势。
5. 基本原理是啥?
3D高斯点云(3D Gaussian Splatting):GS2Pose利用3D高斯点云技术,将物体的几何形状表示为分布在三维空间中的高斯点。这种表示方式不仅能够高效地表达物体的结构,还能有效地处理新物体的姿态估计,尤其是在没有高质量CAD模型的情况下。
RGBD图像分割(Segmented RGBD Images):该方法结合了RGBD图像(即包含颜色和深度信息的图像),并通过对图像进行分割,从中提取出物体的具体信息。这使得GS2Pose能够处理不同类型和复杂度的物体,避免了传统方法对CAD模型的依赖。推荐课程:国内首个面向工业级实战的点云处理课程。
两阶段架构(Two-Stage Architecture):GS2Pose采用了两阶段的估计过程:
粗略估计阶段(Pose-Net):首先,通过Pose-Net网络进行粗略的6D姿态估计。这一阶段快速地提供了初步的姿态预测。 精细估计阶段(GS-Refiner):然后,通过GS-Refiner模块进一步优化和细化姿态估计结果,提供更加精确的物体姿态。
高效性和可访问性:相比传统的依赖高质量CAD模型的姿态估计方法,GS2Pose大大提高了估计的效率,并且无需依赖精确的CAD模型,使得它在实际应用中更加灵活和易于获取。
6. 实验结果
在实验部分,GS2Pose的表现与多个先进的6D姿态估计模型进行了对比,以评估其有效性:
A. 实验数据集和设置
数据集:实验使用了两个公开可访问的6D姿态估计数据集:Linemod (LM) 数据集和 Linoplus (LP) 数据集。Linemod数据集包含15个注册的高清视频序列,每个序列包含超过1100帧图像,物体的尺度从100mm到300mm不等。数据集中的图像具有显著的光照强度变化,并且只有很小的遮挡现象。 物体类别:选择了13种物体类别来评估模型的性能,具体包括:ape(猩猩)、bvise(布尔材料)、cam(相机)、can(罐头)、cat(猫)、driller(钻头)、duck(鸭子)、eggbox(蛋箱)、glue(胶水)、holep(孔)、iron(铁)、lamp(灯)和phone(电话)。
B. 与现有模型的比较GS2Pose与几种先进的6D姿态估计模型进行了比较,包括:
Pix2Pose SSD-6D Lienet Cai DPOD PVNet CDPN
这些模型都是目前领域内公认的高效方法,通过对比,GS2Pose在精度和计算效率方面展现了其优势。
C. 实验结果
Pose-Net粗略估计性能:Pose-Net阶段能快速对物体姿态进行粗略估计,保证了整个系统在实时应用中的高效率。 GS-Refiner精细估计性能:GS-Refiner通过对粗略估计的结果进行优化,显著提升了估计的精确度,尤其是在物体的细节处理上表现出色。 性能评估:在Linemod数据集上的实验结果表明,GS2Pose在多个物体类别中都表现出了较高的姿态估计精度,且在处理新物体时的表现优于传统的基于CAD模型的方法。
D. 结果分析
计算效率:相比一些现有的复杂算法,GS2Pose能够提供更高效的姿态估计,减少了计算负担,适用于实时或资源有限的应用场景。 鲁棒性:实验表明,GS2Pose在处理不同的物体、光照条件和部分遮挡情况下仍然保持较高的准确性,具有很好的鲁棒性。
7. 总结 & 未来工作
总之,本文提出了GS2Pose,这是一种新颖的6D姿态估计方法,能够准确且稳健地估计新物体的姿态,有效克服了传统方法依赖高质量CAD模型的局限性。通过利用3D高斯点云和分割的RGBD图像,GS2Pose在姿态估计的效率和可访问性上取得了显著的进展。该方法采用了两阶段架构,包括通过Pose-Net进行的粗略估计和通过GS-Refiner进行的精细估计,展示了一种高度集成的方法,提升了姿态估计的精度。在线Mod数据集上的实验结果验证了GS2Pose的有效性,使其成为现有算法的有力竞争者。
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉、最前沿、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向,细分群包括:
工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机:四旋翼建模、无人机飞控等
2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿:具身智能、大模型、Mamba、扩散模型等
除了这些,还有求职、硬件选型、视觉产品落地、产品、行业新闻等交流群
添加小助理: cv3d001,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。
3D视觉工坊知识星球
「3D视觉从入门到精通」知识星球,已沉淀6年,星球内资料包括:秘制视频课程近20门(包括结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云等)、项目对接、3D视觉学习路线总结、最新顶会论文&代码、3D视觉行业最新模组、3D视觉优质源码汇总、书籍推荐、编程基础&学习工具、实战项目&作业、求职招聘&面经&面试题等等。欢迎加入3D视觉从入门到精通知识星球,一起学习进步。
3D视觉工坊官网:www.3dcver.com具身智能、3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪等。
3D视觉模组选型:www.3dcver.com
点这里👇关注我,记得标星哦~