ROBIO'24 | 无惧透明物体!LucidGrasp:机器人自主6D姿态估计!

科技   2024-11-02 00:01   江苏  

点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达

来源:3D视觉工坊

添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。

扫描下方二维码,加入「3D视觉从入门到精通」知识星球,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:近20门秘制视频课程最新顶会论文、计算机视觉书籍优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

0.这篇文章干了啥?

这篇文章提出了一种框架,用于实现自主机器人对不同透明度物体的操控。该系统能够估计物体的6D姿态、内部液体水平和物体几何位置,并在多种任务中进行自主操作。实验结果显示,系统在位置估计上的平均误差为0.18厘米,旋转估计为约0.7°,证明了其算法的鲁棒性。未来的工作计划通过使用触觉传感器信息来精确控制抓取力,并扩展系统功能,以生成关键轨迹点和集成视觉语言模型,从而实现对不同透明度物体的复杂任务的自动化,尤其是在自动化化学实验和医学分析领域的潜在应用。

下面一起来阅读一下这项工作~

1. 论文信息

论文题目:LucidGrasp: Robotic Framework for Autonomous Manipulation of Laboratory Equipment with Different Degrees of Transparency via 6D Pose Estimation

作者:Maria Makarova, Daria Trinitatova等

作者机构:Skolkovo Institute of Science and Technology

论文链接:https://arxiv.org/pdf/2410.07801

2. 摘要

许多现代机器人系统能够自主操作,但它们通常缺乏准确分析环境和适应变化的外部条件的能力,而远程操作系统往往需要特殊的操作技能。在实验室自动化领域,自动化流程的数量正在增加,然而这些系统通常是为执行特定任务而开发的。此外,该领域中使用的许多物体是透明的,这使得通过视觉通道进行分析变得困难。本工作的贡献包括开发一种具有自主模式的机器人框架,用于以复杂姿态组合操作具有不同透明度的充液物体。进行的实验表明,所设计的视觉感知系统具有鲁棒性,能够准确估计物体姿态以实现自主操作,并确认了算法在液体分配等灵巧操作中的性能。所提出的机器人框架可以应用于实验室自动化,因为它能够解决分析不同透明度和液位物体姿态的非平凡操作任务的问题,要求高精度和重复性。

3. 效果展示

数据集对象(左)和对象分割遮罩(右)。

在闭塞环境中预测容器颈部和容器内液体形状的示例。

实验中使用的物体的复杂组合。

4. 主要贡献

  • 开发了一种用于实时灵巧操作实验室设备的自主机器人系统。通过预测具有不同透明度、内部液位和容器上部颈部几何位置的物体的六维姿态来分析远程环境。
  • 该系统能够根据轨迹中仅几个关键点的算法分配,执行广泛的操作任务。此外,使用包含机器人的数字双胞胎的模拟环境来验证计算的操作,并渲染来自真实环境的识别对象。
  • 通过一系列实验对开发的视觉感知系统的准确性进行了实验验证,并确定了工作区域。

5. 基本原理是啥?

  1. 6D姿态估计:该系统通过摄像头捕捉物体的图像,利用计算机视觉算法估计物体在三维空间中的位置(x, y, z坐标)以及旋转角度(滚转、俯仰、偏航)。这种姿态估计使机器人能够理解物体的具体位置和方向,从而为后续的操作提供必要的信息。

  2. 处理不同透明度的物体:系统能够处理具有不同透明度的物体(如透明和不透明的容器),这对机器人识别和操作物体的能力提出了挑战。通过设计鲁棒的算法,系统能够在不同的环境下(如背景复杂的情况下)准确地检测和操作这些物体。

  3. 自动化操作:在识别到物体的6D姿态后,系统会生成一个动作轨迹,以便机器人能够准确地抓取、移动和倾倒液体。这一过程包括规划抓取点、移动路径和目标位置,确保操作的安全性和准确性。

  4. 触觉传感:未来的工作将整合触觉传感器,帮助机器人更精确地控制抓取力度,尤其是在处理易碎物体时,以防止损坏。

  5. 任务多样性:系统不仅限于简单的抓取和放置操作,还能应对更复杂的任务,如多层物体的堆叠、透明物体在复杂背景下的识别等。

6. 实验结果

在这项研究中,实验结果展示了系统在不同条件下的表现,主要包括以下几个方面:

A. 6D姿态估计的工作区域定义

  1. 固定距离下的相机高度变化

  • 位置估计的平均误差为0.3厘米(标准差=0.52厘米),旋转估计的平均误差为0.54°(标准差=1.6°)。
  • 透明和半透明物体(如烧瓶、玻璃烧杯和量筒)的姿态识别准确性较低,而较小的半透明物体(如移液管和试管)的识别表现显著更好。
  • 研究了相机在固定距离下的高度变化对姿态估计的影响,实验使用了50、45和40厘米的三种相机高度。
  • 对于每个高度,设置了不同的相机视角,结果表明:
  • 固定高度下的相机距离变化

    • 在分析了相机高度和视角对姿态估计准确性的依赖后,研究了相机在不同距离下的表现,实验设置了9.5、13、24、33、57、65和74厘米的距离。
    • 结果显示,在不同相机距离下,位置和旋转的平均误差分别为0.18厘米和0.39°。
    • 对透明物体(对象1-5)和不透明物体(对象6-7)的识别准确性进行了比较,结果表明两组之间在位置(p = .52)和旋转(p = .56)的准确性没有显著差异。

    B. 复杂物体组合的6D姿态估计

    • 在随机复杂组合物体的实验中,系统能够成功检测到部分被遮挡的透明和不透明物体的姿态。
    • 主要的检测问题出现在管架被遮挡超过60%时,以及玻璃烧杯底部被遮挡时。
    • 平均误差为:
      • 滚转角度:0.6°(标准差=1.1°)
      • 俯仰角度:1.1°(标准差=3.6°)
      • 偏航角度:0.5°(标准差=1.5°)

    C. 在遮挡环境中的自主操作演示

    • 实验中测试了机器人在倾斜的移液管上进行液体分配的操作。
    • 系统首先在数字双胞胎中进行轨迹计算,以检查所有操作,然后在真实机器人上执行。
    • 机器人成功完成了抓取、提取液体并倒入烧瓶的操作,所有操作准确且未与其他物体发生碰撞。
    • 这一过程通过算法确定了安全的位置和死区,以避免在移动过程中对其他物体的干扰。

    7. 总结 & 未来工作

    在本研究中,我们提出了一种用于自主机器人操作不同透明度物体的框架。该系统能够估计以各种位置配置排列的物体的6D姿态、液体内部水平、容器上颈部的几何位置,并能够自主完成各种任务的物体操作。在实验评估中,该框架在算法工作区域内的物体复杂组合中表现出平均位置估计精度为0.18 cm,旋转估计精度约为0.7°,这证明了框架自主算法的鲁棒性。

    作为未来工作,计划利用机器人抓手上的触觉传感器信息来更精确地控制处理易碎物体时的抓取力度。该框架还可以通过生成关键轨迹点的功能来扩展,以支持更多样化的任务,并通过将视觉语言模型(VLM)添加到系统架构中进一步增强功能。

    所提框架有可能用于自动化处理不同透明度物体的非平凡任务,同时对内部液体水平进行额外分析,要求高精度和可重复性。我们相信,所开发系统的能力在自动化化学实验和医学分析领域可能具有重要意义。

    本文仅做学术分享,如有侵权,请联系删文。

    3D视觉交流群,成立啦!

    目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉最前沿工业3D视觉SLAM自动驾驶三维重建无人机等方向,细分群包括:

    工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

    SLAM:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

    自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

    三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

    无人机:四旋翼建模、无人机飞控等

    2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

    最前沿:具身智能、大模型、Mamba、扩散模型等

    除了这些,还有求职硬件选型视觉产品落地、产品、行业新闻等交流群

    添加小助理: cv3d001,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。

    ▲长按扫码添加助理:cv3d001

    3D视觉工坊知识星球

    「3D视觉从入门到精通」知识星球,已沉淀6年,星球内资料包括:秘制视频课程近20门(包括结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云等)、项目对接3D视觉学习路线总结最新顶会论文&代码3D视觉行业最新模组3D视觉优质源码汇总书籍推荐编程基础&学习工具实战项目&作业求职招聘&面经&面试题等等。欢迎加入3D视觉从入门到精通知识星球,一起学习进步。

    ▲长按扫码加入星球
    3D视觉工坊官网:www.3dcver.com

    具身智能、3DGS、NeRF结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制无人机仿真C++、三维视觉python、dToF、相机标定、ROS2机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪等。

    长按扫码学习3D视觉精品课程

    3D视觉模组选型:www.3dcver.com

    —  —

    点这里👇关注我,记得标星哦~

    一键三连「分享」、「点赞」和「在看」

    3D视觉科技前沿进展日日相见 ~ 

    3D视觉工坊
    专注于工业3D视觉、SLAM、自动驾驶、三维重建、无人机、具身智能、扩散模型等前沿技术分享与产业落地,力争打造为国内最专业的3D视觉社区。官网:www.3dcver.com 佳v:cv3d007 或 13451707958
     最新文章