IROS 2024 | 借助地形抓取“不可抓取”的物体,清华AIR和北大出品

创业   2024-08-30 08:22   北京  

本文旨在解决机器人操作中使用两指夹持器抓取缺乏明显抓取特征的物体的挑战。传统预抓取方法对不同形状物体泛化性有限,对不同场景适应性有限。为此,清华大学智能产业研究院赵昊老师,北京大学董豪老师、朱毅鑫老师的团队联手提出了PreAfford,这是一种新颖的预抓取规划框架,结合了点级Affordance表示和接力训练方法,构建出可实机部署的预抓取算法。仿真和真机的实验结果表明,PreAfford显著提高了抓取成功率,能自然适应于多种形态物体和复杂混合场景。

论文名称:

PreAfford: Universal Affordance-Based Pre-Grasping for Diverse Objects and Environments 

论文链接:

https://arxiv.org/pdf/2404.03634

代码链接:

https://github.com/Robot-K/PreAfford

项目网站:

https://air-discover.github.io/PreAfford


一、研究动机

机器人操作中常使用两指夹持器抓取物体,然而生活中大量物体缺乏明显抓取特征,不易于被两指夹持器直接抓取。在抓取前规划预抓取操作调整位姿是一项极具挑战的任务,传统的预抓取方法通常涉及重新定位物体或利用外部辅助(如桌边),但这些方法在不同物体类别和环境中的适应性有限。

观察到人类在抓取物品前会综合考虑物体和场景的位形,并利用多种场景特征实施抓取,我们提出了PreAfford,这是一种新颖的预抓取规划框架,结合了点级稠密Affordance表示和接力训练(Relay training)方法。
预抓取示意图。(a) 一个平放在地板上的物体,在当前位置无法抓取。(b) 侧面抓取悬挂在表面上的物体。(c) 抓取从槽中突出的一个倾斜部分。(d) 抓取悬挂在斜坡底部的手机中间。(e) 将手机固定在墙上并从另一侧抓取。

二、方法

2.1 框架概述

PreAfford框架包含两个主要模块:预抓取模块和抓取模块。预抓取模块负责将物体重新定位到一个更有利于抓取的位置,而抓取模块则负责最终的抓取操作。每个模块都由三个专用神经网络组成:可供性(Affordance)网络、提案(Proposal)网络和评价(Critic)网络。这三个网络分别负责选择接触点、生成接触方案和评估接触点和接触方案的优良性。模型的推理和训练按照相反的方向进行:推理时,预抓取和抓取模块顺次进行评估、推理、实施;训练时,模拟器中采集的离线训练数据由抓取模块打上标签,用于训练预抓取模块。我们将称这个过程为“接力”。
PreAfford框架

2.2 模块结构

  • 特征提取器所有六个网络都使用PointNet++模块对点云进行编码,并通过各异的多层感知机(MLP)处理接触点、接触操作等附加输入特征。

  • 可供性网络使用多层感知机(MLP)接收整体点云和接触点特征,评估物体上逐点的可供性得分,生成可供性地图。

  • 提案网络使用条件变分自编码器(cVAE)架构,接收整体点云特征和可供性地图,生成预抓取或抓取操作的建议。

  • 评价网络使用多层感知机(MLP)接收整体点云、接触点和接触操作,给出评分预估操作的有效性。

2.3 推理过程

推理过程分为四个阶段:

  1. 预抓取必要性检查抓取模块的评价网络评估物体在当前位姿的抓取成功可能性,判断是否需要预抓取操作。

  2. 预抓取操作推理与实施预抓取模块的可供性网络生成可供性地图,提案网络采样若干预抓取方案,评价网络选择最佳的预抓取操作并执行。

  3. 闭环控制每次预抓取后重新评估可能性,如果初始预抓取失败,系统将迭代调整物体位置,直到成功。

  4. 抓取操作推理与实施在预抓取后进行最终的抓取操作,过程类似预抓取操作的推理。

2.4 训练与损失

  • 数据生成采用ShapeNet-v2数据集中有、无明显抓取特征的物品各5种,场景自主搭建。仿真器中,在一定人类先验的基础上添加随机性,采集抓取和预抓取数据各40000条。

  • 损失函数训练过程包括以下几个损失函数

    • 评价网络损失:基于抓取和预抓取操作的成功率,两个模块分别使用二元交叉熵损失和L1损失。

    • 提案网络损失:cVAE重建结果的几何损失和KL散度损失。

    • 可供性网络损失:基于平均评价得分的绝对差值。

  • 接力训练由于预抓取操作的优良性难以被评估,我们先完成抓取模块的训练,其评价网络可以用于评价某位型的抓取成功可能性。再使用该评价网络为预抓取数据生成标签,以抓取成功可能性的提升为奖励,以非法和不当的预抓取操作为惩罚,从而“接力”训练预抓取模块。

三、试验结果

3.1 模拟实验

在ShapeNet-v2数据集上进行测试,涵盖5个见过的和4个未见过的难抓取物体类别以及5个场景。其中“组合环境”中同时存在前面四种场景特征,是在训练时未见过的复杂场景,要求模型自主决定需要使用的环境特征并给出相适应的方案。结果显示,PreAfford显著提高了抓取成功率,平均提升了69%。
设置训练集物体




测试集物体





边缘墙壁斜坡组合环境平均边缘墙壁斜坡组合环境平均
无预抓取2.33.84.33.44.03.66.12.32.95.76.04.6
随机方向推21.610.36.416.818.114.624.917.212.118.423.019.1
中心点推32.523.740.539.239.035.025.117.428.030.221.524.4
PreAfford(无闭环)67.241.558.376.963.661.556.437.362.675.855.457.5
PreAfford 81.443.473.183.574.171.183.747.680.583.074.673.9

定量分析。 相较无预抓取,PreAfford(无闭环)将抓取成功率提高了52.9%;香蕉随机推或过中心点推也有大幅提升,表明预抓取操作确能提升抓取效率。闭环策略进一步在所有类别中将成功率提高了16.4%,表明抓取可能性的评估合理有效,多次预抓取倾向于自动纠错。

模拟实验。图中展示了边缘、墙壁、斜坡、槽四种场景下训练类别和测试类别的定性结果,可供性地图和操作的可视化结果表明,PreAfford能够在多种场景和未见过的场景中给出合理的推理。

定性分析。 在以上的模拟实验中,模型展现出以下特性:

  • 环境适应性在四种场景中,可供性地图都倾向于在物体远离环境特征的一侧给出高得分,意味模型倾向于将物体推向环境特征,利用特征实施抓取。

  • 几何理解性薄片物体的预抓取策略通常是通过物体质心的一次推动,这表明模型能理解物体的几何特征。

3.2 现实世界实验

在真实世界的实验中,PreAfford展示了其高适应性和实用性。实验涵盖了5个见过的和5个未见过的物体类别,结果显示在训练集物体和测试集物体上抓取成功率分别提升74%和69%。
设置训练集物体




测试集物体





边缘墙壁斜坡组合环境平均边缘墙壁斜坡组合环境平均
无预抓取0000001005003
有预抓取704580908574803075908572

真实世界实验

四、结语

本工作提出了PreAfford,一种新颖的基于可供性的两阶段预抓取框架,在多样化的物体和环境中展示了出色的适应性、兼容性和可部署性。未来的工作将致力于提高方法的鲁棒性和灵活性,以应对更复杂的形状和动态环境。

主要贡献

  • 提出了一种新颖的、适应性强的预抓取框架,兼容可直接抓取的物体。

  • 开发了一种接力训练范式,增强了预抓取操作策略适应性。

  • 引入点级可供性表示,提供了详细的几何感知能力,同时感知场景和物体,实现综合推理。

  • 在模拟和现实环境中进行了广泛验证,证明了PreAfford的有效性。

未来展望

目前PreAfford在处理柔性、高度不规则或极端动态环境中的物体时仍存在挑战,不具备多步、长程的复杂规划,缺少安全性的保证。未来的研究将侧重于增强方法的鲁棒性和灵活性,以适应更复杂的实际场景和物体,进一步提升抓取成功率和安全性。

llustration From IconScout By IconScout Store

-The End-

扫码观看

本周上新!


“AI技术流”原创投稿计划


TechBeat是由将门创投建立的AI学习社区(www.techbeat.net社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。


投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //


投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励


投稿方式

发送邮件到

melodybai@thejiangmen.com

或添加工作人员微信(yellowsubbj投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。


关于我“

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”: 
bp@thejiangmen.com

    


点击右上角,把文章分享到朋友圈
点击“阅读原文”按钮,查看社区原文

将门创投
将门是一家以专注于数智核心科技领域的新型创投机构,也是北京市标杆型孵化器,由前微软创投在中国的创始团队于2015年底创立。公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。
 最新文章