本文旨在解决机器人操作中使用两指夹持器抓取缺乏明显抓取特征的物体的挑战。传统预抓取方法对不同形状物体泛化性有限,对不同场景适应性有限。为此,清华大学智能产业研究院赵昊老师,北京大学董豪老师、朱毅鑫老师的团队联手提出了PreAfford,这是一种新颖的预抓取规划框架,结合了点级Affordance表示和接力训练方法,构建出可实机部署的预抓取算法。仿真和真机的实验结果表明,PreAfford显著提高了抓取成功率,能自然适应于多种形态物体和复杂混合场景。
本文旨在解决机器人操作中使用两指夹持器抓取缺乏明显抓取特征的物体的挑战。传统预抓取方法对不同形状物体泛化性有限,对不同场景适应性有限。为此,清华大学智能产业研究院赵昊老师,北京大学董豪老师、朱毅鑫老师的团队联手提出了PreAfford,这是一种新颖的预抓取规划框架,结合了点级Affordance表示和接力训练方法,构建出可实机部署的预抓取算法。仿真和真机的实验结果表明,PreAfford显著提高了抓取成功率,能自然适应于多种形态物体和复杂混合场景。
论文名称:
PreAfford: Universal Affordance-Based Pre-Grasping for Diverse Objects and Environments
论文链接:
https://arxiv.org/pdf/2404.03634
代码链接:
https://github.com/Robot-K/PreAfford
项目网站:
https://air-discover.github.io/PreAfford
一、研究动机
机器人操作中常使用两指夹持器抓取物体,然而生活中大量物体缺乏明显抓取特征,不易于被两指夹持器直接抓取。在抓取前规划预抓取操作调整位姿是一项极具挑战的任务,传统的预抓取方法通常涉及重新定位物体或利用外部辅助(如桌边),但这些方法在不同物体类别和环境中的适应性有限。
预抓取示意图。(a) 一个平放在地板上的物体,在当前位置无法抓取。(b) 侧面抓取悬挂在表面上的物体。(c) 抓取从槽中突出的一个倾斜部分。(d) 抓取悬挂在斜坡底部的手机中间。(e) 将手机固定在墙上并从另一侧抓取。
二、方法
2.1 框架概述
PreAfford框架
2.2 模块结构
特征提取器:所有六个网络都使用PointNet++模块对点云进行编码,并通过各异的多层感知机(MLP)处理接触点、接触操作等附加输入特征。
可供性网络:使用多层感知机(MLP)接收整体点云和接触点特征,评估物体上逐点的可供性得分,生成可供性地图。
提案网络:使用条件变分自编码器(cVAE)架构,接收整体点云特征和可供性地图,生成预抓取或抓取操作的建议。
评价网络:使用多层感知机(MLP)接收整体点云、接触点和接触操作,给出评分预估操作的有效性。
2.3 推理过程
推理过程分为四个阶段:
预抓取必要性检查:抓取模块的评价网络评估物体在当前位姿的抓取成功可能性,判断是否需要预抓取操作。
预抓取操作推理与实施:预抓取模块的可供性网络生成可供性地图,提案网络采样若干预抓取方案,评价网络选择最佳的预抓取操作并执行。
闭环控制:每次预抓取后重新评估可能性,如果初始预抓取失败,系统将迭代调整物体位置,直到成功。
抓取操作推理与实施:在预抓取后进行最终的抓取操作,过程类似预抓取操作的推理。
2.4 训练与损失
数据生成:采用ShapeNet-v2数据集中有、无明显抓取特征的物品各5种,场景自主搭建。仿真器中,在一定人类先验的基础上添加随机性,采集抓取和预抓取数据各40000条。
损失函数:训练过程包括以下几个损失函数
评价网络损失:基于抓取和预抓取操作的成功率,两个模块分别使用二元交叉熵损失和L1损失。
提案网络损失:cVAE重建结果的几何损失和KL散度损失。
可供性网络损失:基于平均评价得分的绝对差值。
接力训练:由于预抓取操作的优良性难以被评估,我们先完成抓取模块的训练,其评价网络可以用于评价某位型的抓取成功可能性。再使用该评价网络为预抓取数据生成标签,以抓取成功可能性的提升为奖励,以非法和不当的预抓取操作为惩罚,从而“接力”训练预抓取模块。
三、试验结果
3.1 模拟实验
设置 | 训练集物体 | 测试集物体 | ||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|
边缘 | 墙壁 | 斜坡 | 槽 | 组合环境 | 平均 | 边缘 | 墙壁 | 斜坡 | 槽 | 组合环境 | 平均 | |
无预抓取 | 2.3 | 3.8 | 4.3 | 3.4 | 4.0 | 3.6 | 6.1 | 2.3 | 2.9 | 5.7 | 6.0 | 4.6 |
随机方向推 | 21.6 | 10.3 | 6.4 | 16.8 | 18.1 | 14.6 | 24.9 | 17.2 | 12.1 | 18.4 | 23.0 | 19.1 |
中心点推 | 32.5 | 23.7 | 40.5 | 39.2 | 39.0 | 35.0 | 25.1 | 17.4 | 28.0 | 30.2 | 21.5 | 24.4 |
PreAfford(无闭环) | 67.2 | 41.5 | 58.3 | 76.9 | 63.6 | 61.5 | 56.4 | 37.3 | 62.6 | 75.8 | 55.4 | 57.5 |
PreAfford | 81.4 | 43.4 | 73.1 | 83.5 | 74.1 | 71.1 | 83.7 | 47.6 | 80.5 | 83.0 | 74.6 | 73.9 |
定量分析。 相较无预抓取,PreAfford(无闭环)将抓取成功率提高了52.9%;香蕉随机推或过中心点推也有大幅提升,表明预抓取操作确能提升抓取效率。闭环策略进一步在所有类别中将成功率提高了16.4%,表明抓取可能性的评估合理有效,多次预抓取倾向于自动纠错。
模拟实验。图中展示了边缘、墙壁、斜坡、槽四种场景下训练类别和测试类别的定性结果,可供性地图和操作的可视化结果表明,PreAfford能够在多种场景和未见过的场景中给出合理的推理。
定性分析。 在以上的模拟实验中,模型展现出以下特性:
环境适应性:在四种场景中,可供性地图都倾向于在物体远离环境特征的一侧给出高得分,意味模型倾向于将物体推向环境特征,利用特征实施抓取。
几何理解性:薄片物体的预抓取策略通常是通过物体质心的一次推动,这表明模型能理解物体的几何特征。
3.2 现实世界实验
设置 | 训练集物体 | 测试集物体 | ||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|
边缘 | 墙壁 | 斜坡 | 槽 | 组合环境 | 平均 | 边缘 | 墙壁 | 斜坡 | 槽 | 组合环境 | 平均 | |
无预抓取 | 0 | 0 | 0 | 0 | 0 | 0 | 10 | 0 | 5 | 0 | 0 | 3 |
有预抓取 | 70 | 45 | 80 | 90 | 85 | 74 | 80 | 30 | 75 | 90 | 85 | 72 |
四、结语
本工作提出了PreAfford,一种新颖的基于可供性的两阶段预抓取框架,在多样化的物体和环境中展示了出色的适应性、兼容性和可部署性。未来的工作将致力于提高方法的鲁棒性和灵活性,以应对更复杂的形状和动态环境。
主要贡献
提出了一种新颖的、适应性强的预抓取框架,兼容可直接抓取的物体。
开发了一种接力训练范式,增强了预抓取操作策略适应性。
引入点级可供性表示,提供了详细的几何感知能力,同时感知场景和物体,实现综合推理。
在模拟和现实环境中进行了广泛验证,证明了PreAfford的有效性。
未来展望
目前PreAfford在处理柔性、高度不规则或极端动态环境中的物体时仍存在挑战,不具备多步、长程的复杂规划,缺少安全性的保证。未来的研究将侧重于增强方法的鲁棒性和灵活性,以适应更复杂的实际场景和物体,进一步提升抓取成功率和安全性。
扫码观看!
“AI技术流”原创投稿计划
TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。
投稿内容
// 最新技术解读/系统性知识分享 //
// 前沿资讯解说/心得经历讲述 //
投稿须知
稿件需要为原创文章,并标明作者信息。
我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励
投稿方式
发送邮件到
melodybai@thejiangmen.com
或添加工作人员微信(yellowsubbj)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。