IROS 2024 | 借助地形抓取“不可抓取”的物体，清华AIR和北大出品

创业 2024-08-30 08:22 北京

本文旨在解决机器人操作中使用两指夹持器抓取缺乏明显抓取特征的物体的挑战。传统预抓取方法对不同形状物体泛化性有限，对不同场景适应性有限。为此，清华大学智能产业研究院赵昊老师，北京大学董豪老师、朱毅鑫老师的团队联手提出了PreAfford，这是一种新颖的预抓取规划框架，结合了点级Affordance表示和接力训练方法，构建出可实机部署的预抓取算法。仿真和真机的实验结果表明，PreAfford显著提高了抓取成功率，能自然适应于多种形态物体和复杂混合场景。

论文名称：
PreAfford: Universal Affordance-Based Pre-Grasping for Diverse Objects and Environments
论文链接：
https://arxiv.org/pdf/2404.03634
代码链接：
https://github.com/Robot-K/PreAfford
项目网站：
https://air-discover.github.io/PreAfford

一、研究动机

机器人操作中常使用两指夹持器抓取物体，然而生活中大量物体缺乏明显抓取特征，不易于被两指夹持器直接抓取。在抓取前规划预抓取操作调整位姿是一项极具挑战的任务，传统的预抓取方法通常涉及重新定位物体或利用外部辅助（如桌边），但这些方法在不同物体类别和环境中的适应性有限。

观察到人类在抓取物品前会综合考虑物体和场景的位形，并利用多种场景特征实施抓取，我们提出了PreAfford，这是一种新颖的预抓取规划框架，结合了点级稠密Affordance表示和接力训练（Relay training）方法。

预抓取示意图。(a) 一个平放在地板上的物体，在当前位置无法抓取。(b) 侧面抓取悬挂在表面上的物体。(c) 抓取从槽中突出的一个倾斜部分。(d) 抓取悬挂在斜坡底部的手机中间。(e) 将手机固定在墙上并从另一侧抓取。

二、方法

2.1 框架概述

PreAfford框架包含两个主要模块：预抓取模块和抓取模块。预抓取模块负责将物体重新定位到一个更有利于抓取的位置，而抓取模块则负责最终的抓取操作。每个模块都由三个专用神经网络组成：可供性（Affordance）网络、提案（Proposal）网络和评价（Critic）网络。这三个网络分别负责选择接触点、生成接触方案和评估接触点和接触方案的优良性。模型的推理和训练按照相反的方向进行：推理时，预抓取和抓取模块顺次进行评估、推理、实施；训练时，模拟器中采集的离线训练数据由抓取模块打上标签，用于训练预抓取模块。我们将称这个过程为“接力”。

PreAfford框架

2.2 模块结构

特征提取器：所有六个网络都使用PointNet++模块对点云进行编码，并通过各异的多层感知机（MLP）处理接触点、接触操作等附加输入特征。
可供性网络：使用多层感知机（MLP）接收整体点云和接触点特征，评估物体上逐点的可供性得分，生成可供性地图。
提案网络：使用条件变分自编码器（cVAE）架构，接收整体点云特征和可供性地图，生成预抓取或抓取操作的建议。
评价网络：使用多层感知机（MLP）接收整体点云、接触点和接触操作，给出评分预估操作的有效性。

2.3 推理过程

推理过程分为四个阶段：

预抓取必要性检查：抓取模块的评价网络评估物体在当前位姿的抓取成功可能性，判断是否需要预抓取操作。
预抓取操作推理与实施：预抓取模块的可供性网络生成可供性地图，提案网络采样若干预抓取方案，评价网络选择最佳的预抓取操作并执行。
闭环控制：每次预抓取后重新评估可能性，如果初始预抓取失败，系统将迭代调整物体位置，直到成功。
抓取操作推理与实施：在预抓取后进行最终的抓取操作，过程类似预抓取操作的推理。

2.4 训练与损失

数据生成：采用ShapeNet-v2数据集中有、无明显抓取特征的物品各5种，场景自主搭建。仿真器中，在一定人类先验的基础上添加随机性，采集抓取和预抓取数据各40000条。
损失函数：训练过程包括以下几个损失函数

评价网络损失：基于抓取和预抓取操作的成功率，两个模块分别使用二元交叉熵损失和L1损失。
提案网络损失：cVAE重建结果的几何损失和KL散度损失。
可供性网络损失：基于平均评价得分的绝对差值。

接力训练：由于预抓取操作的优良性难以被评估，我们先完成抓取模块的训练，其评价网络可以用于评价某位型的抓取成功可能性。再使用该评价网络为预抓取数据生成标签，以抓取成功可能性的提升为奖励，以非法和不当的预抓取操作为惩罚，从而“接力”训练预抓取模块。

三、试验结果

3.1 模拟实验

在ShapeNet-v2数据集上进行测试，涵盖5个见过的和4个未见过的难抓取物体类别以及5个场景。其中“组合环境”中同时存在前面四种场景特征，是在训练时未见过的复杂场景，要求模型自主决定需要使用的环境特征并给出相适应的方案。结果显示，PreAfford显著提高了抓取成功率，平均提升了69%。

设置	训练集物体						测试集物体
	边缘	墙壁	斜坡	槽	组合环境	平均	边缘	墙壁	斜坡	槽	组合环境	平均
无预抓取	2.3	3.8	4.3	3.4	4.0	3.6	6.1	2.3	2.9	5.7	6.0	4.6
随机方向推	21.6	10.3	6.4	16.8	18.1	14.6	24.9	17.2	12.1	18.4	23.0	19.1
中心点推	32.5	23.7	40.5	39.2	39.0	35.0	25.1	17.4	28.0	30.2	21.5	24.4
PreAfford（无闭环）	67.2	41.5	58.3	76.9	63.6	61.5	56.4	37.3	62.6	75.8	55.4	57.5
PreAfford	81.4	43.4	73.1	83.5	74.1	71.1	83.7	47.6	80.5	83.0	74.6	73.9

定量分析。 相较无预抓取，PreAfford（无闭环）将抓取成功率提高了52.9%；香蕉随机推或过中心点推也有大幅提升，表明预抓取操作确能提升抓取效率。闭环策略进一步在所有类别中将成功率提高了16.4%，表明抓取可能性的评估合理有效，多次预抓取倾向于自动纠错。

模拟实验。图中展示了边缘、墙壁、斜坡、槽四种场景下训练类别和测试类别的定性结果，可供性地图和操作的可视化结果表明，PreAfford能够在多种场景和未见过的场景中给出合理的推理。

定性分析。 在以上的模拟实验中，模型展现出以下特性：

环境适应性：在四种场景中，可供性地图都倾向于在物体远离环境特征的一侧给出高得分，意味模型倾向于将物体推向环境特征，利用特征实施抓取。
几何理解性：薄片物体的预抓取策略通常是通过物体质心的一次推动，这表明模型能理解物体的几何特征。

3.2 现实世界实验

在真实世界的实验中，PreAfford展示了其高适应性和实用性。实验涵盖了5个见过的和5个未见过的物体类别，结果显示在训练集物体和测试集物体上抓取成功率分别提升74%和69%。

设置	训练集物体						测试集物体
	边缘	墙壁	斜坡	槽	组合环境	平均	边缘	墙壁	斜坡	槽	组合环境	平均
无预抓取	0	0	0	0	0	0	10	0	5	0	0	3
有预抓取	70	45	80	90	85	74	80	30	75	90	85	72

真实世界实验

四、结语

本工作提出了PreAfford，一种新颖的基于可供性的两阶段预抓取框架，在多样化的物体和环境中展示了出色的适应性、兼容性和可部署性。未来的工作将致力于提高方法的鲁棒性和灵活性，以应对更复杂的形状和动态环境。

主要贡献

提出了一种新颖的、适应性强的预抓取框架，兼容可直接抓取的物体。
开发了一种接力训练范式，增强了预抓取操作策略适应性。
引入点级可供性表示，提供了详细的几何感知能力，同时感知场景和物体，实现综合推理。
在模拟和现实环境中进行了广泛验证，证明了PreAfford的有效性。

未来展望

目前PreAfford在处理柔性、高度不规则或极端动态环境中的物体时仍存在挑战，不具备多步、长程的复杂规划，缺少安全性的保证。未来的研究将侧重于增强方法的鲁棒性和灵活性，以适应更复杂的实际场景和物体，进一步提升抓取成功率和安全性。

llustration From IconScout By IconScout Store

-The End-

扫码观看！

本周上新！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（www.techbeat.net）。社区上线500+期talk视频，3000+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章，并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向，对用户启发更大的文章，做原创性内容奖励

投稿方式

发送邮件到

melodybai@thejiangmen.com

或添加工作人员微信（yellowsubbj）投稿，沟通投稿详情；还可以关注“将门创投”公众号，后台回复“投稿”二字，获得投稿说明。

关于我“门”

▼

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角，把文章分享到朋友圈

点击“阅读原文”按钮，查看社区原文

http://mp.weixin.qq.com/s?__biz=MzAxMzc2NDAxOQ==&mid=2650513534&idx=1&sn=c47034ebe5af6be023d3c0b9e8943717

将门创投

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器，由前微软创投在中国的创始团队于2015年底创立。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

ECAI 2024 | 可适应点云模型：通过适应二维视觉模型进行三维点云分析

一文看懂Mamba，Transformer最强竞争者

ACL 2024 Oral | 大模型也会被忽悠？揭秘AI的信念之旅

Talk预告｜中国人民大学徐晨：推荐系统中供应商公平性的算法与理论研究

ECCV 2024 | GKGNet：多标签分类遇上图卷积网络ViG

ECCV 2024 | UCF联合亚马逊提出X-Former框架，显著提升MLLM细粒度理解能力

8卡3090可训练，Mini-Monkey解决切分策略增大分辨率导致的语义丢失

将门投资企业 | 阿里云「开学季 Ai 第一课」采用「MyTwins.ai」数字分身，为直播行业带来新场景

Talk预告｜香港大学杨丽鹤：Depth Anything V2 - 更精细更鲁棒的单目深度估计基础模型

如何分解视觉信号？一文浅谈视觉生成领域存在的若干问题

可远程！将门创投招聘实习生！

Talk预告｜清华大学诸子钰：面向具身智能的通用3D视觉语言理解

21.5万张X光、78万个问题，德州大学NIH等联合发布医学视觉问答数据集Medical-CXR-VQA

斯坦福最新理论研究：RLHF中奖励过度优化现象也存在Scaling Laws

将门月报 | 智谱发布新一代基座模型、文远知行无人驾驶扫路机S1驶入广东汕头、杉数科技携手南京鼓楼管养集团打造智能化环卫系统

IROS 2024 | 借助地形抓取“不可抓取”的物体，清华AIR和北大出品

ECCV 2024 Oral | SPLAM：基于子路径线性近似的扩散模型加速方法

Talk预告｜香港大学戚张扬：物体级别3D点云多模态大模型

ECCV 2024 | PosFormer：识别复杂手写数学表达式的位置森林变换器

Talk预告｜浙江大学&西湖大学曹淼：视频单曝光压缩成像重建算法探索

ACM MM 2024 Oral | 突破传统方法局限！用语义正确性评估视觉问答生成结果

8.27 直播预告 | 科研的使命：学术界 vs 工业界

ECCV 2024 | 南洋理工三维数字人生成新范式：结构扩散模型

Talk预告｜香港大学李卓凌：统一多场景的单目3D目标检测

同时操控手机和电脑完成任务，CAMEL联合多家机构发布首个跨系统智能体评测基准CRAB

Talk预告｜波形智能CTO周王春澍：可自主进化的AI智能体系统

ECCV 2024 | 一个Query解决所有感知任务! 单阶段多任务感知模型HQNet

近100页的LLaMA 3技术报告：模型结构及影响解析

ICML 2024 | 维度坍塌视角下的大规模推荐系统

Talk预告｜香港大学陈汐：零样本图像编辑中ID一致性与生成多样性的平衡

TKDE 2024 | 彻底摒弃人工标注，AutoAlign方法基于大模型让知识图谱对齐全自动化

Talk预告｜伊利诺伊大学香槟分校张凯风：AdaptiGraph - 材料自适应的图神经动力学模型

ACM MM 2024 | 基于掩码的注意力调整约束引导在复杂场景中的图像局部编辑

调研近400篇文献，鹏城实验室、中山大学深度解析具身智能

ACM MM 2024 | 多模态不可学习样本：保护数据免受多模态对比学习的威胁

FBI-LLM低比特基础大模型，首个完全从头训练的二值化语言模型

ACL 2024 | 基于自我规划的自动化问答智能体学习

IEEE RAL 2024 | CDM-MPC：解决人形机器人的连续跳跃难题

ECCV 2024 | 视觉优先&文本偏好？BPO缓解MLLMs幻觉，提升视觉理解力

将门创新伙伴 | 城越UrbanLab科技出海创新行启动会暨香港1.5℃峰会说明会

Talk预告｜普林斯顿大学魏博逸：通过剪枝&低秩改造揭示LLMs安全对齐的脆弱性

ICML 2024 Oral | CompeteAI：从理解竞争机制出发、探索大模型智能体如何助力社会科学研究

ECCV 2024 | 哈佛团队开发FairDomain，实现跨域医学图像分割和分类中的公平性

8.6 直播预告 | 论文背后的故事：梦“想”何时成“真” - 图形渲染 vs 图像生成

ECCV 2024 | 让GPT-4图像理解更易出错，全新策略增强VLP模型对抗迁移性

TPAMI 2024 | ProCo：无限contrastive pairs的长尾对比学习

将门月报 | 文远知行开启东莞首个无人环卫商业项目、伟景智能推出全球首款智能人形采摘机器人、墨芯荣登Silicon 100榜单

Talk预告｜北京大学于博涵：EventPS - 基于事件相机的实时光度立体视觉

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉