重塑跨智能体灵巧手抓取，NUS邵林团队提出全新交互式表征，斩获CoRL Workshop最佳机器人论文奖

科技 2024-12-21 04:39 辽宁

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

本文的作者均来自新加坡国立大学 LinS Lab。本文的共同第一作者为上海交通大学实习生卫振宇和新加坡国立大学博士生徐志轩，主要研究方向为机器人学习和灵巧操纵，其余作者分别为实习生郭京翔，博士生侯懿文、高崇凯，以及硕士生蔡哲豪、罗嘉宇。本文的通讯作者为新加坡国立大学助理教授邵林。

想象一下，市面上有数十种形态各异的灵巧手，每一款都被设计得精巧而独特。然而，是否有可能存在一种通用的抓取策略，无需为每款灵巧手单独优化，却能够适应各种机器人手型和多样物体形状？这一看似遥不可及的梦想，正在逐步成为现实。

灵巧抓取是机器人操作领域的一项核心挑战，它要求机器人手能够与物体实现精确且稳定的交互接触。然而，如何有效建模这种高自由度且复杂的交互关系，并生成精准、多样且高效的抓取策略，一直是该领域亟待解决的难题。

近期，新加坡国立大学计算机学院的邵林团队提出了 D(R,O) Grasp：一种面向跨智能体灵巧抓取的机器人与物体交互统一表示。该方法通过创新性地建模机器人手与物体在抓取姿态下的交互关系，成功实现了对多种机器人手型与物体几何形状的高度泛化能力，为灵巧抓取技术的未来开辟了全新的方向。该论文在 CoRL 2024 MAPoDeL Workshop 中获得了 Best Robotics Paper Award。

论文标题：
D(R,O) Grasp: A Unified Representation of Robot and Object Interaction for Cross-Embodiment Dexterous Grasping
项目主页：
https://nus-lins-lab.github.io/drograspweb/
论文链接：
https://arxiv.org/abs/2410.01702
代码链接：
https://github.com/zhenyuwei2003/DRO-Grasp

一、引言

灵巧抓取是机器人完成复杂操作任务的关键，但由于灵巧手的高自由度及稳定抓取所需的复杂交互，任务挑战巨大。目前基于深度学习的方法主要分为机器人中心 (robot-centric) 和物体中心 (object-centric) 两类。

机器人中心方法（如手腕姿态或关节角度表示）直接将观测映射为控制命令，推理速度快，但样本效率低，且因映射依赖特定机器人结构，难以泛化到不同手型。

物体中心方法（如接触点和接触热力图表示）通过描述物体几何与接触信息，泛化能力强，适应不同物体和手型。然而，需额外优化步骤（如指尖逆运动学求解）将预测结果转化为运动学可行的抓取姿态，计算复杂且耗时。

为克服这些局限，我们提出交互中心 (interaction-centric) 的统一表示 D(R,O)。该方法捕捉机器手运动学与物体几何的交互关系，弥补机器人中心方法的泛化不足，同时提升物体中心方法的推理效率，实现跨机器人手型与物体形状的泛化，为灵巧抓取提供高效且鲁棒的解决方案。

图 1 灵巧手抓取方法比较

二、方法

图 2 D(R,O) Grasp 整体框架

给定物体点云和机器人手的 URDF 文件，模型的目标是生成灵巧且多样化的抓取姿态，能够在不同的物体和机器人手型之间实现广泛的泛化。D(R,O) Grasp 整体框架如图 2 所示，主要有以下三个部分组成：

1. 基于对比学习的配置不变预训练

2. D(R,O)表征预测

3. 基于 D(R,O) 表征的抓取姿态生成

2.1 基于对比学习的配置不变预训练

学习灵巧抓取需要理解机器手与物体的空间关系，目标是将机器手的特定配置与物体匹配。然而，由于不同配置下机器手整体姿态变化显著，模型难以捕捉局部几何特征的一致性。为此，我们提出一种配置不变的预训练方法，通过训练神经网络对齐不同配置下的几何特征，促进匹配并提升多姿态适应能力。

我们首先采样并存储机器手各 link 的点云数据。基于前向运动学模型，可为任意配置计算对应点云，确保不同配置下点云的一致性。在预训练中，规范配置（如张开手姿态）和抓取配置的点云分别输入机器人编码器网络提取逐点特征。我们通过点间欧氏距离加权正负点对关系，进行逐点对比学习，并计算如下损失函数：

该方法通过对齐不同配置下编码器的几何特征，简化机器手与物体匹配难度，提高模型的泛化能力。

2.2 D(R,O) 表征预测

我们预测的 D(R,O) 表征是一个机器手点云和物体点云之间相对距离矩阵（Distances of Robot and Object）。首先，我们使用两个相同结构的编码器分别提取机器手点云和物体点云的几何特征：

在此过程中，机器手的编码器使用预训练网络并在训练中保持冻结。为建立两组特征的对应关系，我们引入两个 Transformer 模型嵌入点间对应信息，并使用残差连接：

为实现跨智能体抓取的多样性，我们采用条件变分自编码器（CVAE）网络捕捉机器手、物体与抓取姿态的多种组合变化。具体而言，将机器手与物体在抓取姿态下的点云拼接后输入 CVAE 编码器，利用点云特征作为条件生成隐变量。随后，将隐变量与每个点特征拼接，得到机器手和物体的综合特征。

对于机器手某点与物体某点的综合特征，我们采用结合 MLP 网络和 softplus 函数的核函数计算相对距离，确保结果具有对称性和非负性：

通过对所有点对进行上述计算，我们最终得到完整的 D(R,O) 表征如下：

2.3 基于 D(R,O) 表征的抓取姿态生成

给定预测的 D(R,O) 表征，我们获得了机器人手点云与物体点云之间的相对距离关系。由于物体点云已知，我们可利用这些距离关系通过多点定位（Multilateration）技术计算出隐式描述的机器人手点云。本质上，这是一个最小二乘优化问题：

该问题已证明具有闭式解，可快速计算机器人手点云。在三维空间中，确定一个点的位置仅需四个相对距离，而 D(R,O) 表征提供了上百个距离。相比直接预测点云，这种表征对神经网络预测误差更加鲁棒。

得到机器人手点云后，为求解相应关节值，我们将逆运动学分为两步：首先，使用 SVD 分解从点云计算出每个 link 的 6D 姿态；然后，以这些 6D 姿态为优化目标，利用雅克比矩阵迭代更新初始关节值，最终得到期望抓取姿态的关节值。

这一优化过程约束简单，即便是 ShadowHand 等高自由度灵巧手，也可在不到 1 秒内完成优化，大幅提升抓取生成速度。

三、实验结果

图 3 与 baseline 的实验结果对比

在实验中，我们评估了抓取成功率、姿态多样性及生成效率三个指标。抓取结果在 10 个全新物体上进行了测试，使用 Barrett、Allegro 和 ShadowHand 三款灵巧手进行比较。图 3 表显示，我们的方法在所有灵巧手上都显著超越了现有方法的成功率，验证了方法的有效性。此外，生成速度亦大幅优于其他方法，这对灵巧操控任务至关重要。

图 4 生成抓取与 baseline 失败抓取可视化

与基准方法相比，我们的方法生成的抓取姿态更自然且鲁棒，而基准方法易产生不自然、穿透严重且稳定性差的抓取。

图 5 不同条件下实验结果对比

从图 5 表前两行可见，跨智能体训练较单一机器人训练在成功率上略有提升，证明了跨智能体的良好泛化能力。即便输入部分点云，我们的方法也能取得优异表现，展示了其广泛适用性。

图 6 多样化的抓取姿态生成

由于训练数据中输入和抓取旋转已对齐，模型能隐式映射这些旋转，从而根据输入方向生成适宜抓取姿态。如图 6 所示，六个不同方向下模型均生成可行抓取，体现方法的可控性。同时，通过从正态分布中采样隐变量，模型在相同方向上生成多个抓取姿态，展现多样性。

图 7 预训练点云匹配可视化

图 7 展示了预训练模型捕捉到的不同配置下几何特征的对齐关系，不同机器人手间的强匹配性突显了特征的迁移能力。正如图 3 表所示，去除预训练参数直接训练编码器会导致性能显著下降，进一步证明预训练的重要性。

图 8 真机实验效果

在真实机器人实验中，算法部署到 XArm 和 LeapHand 上，并在 10 个全新物体实验中达成 89% 成功率，展现了方法在灵巧抓取中的有效性和良好泛化能力。更多实验视频请见项目主页。

四、总结

在本论文中，我们提出了一种基于相对距离矩阵 D(R,O) 的新颖表征方法，用于捕捉机器人手与物体之间的交互信息，从而提升灵巧手的抓取性能。与现有方法过于依赖特定物体或机器手表示的局限性不同，我们的方法通过引入统一框架弥合了这种差距，并在不同机器人和物体几何形状之间实现了良好的泛化能力。此外，我们设计的预训练方法有效增强了模型适应不同手部配置的能力，从而支持广泛的机器人系统应用。实验结果表明，我们的方法在抓取成功率、姿态多样性以及计算效率方面均取得了显著提升，为灵巧抓取任务提供了新的解决方案。

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

机器之心

专业的人工智能媒体和产业服务平台

最新文章

刚刚，OpenAI放出最后大惊喜o3，高计算模式每任务花费数千美元

统一视觉理解与生成，MetaMorph模型问世，LeCun、谢赛宁、刘壮等参与

人会逆向思维，LLM也可以？DeepMind研究表明还能提升推理能力

重塑跨智能体灵巧手抓取，NUS邵林团队提出全新交互式表征，斩获CoRL Workshop最佳机器人论文奖

2025英伟达奖学金出炉，7位华人博士生入选，上交、中科大、浙大校友在列

图森未来陈默：自动驾驶无以为继，急转驶入AIGC游戏，已拿下金庸群侠传、三体IP | 智者访谈

智源发布FlagEval「百模」评测结果，丈量模型生态变局

推理最强也最快，谷歌发布Gemini 2.0 Flash Thinking，全面超越o1-preview

出手即王炸？照片级真实度生成式世界模型，还获得皮克斯和Jeff Dean投资

UniReal登场：用视频架构统一图像生成与编辑，还学到真实世界动态变化规律

刚刚，OpenAI元老级研究员Alec Radford离职，他主导了GPT-1、GPT-2的研发

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物

震惊！Claude伪对齐率竟能高达78％，Anthropic 137页长论文自揭短

CMU把具身智能的机器人给越狱了

跨模态通信总丢失语义、产生歧义？加入AI大模型，LAM-MSC实现四模态统一高效传输

在线试玩 | 对齐、生成效果大增，文本驱动的风格转换迎来进阶版

微调时无需泄露数据或权重，这篇AAAI 2025论文提出的ScaleOT竟能保护隐私

Scaling Law撞墙？预训练终结？亚马逊云科技为什么还在做基础大模型

李飞飞团队统一动作与语言，新的多模态模型不仅超懂指令，还能读懂隐含情绪

英伟达下代RTX 50系列显卡规格被泄露，旗舰5090显存达32GB

Florence-VL来了！使用生成式视觉编码器，重新定义多模态大语言模型视觉信息

让多视角图像生成更轻松！北航和VAST推出MV-Adapter

AI大模型时代，人才的需求已经变了

3B模型长思考后击败70B！HuggingFace逆向出o1背后技术细节并开源

OpenAI被偷家，谷歌Veo 2反超Sora

NeurIPS Spotlight | 基于信息论，决策模型有了全新预训练范式统一框架

USENIX Sec'25 | LLM提示词注入攻击如何防？UC伯克利、Meta最新研究来了

Tokenization不存在了？Meta最新研究，无需Tokenizer的架构来了

Kimi又上新！抢先实测视觉思考模型k1，甚至比o1更聪明

与1500多支国内外队伍同台竞技，快手在NeurIPS 2024顶级大赛中上演双杀

企业大模型落地关键是什么？这家领先的大模型技术和应用公司给出答案

AI病理助手来了！浙大OmniPT上岗，3秒锁定癌症病灶，准确率超95%

世界模型进入4D时代！单视角视频构建的自由视角4D世界来了

Bengio参与的首个《AI安全指数报告》出炉，最高分仅C、国内一家公司上榜

对话肖特特：从伯克利到PromptAI创业，发明创造下一代视觉智能

哗然！MIT教授NeurIPS演讲公开歧视中国学生，大会官方认错、本人道歉

预训练将结束？AI的下一步发展有何论调？Scaling Law 撞墙与否还重要吗？

决策过程是魔法还是科学？首个多模态大模型的可解释性综述全面深度剖析

Ilya Sutskever在NeurIPS炸裂宣判：预训练将结束，数据压榨到头了（全文+视频）

无人机：不是我想长腿，《Nature》论文说这样更省力

KDD2025 | 多标签节点分类场景下，阿里安全&浙大对图神经网络增强发起挑战

世界模型才是智驾唯一解？造车新势力们对于自动驾驶世界模型的探索路线有何异同？

Mamba作者带斯坦福同学、导师创业，Cartesia获2700万美元种子轮融资

OpenAI很会营销，而号称超强AI营销的灵感岛实测成效如何？

李飞飞：World Labs这样实现「空间智能」

扩散模型=流匹配？谷歌DeepMind博客深度详解这种惊人的等价性

多智能体架构Insight-V来了！突破长链视觉推理瓶颈

微软高剑峰、哈工大（深圳）张民等四位华人入选，2024 ACL Fellow名单公布

Sora之后，苹果发布视频生成大模型STIV，87亿参数一统T2V、TI2V任务

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉