最新 IROS 2024：实时调整，灵活抓取！大语言模型赋能机械臂抓取

科技 2024-11-21 07:01 江苏

来源：深蓝AI

添加小助理：cv3d001，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入「3D视觉从入门到精通」知识星球，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

导读：

近年来，大型语言模型（LLMs）在多个领域展现出了卓越的推理能力，逐渐成为各行各业的重要工具。然而，在机器人领域，LLMs的应用目前主要局限于操作规划任务，尚未充分发挥其在机器人操作中的潜力，尤其是在精确的抓取任务中。

©️【深蓝AI】编译

论文标题：RT-Grasp: Reasoning Tuning Robotic Grasping via Multi-modal Large Language Model

论文作者：Jinxuan Xu, Shiyu Jin, Yutian Lei, Yuqian Zhang and Liangjun Zhang

论文地址：https://arxiv.org/pdf/2411.05212

项目地址：https://sites.google.com/view/rt-grasp

本文提出了一种创新的方法——推理调优（Reasoning Tuning），旨在解决这一问题。通过在训练过程中加入推理阶段，该方法让LLMs能够生成数值预测，尤其是在机器人抓取任务中的关键数值输出，如抓取姿势。得益于LLMs强大的推理能力和丰富的先验知识，机器人不仅能够生成适应不同场景的抓取方案，还能够通过对话进行灵活调整，从而实现更加智能化的抓取操作。

通过在多个抓取数据集和真实实验中的广泛验证，结果表明，具备多模态能力的LLMs能够精准预测抓取姿势，成功弥合了基于文本的规划与实际机器人控制之间的隔阂，显著提升了LLMs在机器人抓取领域的应用潜力。

近年来，人工智能的迅猛发展，尤其是大型语言模型（LLMs）的出现，极大推动了各个领域的进步。这些模型凭借丰富的知识库和强大的推理能力，正在彻底改变我们处理各种任务的方法，尤其是在语言处理方面。机器人学中，LLMs在促进机器人与人类之间的直接互动方面发挥了重要作用。例如，在机器人操作规划等任务中，许多研究已经利用LLMs将用户的自然语言指令转化为机器人可执行的多步骤规划。然而，尽管LLMs在机器人学中的应用潜力巨大，它们目前的应用主要集中在规划任务中，尤其是在需要精确数值输出的任务中，LLMs的应用却面临着瓶颈。

本文提出了一个创新的方法，探讨了如何将LLMs的推理能力应用于机器人任务中的数值预测，特别是在机器人抓取任务中的应用。传统的机器人抓取方法通常依赖于确定性预测，但这些方法由于缺乏推理能力，在实际应用中常常无法应对复杂环境的挑战。例如，许多基于CNN架构的传统方法在基准数据集上表现出色，但在实际操作中，常常出现理论上正确但执行时不切实际的情况。具体而言，某些理论上正确的抓取姿势，在实际操作时可能由于机器人的夹爪限制或其他因素，导致无法成功实施。因此，采用具有推理能力的非确定性方法显得尤为重要，它不仅能生成适用于不同环境的实际抓取姿势，还能根据用户的命令不断优化预测。

本文提出了推理调优（Reasoning Tuning）这一全新方法，在机器人抓取任务中引入了推理阶段，使得LLMs能够在生成数值预测之前，首先通过逻辑推理推断物体的类型、形状、位置等信息，进而得出精确的抓取姿势预测。这一推理阶段帮助LLMs更好地利用其广泛的先验知识，从而为机器人抓取任务提供更为精准的数值预测。通过对多模态LLMs进行推理调优，本文展示了该方法在提高抓取任务数值预测精度方面的有效性。

为验证推理调优方法的效果，本文还提出了专门用于机器人抓取任务的数据集——Reasoning Tuning VLM Grasp数据集，并对该数据集进行了多项实验证明。同时，我们探索了两种经济的训练策略——预训练和低秩适应（LoRA）微调，旨在提供一种资源高效的方式，将多模态LLMs的能力转移到机器人抓取等实际任务中。

总的来说，本文的研究重点是将多模态LLMs应用于数值预测任务，特别是机器人抓取任务。与传统的确定性方法不同，本文的方法不仅融入了先进的推理能力，还提出了一个新的预测优化范式。主要贡献包括：

●提出推理调优（Reasoning Tuning）方法，利用预训练多模态LLMs的先验知识，促进其在需要数值预测的任务中的适应。

●提出Reasoning Tuning VLM Grasp数据集，专门为机器人抓取任务的LLMs微调设计。

●通过两种计算高效的训练策略进行实验证明，并通过真实硬件实验验证方法的有效性，结果表明该方法能够基于用户命令精确优化抓取预测。

▲图1｜传统抓取方法与本文方法对比©️【深蓝AI】编译

在本节中，本文介绍了“推理调优（Reasoning Tuning）”在机器人抓取任务中的应用（RT-Grasp）。该方法旨在弥合LLMs固有的文本输出形式与机器人任务中对精确数值预测的需求之间的鸿沟。其主要目标是通过利用LLMs所蕴含的丰富先验知识，促进其在数值预测中的应用，特别是在机器人抓取任务中，由图1所示，对比起传统的模型，本文提出的模型能够在进行抓取时提供多组抓取姿态供用户选择，用户可以根据物体的实际情况和任务所需要的抓取策略来选取不同的抓取姿态，从而提升机器人抓取任务的灵活性。本文实现的核心在于推理调优机制，接下来的部分，笔者主要详细介绍推理调优部分的实现方法，同时讲解训练所需的策略（即微调策略）。

■2.1 推理调优

推理调优方法是本文的核心，该方法通过图像-文本对作为输入，并生成结构化的文本输出，来对多模态LLMs进行微调。这种结构化输出包括一个初始的推理阶段，随后是数值预测，如图2所示。值得注意的是，整个输出以文本形式呈现，模型被训练为顺序预测相应的token。通过在输出开始时引入推理阶段，本文鼓励模型基于与任务相关的逻辑推理生成精确的预测。

▲图2｜推理调优方法Pipeline©️【深蓝AI】编译

首先对于一个抓取任务，机器人会执行第一阶段，推理阶段：对于机器人的观测数据，可以将不同的观测数据作为不同的样本，每个数据样本包括一张RGB图像和一段文本指令，指导模型预测抓取姿势（见图3）。推理阶段中，通过机器人的观测以及大模型强大的泛化能力，能够获得物体的整体描述，包括形状和位置等，并估计了相应的抓取策略。例如，对于杯子，尽管它们的颜色、设计或材质可能不同，但一般的抓取策略是抓取杯子的把手或上缘。通过整合这样的推理阶段，模型能够对物体和相关的抓取策略形成广泛的理解，从而在后续步骤中生成更为准确的数值预测。

▲图3｜推理调优阶段推理过程示例©️【深蓝AI】编译

值的注意的是，在推理阶段的结构化文本中，本文根据物体类别生成了模板，因为同一类别物体的抓取策略通常相似。对于每个类别，作者创建了一系列不同的推理模板。在每个数据样本的结构化文本中，我们根据物体类别随机选择一个推理模板，然后附加上真实抓取姿势的文本，这个过程可能比较难理解，笔者认为可以将其简单的转述为：本文方法是以文本的形式获得机器人抓取时的各种抓取策略以及环境的观测信息，而根据机器人抓取的常见场景，能够将这些观测信息与抓取策略大致的归为几类（属于是机器学习中常见的无监督归类问题，LLM非常擅长），随后针对每个类型，提供对应的模版，这样可以促进机器人抓取任务的标准化和规范化，减少大模型自主决策导致的一些幻觉问题。

为了确保推理模板的质量，本文采用了多步骤的方法。首先，使用GPT-3.5生成针对每个类别的模板。随后，作者要求其优化这些文本，去除冗余或无关的信息。这些推理模板通常描述物体的形状，并提供一个通用的抓取策略。图4展示了一些推理模板的示例。

▲图4｜物体抓取推理文本示例©️【深蓝AI】编译

对于数据集中的输入文本指令，本文也使用GPT-3.5生成了一系列一致的指令模板，涉及机器人抓取任务，值得注意的是，生成该图像-文本数据集的方法可以适应于其他超越机器人抓取任务的数值预测任务。根据任务的不同，调整推理阶段中的策略，可以利用LLMs嵌入的适当先验知识来支持不同任务的执行。

■2.2 训练策略

提到训练，首先我们对训练所需要用到的数据集有所了解，本文创建了一个新的数据集Reasoning Tuning VLM Grasp数据集，用于微调多模态LLMs。每个数据样本包括一张RGB图像和一段文本指令，指导模型预测抓取姿势。此外，该数据集中的结构化目标文本包含了针对输入图像中的物体的推理阶段，接着是实际的抓取姿势。

现有的机器人抓取数据集通常仅包含图像和数值的真实抓取姿势。与此不同，本文提出的Reasoning Tuning VLM数据集提供了专门为集成多模态LLMs到机器人抓取任务中而设计的图像-文本对。在该数据集中，图像来自基准的Cornell Grasp数据集，在本文的数据集中，每个图像I 都有一轮对话数据( 'S,A )，其中S表示输入指令，A是相应的目标答案。本文执行了两种训练策略：预训练和LoRA微调，两种策略都使用自回归训练目标，具体来说，对于长度I为的序列，生成目标答案的概率可以表示为：

其中为模型的可训练参数，表示当前的预测token；表示当前token之前的答案token。本文的训练部分基本上在该数据集上进行，具体可参考图5，其中展示了两种训练策略，1)预训练：只有投影层的参数可训练；2) LoRA微调：仅对投影参数进行微调层，通过灵活调整训练的策略，可以实现不同的训练效果，其中LoRA Fine-tuning（图5右侧）的训练pipeline能够直观的反应出这部分训练的复杂度和维度比左侧更高，因此在后续的实验中也能够体现出其可获得更好的结果。

▲图5｜本文训练策略图示©️【深蓝AI】编译

本文的实验部分包含数值实验，可视化实验，以及大模型的调试和生成可视化实验，笔者将一次挑选重点结果为大家介绍，首先实在公开和私有数据集上的量化数值实验。

▲图6｜量化数值实验©️【深蓝AI】编译

从图6可以看出，在量化数值实验中，本文方法能够取得不错的效果，在下面的折线图中，明显能够观察到基于LoRA Fine-tuning训练策略的模型能够取得更好的效果，这和训练的复杂度和维度相关，验证了作者在文章提出的设想。随后作者进行了抓取实验。

接下来是本文的重头戏，也就是阴影渲染可视化实验。

▲图7｜抓取物体展示©️【深蓝AI】编译

▲图8｜抓取实验结果©️【深蓝AI】编译

图7和8为抓取实验的结果，图7丰富的抓取物体能够反映出本文方法优秀的泛用性，图8中的柱状图能够看到本文方法对于不同的抓取物体均能够取得不错的效果，这是本文调优推理策略的卓越贡献。最终是大模型运行可视化实验，如图9所示，能够清晰的看到通过人机交互，大模型能够对于抓取策略进行实时的调整，根据User的指示灵活切换不同的抓取策略，为抓取过程带来更多的灵活性。

▲图9｜大模型运行可视化©️【深蓝AI】编译

本研究强调了大型语言模型在传统文本处理之外的潜力。作者提出的方法利用了LLMs的丰富先验知识，特别是在机器人抓取任务中的数值预测能力。通过在基准数据集和实际场景中的广泛实验，作者验证了该方法的有效性。未来的工作将扩展这一方法的验证，计划将其应用于包含更广泛物体的抓取数据集。此外，作者认为探索多模态LLMs在其他机器人操作任务中的数值预测适应性，也是一个具有前景的研究方向。

Ref：

RT-Grasp: Reasoning Tuning Robotic Grasping via Multi-modal Large Language Model

编
译｜
阿豹审核｜cc

本文仅做学术分享，如有侵权，请联系删文。

3D视觉交流群，成立啦！

目前我们已经建立了3D视觉方向多个社群，包括2D计算机视觉、最前沿、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向，细分群包括：

工业3D视觉：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机：四旋翼建模、无人机飞控等

2D计算机视觉：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿：具身智能、大模型、Mamba、扩散模型、图像/视频生成等

除了这些，还有求职、硬件选型、视觉产品落地、产品、行业新闻等交流群

添加小助理: cv3d001，备注：研究方向+学校/公司+昵称（如3D点云+清华+小草莓）, 拉你入群。

3D视觉工坊知识星球

「3D视觉从入门到精通」知识星球，已沉淀6年，星球内资料包括：秘制视频课程近20门（包括结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云等）、项目对接、3D视觉学习路线总结、最新顶会论文&代码、3D视觉行业最新模组、3D视觉优质源码汇总、书籍推荐、编程基础&学习工具、实战项目&作业、求职招聘&面经&面试题等等。欢迎加入3D视觉从入门到精通知识星球，一起学习进步。

▲长按扫码加入星球

3D视觉工坊官网：www.3dcver.com

具身智能、3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪等。

3D视觉模组选型：www.3dcver.com

— 完 —

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

3D视觉科技前沿进展日日相见 ~

http://mp.weixin.qq.com/s?__biz=MzU1MjY4MTA1MQ==&mid=2247711370&idx=4&sn=ca210455b9eb3649bed95cd73bedcbc3

3D视觉工坊

专注于工业3D视觉、SLAM、自动驾驶、三维重建、无人机、具身智能、扩散模型等前沿技术分享与产业落地，力争打造为国内最专业的3D视觉社区。官网：www.3dcver.com 佳v：cv3d007 或 13451707958

最新文章

谷歌2024博士奖学金名单公布

还在用3DGS？更快、更真、更准的3DLS即将开源！

彻底搞懂扩散模型数学基础剖析、公式推导、代码讲解

最新 IROS 2024：实时调整，灵活抓取！大语言模型赋能机械臂抓取

机器学习中有哪些形式简单却很巧妙的idea？

高精度三维重建，KW-P 3D相机能行吗？

彻底解决尺度漂移！浙大新作BEV-ODOM：使用BEV增强单目VO！定位精度SOTA！

用深度强化学习实现机械臂抓取，请问大家都是怎么做的仿真？现在有点迷茫?

为什么现在的 AI 大模型好像只有中美在做，世界上其他国家都好像完全消失了？

已注销！985新校区，不建了

COLMAP即将Out！图像没有任何重叠也能估计位姿！爆拉LoFTR & Dust3D十倍精度！

突破维度限制！GenXD：拿捏真实通用3D、4D生成！

给工坊的深度相机精度排个名，JD-500第6，第一名没有争议！

3D视觉课程&硬件汇总

国内外高校具身智能实验室汇总（国内、北美、欧洲篇）

告别CAD模型依赖！GS2Pose：用3D高斯点云重塑6D姿态估计！

UC伯克利开源！深度估计、光流、分割大一统！

配套源码！让VINS-Mono原地起飞！转弯也不跟丢！

结构光视觉如何用于工件位置和姿态测量，与双目视觉相比有何优劣势？

三维重建 3D reconstruction 有哪些实用算法？

持续提高SuperPoint+LightGlue匹配质量！万能辅助！任何情况都不会对结果产生负面影响！

NeurlPS'24开源 | Point-PRC：全新通用点云分析框架！

魔改一个loss可以发啥水平的文章?

新文章提出取消作者姓名排序，人人都是一作，你赞同这种署名方案吗？

复旦&蔚来开源DG-SLAM：第一个动态环境下的鲁棒GS SLAM！

更智能！更高效！国科大重磅！无人机视角下的目标识别：UEVAVD数据集与IBE-MAP策略

学LLM大模型算法，简历上写了“精通大模型”后......

为什么说px4仍然是无人机控制的核心？

NeurIPS'24开源 | 无惧遮挡！多实例点云配准新SOTA！简单而强大的3D聚焦和匹配网络

ECCV 2024 oral | 通过跟踪实现在线高清地图重建，达到SOTA性能！

全局与局部提示分离！GlocalCLIP：零样本异常检测！实现跨领域异常检测的高效突破！

各位被拒稿的理由都是啥？

MIT全新开源！回环准确性和语义一致性SOTA！SEO-SLAM：视觉SLAM的语义增强！

NeurIPS'24 | 端到端！英伟达全新LSM框架：从无姿态图像到语义3D重建！

AIGC是否会颠覆未来的生产模式？普通人如何利用AI提高效率？

国内 AI 大模型已近 200 个，为什么没有一个比的上 GPT-4o？

MIT开源！轨迹精度暴涨37%！ROMAN：无惧特征稀疏和感知混淆，超鲁棒的全局定位！

精度0.05mm！一款轻量化DLP单目结构光3D相机

李飞飞团队新作：空间智能版ImageNet来了！

研二计算机视觉方向，没有idea也不会写代码，该怎么办？

具身智能、扩散模型、大模型微信交流群成立啦！

2024年图像匹配挑战赛：银牌解决方案！

1W | 飞行器和地面车辆线路协同巡检项目(租借进行演示)

无惧透明物体！重新思考曲面重建：NeuS再升级！（中科院&NTU重磅开源）

站在AI前沿！为什么现在是学习LLM算法工程师的最好时机？

请问有哪些计算机视觉 CCF-B、C 类期刊和会议比较容易中稿？

今年毕业，要不要选3D视觉这个赛道？

比LoFTR快5倍！比LightGlue精度高20%！ETO：超快局部特征匹配！（浙大章国锋团队）

在所有基准创下新高！微软开源PF3plat：无需位姿先验，全新3DGS重建和新视角合成框架！

当审稿人给的意见，你无法修改的时候怎么办？

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

最新 IROS 2024：实时调整，灵活抓取！大语言模型赋能机械臂抓取

RT-Grasp: Reasoning Tuning Robotic Grasping via Multi-modal Large Language Model

编译｜阿豹 审核｜cc

3D视觉工坊知识星球

3D视觉模组选型：www.3dcver.com

编
译｜
阿豹审核｜cc