本文由“机器人ROBOT”公众号原创,欢迎转载,请务必完整转载全文并在文章初始位置插入本公众号名片和链接。
欢迎引用:
吴培良, 李瑶, 牛明月, 陈雯柏, 高国伟. 一种视/触觉融合的柔性物体抓取力估计方法[J]. 机器人, 2024, 46(5): 544-553.
识别二维码,访问全文PDF
该文重点探讨了在共融机器人研究领域中,如何通过融合视觉与触觉信息来提高机器人抓取柔性物体的稳定性和成功率。首先介绍了传统的抓取力估计方法存在的局限性,特别是在处理柔性物体的复杂物理属性时。接着,介绍了触觉传感器在提供物体物理特征信息方面的重要性,并讨论了视觉传感器在提供环境信息和物体形状方面的优势。还进一步探讨了如何通过结合视觉和触觉数据,利用深度学习技术如 Transformer 和卷积神经网络(CNN)来增强抓取力估计的准确性和稳定性。最后,提出了新的抓取力估计方法,并探讨了视频视觉Transformer(ViViT)模型在处理视/触觉融合信息中的潜力,以提升机器人抓取柔性物体的能力。
1. 多感知局部增强
针对视/触觉信息进行安全抓取力估计,构建了一种基于视/触觉融合技术的抓取力估计模型框架,结构如图 1 所示。该框架由3个主要部分组成:特征提取模块、知识嵌入模块、预测模块。2 种模态信息分别通过特 征提取模块,对每个图像序列进行特征提取,分别生成一个大小为 D 嵌入向量,记录物体的物理特征。知识嵌入模块将这些向量连接起来,并将其投影到一个低维的融合物理特征嵌入向量中。预测模块将嵌入向量和控制参数(力阈值)作为输入,预测最终的抓取结果,并据此推断出所需的抓取力。
该模型通过“捏”和“抓取”两个探索性动作获取物体的视觉和触觉信息,通过处理视觉和触觉传感器的图像序列,生成低维物理嵌入向量,并结合控制参数预测抓取力。
为了获得与卷积神经网络相当的性能,ViViT 算法需要获取大量的训练数据或者进行额外的监督。为此,设计了一个用于提取图像浅层特征的 Feature-to-Patch 模块,结合 CNN 网络在提取浅层特征方面的优势,提升 ViViT 算法的性能,并通过局部增强模块提升空间维度上的局部性。该模块的结构如图 2 所示。
2. 实验结果
采用配备视觉传感器(RealSense D435相机)和触觉传感器(GelSight传感器)的UR5机械臂和WSG-50夹持器作为实验平台,通过视觉和触觉数据的融合,使用改进的视觉视频Transformer模型进行抓取力估计。
实验中使用Fruit Data数据集,对多种水果进行抓取训练和测试,包括苹果、柠檬、橙子、李子、番茄和猕猴桃。在模型训练之前首先进行数据预处理,为了在训练阶段能够使用“滑动”“损坏抓取”“稳定抓取”来教导模型区分不同的情况或状态,在数据集上标注“滑动”“损坏抓取”“稳定抓取”等标签。因此,这些标记好的数据主要用于训练阶段,帮助模型学习如何识别和处理这些特定的情况。为验证算法的有效性,将提出的模型结构 MSLET与ResNet18+、TimeSformer、视觉视频 Transformer(ViViT)、LEViViT 等多种模型进行对比实验,结果如图 3 所示。所有模型在经过充分训练后,准确率趋于稳定并且差异不大,表明经过适当训练,基于Transformer 的模型在数据量有限的情况下也能达到与CNN+RNN结构相仿的效果,显示出在柔性物体抓取任务上的有效性。
图3 各模型训练阶段情况
从表 1、2 可以看出,将物理特征嵌入到 Transformer 模型框架中对抓取结果进行预测,可以得到更准确的结果。其主要原因在于,Transformer 模型能更有效地捕捉到长期的时间依赖性。另一个原因与 Transformer 模型的结构有关,由于每个Transformer 层是按顺序堆叠的,空间和时间信息可以通过自注意机制同时被提取出来,然而 ResNet18+ 型不具备此能力。而物理特征的嵌入,为抓取力的估计提供了关键的物理信息,使得抓取过程中,可以更好地掌握所抓取对象的信息,进而更明显地提升抓取准确率。
4. 作者简介
吴培良,燕山大学教授、博士生导师,计算机系主任,人工智能与机器人研究院副院长,中国人工智能学会青年工作委员会常委,河北省机器学习学会常务理事,河北省计算机教育研究会常务理事,ACM秦皇岛副主席。
请点击下方“阅读原文”了解更多。
联系我们 :
电话:024-23970050
E-mail:jqr@sia.cn
网址:https://robot.sia.cn