燕山大学吴培良教授团队:一种视/触觉融合的柔性物体抓取力估计方法

文摘   2024-11-20 19:01   辽宁  

本文由“机器人ROBOT”公众号原创,欢迎转载,请务必完整转载全文并在文章初始位置插入本公众号名片和链接。


欢迎引用:

吴培良, 李瑶, 牛明月, 陈雯柏, 高国伟. 一种视/触觉融合的柔性物体抓取力估计方法[J]. 机器人, 2024, 46(5): 544-553.


识别二维码,访问全文PDF


在共融机器人研究领域,机器人学习稳定抓取柔性物体,如纸杯、玩偶和各种果蔬,是一个极具挑战性的任务。抓力过小会导致抓取失败,抓力过大则可能损害物体。柔性物体在抓取过程中的形变也会增加操作的不确定性。因此,快速且准确地推断物体的物理特性,如表面摩擦力、质心等,以及在最少的交互情况下使用适当的抓取力,成为实现稳定抓取的关键。

该文重点探讨了在共融机器人研究领域中,如何通过融合视觉与触觉信息来提高机器人抓取柔性物体的稳定性和成功率。首先介绍了传统的抓取力估计方法存在的局限性,特别是在处理柔性物体的复杂物理属性时。接着,介绍了触觉传感器在提供物体物理特征信息方面的重要性,并讨论了视觉传感器在提供环境信息和物体形状方面的优势。还进一步探讨了如何通过结合视觉和触觉数据,利用深度学习技术如 Transformer 和卷积神经网络(CNN)来增强抓取力估计的准确性和稳定性。最后,提出了新的抓取力估计方法,并探讨了视频视觉Transformer(ViViT)模型在处理视/触觉融合信息中的潜力,以提升机器人抓取柔性物体的能力。

1.  多感知局部增强

针对视/触觉信息进行安全抓取力估计,构建了一种基于视/触觉融合技术的抓取力估计模型框架,结构如图 1 所示。该框架由3个主要部分组成:特征提取模块、知识嵌入模块、预测模块。2 种模态信息分别通过特征提取模块,对每个图像序列进行特征提取,分别生成一个大小为 嵌入向量,记录物体的物理特征。知识嵌入模块将这些向量连接起来,并将其投影到一个低维的融合物理特征嵌入向量中。预测模块将嵌入向量和控制参数(力阈值)作为输入,预测最终的抓取结果,并据此推断出所需的抓取力。

图1  抓取力估计模型的框架图

该模型通过“捏”和“抓取”两个探索性动作获取物体的视觉和触觉信息,通过处理视觉和触觉传感器的图像序列,生成低维物理嵌入向量,并结合控制参数预测抓取力。

为了获得与卷积神经网络相当的性能,ViViT 算法需要获取大量的训练数据或者进行额外的监督。为此,设计了一个用于提取图像浅层特征的 Feature-to-Patch 模块,结合 CNN 网络在提取浅层特征方面的优势,提升 ViViT 算法的性能,并通过局部增强模块提升空间维度上的局部性。该模块的结构如图 2 所示。

图2  Feature-to-Patch模块示意图

2.  实验结果

采用配备视觉传感器(RealSense D435相机)和触觉传感器(GelSight传感器)的UR5机械臂和WSG-50夹持器作为实验平台,通过视觉和触觉数据的融合,使用改进的视觉视频Transformer模型进行抓取力估计。

实验中使用Fruit Data数据集,对多种水果进行抓取训练和测试,包括苹果、柠檬、橙子、李子、番茄和猕猴桃。在模型训练之前首先进行数据预处理,为了在训练阶段能够使用“滑动”“损坏抓取”“稳定抓取”来教导模型区分不同的情况或状态,在数据集上标注“滑动”“损坏抓取”“稳定抓取”等标签。因此,这些标记好的数据主要用于训练阶段,帮助模型学习如何识别和处理这些特定的情况。为验证算法的有效性,将提出的模型结构 MSLETResNet18+、TimeSformer、视觉视频 Transformer(ViViT)、LEViViT 等多种模型进行对比实验,结果如图 3 所示。所有模型在经过充分训练后,准确率趋于稳定并且差异不大,表明经过适当训练,基于Transformer 的模型在数据量有限的情况下也能达到与CNN+RNN结构相仿的效果,显示出在柔性物体抓取任务上的有效性。

图3  各模型训练阶段情况

为了验证算法在不同物体上的有效性,在之前从未使用过的物体上进行测试,选取外观、形状、大小相似的猕猴桃作为测试对象。各模型在测试阶段的平均准确率如表 1 所示、在测试阶段不同数据模式下的平均准确率如表 2 所示。
表1  各模型的测试阶段平均准确率
表2 模型在不同数据模式下的平均准确率

从表 1、2 可以看出,将物理特征嵌入到 Transformer 模型框架中对抓取结果进行预测,可以得到更准确的结果。其主要原因在于,Transformer 模型能更有效地捕捉到长期的时间依赖性。另一个原因与 Transformer 模型的结构有关,由于每个Transformer 层是按顺序堆叠的,空间和时间信息可以通过自注意机制同时被提取出来,然而 ResNet18型不具备此能力。而物理特征的嵌入,为抓取力的估计提供了关键的物理信息,使得抓取过程中,可以更好地掌握所抓取对象的信息,进而更明显地提升抓取准确率。

对比其他模型,MSLET 模型在多种数据模式下表现最佳、准确率最高,显示出其在柔性物体抓取任务中的有效性和高效性。
3.  结论与未来工作
该文提出了一种结合视觉和触觉信息的多感知局部增强 Transformer 模型,通过融合视觉和触觉数据,实现了更准确的抓取力预测。具体贡献包括:1) 引入Transformer 模型处理多模态数据,展示了其在视/触觉融合领域的潜力;2) 提出了Feature-to-Patch 模块,用于图像浅层特征提取,增强模型获取图像边缘特征的能力;3) 提出了 Local-Enhanced 模块,通过深度可分离卷积增强局部性特征处理。实验结果显示,该模型在提高抓取准确率方面表现优异,但抓取力的精确度仍有提升空间。未来的工作将聚焦于进一步提升模型的准确性,以更精确地预测抓取力。

4.  作者简介

 

吴培良,燕山大学教授、博士生导师,计算机系主任,人工智能与机器人研究院副院长,中国人工智能学会青年工作委员会常委,河北省机器学习学会常务理事,河北省计算机教育研究会常务理事,ACM秦皇岛副主席。

主要从事家庭服务机器人环境工具和服务对象认知、家庭服务机器人操作技能学习、工业流水线多机器人优化调度、竞技机器人多智能体协同等方面的研究。主持国家自然科学基金、国家重点研发计划项目子课题、中国博士后科学基金、河北省自然科学基金等10余项,作为主要参与人完成石家庄五十四所横向课题2项、秦皇岛市发改委项目1项。获得河北省科技进步二等奖1次,获评2018年度河北省自然科学基金结题验收优秀项目1项。发表论文50余篇,学术专著2篇。

请点击下方“阅读原文”了解更多。  

联系我们 :

电话:024-23970050

 E-mail:jqr@sia.cn

网址:https://robot.sia.cn

 
欢迎关注《机器人》视频号

机器人ROBOT
《机器人》是由中国科学院主管,中国科学院沈阳自动化研究所、中国自动化学会共同主办的科技类核心期刊,主要报道中国在机器人学及相关领域具有创新性的、高水平的、有重要意义的学术进展及研究成果。
 最新文章