先前的关于机器人操作的预训练工作表明,从大量人类操作数据中学习到的内容, 可以很好地泛化到新的操作任务以及操作环境当中。然而, 先前的方法主要集中在人类视觉或者自然语言方面, 忽视了触觉反馈。在本文中, 作者探索了如何使用人类的视觉和触觉数据来训练机器人操作的预训练模型。
1. 相关工作
作者从三个方面(机器人预训练,用触觉信息进行操作, 融合触觉信息的模型)分析以往的机器人操作预训练相关的工作。目前的预训练方法主要集中在人类视觉或自然语言方面, 忽视了触觉反馈。作者提到了一些使用视觉预训练的方法, 如自监督学习和增强学习。然而, 这些方法都没有考虑到触觉信息的重要性。作者还提到了一些使用触觉预训练的方法, 如使用触觉数据进行逆向模型学习和使用触觉数据进行自监督学习。然而,这些方法都没有充分利用视觉信息。因此, 本文的方法是首次将视觉和触觉数据结合起来进行预训练。
2. 方法
本文介绍了如何制作低成本的触觉手套和建立视觉触觉采集系统, 以收集用于人类操作的视觉触觉数据集。然后, 本文提出了一种全新的视觉触觉融合框架
, 用于融合视觉和触觉模态。接下来, 本文将预训练模型嵌入到强化学习结构中, 提取视觉触觉潜在表示, 使智能体能够理解环境中的下游任务。2.1 用于人类操作的视觉触觉收集系统
文中视觉触觉收集系统主要分为三个部件:
2.2 用于预训练的 Masked Visual-tactile Transforme
2.3 用于操作的视觉-触觉强化学习
作者将视觉-触觉操作任务建模为马尔科夫决策过程, 包括状态空间
, 动作空间 , 转移矩阵 , 奖励函数 , 以及折扣因子 , 目标是训练一个策略网络 , 以最大化预期折扣奖励 。作者设置了一个瓶盖旋转任务, 使用 Shadow Hand 机器人手作为操作器。状态空间包括预训练的视觉-触觉编码器
的输出和机器人手关节位置和速度。动作空间为 20 维, 对应 Shadow Hand 的 20 个自由度。方法是将预训练的视觉-触觉编码器
嵌入状态空间 中, 利用预训练模型的感知能力, 减轻策略网络的学习负担。3. 实验结论
作者为了验证提出的视觉-触觉融合方法
在下游机器人操作任务中的有效性, 提出了三个问题:1. 与未预训练的方法相比,
是否更有效?2. 与单模态预训练相比,
是否能更好地辅助操作任务?3. 为什么融合触觉信息的
更有效?怎么解释这种现象?
3.1 实验设置
作者设计实验如下:
• 数据集:
收集了 20 种不同的瓶子, 使用视觉-触觉采集系统获得 120 个开关瓶盖的视频, 共 30087 帧。
每帧图像对应 20 维二值触觉数据。
• 评价指标:
成功率, 当机器人手旋转瓶盖超过半圈时算成功。
在 10 个已见瓶子上测试 200 次, 5 个未见瓶子上测试 100 次。
• 实现细节:
在预训练阶段使用 AdamW 优化器, 训练 400 个 epoch。
在 RL 阶段使用 PPO 算法, 训练 600 次。
3.2 基准
• VT-Scr-C:
从头训练 CNN 提取视觉特征, 与触觉特征拼接输入策略网络。
• VT-Scr-R:
与 VT-Scr-C 类似, 但使用 ResNet18 提取视觉特征。
• V-Only:
仅使用视觉信息, 基于 Voltron 预训练模型进行微调。
• T-Only:
仅使用触觉信息, 从头训练。
• MVP:
直接应用预训练的 MVP 模型到 RL 框架, 不进行微调。
• VT-Sep:
分别训练视觉模型和触觉模型, 然后将特征拼接输入策略网络。
3.3 预训练的有效性
3.4 视觉-触觉融合的有效性
3.5 消融实验
• 触觉分块数量:
将 20 个触觉传感器分成 20 个 patch 效果最佳。
• 重构目标:
同时重构视觉和触觉数据效果最佳, 仅重构触觉数据效果最差。
• 触觉位置编码:
加入触觉位置编码可以提高操作成功率超过 20%。
综上所述, 采用触觉与视觉信息融合的方式会更加有效。
3.6 可视化视觉-触觉融合
作者还提供了可视化的 Attention Map 如下:
4 讨论
在本文中, 作者初步探索了使用人类视觉和触觉数据来预训练机器人操作模型的潜力, 证明了该方法的有效性, 未来会尝试更多工作, 包括:
1. 建立更灵活与更高质量的无线的数据收集系统。
2. 覆盖更广泛场景的大规模多模态人体操作数据。
3. 不只局限于视觉和触觉的多模态融合模型。
4. 一个更多视觉-触觉任务的平台。