ICRA 2024: 使用Masked Visual-Tactile 对机器人操作预训练

文摘 2024-11-16 00:00 北京

先前的关于机器人操作的预训练工作表明,从大量人类操作数据中学习到的内容, 可以很好地泛化到新的操作任务以及操作环境当中。然而, 先前的方法主要集中在人类视觉或者自然语言方面, 忽视了触觉反馈。在本文中, 作者探索了如何使用人类的视觉和触觉数据来训练机器人操作的预训练模型。

首先作者建立了一个低成本的视觉触觉数据采集系统, 收集了人类的视觉触觉操作数据集, 并使用一个名为的模型来进行预训练的学习。随后作者将预训练的模型集成到强化学习框架中, 用于机器人操作。实验结果表明, 与基准方法相比, 作者的方法在学习操作技能方面具有显著的效果。此外, 与当前的视觉预训练方法相比, 作者的方法的成功率 提高了 50% 以上。论文还提出了未来的研究方向, 包括建立更灵活和高质量的数据采集系统、收集更广泛场景的大规模多模态人类操作数据集、研究不仅限于视觉和触觉的多模态融合模型, 以及在更多视觉触觉任务上进行研究。

1. 相关工作

作者从三个方面（机器人预训练,用触觉信息进行操作, 融合触觉信息的模型）分析以往的机器人操作预训练相关的工作。目前的预训练方法主要集中在人类视觉或自然语言方面, 忽视了触觉反馈。作者提到了一些使用视觉预训练的方法, 如自监督学习和增强学习。然而, 这些方法都没有考虑到触觉信息的重要性。作者还提到了一些使用触觉预训练的方法, 如使用触觉数据进行逆向模型学习和使用触觉数据进行自监督学习。然而,这些方法都没有充分利用视觉信息。因此, 本文的方法是首次将视觉和触觉数据结合起来进行预训练。

2. 方法

本文介绍了如何制作低成本的触觉手套和建立视觉触觉采集系统, 以收集用于人类操作的视觉触觉数据集。然后, 本文提出了一种全新的视觉触觉融合框架 , 用于融合视觉和触觉模态。接下来, 本文将预训练模型嵌入到强化学习结构中, 提取视觉触觉潜在表示, 使智能体能够理解环境中的下游任务。

2.1 用于人类操作的视觉触觉收集系统

文中视觉触觉收集系统主要分为三个部件：

触觉手套、HoloLens2、中央计算机。触觉手套使用低成本的商用电阻式压力传感器, 共有 20 个传感器分布在手部各个关键部位。这些传感器通过电阻-电压转换模块连接, 将电阻信号转换为电压信号。为了保证每个传感器在接触时记录的电压值大致相等, 可以通过调节转换模块上的电位器来实现。HoloLens2 用于捕捉 RGB 图像, 分辨率为 424x240 像素, 帧率为 30 帧/秒。为了对齐视觉和触觉数据, 中央计算机记录了从这两个采集源接收到的信号的时间戳, 并将这些时间戳与本地时间戳进行对应。视觉和触觉数据的对齐依赖于中央计算机记录的时间戳, 将每个图像帧与相应的触觉帧同步, 形成匹配的数据对。

2.2 用于预训练的 Masked Visual-tactile Transforme

如上图所示, 作者拓展了传统的 MAE, 同时将视觉和触觉数据进行编码。该网络包含了一个视觉-触觉编码器和一个视觉-触觉重构器。由三个部分组成:视觉特征提取器、触觉特征提取器和视觉-触觉融合块。基于 MAE 框架, 从输入图像中生成可见的视觉嵌入。将每个触觉传感器的接触值映射到嵌入, 并引入位置编码。负责整合视觉和触觉特征。由三个部分组成:视觉-触觉重构块、视觉重构器和触觉重构器。它根据编码器的输出和掩码标记重构图像和触觉数据。该模型的目标函数同时包含图像和触觉数据的重构损失, 以实现视觉-触觉特征的联合学习。

2.3 用于操作的视觉-触觉强化学习

作者将视觉-触觉操作任务建模为马尔科夫决策过程, 包括状态空间 , 动作空间 , 转移矩阵 , 奖励函数 , 以及折扣因子 , 目标是训练一个策略网络 , 以最大化预期折扣奖励。

作者设置了一个瓶盖旋转任务, 使用 Shadow Hand 机器人手作为操作器。状态空间包括预训练的视觉-触觉编码器的输出和机器人手关节位置和速度。动作空间为 20 维, 对应 Shadow Hand 的 20 个自由度。

方法是将预训练的视觉-触觉编码器嵌入状态空间中, 利用预训练模型的感知能力, 减轻策略网络的学习负担。

3. 实验结论

作者为了验证提出的视觉-触觉融合方法在下游机器人操作任务中的有效性, 提出了三个问题：

1. 与未预训练的方法相比, 是否更有效？
2. 与单模态预训练相比, 是否能更好地辅助操作任务？
3. 为什么融合触觉信息的更有效？
怎么解释这种现象？

3.1 实验设置

作者设计实验如下：

• 数据集：
收集了 20 种不同的瓶子, 使用视觉-触觉采集系统获得 120 个开关瓶盖的视频, 共 30087 帧。
每帧图像对应 20 维二值触觉数据。
• 评价指标：
成功率, 当机器人手旋转瓶盖超过半圈时算成功。
在 10 个已见瓶子上测试 200 次, 5 个未见瓶子上测试 100 次。
• 实现细节：
在预训练阶段使用 AdamW 优化器, 训练 400 个 epoch。
在 RL 阶段使用 PPO 算法, 训练 600 次。

3.2 基准

• VT-Scr-C：
从头训练 CNN 提取视觉特征, 与触觉特征拼接输入策略网络。
• VT-Scr-R：
与 VT-Scr-C 类似, 但使用 ResNet18 提取视觉特征。
• V-Only：
仅使用视觉信息, 基于 Voltron 预训练模型进行微调。
• T-Only：
仅使用触觉信息, 从头训练。
• MVP：
直接应用预训练的 MVP 模型到 RL 框架, 不进行微调。
• VT-Sep：
分别训练视觉模型和触觉模型, 然后将特征拼接输入策略网络。

3.3 预训练的有效性

与未预训练的方法相比, 在训练过程和评估结果上都表现更好, 突出了预训练方法的重要性。

3.4 视觉-触觉融合的有效性

与仅使用单一模态的方法相比, 融合视觉-触觉信息, 在学习速度和任务效果上都有超过 10% 的提升。特别是在存在视觉遮挡的情况下, 仅依赖视觉的方法表现较差, 而仅依赖触觉的方法表现较强, 突出了触觉信息的重要作用。

3.5 消融实验

由上图,

• 触觉分块数量：
将 20 个触觉传感器分成 20 个 patch 效果最佳。
• 重构目标：
同时重构视觉和触觉数据效果最佳, 仅重构触觉数据效果最差。
• 触觉位置编码：
加入触觉位置编码可以提高操作成功率超过 20%。
综上所述, 采用触觉与视觉信息融合的方式会更加有效。

3.6 可视化视觉-触觉融合

作者还提供了可视化的 Attention Map 如下：

4 讨论

在本文中, 作者初步探索了使用人类视觉和触觉数据来预训练机器人操作模型的潜力, 证明了该方法的有效性, 未来会尝试更多工作, 包括：

1. 建立更灵活与更高质量的无线的数据收集系统。
2. 覆盖更广泛场景的大规模多模态人体操作数据。
3. 不只局限于视觉和触觉的多模态融合模型。
4. 一个更多视觉-触觉任务的平台。

http://mp.weixin.qq.com/s?__biz=MzU2ODgzMTM5NA==&mid=2247500029&idx=4&sn=26e4fd6e74cb57cb41a8b5886b928fc6

CAAI认知系统与信息处理专委会

CAAI认知系统与信息处理专委会成立于2014年，胡德文教授担任专委会主任，孙富春教授担任荣誉主任，方斌教授担任秘书长。专委会不断吸纳业界人才，会员1000余名。创建了“认知系统与信息处理国际会议”、“机器人智能论坛”等品牌活动。

最新文章

第九届认知系统与信息处理国际会议（ICCSIP 2024）即将在常州召开！

具身触觉社区“新锐论前沿” 第一期活动成功举办

柔性仿人手指全覆盖磁皮肤，具备接触觉和运动觉的双模态感知能力

迄今结构最简洁的双向刚度仿人手指关节，设计灵感源自卷尺

大面积柔性磁触觉感知

超人手功能的软体指尖：磁触觉感知兼具吸附抓取能力

控制系统可控性检验理论的变革：从模型驱动到数据驱动

强化学习和模型预测控制的区别与联系

强化学习经典教材的配套源代码上线了

推荐清华大学李升波教授撰写的强化学习英文专著

Nature Communications 基于触觉手套的深度学习驱动视触觉动态重建方案

Springer英文专著分享：结合穿戴技术的机器人操作与学习

Nature Communications 麻省理工学院计算机科学与人工智能实验室研制“触觉反馈”智能数据手套

ICRA 2024: 使用Masked Visual-Tactile 对机器人操作预训练

Science Robotics 封面论文：视触觉传感器的手内操作

Advanced Functional Materials 人工皮肤—基于视触觉传感的三维重建技术：材料、方法和评估

Advanced Intelligent Systems 综述论文：视触觉传感器的力测量技术

Advanced Intelligent Systems视触觉传感器在矿物/岩石识别中的应用探索

IEEE Sensors 视触觉传感器的硬件技术综述

IEEE JSTSP综述：从信号处理领域分析视触觉传感器的研究

不列颠哥伦比亚大学（The University of British Columbia）刘超助理教授招生公告~

新加坡国立大学机器人方向（AdaComp 研究组）科研实习机会

斯坦福李飞飞吴佳俊团队建立HourVideo，揭示当前模型在长视频理解上与人类水平的差距

具身触觉社区 | “新锐论前沿” 第一期活动预告

清华大学张钹院士发表人民日报最新文章：具身智能—人工智能与机器人发展的重要推力

高教出版社《具身智能导论》正式出版

中文专著《机器人触觉感知原理与方法》正式出版

具身触觉社区 | “新锐论前沿” 第一期活动预告

美国《福布斯》刊登文章：2025年人工智能（AI）的十大趋势

2024 AI年度报告发布，附十大预测：人形机器人热度下降，英伟达维持霸主地位

Science Robotics 综述揭示演化研究新范式，从机器人复活远古生物！

CoRL2024 聚焦「视听触感官」协同配合的具身智能操作

Nature正刊：西湖大学姜汉卿教授与John A. Rogers-黄永刚-解兆谦联合开发新型的多模态触觉反馈智能穿戴装置

Nature正刊：利物浦大学的研究人员开发了人工智能驱动的移动机器人，可以高效地进行化学合成研究

Science Robotic 综述论文：通过机器人技术了解自我意识

Science Robotics 对机器人的意图归因将会影响人机协作感

Science Robotics 专刊总结：借助机器人技术推进科学发现

IEEE TRO综述论文：抓取合成领域的深度学习方法

NeurIPS 2024 | 机器人操纵世界模型来了，成功率超过谷歌RT-1 26.6%

高教出版社《具身智能导论》正式出版

具身智能综述：鹏城实验室&中大调研近400篇文献，深度解析具身智能

具身智能的视觉-语言-动作模型综合综述论文

谷歌、CMU等研究综述：面向通用机器人的基础模型

机器人神经场的全面盘点：导航/自动驾驶/姿态估计应用一览无余

CMU, UC Berkeley等团队结合神经辐射场的视触觉感知，用于手内操作

Nat. Mach. Intell. | 用化学工具扩充大型语言模型

清华叉院高阳团队首次发现具身智能Scaling Laws

Advanced Functional Materials 人工皮肤—基于视触觉传感的三维重建技术：材料、方法和评估

Advanced Intelligent Systems 综述论文：视触觉传感器的力测量技术

Advanced Intelligent Systems视触觉传感器在矿物/岩石识别中的应用探索

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉