CoRL 2024 麻省理工学院提出T3触觉Transformer，打破触觉感知的壁垒，重塑未来机器人

文摘 2024-09-13 00:00 北京

在智能机器人领域，触觉感知的研究正逐渐成为关注的焦点。然而，如何让机器人通过触觉更智能地感知和操作，依然是一个未解决的挑战。基于相机的触觉感知是一种通过在软弹性体下嵌入相机来捕获与环境的细粒度交互的感知方法，是最流行的触觉感知方法之一，因为它更高分辨率和成本更低。然而，基于相机的触觉传感器是非常异构的，而且还没有一个被机器人技术社区广泛采用的融合传感器设计。那么，有没有一项技术能够实现跨多传感器和多任务的扩展呢？为了解决这个问题，我们今天的主角——Transferable Tactile Transformers (T3)——便应运而生，它能够跨越不同的传感器和任务，实现触觉表征的迁移学习。

https://openreview.net/forum?id=KXsropnmNI

什么是T3？

T3是一个基于Transformer的框架，通过一个共享的主干网络结构，为不同的触觉传感器和任务提供灵活、可迁移的解决方案。与传统触觉感知系统不同，T3通过预训练，能够快速适应新的传感器和任务，无需从零开始训练。每个传感器和任务都有专属的编码器和解码器，但所有的知识共享同一个Transformer主干结构，从而提升效率和迁移能力。

T3的架构图如下所示：

T3架构由传感器特定的编码器、共享的Transformer主干和任务特定的解码器组成。编码器处理不同传感器的数据，主干负责提取共享的潜在表示，而解码器根据任务类型进行特定的输出。这种设计允许T3在多种传感器和任务之间实现高效的知识迁移，大大提升了触觉感知的性能与适应性。

FoTa：庞大的触觉数据库

为了支持T3的训练，我们研究团队创建了一个名为FoTa（Foundation Tactile）的数据集。FoTa汇集了超过3百万个来自13种不同的传感器和11种任务的数据。FoTa是迄今为止在触觉感知领域规模最大、最多样的数据集，并且它拥有一种统一的格式。通过在FoTa数据集上进行预训练，T3具备了强大的泛化能力，我们可以通过少量领域的特定数据对其进行进一步的微调，并且其性能可随网络规模的增大而提高，如此便能够应对各种不同的感知需求。无论是细致的电子插入任务，还是复杂的物体操控，T3都表现出色。

实际应用场景：触觉在机器人中的突破

T3的应用不仅局限于学术研究，它在多个现实任务中表现优异。研究表明，T3可以帮助机器人在复杂的操作中取得显著进步，尤其是在精细的电子元件插入任务中，相较于传统方法，T3大幅提高了任务成功率。想象一下，未来的机器人可以像人类一样，通过触摸识别物体的微小差异，甚至在视觉受限的情况下也能完成高精度任务。

为什么T3如此特别？

T3采用共享的Transformer主干结构，结合特定传感器的编码器和任务解码器，实现跨传感器、跨任务的触觉感知。这意味着，无论是面对不同类型的传感器，还是不同的操作任务，T3都能轻松适应。我们提出将可转移触觉变压器（T3）作为主干网络，从不同的触觉传感器中学习，并为不同的下游任务产生输出。

1. 多传感器兼容

现有的触觉传感器因设计差异显著，无法跨设备迁移。而T3通过构建FoTa数据集，包含了13种传感器和11项任务，超过300万条数据，为模型的学习提供了丰富的数据支持，并且可以兼容多种传感器。

2. 任务泛化能力强

T3在任务中的表现优异，特别是在精密操作中，如电子元件插入任务，相较于传统方法提升了25%的成功率。对于其他任务，T3通过少量微调数据，能够快速适应新任务，展现出强大的迁移学习能力。

为了测试预训练T3的性能，我们设计了一个具有行为克隆的机器人精确插入任务。此任务的目标是将3个电子部件插入PCB上，每个部件都有相应的安装孔：一个3针拨动开关、一个12针双堆栈USB端口和一个17针VGA连接器。由于PCB上的孔和零件上的引脚之间的间隙仅为0.4mm，所以这项任务需要很高的精度，实现这种精度需要积极探索触觉反馈。在现实世界的应用中，由于严重的遮挡，仅依靠视觉往往是不够的。

实验设备（左）以及相关零件（右）的示意图如下所示：

为了探究T3的优劣，我们训练和评估了3个策略：一个没有触觉输入的基础策略，一个由从头开始训练的神经网络编码的触觉输入策略，以及一个由T3编码的触觉输出策略。除了触觉输入，所有3个策略都可以访问由MLP编码的相同机器人状态模态和由预训练的ResNet18编码的外部视觉模态。这三种策略都将当前步骤的观测值作为输入，并预测机器人在下一个时间步骤执行的3-DoF动作。在推理时，机器人以约2Hz的速度执行预测的3-DoF动作，最多30步。如果机器人在30个步骤内成功插入组件，则该事件被视为成功。

相关实验的成功率（左）和平均步骤数（右）如下图所示：

从结果中我们不难看出：触觉模式对于这项电子插入任务至关重要，其中仅视觉策略在插入两个更具挑战性的部分的所有测试中都失败了；使用预训练的T3作为该策略的触觉编码器有助于进一步提高整体性能，其中所有三个部分的任务成功率都更高；T3还有助于减少插入零件所需的触觉探索步骤的数量。

T3的技术亮点

1. 多任务适应：T3的架构不仅限于简单的分类任务，还能处理如位姿回归、物体识别等复杂任务。通过传感器特定的编码器与任务特定的解码器，T3在多任务环境下表现出极高的灵活性和适应性。无论是物体的分类还是精确的位姿估计，T3都能够有效应对，充分发挥Transformer的结构优势，展现出其在不同场景中高效处理触觉感知数据的能力。

2. 预训练模型的优势：T3在FoTa大规模数据集上进行了预训练，涵盖了来自13种传感器和11项任务的300万+数据点。这使得T3不仅能够实现零样本迁移学习，还可以在面对全新的任务或传感器时快速上手，无需从头开始训练。预训练的T3在许多任务上展现了显著的性能提升，特别是在复杂的长时间接触操作任务中，例如多引脚电子元件的插入任务，T3相较于传统方法提高了25%的任务成功率。这种高效的迁移能力使T3在实际应用中具有极大的优势。

应用前景

触觉感知是机器人在复杂操作中不可或缺的关键能力，特别是在需要高精度和细腻控制的领域，如医疗手术、工业组装和手术机器人等。T3的出现，为机器人带来了更加灵活和精确的触觉感知能力。通过T3，未来的机器人将能够处理微小的物体，并完成精细的装配和操作，例如在狭小空间内插入多引脚电子元件。这种触觉感知技术还可以用于手术机器人，帮助外科医生完成更复杂、更精确的手术操作。

T3不仅提升了机器人的感知精度，还为其提供了应对多样化任务的能力，特别是那些需要在视觉受限或完全不可用的环境中进行操作的任务。无论是工业中的复杂机械装配，还是医疗领域中极细微的手术，T3都能够通过更精细的触觉反馈，提高任务的完成效率与成功率。

未来展望

T3展示了触觉感知领域的未来趋势，为机器人与人类的互动带来了全新的可能性。未来，机器人将不再仅依赖视觉和声音，还将通过“触摸”完成更多复杂操作，例如从电子设备的精密装配到医疗中的微创手术。触觉技术的进步使机器人能在更复杂的环境中自如操作，减小失败风险，并显著提升任务的成功率。随着这一技术的发展，我们可以预见，机器人将在生产、物流、医疗等领域发挥更大作用，显著提升各行业的自动化水平。

此外，T3的通用性使其成为未来智能机器人领域中的关键技术支撑。未来的机器人不再局限于特定任务或传感器，而是可以应对更多样的任务和环境。通过这项技术，机器人与人类之间的互动将更加自然、智能，甚至有可能实现基于触觉的情感交流，进一步缩短人机之间的差距。

总结

T3不仅仅是触觉感知领域的一次技术突破，更为未来机器人如何感知和操作世界提供了全新思路。无论是在工业领域中的高精度装配，还是在医疗手术中的复杂操作，T3都展现出广泛的应用前景。通过这一技术，我们看到了触觉感知如何为机器人赋能，使其更加智能化。

http://mp.weixin.qq.com/s?__biz=MzU2ODgzMTM5NA==&mid=2247498839&idx=1&sn=c9efc81f6956c14eceb25c0d02dfcc2d

CAAI认知系统与信息处理专委会

CAAI认知系统与信息处理专委会成立于2014年，胡德文教授担任专委会主任，孙富春教授担任荣誉主任，方斌教授担任秘书长。专委会不断吸纳业界人才，会员1000余名。创建了“认知系统与信息处理国际会议”、“机器人智能论坛”等品牌活动。

最新文章

电子皮肤作为人机接口在家庭护理机器人中的抓取识别

Science Robotics 把Arduino开发板做成柔性版，为软体机器人集成高性能计算能力

Science Robotics封面论文：假肢手的交互控制新思路，磁性植入让截肢者重获灵巧抓握功能

Science Robotics 通过新材料打造FiBa软机器人可实现四种形态进化

CoRL 2024 机器人抓取学习 GraspSplats：使用 3D 特征展开进行高效操作

触感灵巧手抓取操作视频集锦

第九届软体机器人大会｜第一轮会议通知和创新设计竞赛通知

Soft Robotics 多模式抓取能力的变刚度软体手

IEEE Trans. on Robotics：多模式软体手“抓取再吸取的连续操作学习”

IEEE JSTSP 嵌入软体手手掌的视触觉传感器PaLmTac

Science Robotics封面论文：假肢手的交互控制新思路，磁性植入让截肢者重获灵巧抓握功能

Science Advances 具有高灵敏度远程感知功能的多感受器皮肤

剑桥&ETH研究综述：NeRF在机器人技术中的应用

Nat. Commun.：飞秒激光书写受蚂蚁启发的可重构微型机器人集体

CoRL 2024 麻省理工学院提出T3触觉Transformer，打破触觉感知的壁垒，重塑未来机器人

斯坦福团队用模仿学习赋予机器人新技能：系鞋带

谷歌 DeepMind 联合斯坦福推出了主从式遥操作双臂机器人系统增强版ALOHA 2

IEEE TRO 人形机器人遥操作的综述

机器人遥操作视频集锦

Science Robotics 通过新材料打造FiBa软机器人可实现四种形态进化

Science Robotics 康奈尔大学用杏鲍菇控制机器人运动！

视触觉传感研究集锦

触感灵巧手抓取操作视频集锦

JBE 人体皮肤在机器人滑动按摩操作中的摩擦和变形行为

《中国科学：信息科学》综述文章：大模型驱动的具身智能：发展与挑战

RobotGPT：利用ChatGPT的机器人操作学习框架，三星电子研究院与张建伟院士、孙富春教授、方斌教授合作发表RAL论文

具身智能综述：鹏城实验室&中大调研近400篇文献，深度解析具身智能

具身智能的视觉-语言-动作模型综合综述论文

谷歌、CMU等研究综述：面向通用机器人的基础模型

AM：具有多模态触觉感知和人工智能的零偏差仿生指尖电子皮肤，可增强触觉感知

IROS 2024 “动态环境的重要性：具身导航至可移动目标物”论坛征稿

AFM 基于超材料的保形性和多感官整合的电子皮肤

第九届软体机器人大会｜第一轮会议通知和创新设计竞赛通知

Soft Robotics 多模式抓取能力的变刚度软体手

IEEE Trans. on Robotics：多模式软体手“抓取再吸取的连续操作学习”

IEEE JSTSP 嵌入软体手手掌的视触觉传感器PaLmTac

普渡大学和麻省理工学院合作开发集成视触觉指尖传感器的5自由度抓手

Science Robotics 麻省理工学院最新研究，从仿真中学习的精确选择、定位和抓放物体的视触觉方法

RAL论文：基于弹性体形变仿真的视触觉传感器仿真器Tacchi

OpenAI加持，1X消费级人形机器人亮相

IEEE TRO 人形机器人遥操作的综述

采访Figure Robotics CEO Brett Adcock：预测世界将有100亿个人形机器人，每个人都会拥有人形机器人

人形机器人Figure 02问世，进宝马工厂开整

OpenAI大模型赋能 Figure 01人形机器人的智能操作

Science 弹性模量提高3.5倍！新型3D打印技术

Science和Nature正刊2023年发表了9篇3D打印的相关文章

Nature封面论文：多无人机协同3D打印盖房子

强化学习和模型预测控制的区别与联系

强化学习经典教材的配套源代码上线了

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉