CoRL2024 聚焦「视听触感官」协同配合的具身智能操作

文摘 2024-11-09 00:01 北京

在机器人操作物体的过程中，不同传感器数据携带的噪声会对预测控制造成怎样的影响？中国人民大学高瓴人工智能学院 GeWu 实验室、朝闻道机器人和 TeleAI 最近的合作研究揭示并指出了 “模态时变性”（Modality Temporality）现象，通过捕捉并刻画各个模态质量随物体操纵过程的变化，提升不同信息在具身多模态交互的感知质量，可显著改善精细物体操纵的表现。论文已被 CoRL2024 接收并选为 Oral Presentation。

人类在与环境互动时展现出了令人惊叹的感官协调能力。以一位厨师为例，他不仅能够凭借直觉掌握食材添加的最佳时机，还能通过观察食物的颜色变化、倾听烹饪过程中的声音以及嗅闻食物的香气来精准调控火候，从而无缝地完成烹饪过程中的每一个复杂阶段。这种能力，即在执行复杂且长时间的操作任务时，灵活运用不同的感官，是建立在对任务各个阶段全面而深刻理解的基础之上的。

然而，对于机器人而言，如何协调这些感官模态以更高效地完成指定的操作任务，以及如何充分利用多模态感知能力来实现可泛化的任务执行，仍是当前尚未解决的问题。我们不仅需要使模型理解任务阶段本身，还需要从任务阶段的新角度重新审视多传感器融合。在一个复杂的操纵任务中完成将任务划分为不同阶段的一系列子目标的过程中，各个模态的数据质量很可能随任务阶段而不断变化。因此，阶段转换很可能导致模态重要性的变化。除此之外，每个阶段内部也可能存在相对较小的模态质量变化。我们将这种现象总结为多传感器模仿学习的一大挑战：模态时变性（Modality Temporality）。然而，过去的方法很少关注这一点，忽视了阶段理解在多传感器融合中的重要性。

本文借鉴人类的基于阶段理解的多感官感知过程，提出了一个由阶段引导的动态多传感器融合框架 MS-Bot，旨在基于由粗到细粒度的任务阶段理解动态地关注具有更高质量的模态数据，从而更好地应对模态时变性的挑战，完成需要多种传感器的精细操纵任务。

论文链接：https://arxiv.org/abs/2408.01366v2
项目主页：https://gewu-lab.github.io/MS-Bot/

模态时变性

在复杂的操作任务中，各传感器数据的质量可能会随着阶段的变化而变化。在不同的任务阶段中，一个特定模态的数据可能对动作的预测具有重大贡献，也可能作为主要模态的补充，甚至可能几乎不提供任何有用的信息。

图 1 倾倒任务的模态时变性

以上图中的倾倒任务为例，在初始的对齐阶段中，视觉模态对动作的预测起决定性作用。进入开始倾倒阶段后，模型需要开始利用音频和触觉的反馈来确定合适的倾倒角度（倒出速度）。在保持静止阶段，模型主要依赖音频和触觉信息来判断已经倒出的小钢珠质量是否已经接近目标值，而视觉几乎不提供有用的信息。最后，在结束倾倒阶段，模型需要利用触觉模态的信息判断倾倒任务是否已经完成，与开始倾倒阶段进行区分。除阶段间的模态质量变化，各个阶段内部也可能存在较小的质量变化，例如音频模态在开始倾倒和结束倾倒的前期和后期具有不同的重要性。我们将这两种变化区分为粗粒度和细粒度的模态质量变化，并将这种现象总结为多传感器模仿学习中的一个重要挑战：模态时变性。

方法：阶段引导的动态多传感器融合

为了应对模态时变性的挑战，我们认为在机器人操纵任务中，多传感器数据的融合应该建立在充分的任务阶段理解之上。因此，我们提出了 MS-Bot 框架，这是一个由阶段引导的动态多传感器融合方法，旨在基于显式的由粗到细的任务阶段理解动态地关注具有更高质量的模态数据。为了将显式的阶段理解整合到模仿学习过程中，我们首先为每个数据集中的样本添加了一个阶段标签，并将动作标签和阶段标签共同作为监督信号训练包含四个模块的 MS-Bot 框架（如图 2 所示）：

特征提取模块：该模块包含一系列单模态编码器，每个编码器都接受一段简短的单模态观测历史作为输入，并将它们编码为特征。

状态编码器：该模块旨在将各模态特征和动作历史序列编码为表示当前任务状态的 token。动作历史与人类记忆相似，可以帮助指示当前所处的任务状态。我们将动作历史输入到一个 LSTM 中，并通过一个 MLP 将它们与模态特征编码为状态 token。

阶段理解模块：该模块旨在通过将阶段信息注入状态 token 中，从而实现显式的由粗到细粒度的任务阶段理解。我们用一组可学习的阶段 token 来表示每个任务阶段，并通过一个门控网络（MLP）来预测当前所处的阶段，利用 Softmax 归一化后的阶段预测分数对阶段 token 进行加权融合，得到当前阶段 token。门控网络的训练以阶段标签作为监督信号，对非当前阶段的预测分数进行惩罚。我们还放松了对阶段边界附近的样本上的相邻阶段分数惩罚，从而实现软约束效果，得到更平滑的阶段预测。新的注入阶段信息后的状态 token 由原状态 token 和阶段 token 加权融合得到，可以表示任务阶段内的细粒度状态，从而对多传感器动态融合进行引导。

动态融合模块：该模块根据当前任务阶段的细粒度状态动态地选择关注的模态特征。我们以注入了阶段信息的状态 token 作为 Query，将模态特征作为 Key 和 Value 进行交叉注意力（Cross Attention）。该方法根据当前任务阶段的需求，将各模态的特征动态地整合到一个融合 token 中。最后，该融合 token 输入到策略网络（MLP）中预测下一个动作。我们还引入了随机注意力模糊机制，以一定概率将各单模态特征 token 上的注意力分数替换为相同的平均值，防止模型简单地记忆与注意力分数模式对应的动作。

图 2 由阶段引导的动态多传感器融合框架 MS-Bot

实验结果

为了验证基于由粗到细的任务阶段理解的 MS-Bot 的优越性，我们在两个十分有挑战性的精细机器人操纵任务：倾倒和带有键槽的桩插入中进行了详细的对比。

图 3 倾倒与带有键槽的桩插入任务设置

如表 1 所示，MS-Bot 在两个任务的所有设置上均优于所有基线方法。MS-Bot 在两个任务中的性能超过了使用自注意力（Self Attention）进行动态融合的 MULSA 基线，这表明 MS-Bot 通过在融合过程中基于对当前阶段的细粒度状态的理解更好地分配模态权重，而没有显示阶段理解的 MULSA 基线无法充分利用动态融合的优势。

表 1 倾倒和带有键槽的桩插入任务上的性能比较

我们还对任务完成中各个模态的注意力分数和各阶段的预测分数进行了可视化。在每个时间步，我们分别对每种模态的所有特征 token 的注意力分数进行平均，而阶段预测分数是 Softmax 归一化后的门控网络输出。如图 4 所示，MS-Bot 准确地预测了任务阶段的变化，并且得益于模型中由粗到细粒度的任务阶段理解，三个模态的注意力分数保持相对稳定，表现出明显的阶段间变化和较小的阶段内调整。

图 4 各模态注意力分数和阶段预测分数可视化

为了验证 MS-Bot 对干扰物的泛化能力，我们在两个任务中都加入了视觉干扰物。在倾倒任务中，我们将量筒的颜色从白色更改为红色。对于桩插入任务，我们将底座颜色从黑色更改为绿色（“Color”），并在底座周围放置杂物（“Mess”）。如表 2 所示，MS-Bot 在各种有干扰物的场景中始终保持性能优势，这是因为 MS-Bot 根据对当前任务阶段的理解动态地分配模态权重，从而减少视觉噪声对融合特征的影响，而基线方法缺乏理解任务阶段并动态调整模态权重的能力。

表 2 含视觉干扰物场景中的性能比较

总述

本文从任务阶段的视角重新审视了机器人操纵任务中的多传感器融合，引入模态时变性的挑战，并将由子目标划分的任务阶段融入到模仿学习过程中。该研究提出了 MS-Bot，一种由阶段引导的多传感器融合方法，基于由粗到细粒度的阶段理解动态地关注质量更高的模态。我们相信由显式阶段理解引导的多传感器融合会成为一种有效的多传感器机器人感知范式，并借此希望能够激励更多的多传感器机器人操纵的相关研究。

http://mp.weixin.qq.com/s?__biz=MzU2ODgzMTM5NA==&mid=2247499893&idx=2&sn=d69faab9d11a4aba6b3d9310331cd727

CAAI认知系统与信息处理专委会

CAAI认知系统与信息处理专委会成立于2014年，胡德文教授担任专委会主任，孙富春教授担任荣誉主任，方斌教授担任秘书长。专委会不断吸纳业界人才，会员1000余名。创建了“认知系统与信息处理国际会议”、“机器人智能论坛”等品牌活动。

最新文章

第九届认知系统与信息处理国际会议（ICCSIP 2024）即将在常州召开！

具身触觉社区“新锐论前沿” 第一期活动成功举办

柔性仿人手指全覆盖磁皮肤，具备接触觉和运动觉的双模态感知能力

迄今结构最简洁的双向刚度仿人手指关节，设计灵感源自卷尺

大面积柔性磁触觉感知

超人手功能的软体指尖：磁触觉感知兼具吸附抓取能力

控制系统可控性检验理论的变革：从模型驱动到数据驱动

强化学习和模型预测控制的区别与联系

强化学习经典教材的配套源代码上线了

推荐清华大学李升波教授撰写的强化学习英文专著

Nature Communications 基于触觉手套的深度学习驱动视触觉动态重建方案

Springer英文专著分享：结合穿戴技术的机器人操作与学习

Nature Communications 麻省理工学院计算机科学与人工智能实验室研制“触觉反馈”智能数据手套

ICRA 2024: 使用Masked Visual-Tactile 对机器人操作预训练

Science Robotics 封面论文：视触觉传感器的手内操作

Advanced Functional Materials 人工皮肤—基于视触觉传感的三维重建技术：材料、方法和评估

Advanced Intelligent Systems 综述论文：视触觉传感器的力测量技术

Advanced Intelligent Systems视触觉传感器在矿物/岩石识别中的应用探索

IEEE Sensors 视触觉传感器的硬件技术综述

IEEE JSTSP综述：从信号处理领域分析视触觉传感器的研究

不列颠哥伦比亚大学（The University of British Columbia）刘超助理教授招生公告~

新加坡国立大学机器人方向（AdaComp 研究组）科研实习机会

斯坦福李飞飞吴佳俊团队建立HourVideo，揭示当前模型在长视频理解上与人类水平的差距

具身触觉社区 | “新锐论前沿” 第一期活动预告

清华大学张钹院士发表人民日报最新文章：具身智能—人工智能与机器人发展的重要推力

高教出版社《具身智能导论》正式出版

中文专著《机器人触觉感知原理与方法》正式出版

具身触觉社区 | “新锐论前沿” 第一期活动预告

美国《福布斯》刊登文章：2025年人工智能（AI）的十大趋势

2024 AI年度报告发布，附十大预测：人形机器人热度下降，英伟达维持霸主地位

Science Robotics 综述揭示演化研究新范式，从机器人复活远古生物！

CoRL2024 聚焦「视听触感官」协同配合的具身智能操作

Nature正刊：西湖大学姜汉卿教授与John A. Rogers-黄永刚-解兆谦联合开发新型的多模态触觉反馈智能穿戴装置

Nature正刊：利物浦大学的研究人员开发了人工智能驱动的移动机器人，可以高效地进行化学合成研究

Science Robotic 综述论文：通过机器人技术了解自我意识

Science Robotics 对机器人的意图归因将会影响人机协作感

Science Robotics 专刊总结：借助机器人技术推进科学发现

IEEE TRO综述论文：抓取合成领域的深度学习方法

NeurIPS 2024 | 机器人操纵世界模型来了，成功率超过谷歌RT-1 26.6%

高教出版社《具身智能导论》正式出版

具身智能综述：鹏城实验室&中大调研近400篇文献，深度解析具身智能

具身智能的视觉-语言-动作模型综合综述论文

谷歌、CMU等研究综述：面向通用机器人的基础模型

机器人神经场的全面盘点：导航/自动驾驶/姿态估计应用一览无余

CMU, UC Berkeley等团队结合神经辐射场的视触觉感知，用于手内操作

Nat. Mach. Intell. | 用化学工具扩充大型语言模型

清华叉院高阳团队首次发现具身智能Scaling Laws

Advanced Functional Materials 人工皮肤—基于视触觉传感的三维重建技术：材料、方法和评估

Advanced Intelligent Systems 综述论文：视触觉传感器的力测量技术

Advanced Intelligent Systems视触觉传感器在矿物/岩石识别中的应用探索

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉