清华大学＋具身智能+ Visuomotor控制任务=？

科技 2024-11-24 00:01 江苏

点击下方卡片，关注「3D视觉工坊」公众号
选择星标，干货第一时间送达

来源：深蓝AI

添加小助理：cv3d001，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入「3D视觉从入门到精通」知识星球，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

导读

清华大学具身智能实验室研究团队针对视觉强化学习任务，提出了Maniwhere框架，用于提升机器人策略在面对多样视觉干扰时的泛化能力。该框架通过融合空间变换网络（STN）模块的多视图表示学习方法，有效捕获了不同视点间的共享语义和对应关系。同时，研究团队还采用了基于课程的随机化和增强技术，以稳定强化学习（RL）的训练过程并进一步提升视觉泛化效果。经过大量实验验证，Maniwhere的表现明显优于现有的最先进的方法。

论文标题：Learning to Manipulate Anywhere: A Visual Generalizable Framework For Reinforcement Learning

论文作者：Zhecheng Yuan, Tianming Wei, Shuiqi Cheng, Gu Zhang, Yuanpei Chen, Huazhe Xu

论文链接：https://arxiv.org/pdf/2407.15815

项目主页：https://gemcollector.github.io/maniwhere/

在具身人工智能（Embodied AI）领域Visuomotor控制任务是一个关键且棘手的问题。硬件设置会严重影响机器人策略的性能。一个典型的例子来自不可移动的摄像头问题，设想一个经过仔细校准的视觉传感器，精心定位来实现无缝的现实世界部署，却被实验室伙伴打扰。虽然先前的工作试图解决视觉场景变化的挑战，但这些研究主要集中在解决一个方面，无法同时处理多种视觉泛化类型。同时，将各种归纳偏见纳入训练过程也并非易事。

目前的Sim2Real技术主要依赖于人为定义的低维状态数据。获取这些精确的低维状态信息通常需要复杂的系统辨识、设备校准及附加的算法模块，并且往往依赖于大量专家级知识，进行特定关节的域随机化以适应真实环境的部署。因此，这种方法通常限制了机器人在特定工作空间和场景设置中的操作，缺乏泛化能力，长期以来未能有效提升机器人的操作效率和实用性。

基于视觉的Sim2Real提供了一种创新的解决方案。与低维状态信息相比，视觉输入提供了更为丰富的反馈，使得机器人能够通过图像感知自动提取所需的状态信息进行决策。它能够不依赖于专家预定义的状态维度，也不受各关节状态信息的限制，而是可以利用视觉信息来纠正关节状态的误差，减少对动力学过程的依赖。

然而目前的方法大多都会通过构建Digit Twin来实现。Digit Twin的构建不仅需要人工花费大量精力构建，同时训得的policy也无法具备泛化能力。

▲效果图

在Sim2real的过程中需要克服视觉纹理和相机视角两大难点。Maniwhere通过使用多视角表征学习来融合不同视角下的图像信息。在每个时间步，Maniwhere会记录一固定视角和一随机视角的图像，先通过使用InfoNCE，将固定视角的图像与移动视角的图像进行Moco-v3-based对比学习损失的作用。在此基础上，Maniwhere也额外使用了在前层feature maps之间的feature alignment损失赋予所学策略捕捉相似的语义信息和correspondence的能力。

在网络结构方面，Maniwhere插入了STN模块用于进一步提升网络对空间信息感知的能力。在使用STN也将原始的仿射变换更新成了透视变换，以匹配三维空间的感知能力。

对于视觉纹理的泛化，Maniwhere使用课程学习的方式，增加数据增强的强度以及模拟环境各物理关节的动力学随机化过程。关于数据增强，该算法也使用了基于频域的增强来强化对于纹理和光照的影响。在强化学习的框架下，因大量引入额外噪声很容易造成训练的不稳定甚至发散，故Maniwhere通过使用稳定Q值学习的loss，使得在使用数据增强和域随机化时，依旧能够保持Q值估计的低方差，维持整体训练的稳定。

▲图1｜Maniwhere算法框架

■3.1 视角泛化评估

Maniwhere在8个manipulation task上与多个基线模型进行了对比，Maniwhere在全部8个task上都取得了最佳的表现。比之前的多视角训练方法，单视角adaptation，以及单视角泛化算法都具有明显的优势。

▲图2｜视角泛化效果对比

■3.2 视觉纹理泛化能力评估

▲图3｜视觉纹理泛化效果对比

在视角泛化的基础上，Maniwhere也与比较了视觉纹理泛化的能力。可以从图中看到在加入了纹理的变化后，之前的算法会存在较大的性能差异，而Maniwhere在8个任务上依旧可以很好的维持很好的表现。

另外在不同的embodiment上，Maniwhere也可以凭借其对于correspondence和不同视角下语义信息的捕捉拥有较强的泛化能力。

■3.3 轨迹可视化

▲图4｜不同视角轨迹表征可视化

另外，本文也对视觉表征进行了可视化。我们将沿同一执行轨迹从不同视角渲染的图像特征图可视化，然后将 t-SNE 应用于特征图的映射。如上图所示，Maniwhere 能够将不同视点的图像映射到相似区域，并在整个执行轨迹中保持一致。

■3.4 真机实验

在模拟器中训练完成后，Maniwhere可以zero-shot部署到真机中。在实验中，共设计了3个不同的实验平台，包含多种不同类型的操作任务。

在进行测试时，场景的相机视角和纹理都会发生变化。Maniwhere在不同类型的机器人和任务上也都展现了良好的泛化能力和表现。也和仿真环境一样，均优于baseline算法。

■3.5 消融实验

通过消融实验，本文验证了在没有multi-view损失函数，STN以及其他多视角表征学习方法下的机器人性能。可以看到，每个模块对于Maniwhere的性能都有着重要作用，展现了该方法的优势。

▲图5｜消融实验结果

在本篇论文中，我们介绍了Maniwhere——一个用于强化学习的视觉泛化框架。Maniwhere通过多视角表示学习获取不同视角下图像的一致性信息，并采用基于课程学习的域随机化和增强方法来训练具有泛化能力的视觉强化学习策略。实验表明，Maniwhere能够适应多样的视觉场景，并实现zero-shot sim2real transfer。未来，我们计划提升Maniwhere在更广泛的相机范围和更多样化的视觉场景中的泛化能力。除了视觉泛化外，我们还打算融入空间泛化方法来处理更复杂的物体空间关系，最终目标是开发一个鲁棒的sim2real框架。

©️【ARTS】

Ref：

MGSO:

Learning to Manipulate Anywhere: A Visual Generalizable Framework For Reinforcement Learning

项目主页：

https://gemcollector.github.io/maniwhere/

论文地址：

https://arxiv.org/abs/2407.15815

该工作由清华大学具身智能实验室（TEA Lab）博士生袁哲诚和韦天铭为共同一作完成，TEA Lab负责人为清华大学交叉信息研究院助理教授许华哲博士。许华哲博士，研究领域是具身人工智能（Embodied AI）的理论、算法与应用，曾获顶级智能机器人会议CoRL'23最佳系统论文奖，2024年WAIC“云帆奖”，在IJRR, RSS，NeurIPS等发表顶级期刊/会议论文68篇，代表性工作曾被MIT Tech Review，Stanford HAI等媒体报道。曾在IJCAI23/24、ICRA24/25、ICLR25担任领域主席/副主编。

本文仅做学术分享，如有侵权，请联系删文。

3D视觉交流群，成立啦！

目前我们已经建立了3D视觉方向多个社群，包括2D计算机视觉、最前沿、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向，细分群包括：

工业3D视觉：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机：四旋翼建模、无人机飞控等

2D计算机视觉：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿：具身智能、大模型、Mamba、扩散模型、图像/视频生成等

除了这些，还有求职、硬件选型、视觉产品落地、产品、行业新闻等交流群

添加小助理: cv3d001，备注：研究方向+学校/公司+昵称（如3D点云+清华+小草莓）, 拉你入群。

3D视觉工坊知识星球

「3D视觉从入门到精通」知识星球，已沉淀6年，星球内资料包括：秘制视频课程近20门（包括结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云等）、项目对接、3D视觉学习路线总结、最新顶会论文&代码、3D视觉行业最新模组、3D视觉优质源码汇总、书籍推荐、编程基础&学习工具、实战项目&作业、求职招聘&面经&面试题等等。欢迎加入3D视觉从入门到精通知识星球，一起学习进步。

▲长按扫码加入星球

3D视觉工坊官网：www.3dcver.com

具身智能、3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪等。

3D视觉模组选型：www.3dcver.com

— 完 —

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

3D视觉科技前沿进展日日相见 ~

http://mp.weixin.qq.com/s?__biz=MzU1MjY4MTA1MQ==&mid=2247711785&idx=3&sn=dc0573532c11bc5a536bb3019527762d

3D视觉工坊

专注于工业3D视觉、SLAM、自动驾驶、三维重建、无人机、具身智能、扩散模型等前沿技术分享与产业落地，力争打造为国内最专业的3D视觉社区。官网：www.3dcver.com 佳v：cv3d007 或 13451707958

最新文章

一位阿里P9的年薪和家庭资产

章国锋团队开启SfM新篇章！DATAP-SfM：动态感知跟踪一切！

无人机流式输出视频没有用？Video2BEV：通过3D高斯与视频提升无人机定位精度

CVPR，ICCV，ECCV，AAAI，IJCAI等顶会的评分机制是怎样的？

KW-MINI | 精度0.05mm！体积超小！重量超轻！结构光3D相机！

卡尔曼滤波YYDS！「分割一切」遇上「跟踪一切」！前谷歌经理直呼“优雅”

全面理解运动预测、规划、建图！DriveMLLM：自动驾驶多模态的空间理解基准

斯坦福大学教授李飞飞团队：关于 2024 年人工智能发展报告总结