首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

Meta最新触觉机械手登Science子刊封面，操作未知物体精度最高提升94%

科技 2024-11-14 17:11 北京

奇月发自凹非寺
量子位 | 公众号 QbitAI

现在，随便丢给机械手一个陌生物体，它都可以像人类一样轻松拿捏了——

除了苹果，罐头、乐高积木、大象玩偶、骰子，都不在话下：

这就是来自Meta FAIR团队最新的NeuralFeels技术，通过融合触觉和视觉，机械手可以更精确地操作未知物体，精度最高提升了94%！

这项研究还登上了Science Robotics的封面，团队同时也公开了包含70个实验的新测试基准FeelSight。

如何让机械手精确操作未知物体？

让机械手拿取常见的魔方、水果等早已是基操，但如何让机器人更好地操作未知物体一直是一个研究难题。

一个重要原因是目前的机械手训练都太过于依靠视觉，并且仅限于操作已知的先验物体，而现实中很多时候物体都会受到视觉遮挡，导致训练往往进步缓慢。

对此，团队研发出一种名为NeuralFeels的创新技术，为机器人在复杂环境中的物体感知与操作带来了新的突破。

这究竟是怎么做到的呢？让我们来一起看一下技术细节——

融合了触觉的多模态感知

NeuralFeels技术的创新之处在于结合了视觉和触觉，通过多模态融合的方式，让机器手能够对未知物体持续进行3D建模，更精确地估计手持操作中物体的姿态和形状。

具体的处理流程如下图所示，前端实现了视觉和触觉的鲁棒分割和深度预测，而后端将此信息结合成一个神经场，同时通过体积采样进一步优化姿态。

而在遮挡视角下，视觉与触觉融合有助于提高跟踪性能，还可以从无遮挡的局部视角进行跟踪。团队在摄像机视角的球面上量化了这些收益。

从下图中可以观察到，当视觉严重遮挡时，触觉的作用更大，而在几乎没有遮挡时，触觉会发挥微调作用。

前端深度学习策略

首先来看看NeuralFeels技术的前端（Front end），它采用了基于深度学习的分割策略和触觉Transformer，可以精确提取目标对象深度。

用运动学分割一切

神经优化非常依赖分割对象的输入深度，所以团队将前端设计成能够从视觉中鲁棒地提取对象深度的形式。深度在RGB-D相机中是现成的，但为了应对严重遮挡的问题，团队还引入了一种基于强大视觉基础模型的动力学感知分割策略。

触觉Transformer

最近有研究表明，在自然图像中使用ViT进行密集深度预测更有效，于是团队提出了一种触觉Transformer，用于通过视觉触觉预测接触深度，这个Transformer完全在模拟中训练，可在多个真实世界的DIGIT传感器上通用。机械手可以用嵌入式摄像头直接感知发光的胶垫，通过监督学习获得接触深度。

后端姿势优化

NeuralFeels的后端（Back end）部分通过使用Theseus中的自定义测量因子，将前端的中间输出转化为非线性最小二乘问题进行优化。

形状和姿态优化器

后端模块从前端模块得到中间输出，并在线构对象模型。这个过程将交替使用来自视觉-触觉深度流的样本进行地图和姿态优化步骤。在本研究的地图优化器中，即时NGP模型的权重可以完全描述物体的3D几何结构。

神经SLAM

在现实世界和模拟中，团队构建了一个不断演进的神经SDF，它整合了视觉和触觉，并可以同时跟踪物体。下图展示了对应的RGB-D和触觉图像的输入流，以及相应的姿态重建。

神经跟踪：给定形状的对象姿态估计

当目标对象存在对应的CAD模型时，NeuralFeels可以实现优秀的多模态姿态跟踪能力。此时目标对象的SDF模型是预先计算的，NeuralFeels会冻结神经场的权重，仅使用前端估计进行视觉-触觉跟踪。

NeuralFeels大大提升了机械手性能

为了评估NeuralFeels技术的性能，研究团队在模拟和真实世界环境中进行了多次实验，涉及14种不同物体，相关测试集FeelSight也已发布！

实验中使用了多种评估指标，包括用于评估姿势跟踪误差的对称平均欧几里得距离（ADD-S），以及用于衡量形状重建精度和完整性的F分数等。

结果非常令人惊喜，NeuralFeels技术在以下3个方面都有非常出色的表现：

1.物体重建精度大幅提升

在物体重建方面，研究发现结合触觉信息后，表面重建精度在模拟环境中平均提高了15.3%，在真实世界中提高了 14.6%。

最终重建结果在模拟环境中的中位误差为2.1毫米，真实世界中为3.9毫米。这表明NeuralFeels技术能够有效地利用触觉信息补充视觉信息，更准确地重建物体形状。

2.物体姿态跟踪更加精准

在物体姿态跟踪方面，NeuralFeels技术相比仅使用视觉信息的基线方法有显著改进。

在模拟环境中，姿态跟踪精度提高了21.3%，真实世界中提高了26.6%。

在已知物体形状的姿态跟踪实验中，即使存在不精确的视觉分割和稀疏的触摸信号，该技术也能实现低误差的姿态跟踪，平均姿态误差可降至2毫米左右。

并且，触觉信息在降低平均姿态误差方面发挥了重要作用，在模拟环境中可使误差降低22.29%，在真实世界中降低 3.9%。

3.应对复杂场景表现出色

在面对严重遮挡和视觉深度噪声等具有挑战性的场景时，NeuralFeels技术同样表现非常出色。

在模拟的200个不同相机视角的遮挡实验中，平均跟踪性能提升 21.2%，在严重遮挡情况下提升幅度可达94.1%！

在视觉深度噪声模拟实验中，随着噪声增加，融合触觉信息能有效降低误差分布，使机器人在视觉信息不理想的情况下仍能准确跟踪物体姿态。

研究意义

NeuralFeels技术的创新之处在于它融合了多模态数据、并结合了在线神经场，这些技术让机器人能够在操作未知物体时实现更准确的姿态跟踪和形状重建。

而且，与复杂的传感器相比，团队使用空间感知组合所需的硬件更少，也比端到端感知方法更容易解释。

尽管目前在一些方面仍存在改进空间，如在长期跟踪中由于缺乏闭环检测可能导致小误差累积，但对于提升机械手操作精度的效果非常显著，

未来，研究人员计划进一步优化技术，例如通过基于特征的前端获取更粗略的初始化，加入长期闭环检测以减少姿态误差的累积，通过控制神经SLAM的输出进行通用灵巧性研究等。

这样一来，家庭、仓库和制造业等复杂环境中作业的机器人的性能都有可能得到极大的提升了！

参考资料：
[1]https://www.science.org/doi/10.1126/scirobotics.adl0628
[2]https://suddhu.github.io/neural-feels/

— 完 —

报名即将截止！

「2024人工智能年度评选」

量子位2024人工智能年度评选将于11月15日截止报名，评选从企业、人物、产品三大维度设立了5类奖项。

欢迎扫码报名评选！评选结果将于12月MEET2025智能未来大会公布，期待与数百万从业者共同见证荣誉时刻。

点这里👇关注我，记得标星哦～

一键三连「点赞」、「分享」和「在看」

科技前沿进展日日相见 ~

http://mp.weixin.qq.com/s?__biz=MzIzNjc1NzUzMw==&mid=2247758331&idx=4&sn=bfed55b12d7f8d3fcadc7b8d8421b714

追踪人工智能新趋势，关注科技行业新突破

最新文章

“清华AI医院”上线！首批42位AI医生亮相，诊断覆盖300余种疾病

国产4o大模型，秒懂国风李子柒

人生搜索引擎免费用，开源版哈利波特“冥想盆”登GitHub热榜，支持中文

iPad可用AI绘画交互编辑神器火了，网友：颤抖吧PS

多样任务真实数据，大模型在线购物基准Shopping MMLU开源｜NeurIPS&KDD Cup 2024

定档12月11日，MEET2025智能未来大会报名通道已开启！

刚刚，星舰第六次试验成功！猛禽发动机实现“太空重启”，降落过程大秀身姿

2499，AI浓度爆表！戴上这副眼镜，一句话点咖啡/实时翻译/AR导航全搞定

特斯联首款通用智能体发布，实现对物理世界的高维感知

港科大具身机器人团队，连续获亿级融资

ChatGPT付费功能免费用！Mistral把Canvas、Artifact全复制了

Qwen2.5更新百万超长上下文，推理速度4.3倍加速，网友：RAG要过时了

AI自动操作VS Code，自然语言搞定各种配置，来自阿里通义智能计算实验室 | 开源

定档12月11日，MEET2025智能未来大会报名通道已开启！

腾讯AI大牛，被曝投身视频生成创业

北大等发布多模态版o1！首个慢思考VLM将开源，视觉推理超越闭源模型

猫猫运动方程，首次被物理学家破解！ |《美国物理学杂志》正经研究

如祺出行跑进智驾深水区 “数据闭环”为技术迭代提供更优解

智能交互创新赛落幕，哈工大AI智能背诵助手拿下特等奖｜OPPO智能体平台

AI能办专属信用卡了，Agent自己赚钱自己花，OpenAI合作伙伴打造

AI一键解析九大生物医学成像模式，用户只需文字prompt交互，微软UW等新研究登Nature Methods

定档12月11日，MEET2025智能未来大会报名通道已开启！

ChatGPT击败50名人类医生！疾病诊断准确率达90%，OpenAI总裁：人机合作还得加强

打破纪录！中国科学家让薛定谔的猫活了23分钟

视频大模型无损提速：删除多余token，训练时间减少30%，帧率越高效果越好 | NeurIPS

实测腾讯元宝2.0：图文视频啥都能搜，论文绘画全搞定

杨植麟发布Kimi新模型：数学对标o1，中考高考考研成绩全第一

航展附近这场无人机编队表演，竟用了钉钉AI助理出的方案

量化能让大模型“恢复记忆”，删掉的隐私版权内容全回来了，SU哈佛亚马逊最新研究引热议

不做Sora背后：百度的多模态路线是什么？

马斯克新官上任再起诉OpenAI！新证据称Ilya七年前就不放心奥特曼了

人大&港科大揭示大模型重要安全风险漏洞：利用概念激活向量破解大模型的安全对齐｜NeurIPS 2024

多个中国团队斩获EMNLP'24最佳论文！UCLA华人学者中三篇杰出论文，明年顶会落户苏州

谷歌杀回来了！新版Gemini跑分超o1登顶第一，CEO：这才哪到哪儿

ChatGPT深夜更新：Mac版支持“读屏编程”，Windows版全员可用了

AI在《我的世界》PK盖楼，新旧Claude差距过于明显，网友：审美也是智力的一种

最后1天！2024人工智能年度评选，AI时代的行业先锋就等你来

大模型上了火山方舟：数据唯你可见，唯你所用，唯你所有

李飞飞吴佳俊团队新作：推出具身智能决策能力评价基准，o1-preview登顶 | NeurIPS

Scaling Law遭遇瓶颈，OpenAI被曝押注智能体“Operator”

Meta最新触觉机械手登Science子刊封面，操作未知物体精度最高提升94%

大模型“取长补短”新思路入选NeurIPS'24，显著优于现有路由方法，南科大港科大出品

最后2天！2024人工智能年度评选，AI时代的行业先锋就等你来

把Runway、Luma们一锅端了！这款视频模型上“杀手级”功能：一致性魔咒终于打破

Keras之父，离职谷歌

百度打通两大国民产品！六边形AI创作新物种「自由画布」来了

小度为何押注AI眼镜？

今日最热论文：Scaling Law后继乏力，量化也不管用，AI大佬齐刷刷附议

稚晖君后宇树也来玩开源了：机器人操作数据集，采用抱抱脸LeRobot训练测试，网友：泰裤辣！

最后3天！2024人工智能年度评选，AI时代的行业先锋就等你来

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉