SmartFlowAI
点击上方蓝字关注我们
本文翻译自:https://ai.meta.com/blog/fair-robotics-open-source/ 。有删改。原文发布于 October 31, 2024
导读:Meta FAIR 团队致力于推动嵌入式 AI 智能体的创建,这些智能体能够与周围环境进行交互,并与人类安全共存
宣布了机器人技术和触觉感知领域的三项新的前沿发展,包括首个用于基于视觉的触觉传感的通用编码器 Meta Sparsh、一款突破性的基于人工指尖的触觉传感器 Meta Digit 360、一个用于机器人传感器连接和交互的标准化平台 Meta Digit Plexus 发布了研究和评估家庭活动中人机协作的最大基准 PARTNR 宣布了与 GelSight Inc 和 Wonik Robotics 的战略合作伙伴关系,以发展和商业化触觉传感器创新 强调了通过开源社区扩展触觉感知和机器人技术的能力,并帮助培养一个开放的 AI 生态系统。 全文约 3600 字,预计阅读时间 9 分钟
理解和与物理世界互动——对于人类来说,这是完成日常任务的关键能力,但对于目前的 AI 系统来说,这是一个挑战。作为实现高级机器智能(AMI)的关键步骤,Meta 的基础 AI 研究(FAIR)团队正在与机器人社区合作,推动能够与周围环境进行交互并与人类安全共存的嵌入式 AI 智能体的创建。
触觉是人类进行物理互动的第一及最重要的感官模式。为了让 AI 能够感知视觉无法获取的信息,FAIR 发布了:
Meta Sparsh,首个用于基于视觉的触觉传感的通用编码器,适用于许多触觉传感器和许多任务,使用自我监督学习在 460K+触觉图像上进行训练; Meta Digit 360,一款突破性的基于人工指尖的触觉传感器,配备18+传感功能,以人类水平的精度和触摸传感能力提供详细的触摸数据; Meta Digit Plexus,一个用于机器人传感器连接和交互的标准化平台,它提供了一种软硬件解决方案,可将触觉传感器集成在单个机械手上,并通过单根电缆实现无缝数据收集、控制和分析。这些工作将有助于机器执行更复杂的灵巧任务,有望对医疗和制造业等领域产生积极影响。
FAIR 还与行业领导者 GelSight Inc 和 Wonik Robotics 合作,开发并商业化这些触觉传感器创新。GelSight Inc 将生产和分销 Digit 360,预计明年将开始销售,研究社区的成员可以通过“Digit 360 call for proposals[1]”获得早期访问权限。另一方面,FAIR 与Wonik Robotics 的合作旨在创建一个利用了 Meta Digit Plexus 并充分集成了触觉传感的全新高级灵巧手。Wonik Robotics 将生产和分销下一代 Allegro Hand,预计将于明年推出。如果想了解这次发布的最新信息,可以填写“interest form[2]”。
为了让机器人真正有用,它们必须超越物理任务,并对社交互动进行推理。这就是为什么 FAIR 要引入 PARTNR 基准——一个用于评估人机协作中的计划和推理的标准化框架。PARTNR 可以在不同的协作场景中对具身模型进行可复制的大规模评估,例如基于 LLM 的规划器,并将时间和空间等物理世界的限制纳入其中。PARTNR 将推动人机交互和协作智能的进步,将人工智能模型从“智能体”转变为“合作伙伴”。
Meta Sparsh:探索物理智能的新方法
FAIR 公开发布了 Sparsh,这是第一个适用于多种视觉触觉传感器的通用编码器。Sparsh 这个名字来源于梵语中触觉感知体验的意思,适合描述数字化触觉信号如何被 AI 模型处理,以实现触觉感知。
视觉触觉传感器有许多不同的形式,它们在形状、照明和凝胶标记方面各不相同。现有的方法依赖于任务和传感器特定的手工制作模型。由于真实数据的收集需要标签(如力和滑动),这是难以扩展的,因为这样的数据可能是不可行的。与此相反,Sparsh 可以跨多种视觉触觉传感器和多种任务工作,通过利用自我监督学习(SSL)的进展,避免了对标签的需求。它是一系列在超过 460,000 张触觉图像上预训练的模型。
为了进行标准化的触觉模型评估,FAIR 引入了一个新的基准,该基准包括六个以触觉为中心的任务,从理解触觉属性到启用物理感知和灵巧规划。FAIR 发现 Sparsh 在这个基准上的平均表现优于任务和传感器特定的模型超过 95%。通过实现触觉传感的预训练后端,FAIR 旨在赋予社区构建和扩展这些模型到机器人、AI 和其他创新应用中的能力。
Read the paper[3]
Download the code[4]
Download the models and dataset[5]
Meta Digit 360:具有人类水平触觉传感的人工指尖
Meta Digit 360 是一种人工指尖形状的触觉传感器,它通过以人类水平精度数字化触觉数据,提供了丰富而详细的触觉数据。Digit 360 配备了超过 18 种感应特征,将使触觉感知研究取得进展,并允许研究人员选择组合其多种感应技术,或者隔离各个信号进行深入分析。随着时间的推移,FAIR 希望研究人员使用这种设备来开发能够更好地理解和建模物理世界的 AI,包括物体的物理性、人与物体互动以及接触物理学。Digit 360 显著超过了先前的传感器,能够检测到微小的空间细节变化,并能捕捉到如 1 毫牛顿的力。
为了实现这一点,FAIR 开发了一个专门用于触觉感知的光学系统,具有超过 800 万个 taxels 的宽广视野,用于捕捉指尖表面的全方位变形。此外,FAIR 还为传感器配备了多种感应模式,因为每次与环境的接触互动都有一个独特的由环境表面的机械、几何和化学属性产生的配置文件,用于感知振动、感知热量,甚至能够闻到气味。通过利用这些多模态信号,Digit 360 将帮助科学家们推进 AI 在世界的丰富细节方面的研究。带有 AI 加速器的 Digit 360 可以快速在本地处理信息,以响应如握篮球或针刺般的刺激。它可以作为一种类似于人类和动物中的反射弧的外围神经系统。
除了提升机器人的灵巧性外,这种突破性的传感器在医疗和假肢、虚拟现实和远程操作等领域具有重要的潜在应用。这种新的专门用于触觉的光学镜头可以在人工指尖的全方位上看到印记,捕捉到接触表面的更敏感的细节。对于虚拟世界来说,Digit 360 可以帮助更好地将虚拟环境中的交互与对象属性的更现实的表示形式联系起来,超出了它们的视觉外观。FAIR 正在公开发布所有代码和设计,并期待着看到社区对这项工作的迭代。
Read the paper[6]
Visit the website[7]
Download the code and design[8]
Meta Digit Plexus:触觉传感手的标准化平台
人类手掌在触觉信息从指尖到掌心的皮肤上向大脑信号时,非常出色。这使得在做决定时,如何在键盘上打字或与一个过热的物体交互,能够促使手中的肌肉采取行动。实现嵌入式AI需要机器人手中触觉传感和动作执行器之间的类似协调。
FAIR 介绍了一个标准化平台,即 Meta Digit Plexus,它提供了一个硬件 - 软件解决方案,用于将触觉传感器集成到单个机器人手中。该平台通过控制板将视觉基础的触觉传感器和皮肤基础的触觉传感器(如 Digit、Digit 360 和 ReSkin)接口到控制板中,以对所有数据进行编码,并将其传输到主机电脑。软件集成和硬件组件使得可以通过单个电缆进行数据收集、控制和分析。
从头开始构建这样一个标准化平台,使 FAIR 能够推动 AI 和机器人灵巧性研究的最前沿。如今,FAIR 分享了 Meta Digit Plexus 的代码和设计,以帮助降低社区进行触觉感知和灵巧性研究的门槛。
Download the code and design[9]
GelSight Inc 和 Wonik Robotics:在开创机器人未来的合作伙伴
FAIR 认为,通过行业的合作可以更好地推动机器人技术的进步,以造福大众。FAIR 与行业领导者 GelSight Inc 和 Wonik Robotics 合作,以发展并提供对今天分享的进展的访问权限。
GelSight Inc将生产和分销Digit 360,预计明年将广泛可用。这将有助于培养一个以研究社区为主导的机器人技术研究方法。研究社区的成员可以通过“Digit 360 call for proposals”获得早期访问权限。
“与Meta合作开发Digit 360是基于我们对愿景的立即共识。我们希望鼓励研究人员和开发人员在他们的研究中拥抱这种技术,并使触觉传感成为普遍的现象。”GelSight Inc的首席执行官Youssef Benmokhtar说。
FAIR 还与韩国的 Wonik Robotics 合作,开发了 Allegro Hand,这是一种完全集成了触觉传感器的机器人手。基于 Meta Digit Plexus 平台,Allegro Hand 的下一代预计将帮助推进机器人技术研究,使得实验更容易进行。Wonik Robotics 将生产和分销 Allegro Hand,预计明年将推出。如果想了解这次发布的最新信息,可以填写“interest form”。
“Wonik Robotics和Meta FAIR旨在向全球公司、研究机构和大学介绍机器人手技术,以便它们继续开发对人类有益的、安全的机器人手技术。”Wonik Robotics的执行董事兼未来技术总部负责人Yonmook Park博士说。
PARTNR:一个新的人机协作基准
随着逐步接近一个带有能够执行日常家务的智能机器人和高级 AI 模型的未来,考虑它们与人类的互动至关重要。这就是为什么 FAIR 要发布一个用于研究人机协作在家务活动中的基准,即 PARTNR[10],它旨在研究人机协作中的计划和推理。在物理硬件上对社交嵌入式代理进行训练和测试,以及与实际的人类合作伙伴一起工作,是难以扩展的,可能会引起安全顾虑。FAIR 通过在 Habitat 3.0[11] 的基础上开发PARTNR来解决这个问题,这是一个高速、真实的模拟器,支持机器人和人形化atar,允许在类似家庭的环境中进行人机协作,并在未来的物理世界场景中进行测试。
PARTNR 是目前最大的这类基准,包括 100,000 个自然语言任务,涵盖 60 个房屋和超过 5,800 个独特的物体。该基准旨在评估大型语言和视觉模型(LLMs/VLMs)在通过人在循环(human - in - the - loop)工具与人类协作方面的表现。它包括多个最先进的 LLM 基准线以及沿着计划、感知和技能执行的轴线进行系统分析。FAIR 的结果显示,基于 LLM 的最先进的规划器在协调、任务跟踪和故障恢复方面存在困难。
将 AI 模型从 “代理” 转变为能够操作的 “伙伴” 的旅程正在进行中。通过提供一个标准化的基准和数据集,PARTNR 旨在推动人机协作领域的负责任的研究和创新。FAIR 希望它能够启用对机器人的研究,使它们不仅能够在孤立环境中运行,还能在人类周围有效地工作,并根据每个人的偏好进行适应。
Read the paper[12]
Visit the website[13]
Download the code[14]
未来展望
扩展触觉感知和机器人技术的能力将是开源社区的一大步 forward,有助于实现医疗研究、供应链、制造业、能源等领域的新可能性。FAIR 致力于公开发布模型、数据集和软件,并且 FAIR 还认为共享硬件平台将有助于培养新一代的机器人 AI 研究。通过与 GelSight Inc 和 Wonik Robotics 的合作,FAIR 期待将这些硬件发送给研究人员,以便他们可以对这些技术进行迭代,并探索新的令人兴奋的用例。与社区一起不断迭代,将使所有人都更接近一个让 AI 和机器人技术服务于更大的利益的未来。
Digit 360 call for proposals: https://digit.ml/cfp
[2]interest form: https://digit.ml/plexus
[3]Meta Sparsh - Read the paper: https://ai.meta.com/research/publications/sparsh-self-supervised-touch-representations-for-vision-based-tactile-sensing/
[4]Meta Sparsh - Download the code: https://github.com/facebookresearch/sparsh
[5]Meta Sparsh - Download the models and dataset: https://huggingface.co/collections/facebook/sparsh-67167ce57566196a4526c328
[6]Meta Digit 360 - Read the paper: https://ai.meta.com/research/publications/digitizing-touch-with-an-artificial-multimodal-fingertip/
[7]Meta Digit 360 - Visit the website: https://digit.ml/
[8]Meta Digit 360 - Download the code and design: https://github.com/facebookresearch/digit360
[9]Meta Digit Plexus - Download the code and design: https://github.com/facebookresearch/digit-plexus
[10]PARTNR: https://aihabitat.org/partnr/
[11]Habitat 3.0: https://ai.meta.com/research/publications/habitat-30-a-co-habitat-for-humans-avatars-and-robots/
[12]PARTNR - Read the paper: https://ai.meta.com/research/publications/partnr-a-benchmark-for-planning-and-reasoning-in-embodied-multi-agent-tasks/
[13]PARTNR - Visit the website: https://aihabitat.org/partnr/
[14]PARTNR - Download the code: https://github.com/facebookresearch/partnr-planner/tree/main
往期 · 推荐
🌠 番外:我们期待与读者共同探讨如何在 AI 的辅助下,更好地发挥人类的潜力,以及如何培养和维持那些 AI 难以取代的核心技能。通过深入分析和实践,我们可以更清晰地认识到 AI 的辅助作用,并在 AI 时代下找到人类的独特价值和发展空间。“机智流”公众号后台聊天框回复“cc”,加入机智流大模型交流群!
一起“点赞”三连👇