物理智能推出机器人基础模型 Pi-Zero

科技   2024-12-04 23:27   辽宁  

Physical Intelligence 最近发布了π0 (Pi-zero),这是一种用于机器人的通用 AI 基础大模型。Pi-zero 基于预先训练的视觉语言模型 (VLM),在五项机器人任务的评估中优于其他的基线模型。

Pi-zero 基于PaliGemma VLM,然后使用从 7 个执行 68 项任务的不同机器人收集的自定义数据集以及 Open X-Embodiment 数据集对其进行进一步训练。由此产生的基模型可以接受自然语言命令并“以基本熟练程度”执行任务。物理智能研究人员将 pi-zero 的性能与两个基线模型OpenVLA和Octo进行了比较,比较了五项不同的任务,包括折叠衣物与整理桌子等工作;总结 pi-zero 比基线模型都取得了“巨大的进步”。

根据物理智能所描述之言语:

机器人基础模型研究的前沿包括长期推理和规划、自主自我改进、稳健性和安全性。预计明年所有这些方向都将取得重大进展,但初步结果为机器人基础模型的未来描绘了一幅光明图景:高度强大的通用策略,继承了互联网规模预训练的语义理解,整合了来自许多不同任务和机器人平台的数据,并实现了前所未有的灵活性和物理能力。

Pi-zero 的架构灵感来自Transfusion,这是 Meta 和 Waymo 创建的一个模型,它对代表离散和连续数据的标记进行操作。就 Pi-zero 而言,该模型有一个独特的模块,用于处理机器人特定的动作 I/O,研究人员称之为“动作专家”。该模型的输入是视觉图像、机器人的关节角度和语言命令的组合;输出是一系列机器人动作标记。

对于一些复杂的任务,人类操作员的语言命令首先被输入到高级 VLM 中,后者将其分解为一系列更简单的任务,就像SayCan等模型所做的一样。研发人员还发现,这种方案提高了摆桌子等任务的性能。他们还发现,当人类操作员给机器人一系列更简单的命令时,机器人的表现也有类似的改善。

Physical Intelligence 联合创始人Karol Hausman在 X 平台上还回答了有关该模型的几个问题。他证实他们的演示视频不是脚本或遥控的。当被问及为什么他的团队使用折叠衣物来评估他们的模型时,他说:

有很多原因可以说明为什么折叠衣物是一项好任务:

- 如果做得好,每个人都能理解并能用到

- 很容易复位(比如将衣服扔回篮子里)

- 它可以任意长度(连续折叠多件衣物)

- 很容易生成多样化数据(许多的衣物)

Andrew Ng的一名团队成员将 π0 与机器人领域的 GPT-1 进行了比较——这是未来趋势的预兆。尽管文本数据(大量可用的)和机器人数据(难以获取且每个机器人都不同)之间存在显著差异,但大型机器人基础模型的新时代似乎即将到来。

其他几家大型企业也一直在开发用于机器人的多模态基础模型。包括 NVIDIA 的GR00T模型,该模型已经经过视频、文本和真实机器人演示的训练。还有 Google 的PaLM-E,这是这家公司 PaLM 和 Vision Transformer (ViT) 模型的组合,用于控制机器人,以及 Google DeepMind 的Robotics Transformer 2 (RT-2),这是一种用于控制机器人的视觉-语言-动作 (VLA) 的人工智能模型。

相关网址:

https://www.physicalintelligence.company/

作者:燕子

相关阅读:

21CTO
21CTO(21CTO.com),开发者的学习与服务平台。提供高品质文章、课程与训练营、招聘等产品。
 最新文章