物理智能推出机器人基础模型 Pi-Zero

科技 2024-12-04 23:27 辽宁

Physical Intelligence 最近发布了π0 (Pi-zero)，这是一种用于机器人的通用 AI 基础大模型。Pi-zero 基于预先训练的视觉语言模型 (VLM)，在五项机器人任务的评估中优于其他的基线模型。

Pi-zero 基于PaliGemma VLM，然后使用从 7 个执行 68 项任务的不同机器人收集的自定义数据集以及 Open X-Embodiment 数据集对其进行进一步训练。由此产生的基模型可以接受自然语言命令并“以基本熟练程度”执行任务。物理智能研究人员将 pi-zero 的性能与两个基线模型OpenVLA和Octo进行了比较，比较了五项不同的任务，包括折叠衣物与整理桌子等工作；总结 pi-zero 比基线模型都取得了“巨大的进步”。

根据物理智能所描述之言语：

机器人基础模型研究的前沿包括长期推理和规划、自主自我改进、稳健性和安全性。预计明年所有这些方向都将取得重大进展，但初步结果为机器人基础模型的未来描绘了一幅光明图景：高度强大的通用策略，继承了互联网规模预训练的语义理解，整合了来自许多不同任务和机器人平台的数据，并实现了前所未有的灵活性和物理能力。

Pi-zero 的架构灵感来自Transfusion，这是 Meta 和 Waymo 创建的一个模型，它对代表离散和连续数据的标记进行操作。就 Pi-zero 而言，该模型有一个独特的模块，用于处理机器人特定的动作 I/O，研究人员称之为“动作专家”。该模型的输入是视觉图像、机器人的关节角度和语言命令的组合；输出是一系列机器人动作标记。

对于一些复杂的任务，人类操作员的语言命令首先被输入到高级 VLM 中，后者将其分解为一系列更简单的任务，就像SayCan等模型所做的一样。研发人员还发现，这种方案提高了摆桌子等任务的性能。他们还发现，当人类操作员给机器人一系列更简单的命令时，机器人的表现也有类似的改善。

Physical Intelligence 联合创始人Karol Hausman在 X 平台上还回答了有关该模型的几个问题。他证实他们的演示视频不是脚本或遥控的。当被问及为什么他的团队使用折叠衣物来评估他们的模型时，他说：

有很多原因可以说明为什么折叠衣物是一项好任务：

- 如果做得好，每个人都能理解并能用到

- 很容易复位（比如将衣服扔回篮子里）

- 它可以任意长度（连续折叠多件衣物）

- 很容易生成多样化数据（许多的衣物）

Andrew Ng的一名团队成员将 π0 与机器人领域的 GPT-1 进行了比较——这是未来趋势的预兆。尽管文本数据（大量可用的）和机器人数据（难以获取且每个机器人都不同）之间存在显著差异，但大型机器人基础模型的新时代似乎即将到来。

其他几家大型企业也一直在开发用于机器人的多模态基础模型。包括 NVIDIA 的GR00T模型，该模型已经经过视频、文本和真实机器人演示的训练。还有 Google 的PaLM-E，这是这家公司 PaLM 和 Vision Transformer (ViT) 模型的组合，用于控制机器人，以及 Google DeepMind 的Robotics Transformer 2 (RT-2)，这是一种用于控制机器人的视觉-语言-动作 (VLA) 的人工智能模型。

最新文章

2024 年最重要的软件开发新闻

SQLite 在 Rust 中重新实现，以实现异步 I/O 等变化

2024 年 5 大人工智能工程趋势

TypeScript、Rust 和 Python 是 2024 年最有前景的语言

避免使用 SELECT *，即使在单列表上！

2025 年三大开源身份验证框架

我尝试了当前流行的编程语言

Redis之父终于回归了

为什么 PHP 8 是个高性能版本

清华大学教授严蔚敏去世

Google 将空间内存安全功能“改造”到 C++ 上

韩国互联网巨头 Naver 创建自己的 Linux 发行版

Google 宣布推出 Gemini 2.0 Flash 与新的编码代理

构建可扩展系统的 8 个必知策略

2025年最适合编程的键盘

英伟达被立案调查；张一鸣全力押注AI，亲自监督招聘人才；Linux内核“6.12”成为长期支持版本

AI 从零到英雄：通过开源项目开始学习

2025 年你应该告别的 5 个 JavaScript 库

甲骨文80岁老板华裔娇妻意外曝光！年仅33岁

开发者最喜欢的几款 AI 编辑器

2025 年前端开发招聘的关键技能

FreeBSD 14.2 正吸引 Docker 的粉丝

OpenAI 推出ChatGPT Pro与开发者成本API

JDK 24：Java 24 中的新特性

这些将成为 2025 年开发人员最需要的技能

PostgreSQL 弃用 MD5 密码

物理智能推出机器人基础模型 Pi-Zero

松下集团用AI“复活”松下幸之助

Couchbase 应对代理 AI 开发挑战

Bing 出现 AI 漏洞即时注入攻击

Deno 与 Oracle：谁真正拥有 JavaScript？

马斯克继续起诉 OpenAI 营利转型；Vite 6 发布；Tailwind CSS 发布 V4.0 Beta 1

Node.js 作者再次喊话 Oracle：放手JavaScript！

Pop!_OS：适合各类创作者的最佳 Linux 发行版之一

PHP 8.4 的新特性

为什么大家都在使用 PostgreSQL？

Rust将如何改变机器人技术？

滴滴张博卸任CTO，将专注自动驾驶业务；C++逆袭！首超C语言登顶榜眼，Go语言跻身前十强势崛起；华为正向 Android 告别

人工智能业务疯长，亚马逊超越AWS初期3倍以上

瑞士在历史悠久的教堂里实现了一个AI 耶稣

OpenAI 宣布面向开发人员的新功能

最佳开源 IDE 盘点

10 倍开发人员与人工智能：精英程序员会被取代吗？

采访 Kotlin 首席设计师：Kotlin 语言与 Java 的差异会有多大？

AI 将帮助开发者重新爱上编码

美国司法部将迫使谷歌出售 Chrome 浏览器

2025 年十大现代 JavaScript 模式

Chrome 是新的 IE 吗？

Elasticsearch 很棒，但矢量数据库才是未来？

JetBrains 发布 IntelliJ IDEA 2024.3，并实现了新 UI

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉