世界模型在机器人技术革新中的关键作用 | 附1X公司超100小时训练矢量视频

文摘 2024-09-18 19:27 美国

点击⬇️图标关注抓住你的灵感💡瞬间

本文由1X今日发布，深入探讨了世界模型如何成为机器人技术发展的转折点，介绍了其在虚拟模拟器中的应用，以及如何通过模拟复杂的物体交互和环境变化来评估通用机器人的能力。1X还宣布了一个新的数据集和公开竞赛，旨在鼓励更多的研究和创新，推动机器人技术向前发展。无疑，这是非常好的了解前沿机器人的数据收集和训练过程。AILin师傅将其转译为中文，供学习参考。

在机器学习中，世界模型是一种能够根据智能体的行为想象世界如何演变的计算机程序。基于视频生成技术和用于自动驾驶车辆的世界模型的进展，我们训练了一个世界模型，作为我们机器人虚拟模拟器。从相同的起始图像序列开始，我们的世界模型可以根据不同的机器人行为提案预测多个未来。

它还可以预测复杂的物体交互，例如刚体的运动、物体掉落的效果、部分可见性、可变形物体（如窗帘、衣物）以及关节物体（如门、抽屉、窗帘、椅子）。

在这篇文章中，我们将分享为什么世界模型对机器人非常重要，介绍我们当前模型的能力与局限性，并宣布一个新数据集和公开竞赛，以鼓励在这一领域的更多研究。

机器人问题

世界模型解决了在构建通用机器人时一个实际但常常被忽视的挑战：评估。如果你训练一个机器人执行1000项独特任务，要判断新模型是否在这1000项任务上都让机器人表现得更好，这其实非常困难。甚至相同的模型参数在几天内由于环境背景或光照细微变化，性能也可能快速下降。

我们训练的一个T恤折叠模型，其性能在50天内出现下降。

如果环境随着时间推移不断变化，那么之前在该环境中进行的实验将无法重复，因为原来的环境不复存在！如果你在家中或办公室等不断变化的环境中评估多任务系统，这个问题将更加严重，这使得在现实世界中进行严谨的机器人科学研究非常困难。

对能力的精确测量可以帮助预测随着数据量、计算能力和模型规模的增加，能力如何扩展——这些“扩展定律”为像ChatGPT这样的通用AI系统的巨大投资提供了支持。如果机器人领域想要迎来“ChatGPT时刻”，我们必须首先确立其“扩展定律”。

其他评估方法

基于物理的仿真（如Bullet、Mujoco、Isaac Sim、Drake）是快速测试机器人策略的一种合理方式。它们可以重置且具有可重复性，使研究人员能够仔细比较不同的控制算法。然而，这些模拟器大多是为刚体动力学设计的，并且需要大量的手动资产创建。如何模拟机器人手打开咖啡滤纸的纸箱、用刀切水果、拧开冰冻的果酱罐，或与其他智能体（如人类）互动？家庭环境中的日常物品和动物是非常难以模拟的，因此用于机器人技术的仿真环境往往在视觉上过于单调，缺乏真实世界应用场景的多样性。小规模的评估无论是在真实世界还是仿真中，通常无法预测大规模现实世界中的表现。

世界模型

我们正在采取一种全新的评估通用机器人的方法：直接从原始传感器数据中学习模拟器，并使用它在数百万个场景中评估我们的策略。通过直接从真实数据中学习模拟器，你可以捕捉现实世界的全部复杂性，而无需手动创建资产。

在过去的一年中，我们收集了数千小时EVE人形机器人在家中和办公室中执行各种移动操作任务并与人互动的数据。我们将视频和动作数据结合起来，训练了一个世界模型，它可以根据观察和动作预测未来的视频。

动作可控性

我们的世界模型能够根据不同的动作命令生成多样化的结果。下面展示了将世界模型基于四种不同轨迹进行条件生成的过程，每条轨迹都从相同的初始帧开始。与之前一样，这些示例并未包含在训练中。

左门轨迹

右门轨迹

模拟弹空气吉他

世界模型的主要价值在于模拟物体的交互。在以下生成示例中，我们为模型提供了相同的初始帧和三组不同的动作来抓取箱子。在每种情况下，所抓取的箱子随着夹爪的运动被抬起和移动，而其他箱子保持不动。

即使没有提供动作，世界模型也能生成合理的视频，比如学习到在驾驶时应避开人和障碍物：

长期任务

我们还可以生成长期视频。下面的示例模拟了一次完整的T恤折叠演示。T恤和可变形物体在刚体模拟器中往往很难实现。

当前的失败模式

物体连贯性

我们的模型在交互过程中有时无法保持物体的形状和颜色，甚至可能导致物体完全消失。此外，当物体被遮挡或以不利角度显示时，它们的外观在生成过程中可能发生变形。

物理定律

左侧的生成展示了我们的模型对物理属性的某种自然理解，例如当夹爪松开时，勺子掉到桌子上。然而，很多情况下，生成未能遵守物理定律，比如右侧的生成中盘子悬浮在空中。

自我识别

我们将EVE放在镜子前，试图观察生成是否会表现出镜像动作，但我们没有看到成功的识别或“自我理解”。

世界模型挑战

正如上面的示例所示，仍然有大量工作需要完成。世界模型有潜力解决通用模拟和评估问题，使机器人在各种场景中变得更加安全、可靠和智能。因此，我们将这一工作视为机器人领域的重大挑战，希望整个社区能共同努力解决。为了加速世界模型在机器人领域的进展，我们发布了超过100小时的矢量量化视频（Apache 2.0 许可）、预训练的基线模型，并推出了“1X 世界模型挑战”——一个包含三个阶段的挑战赛，提供现金奖励。

参考：https://www.1x.tech/discover/1x-world-model

以上，既然看到这里了，如果觉得不错，随手点个赞、在看、转发三连吧，如果想第一时间收到推送，也可以给我个星标⭐～谢谢你看我的文章，我们，下次再见。

点击关注和转发公众号保持你对AI优质内容的敏感

AI趋势全天候

以AI之名，探索未知。 🧠观察行业，关照本心，时常好奇，时常喜欢猫。随缘私信交流

生成式AI视频简史、世界模型与艺术的联结：Runway联创Anastasis Germanidis演讲编译

OpenAI 的产品管理与人工智能的未来: Kevin Weil访谈

马斯克的载入历史的一周：自动驾驶与太空探索的关键进展

HeyGen CEO 万字访谈 | TikTok 的生成式 AI 困境、语音克隆的挑战以及交互式虚拟人的未来

“我们基本上不做大语言模型了，转向人类级别的 AI” | Yann LeCun的思考

从 SaaS 到智能体：IQ+EQ+AQ三商加成下AI将发生角色转换 | 微软CEO舒尔曼观点

ChatGPT是闪电捕手，后续押注产品持久性和用户信任 | OpenAI投资人郭士纳观点

10月AI报告 | AIR STREET CAPITAL 2024全球AI发展现状十大要点（附212页报告链接）

Cursor二号位00后工程师揭秘内部团队：放弃大学期末考，只为加入AI创业

【AI从业必读】Anthropic CEO长文预判AI未来--强大的人工智能的基本假设和框架（6个特性）

NotebookLM产品经理Raiza Martin揭秘背后故事 | Google Labs AI高级产品经理专访

红杉报告 | 生成式AI的o1篇章：智能推理新时代的开启【译】

上传日记让NotebookLM秒变AI陪伴应用

10/10 Tesla We Robot会前展望：三款新车预测引发行业热议

冷知识 | 视频画质下降的真相——技术发展与平台利益对弈

Steven Johnson专访：预见NotebookLM下一步将开发视频生成

创业不疯魔，等于白忙活 | 从0到40亿美元估值：Scale创始人Wang的"过度"哲学

大A和生成式AI的异同

“Fast is Fun” Cursor创始团队看到了编程的未来图景

谷歌NotebookLM起飞！背后团队讲述“小灵快”AI产品故事

【BOS万字专访】AI眼镜要替代手机？别让科技把你玩成傻子！—Meta CTO解惑+祛魅，畅谈AI、AR、脑机接口

推理时间计算和AGI之路 - 对话OpenAI研究人员 | Sequoia Capital访谈

ChatGPT高级语音免费推送所有注册用户，亲测！ | OpenAI's DevDay 2024福利

9月：AI 圈的乌龙、趣事与新闻

AI狂欢中的人性枷锁：OpenAI上演现实版月亮与六便士

Andrej Karpathy灼见：Google NotebookLM或引领LLM交互的下一个ChatGPT时刻

OpenAI CTO 离职，Sora 前景不明

国内用不了，为什么我要了解 OpenAI 4o高级语音（类人精）正式推向市场？

Sam Altman雄文自诩“点灯人”，预告《智能时代》到来

认知GPS：LinkedIn创始人眼中AI的心灵蒸汽机时刻 | 斯坦福演讲万字分享（上）

认知GPS：LinkedIn创始人眼中AI的心灵蒸汽机时刻（下）| 含Lin师傅思考笔记

大师的灵魂拷问：手机与注意力 | 它死机后未能恢复，我过去三年的记忆随之离开

从万年灰T恤到多元风格：扎克伯格的“换装”与 Meta AI 进击之路 | 最新 Acquired访谈

T-Mobile 联手 OpenAI：75% 电话咨询将被 AI 取代，意图驱动客户体验大升级！【译】

利用社交阵地，爆点话题驱动的AI轻咨询app | 一波流搞钱大法

机器人想统治世界？其实是你想让它帮你洗衣服！

世界模型在机器人技术革新中的关键作用 | 附1X公司超100小时训练矢量视频

思考8秒后，o1还是选择 “F**K”！ | 今早OpenAI推理模型使用加速放宽，释放了想象力？

参加完 OpenAI 的活动，我看到了「草莓」的隐患

OpenAI o1的宏大叙事与 AlphaGo的第37手

「草莓」实测：可能只是工程 Trick，且有扣费陷阱！

天选打工人用本周最强AI中文辣评给职场热梗造句

乔布斯的创新苹果，如今只剩核？探讨iPhone 16的3%创新困境

AILin笔记 | 李楠AI 硬件创业取舍之道：从 Meta Glasses 和端侧模型看未来趋势

Human Intelligence & AI 转移认知时刻 | Lin师傅周末听悟

释放大模型潜力：掌握提示词工程的艺术 | 9月Anthropic圆桌深度解析

奥特曼疯了吗，真把AGI当摇钱树？| ChatGPT的订阅月费能否将涨100倍，得看OOMs

小孩哥8岁零编程经验开发游戏/网站的真相是什么？| 赛博一代的成长公式

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉