机器人迈向ChatGPT时刻！清华团队首次发现具身智能Scaling Laws

科技 2024-11-01 03:29 北京

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

想象这样一个场景：你正在火锅店和朋友畅聊，一个机器人熟练地为你倒饮料、端菜，完全不需要你分心招呼服务员。这个听起来像科幻的场景，已经被清华大学交叉信息院的研究者们变成了现实！他们发现了具身智能领域的 “圣杯”——data scaling laws，让机器人实现了真正的零样本泛化，可以无需任何微调就能泛化到全新的场景和物体。这一突破性发现，很可能成为机器人领域的 “ChatGPT 时刻”，彻底改变我们开发通用机器人的方式！

从火锅店到电梯，机器人展现惊人泛化力

研究团队可不是只在实验室里玩玩具。他们把机器人带到了各种真实场景：火锅店、咖啡厅、公园、喷泉旁，甚至是电梯里。更令人震惊的是，机器人在这些前所未见的环境中都展现出了超强的适应能力！

为了确保研究的可复现性，团队慷慨地开源了所有资源，包括耗时半年收集的海量人类演示数据：

论文标题：Data Scaling Laws in Imitation Learning for Robotic Manipulation
论文链接：https://arxiv.org/abs/2410.18647
项目主页：https://data-scaling-laws.github.io/

连 Google DeepMind 的机器人专家 Ted Xiao 都忍不住为这项研究点赞，称其对机器人大模型时代具有里程碑意义！

Scaling Laws：从 ChatGPT 到机器人的制胜法则

还记得 ChatGPT 为什么能横空出世吗？答案就是 scaling laws！现在，清华团队首次证明：这个法则在机器人领域同样适用。事实上，真正的 scaling laws 包含数据、模型和算力三个维度，而本研究重点突破了最基础也最关键的数据维度。

研究团队使用便携式手持夹爪 UMI，在真实环境中收集了超过 4 万条人类演示数据。他们采用最新的 Diffusion Policy 方法从这些数据中学习机器人控制模型，并通过惊人的 15000 + 次实机测试进行严谨评估，最终发现了三个革命性的幂律关系：

模型对新物体的泛化能力与训练「物体」数量呈幂律关系。
模型对新环境的泛化能力与训练「环境」数量呈幂律关系。
模型对环境 - 物体组合的泛化能力与训练「环境 - 物体对」的数量呈幂律关系。

这意味着什么？简单说：只要有足够的数据，机器人就能像 ChatGPT 理解语言一样，自然地理解和适应物理世界！这一发现不仅证实了机器人领域与语言模型存在惊人的相似性，更为预测数据规模与模型性能的关系提供了坚实的理论基础。

颠覆性发现：数据收集原来要这么做！

研究团队还破解了一个困扰业界的难题：对于给定的操作任务，如何优化选择环境数量、物体数量和每个物体的演示次数？

经过大量实验，他们得出了两个出人意料的结论：

1. 当环境数量足够多时，在单一环境中收集多个不同的操作物体的数据收益极其有限 —— 换句话说，每个环境只需要一个操作物体的数据就够了。

2. 单个物体的演示数据很容易达到饱和 —— 在倒水和摆放鼠标等任务中，总演示数据达到 800 次时，性能就开始趋于稳定。因此，每个物体 50 次示范基本就能搞定。

为验证这个策略，团队找来 4 个人，只花了一个下午就收集到了训练数据。结果令人震惊：在 8 个全新场景中，机器人成功率高达 90%！这意味着，原本可能需要几个月的数据收集工作，现在可能只需要几天就能完成！

模型规模化探索的意外发现

除了数据规模，研究团队还在模型规模化方面有三个重要发现：

视觉编码器必须经过预训练和完整的微调，缺一不可
扩大视觉编码器的规模能显著提升性能
最令人意外的是：扩大扩散模型的规模却没能带来明显的性能提升，这一现象还值得深入研究

未来展望

数据规模化正在推动机器人技术走向新纪元。但研究团队提醒：比起盲目增加数据量，提升数据质量可能更为重要。关键问题在于：

如何确定真正需要扩展的数据类型？
如何最高效地获取这些高质量数据？

这些都是 Data Scaling Laws 研究正在积极探索的方向。相信在不久的将来，具有超强适应力的机器人将走进千家万户，让科幻电影中的场景变为现实！而这一切，都将从清华团队发现的这个基础性规律开始！

关于作者

该项目有两位共同一作。一位是清华大学交叉信息研究院四年级博士生胡英东，专注于具身智能领域的前沿研究。他致力于探索通用机器人系统所面临的基础性问题，旨在使机器人能够在各种非结构化的现实环境中泛化其学习到的行为。

另一位是交叉信息研究院一年级博士生林凡淇。他专注于将大模型的先验知识融合到机器人任务中，帮助机器人完成日常生活中的复杂任务；同时他希望利用已有的机器人算法、视觉语言大模型，探索机器人落地的可能性。

项目的通讯作者是清华大学交叉信息研究院的助理教授高阳，他主要研究计算机视觉与机器人学。此前，他在美国加州大学伯克利分校获得博士学位，师从 Trevor Darrell 教授。他还在加州伯克利大学与 Pieter Abbeel 等人合作完成了博士后工作。在此之前，高阳从清华大学计算机系毕业，与朱军教授在贝叶斯推理方面开展了研究工作。他在 2011-2012 年在谷歌研究院进行了自然语言处理相关的研究工作、2016 年在谷歌自动驾驶部门 Waymo 的相机感知团队工作，在 2018 年与 Vladlen Koltun 博士在英特尔研究院在端到端自动驾驶方面进行了研究工作。高阳在人工智能顶级会议 NeurIPS，ICML，CVPR，ECCV，ICLR 等发表过多篇学术论文，谷歌学术引用量超过 2000 次。

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650941234&idx=4&sn=c16f003b62b137728db3992a9e3cf721

机器之心

专业的人工智能媒体和产业服务平台

RTX 4090可跑、完全开源，最快视频生成模型问世，实测一言难尽

RL「误人」？LeCun 在技术路线上又有何战略摇摆？

智能体零样本解决未见过人类设计环境！全靠这个开放式物理RL环境空间

研究大模型门槛太高？不妨看看小模型SLM，知识点都在这

大半年过去，主流视频生成模型们超越Sora了吗？

这才是真・开源模型！公开「后训练」一切，性能超越Llama 3.1 Instruct

阿里国际版o1来了，Marco-o1：聚焦开放式问题推理

英伟达开源福利：视频生成、机器人都能用的SOTA tokenizer

NeurIPS 2024 Oral | 还原所见！揭秘从脑信号重建高保真流畅视频

如今的智能体，已经像人一样「浏览」视频了，国内就有

仅仅一天，Gemini就夺回了GPT-4o拿走的头名

上交大o1复现新突破：蒸馏超越原版，警示AI研发"捷径陷阱"

大模型不会推理，为什么也能有思路？有人把原理搞明白了

全球十亿级轨迹点驱动，首个轨迹基础大模型来了

扣子OpenAPI突进智能语音战场！点满低延时、定制化、随时打断和音色克隆技能（内测开启！）

推理性能直逼o1，DeepSeek再次出手，重点：即将开源

诺奖得主哈萨比斯新作登Nature，AlphaQubit解码出更可靠量子计算机

神级项目训练GPT-2仅需5分钟，Andrej Karpathy都点赞

NeurIPS 2024 | 水印与高效推理如何两全其美？最新理论：这做不到

大模型代肝，自动刷《崩铁》升级材料，Claude操纵计算机还能这么用！

实测昆仑万维对话AI「Skyo」，会读诗、知晓雷军摆拍

室温超导学术不端、多次Nature撤稿，这位印度裔学者被大学解雇

德国科学家激进观点：意识是虚拟的，存在于大脑构建的梦中

媲美OpenAI事实性基准，这个中文评测集让o1-preview刚刚及格

在「最难LLM评测榜单」上，阶跃万亿参数模型拿下中国第一

登上Nature的AI芯片设计屡遭质疑，谷歌发文反击，Jeff Dean：质疑者连预训练都没做

高通的自研架构芯片，正在整合生成式AI世界

发力了，Mistral对标ChatGPT全面升级le Chat，还祭出超大杯多模态模型

大模型承重墙，去掉了就开始摆烂！苹果给出了「超级权重」

取人类与大模型之长，人机协作式智能软件开发框架AgileGen来了

面向代码语言模型的安全性研究全新进展，南大&NTU联合发布全面综述

精度与通用性不可兼得，北大华为理论证明低精度下scaling law难以实现

Karpathy后悔了：2015年就看到了语言模型的潜力，却搞了多年强化学习

钻石冷却的GPU即将问世：温度能降20度，超频空间增加25%

可以实现零代码开发的OPPO智能体平台，到底强在哪？

继良品率低后，英伟达Blackwell又出过热问题，说好的明年初发货呢？

NeurIPS 2024 | 自我纠错如何使OpenAI o1推理能力大大加强？北大、MIT团队给出理论解释

对标o1，Kimi放出了最能打的国产模型

怎样保证你不是AGI独裁者？马斯克为何退出OpenAI？早期邮件公开了

从未见过现实世界数据，MIT在虚拟环境中训练出机器狗，照样能跑酷

扩展测试时计算是万能的吗？Scaling What成为关键

突破无规则稀疏计算边界，编译框架CROSS数倍提升模型性能

谁能进入下一轮？具身智能「练习生」的技术储备和商业路径有何异同？

传说中Ilya Sutskever精选论文清单：AI领域40大论文完整版「破解」完成

首个自主机器学习AI工程师，刚问世就秒了OpenAI o1，Kaggle大师拿到饱

LeCun 的世界模型初步实现！基于预训练视觉特征，看一眼任务就能零样本规划

NeurIPS 2024 | 无需训练，一个框架搞定开放式目标检测、实例分割

率先解决多类数据同时受损，中科大MIRA团队TRACER入选NeurIPS 2024：强鲁棒性的离线变分贝叶斯强化学习

这三家国内机构合作成果，斩获EMNLP 2024最佳论文奖，主办方：明年苏州见！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉