机器人迈向ChatGPT时刻！清华首次发现具身智能Scaling Laws

科技 2024-11-02 23:59 上海

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达
点击进入—>【Mamba/多模态/扩散】交流群

添加微信号：CVer2233，小助手会拉你进群！
扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料，及最前沿应用！发论文/搞科研/涨薪，强烈推荐！

转载自：机器之心

想象这样一个场景：你正在火锅店和朋友畅聊，一个机器人熟练地为你倒饮料、端菜，完全不需要你分心招呼服务员。这个听起来像科幻的场景，已经被清华大学交叉信息院的研究者们变成了现实！他们发现了具身智能领域的 “圣杯”——data scaling laws，让机器人实现了真正的零样本泛化，可以无需任何微调就能泛化到全新的场景和物体。这一突破性发现，很可能成为机器人领域的 “ChatGPT 时刻”，彻底改变我们开发通用机器人的方式！

从火锅店到电梯，机器人展现惊人泛化力

研究团队可不是只在实验室里玩玩具。他们把机器人带到了各种真实场景：火锅店、咖啡厅、公园、喷泉旁，甚至是电梯里。更令人震惊的是，机器人在这些前所未见的环境中都展现出了超强的适应能力！

为了确保研究的可复现性，团队慷慨地开源了所有资源，包括耗时半年收集的海量人类演示数据：

论文标题：Data Scaling Laws in Imitation Learning for Robotic Manipulation
论文链接：https://arxiv.org/abs/2410.18647
项目主页：https://data-scaling-laws.github.io/

连 Google DeepMind 的机器人专家 Ted Xiao 都忍不住为这项研究点赞，称其对机器人大模型时代具有里程碑意义！

Scaling Laws：从 ChatGPT 到机器人的制胜法则

还记得 ChatGPT 为什么能横空出世吗？答案就是 scaling laws！现在，清华团队首次证明：这个法则在机器人领域同样适用。事实上，真正的 scaling laws 包含数据、模型和算力三个维度，而本研究重点突破了最基础也最关键的数据维度。

研究团队使用便携式手持夹爪 UMI，在真实环境中收集了超过 4 万条人类演示数据。他们采用最新的 Diffusion Policy 方法从这些数据中学习机器人控制模型，并通过惊人的 15000 + 次实机测试进行严谨评估，最终发现了三个革命性的幂律关系：

模型对新物体的泛化能力与训练「物体」数量呈幂律关系。
模型对新环境的泛化能力与训练「环境」数量呈幂律关系。
模型对环境 - 物体组合的泛化能力与训练「环境 - 物体对」的数量呈幂律关系。

这意味着什么？简单说：只要有足够的数据，机器人就能像 ChatGPT 理解语言一样，自然地理解和适应物理世界！这一发现不仅证实了机器人领域与语言模型存在惊人的相似性，更为预测数据规模与模型性能的关系提供了坚实的理论基础。

颠覆性发现：数据收集原来要这么做！

研究团队还破解了一个困扰业界的难题：对于给定的操作任务，如何优化选择环境数量、物体数量和每个物体的演示次数？

经过大量实验，他们得出了两个出人意料的结论：

1. 当环境数量足够多时，在单一环境中收集多个不同的操作物体的数据收益极其有限 —— 换句话说，每个环境只需要一个操作物体的数据就够了。

2. 单个物体的演示数据很容易达到饱和 —— 在倒水和摆放鼠标等任务中，总演示数据达到 800 次时，性能就开始趋于稳定。因此，每个物体 50 次示范基本就能搞定。

为验证这个策略，团队找来 4 个人，只花了一个下午就收集到了训练数据。结果令人震惊：在 8 个全新场景中，机器人成功率高达 90%！这意味着，原本可能需要几个月的数据收集工作，现在可能只需要几天就能完成！

模型规模化探索的意外发现

除了数据规模，研究团队还在模型规模化方面有三个重要发现：

视觉编码器必须经过预训练和完整的微调，缺一不可
扩大视觉编码器的规模能显著提升性能
最令人意外的是：扩大扩散模型的规模却没能带来明显的性能提升，这一现象还值得深入研究

未来展望

数据规模化正在推动机器人技术走向新纪元。但研究团队提醒：比起盲目增加数据量，提升数据质量可能更为重要。关键问题在于：

如何确定真正需要扩展的数据类型？
如何最高效地获取这些高质量数据？

这些都是 Data Scaling Laws 研究正在积极探索的方向。相信在不久的将来，具有超强适应力的机器人将走进千家万户，让科幻电影中的场景变为现实！而这一切，都将从清华团队发现的这个基础性规律开始！

关于作者

该项目有两位共同一作。一位是清华大学交叉信息研究院四年级博士生胡英东，专注于具身智能领域的前沿研究。他致力于探索通用机器人系统所面临的基础性问题，旨在使机器人能够在各种非结构化的现实环境中泛化其学习到的行为。

另一位是交叉信息研究院一年级博士生林凡淇。他专注于将大模型的先验知识融合到机器人任务中，帮助机器人完成日常生活中的复杂任务；同时他希望利用已有的机器人算法、视觉语言大模型，探索机器人落地的可能性。

项目的通讯作者是清华大学交叉信息研究院的助理教授高阳，他主要研究计算机视觉与机器人学。此前，他在美国加州大学伯克利分校获得博士学位，师从 Trevor Darrell 教授。他还在加州伯克利大学与 Pieter Abbeel 等人合作完成了博士后工作。在此之前，高阳从清华大学计算机系毕业，与朱军教授在贝叶斯推理方面开展了研究工作。他在 2011-2012 年在谷歌研究院进行了自然语言处理相关的研究工作、2016 年在谷歌自动驾驶部门 Waymo 的相机感知团队工作，在 2018 年与 Vladlen Koltun 博士在英特尔研究院在端到端自动驾驶方面进行了研究工作。高阳在人工智能顶级会议 NeurIPS，ICML，CVPR，ECCV，ICLR 等发表过多篇学术论文，谷歌学术引用量超过 2000 次。

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复：何恺明，即可下载本课程的所有566页课件PPT！赶紧学起来！
ECCV 2024 论文和代码下载
在CVer公众号后台回复：ECCV2024，即可下载ECCV 2024论文和代码开源的论文合集

CVPR 2024 论文和代码下载

在CVer公众号后台回复：CVPR2024，即可下载CVPR 2024论文和代码开源的论文合集

Mamba、多模态和扩散模型交流群成立

扫描下方二维码，或者添加微信号：CVer2233，即可添加CVer小助手微信，便可申请加入CVer-Mamba、多模态学习或者扩散模型微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。

一定要备注：研究方向+地点+学校/公司+昵称（如Mamba、多模态学习或者扩散模型+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群


▲扫码或加微信号: CVer2233，进交流群

CVer计算机视觉（知识星球）来了！想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料，欢迎扫描下方二维码，加入CVer计算机视觉（知识星球），已汇集上万人！

▲扫码加入星球学习

▲点击上方卡片，关注CVer公众号
整理不易，请赞和在看

http://mp.weixin.qq.com/s?__biz=MzUxNjcxMjQxNg==&mid=2247610416&idx=3&sn=5c96554ced8bf4433be2a33a26a0d42c

CVer

一个专注于计算机视觉方向的公众号。分享计算机视觉、深度学习、人工智能、自动驾驶和高校等高质量内容。

最新文章

炼丹神器来了！ Kaggle大神强推！

ECCV 2024 | CityGaussian：VR/AR时代的城市重建新标杆

Nature子刊！ViTaM：全新的视觉 - 触觉联合记录和追踪系统

AAAI 2025 开奖倒计时！CVPR 2025、ICLR 2025 投稿微信群来了！

最大的Mamba和遥感微信群成立！

大学“一级教授”和“四级教授”的区别有多大？

中央发文：不合格博士生，退出！

顶刊TPAMI 2024！白翔团队提出：局部场景文字检索任务和新方法

仅仅一天，Gemini就夺回了GPT-4o拿走的头名！

AAAI 2025 即将开奖！附CVPR 2025、ICLR 2025 投稿微信群！

异常检测和缺陷检测微信群成立！

教育部公布：2025年考研人数，再降50万！

16岁中学生获正高职称，后续来了

可以封神了！原来找论文idea这么简单

NeurIPS 2024 Oral | NeuroClips：揭秘从脑信号重建高保真流畅视频

ICLR 2025 改分啦！ICLR 2025和CVPR 2025投稿微信群成立！

DeepSeek团队新作JanusFlow：1.3B大模型统一视觉理解和生成

年仅42岁！一高校青年教师病逝……

面试小米，惨不忍睹。。。

NeurIPS 2024 | 收敛加快8倍，准确率提升超30%！华科大提出MoE Jetpack框架

ACM MM 2024 | S2TD-Face：基于素描输入的精细3D人脸重建方法

CVPR 2025、ICLR 2025和AAAI 2025投稿微信群来了！

扩散模型和多模态微信群成立！

重磅！2024年全球高被引科学家名单出炉！

YOLO跌落神坛？新一代目标检测器有新突破

NeurIPS 2024 | Coupled Mamba：通过耦合SSM增强多模态融合

MMRel：多模态大模型时代的评测物体间关系理解新基准

ICASSP 2025 出分了！投稿群成立！附CVPR 、AAAI 2025交流群！

医学图像微信群来了！

本科生一作、研究生二作、教授母亲三作，浙大奖学金获得者论文被质疑，高校回应！

又一篇AI顶会！这个idea“简直杀疯了 ” ...

NeurIPS 2024 | 浙江大学提出SINE：通用分割新模型

哈佛大学 & MIT 招收实习生

ICASSP 2025 投稿交流群成立！

最大ReID和目标跟踪微信群来了！

巨星陨落！北京大学发讣告

超越YOLOv8还不够！这些目标检测开源项目又上新了

顶刊TPAMI 2024！清华黄高团队提出：高效图像识别的统一动态网络

重磅！CVPR 2025、ICLR 2025和AAAI 2025投稿微信群成立！

快加入！最大的目标检测和图像分割微信群来了！

打破纪录！中国科学家让薛定谔的猫活了23分钟

这6个岗位，大厂抢疯了！！

NeurIPS 2024 | CMU提出RLT：加速视频Transformer新方法

中国团队斩获EMNLP 2024最佳论文奖！主办方：明年苏州见！

ICLR 2025 开始Rebuttal！AAAI 2025和CVPR 2025投稿微信群成立！

多模态和扩散模型微信群来了！

“16岁中学生获正高职称”，后续来了

月薪49k！字节跳动校招开奖！

LeCun团队新作DINO-WM：预训练视觉特征的世界模型，超强规划能力！

又一OpenAI研究员离职！不相信OpenAI能造福世界，AGI使命无比困难

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

机器人迈向ChatGPT时刻！清华首次发现具身智能Scaling Laws

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达点击进入—>【Mamba/多模态/扩散】交流群

添加微信号：CVer2233，小助手会拉你进群！扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料，及最前沿应用！发论文/搞科研/涨薪，强烈推荐！

何恺明在MIT授课的课件PPT下载

ECCV 2024 论文和代码下载

CVPR 2024 论文和代码下载

AI/CV重磅干货，第一时间送达
点击进入—>【Mamba/多模态/扩散】交流群

添加微信号：CVer2233，小助手会拉你进群！
扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料，及最前沿应用！发论文/搞科研/涨薪，强烈推荐！