作者丨刘洁
编辑丨岑峰
来自清华大学的高阳团队在最新一届机器人顶级会议 CoRL 2024(Conference on Robot Learning)中荣获 X-Embodiment Workshop最佳论文奖。
CoRL 是全球机器人学习领域的顶级学术会议,每年汇聚来自全球顶尖学府的创新研究,评选出的最佳论文通常代表着前沿技术与重大突破。
清华团队此次获奖的论文标题为《Data Scaling Laws in Imitation Learning for Robotic Manipulation》,关注的是数据规模定律在机器人操作中的模仿学习中的应用,尤其是能否通过适当的数据规模来实现零样本泛化。
研究团队收集了超过 40,000 次演示,并进行了 15,000 多次机器人实测。结果表明,策略的泛化能力主要依赖于环境和对象的多样性,而非单纯的演示数量。
在此基础上,他们设计了一种高效的数据收集方案,仅需四个采集者花一下午便能获取足够数据,使两个任务在新环境和新对象上的成功率达到约 90%。
随后,团队将机器人部署在各种野外环境中,包括火锅店、咖啡馆、电梯、喷泉和其他以前未收集数据的地方。结果显示,模型在这些全新的环境中展现出极好的泛化能力,超出预期。
这篇论文的作者是来自清华大学交叉信息研究院的高阳和他的学生林凡淇、胡英东、盛平岳、Chuan Wen、游嘉诚,其中林凡淇、胡英东、Chuan Wen 同属于上海期智学院和上海人工智能实验室。
论文链接:https://data-scaling-laws.github.io/paper.pdf
项目网址:https://data-scaling-laws.github.io/
代码:https://github.com/Fanqi-Lin/Data-Scaling-Laws
数据:https://huggingface.co/datasets/Fanqi-Lin/Processed-Task-Dataset/tree/main
研究团队选择使用手持夹持器(UMI)在不同环境中收集人类演示数据,并使用扩散策略(Diffusion Policy)对数据进行建模,主要研究了策略的泛化性能如何随着训练环境数量、物体数量和演示数量的变化而变化。
实验选择了 Pour Water(倒水)和 Mouse Arrangement(鼠标移动)作为案例研究任务,并在此基础上扩展到 Fold Towels(叠毛巾)和 Unplug Charger(拔掉充电器)任务,收集了超过 40,000 次演示,并在超过 15,000 次实际机器人操作中进行了评估。
具体的实验任务分为对象泛化、环境泛化以及跨环境和对象泛化三种类型,分别针对同一环境下的不同物体、不同环境下的同一物体和不同环境下的不同物体收集演示,随机选择部分演示进行训练,并评估策略在未知情况下的的表现。每个实验设置下,策略在 8 个未见过的环境中进行评估,每个环境有 5 次试验。
实验结果表明,策略的泛化能力与训练物体数量、环境数量和训练环境-物体对数关系密切,符合幂律分布。
对象泛化
随着训练物体数量的增加,策略在未见过的物体上的表现显著提高。当训练物体数量达到 32 时,策略在未见过的物体上的表现超过了 0.9。
环境泛化
增加训练环境数量显著提高了策略在未见过的环境上的表现。即使演示数量保持不变,环境扩展仍然有效。
跨环境和对象泛化
同时增加环境和物体数量显著提高了策略的泛化能力。与单独扩展环境或物体相比,同时扩展两者的效果更好,且额外的演示对性能的提升更快饱和。
林凡淇
林凡淇,清华大学交叉信息研究院 (IIIS) 的一年级博士生,指导老师是高阳教授。此前在清华大学计算机科学与技术系获得学士学位。
他的研究重点是 Embodied AI(具身智能),这是一个集成机器人、计算机视觉和自然语言处理的跨学科领域。具体来说,他的目标是使机器人能够通过大规模数据实现人类水平的操作能力。同时,他还热衷于利用基础模型来增强机器人的能力。
胡英东
胡英东,清华大学交叉信息研究院 (IIIS) 的四年级博士生,指导老师是高阳教授。此前在北京邮电大学 (BUPT) 获得学士学位。
他的研究重点也是具身智能,他研究了开发通用机器人系统的基本挑战,这些系统可以在各种非结构化的现实世界环境中有效地适应和推广其学习行为。
盛平岳
盛平岳,清华大学交叉信息科学研究院 (IIIS) 姚班的一名本科生。他的研究兴趣集中在机器人技术、模仿学习和算法上。
Chuan Wen
游嘉诚
高阳
PoliFormer: Scaling On-Policy RL with Transformers Results in Masterful Navigators
One Model to Drift Them All: Physics-Informed Conditional Diffusion Model for Driving at the Limits
受到这些挑战的启发,研究团队提出了一个框架,利用包含不同环境中不同车辆轨迹的无标签数据集,学习用于高性能车辆控制的条件扩散模型。
欢迎大家加入DLer-机器人&具身智能研究交流群!
大家好,群里会第一时间发布机器人、具身智能方向的前沿论文解读和交流分享,以及各大顶级公司的实习、校招、社招机会等等!
👆 长按识别,邀请您进群!