训练通用机器人的更快、更好的方法

文摘   2024-10-29 04:14   加拿大  


研究人员拍摄了机械臂喂食合著者赵嘉良的可爱狗狗 Momo 的多个场景。这些视频被纳入用于训练机器人的数据集中。图片:研究人员提供

受到大型语言模型的启发,研究人员开发了一种训练技术,可以汇集各种数据来教授机器人新技能。

在经典动画片《杰森一家》中,机器人女仆罗西可以无缝切换,从打扫房间到做饭再到倒垃圾。但在现实生活中,训练通用机器人仍然是一项重大挑战。

通常,工程师会收集特定于特定机器人和任务的数据,并使用这些数据在受控环境中训练机器人。然而,收集这些数据既昂贵又耗时,而且机器人可能很难适应它从未见过的环境或任务。

为了训练更好的通用机器人,麻省理工学院的研究人员开发了一种多功能技术,将来自许多来源的大量异构数据组合成一个系统,可以教任何机器人执行各种各样的任务。

他们的方法涉及将来自不同领域(如模拟和真实机器人)和多种模式(包括视觉传感器和机械臂位置编码器)的数据对齐成生成式 AI 模型可以处理的共享“语言”。

通过结合如此大量的数据,这种方法可以用来训练机器人执行各种任务,而无需每次都从头开始训练。

这种方法比传统技术更快、更便宜,因为它需要的任务特定数据少得多。此外,在模拟和真实世界实验中,它的表现比从头开始的训练高出 20% 以上。

“在机器人领域,人们经常声称我们没有足够的训练数据。但在我看来,另一个大问题是数据来自如此多不同的领域、模式和机器人硬件。我们的工作展示了如何将所有这些结合起来训练机器人,”电气工程和计算机科学 (EECS) 研究生、该技术论文的主要作者 Lirui Wang 说道。

王的合著者包括 EECS 研究生赵嘉良、Meta 的研究科学家陈新蕾以及资深作者何开明(EECS 副教授,计算机科学与人工智能实验室 (CSAIL) 成员)。这项研究将在神经信息处理系统会议上发表。

受法学硕士 (LLM) 启发

机器人“策略”采用传感器观测数据,例如摄像机图像或跟踪机械臂速度和位置的本体感受测量数据,然后告诉机器人如何移动以及移动到何处。

策略通常使用模仿学习进行训练,即人类演示动作或远程操作机器人来生成数据,这些数据被输入到学习策略的 AI 模型中。由于这种方法使用少量特定于任务的数据,因此当环境或任务发生变化时,机器人通常会失败。

为了开发更好的方法,王和他的合作者从 GPT-4 等大型语言模型中汲取了灵感。

这些模型使用大量不同的语言数据进行预训练,然后通过输入少量特定于任务的数据进行微调。对如此多的数据进行预训练有助于模型适应各种任务并表现出色。

“在语言领域,数据都是句子。在机器人领域,考虑到数据中的各种异质性,如果你想以类似的方式进行预训练,我们需要一种不同的架构,”他说。

机器人数据有多种形式,从相机图像到语言指令再到深度图。同时,每个机器人在机械上都是独一无二的,手臂、夹持器和传感器的数量和方向都不同。此外,收集数据的环境也千差万别。

麻省理工学院的研究人员开发了一种名为异构预训练变压器(HPT)的新架构,它将来自不同模态和领域的数据统一起来。

他们将一种称为转换器的机器学习模型置于架构的中心,该模型处理视觉和本体感受输入。转换器与构成大型语言模型主干的模型属于同一类型。

研究人员将视觉和本体感觉的数据对齐为同一类型的输入,称为 token,以供转换器处理。每个输入都用相同固定数量的 token 表示。

然后,Transformer 将所有输入映射到一个共享空间,随着它处理和学习更多数据,逐渐成长为一个巨大的预训练模型。Transformer 越大,其性能越好。

用户只需向 HPT 提供少量有关机器人设计、设置和希望机器人执行的任务的数据。然后 HPT 会将预训练期间 Transformer 所积累的知识迁移到新任务中。

实现灵巧的动作

开发 HPT 的最大挑战之一是构建海量数据集来预训练 Transformer,该数据集包括四类 52 个数据集,超过 200,000 条机器人轨迹,包括人类演示视频和模拟。

研究人员还需要开发一种有效的方法,将来自一系列传感器的原始本体感受信号转换成变压器可以处理的数据。

“本体感受是实现许多灵巧动作的关键。由于我们的架构中的 token 数量始终相同,因此我们对本体感受和视觉的重视程度是一样的,”王解释道。

当他们测试 HPT 时,与每次从头开始训练相比,它在模拟和真实任务中将机器人的性能提高了 20% 以上。即使任务与预训练数据有很大不同,HPT 仍然提高了性能。

“这篇论文提供了一种在多个机器人实例中训练单一策略的新方法。这使得跨不同数据集进行训练成为可能,从而使机器人学习方法能够显著扩大它们可以训练的数据集的大小。它还允许模型快速适应新的机器人实例,这一点很重要,因为新的机器人设计不断涌现,”卡内基梅隆大学机器人研究所副教授 David Held 表示,他没有参与这项研究。

未来,研究人员希望研究数据多样性如何提升 HPT 的性能。他们还希望增强 HPT,使其能够像 GPT-4 和其他大型语言模型一样处理未标记的数据。

“我们的梦想是拥有一个通用的机器人大脑,你可以下载它并使用它,而无需任何训练。虽然我们才刚刚起步,但我们将继续努力,希望规模化能带来机器人策略方面的突破,就像大型语言模型一样,”他说。

这项工作部分由亚马逊大波士顿科技计划和丰田研究所资助。

来源:麻省理工学院新闻

声明:我们推送的每一篇文,都会注明来源和作者,版权归原作者所有。若未能找到作者和原始出处还望谅解;如有侵权,请联系本微信后台,我们会在第一时间删除并致歉。

订阅方式:点击右上角图标(…)可

1:发送给朋友  2:分享到朋友圈
3:查看公众号(官方)账号:
中小企业国际合作交流平台

              4.扫码让你来体验人工智能,绘画创作/AI对话/智能写作

中小企业国际合作交流平台
中小企业国际合作交流平台是专门为中小企业传递有价值的各类信息,海内外投融资咨询,中外合作交流,政府商务信息咨询等服务。
 最新文章