麻省理工:大型语言模型帮助机器人导航
文摘
科技
2024-07-09 21:33
广东
有朝一日,你可能会希望你的家庭机器人将一堆脏衣服运到楼下,并把它们放入地下室最远角的洗衣机中。机器人需要结合你的指令和它的视觉观察来确定完成这项任务所需的步骤。对于AI来说,这说起来容易做起来难。当前的方法通常利用多个手工制作的机器学习模型来处理任务的不同部分,这需要大量的人力和专业知识来构建。这些方法使用视觉表示直接做出导航决策,需要大量的视觉数据进行训练,而这些数据往往难以获得。为了克服这些挑战,麻省理工学院和MIT-IBM Watson AI实验室的研究人员设计了一种导航方法,将视觉表示转换为语言片段,然后输入到一个大型语言模型中,完成所有多步骤导航任务的部分。他们的方法不是将机器人周围环境的图像中的视觉特征编码为视觉表示,而是创建描述机器人视角的文本标题。大型语言模型使用这些标题来预测机器人应该采取的行动以完成用户基于语言的指令。因为他们的方法仅使用基于语言的表示,所以他们可以使用大型语言模型高效地生成大量合成训练数据。尽管这种方法的性能不如使用视觉特征的技术,但在缺乏足够视觉训练数据的情况下表现良好。研究人员发现,将他们的基于语言的输入与视觉信号结合起来可以提高导航性能。“通过纯粹使用语言作为感知表示,我们的方法更为直接。由于所有输入都可以编码为语言,我们可以生成人类可以理解的轨迹,”电气工程与计算机科学(EECS)研究生兼该研究论文的主要作者Bowen Pan说。Pan的合作者包括他的导师、MIT Schwarzman计算学院的战略行业参与主任Aude Oliva,MIT-IBM Watson AI实验室的MIT主任,以及计算机科学与人工智能实验室(CSAIL)的高级研究科学家;EECS副教授兼CSAIL成员Philip Isola;EECS助理教授兼CSAIL成员Yoon Kim;以及MIT-IBM Watson AI实验室和达特茅斯学院的其他人员。这项研究将在北美计算语言学协会会议上展示。用语言解决视觉问题
由于大型语言模型是现有最强大的机器学习模型,研究人员寻求将它们整合到称为视觉和语言导航的复杂任务中,Pan说。但这些模型接受基于文本的输入,无法处理来自机器人相机的视觉数据。因此,团队需要找到一种使用语言的方法。他们的技术利用一个简单的标题模型获取机器人视觉观察的文本描述。这些标题与基于语言的指令结合,并输入到一个大型语言模型中,该模型决定机器人接下来应该采取什么导航步骤。大型语言模型输出机器人完成该步骤后应看到的场景标题。这用于更新轨迹历史,以便机器人可以跟踪它去过的地方。该模型重复这些过程,逐步生成引导机器人到达目标的轨迹。为了简化流程,研究人员设计了模板,以便以标准形式向模型呈现观察信息——作为基于其周围环境的一系列选择。例如,一个标题可能说“在你30度左侧是一个门旁边有一盆植物,你的背后是一个小办公室,里面有一张桌子和一台电脑”,等等。模型选择机器人应该向门还是办公室移动。“最大的挑战之一是如何以适当的方式将这类信息编码成语言,使AI理解任务是什么以及它们应该如何响应,”Pan说。当他们测试这种方法时,虽然它不能超越基于视觉的技术,但他们发现它具有几个优势。首先,因为文本需要的计算资源比复杂的图像数据少,他们的方法可以用来快速生成合成训练数据。在一次测试中,他们基于10条现实世界的视觉轨迹生成了10,000条合成轨迹。这项技术还可以弥补模拟环境中训练的代理在现实世界中表现不佳的差距。这种差距经常发生,因为计算机生成的图像由于光线或颜色等因素可能与现实世界的场景看起来相当不同。但是描述合成与真实图像的语言会更难区分,Pan说。此外,他们的模型使用的表示更容易被人类理解,因为它们是用自然语言编写的。“如果AI未能达到其目标,我们可以更容易地确定它失败的位置以及为什么失败。也许历史信息不够清晰,或者观察忽略了一些重要细节,”Pan说。关注SDI,后台发送 “ 001 ” 获取研究论文原文