麻省理工：大型语言模型帮助机器人导航

文摘科技 2024-07-09 21:33 广东

有朝一日，你可能会希望你的家庭机器人将一堆脏衣服运到楼下，并把它们放入地下室最远角的洗衣机中。机器人需要结合你的指令和它的视觉观察来确定完成这项任务所需的步骤。

对于AI来说，这说起来容易做起来难。当前的方法通常利用多个手工制作的机器学习模型来处理任务的不同部分，这需要大量的人力和专业知识来构建。这些方法使用视觉表示直接做出导航决策，需要大量的视觉数据进行训练，而这些数据往往难以获得。

为了克服这些挑战，麻省理工学院和MIT-IBM Watson AI实验室的研究人员设计了一种导航方法，将视觉表示转换为语言片段，然后输入到一个大型语言模型中，完成所有多步骤导航任务的部分。

他们的方法不是将机器人周围环境的图像中的视觉特征编码为视觉表示，而是创建描述机器人视角的文本标题。大型语言模型使用这些标题来预测机器人应该采取的行动以完成用户基于语言的指令。

因为他们的方法仅使用基于语言的表示，所以他们可以使用大型语言模型高效地生成大量合成训练数据。

尽管这种方法的性能不如使用视觉特征的技术，但在缺乏足够视觉训练数据的情况下表现良好。研究人员发现，将他们的基于语言的输入与视觉信号结合起来可以提高导航性能。

“通过纯粹使用语言作为感知表示，我们的方法更为直接。由于所有输入都可以编码为语言，我们可以生成人类可以理解的轨迹，”电气工程与计算机科学（EECS）研究生兼该研究论文的主要作者Bowen Pan说。

Pan的合作者包括他的导师、MIT Schwarzman计算学院的战略行业参与主任Aude Oliva，MIT-IBM Watson AI实验室的MIT主任，以及计算机科学与人工智能实验室（CSAIL）的高级研究科学家；EECS副教授兼CSAIL成员Philip Isola；EECS助理教授兼CSAIL成员Yoon Kim；以及MIT-IBM Watson AI实验室和达特茅斯学院的其他人员。这项研究将在北美计算语言学协会会议上展示。

用语言解决视觉问题

由于大型语言模型是现有最强大的机器学习模型，研究人员寻求将它们整合到称为视觉和语言导航的复杂任务中，Pan说。

但这些模型接受基于文本的输入，无法处理来自机器人相机的视觉数据。因此，团队需要找到一种使用语言的方法。

他们的技术利用一个简单的标题模型获取机器人视觉观察的文本描述。这些标题与基于语言的指令结合，并输入到一个大型语言模型中，该模型决定机器人接下来应该采取什么导航步骤。

大型语言模型输出机器人完成该步骤后应看到的场景标题。这用于更新轨迹历史，以便机器人可以跟踪它去过的地方。该模型重复这些过程，逐步生成引导机器人到达目标的轨迹。

为了简化流程，研究人员设计了模板，以便以标准形式向模型呈现观察信息——作为基于其周围环境的一系列选择。

例如，一个标题可能说“在你30度左侧是一个门旁边有一盆植物，你的背后是一个小办公室，里面有一张桌子和一台电脑”，等等。模型选择机器人应该向门还是办公室移动。

“最大的挑战之一是如何以适当的方式将这类信息编码成语言，使AI理解任务是什么以及它们应该如何响应，”Pan说。

语言的优势

当他们测试这种方法时，虽然它不能超越基于视觉的技术，但他们发现它具有几个优势。

首先，因为文本需要的计算资源比复杂的图像数据少，他们的方法可以用来快速生成合成训练数据。在一次测试中，他们基于10条现实世界的视觉轨迹生成了10,000条合成轨迹。

这项技术还可以弥补模拟环境中训练的代理在现实世界中表现不佳的差距。这种差距经常发生，因为计算机生成的图像由于光线或颜色等因素可能与现实世界的场景看起来相当不同。但是描述合成与真实图像的语言会更难区分，Pan说。

此外，他们的模型使用的表示更容易被人类理解，因为它们是用自然语言编写的。

“如果AI未能达到其目标，我们可以更容易地确定它失败的位置以及为什么失败。也许历史信息不够清晰，或者观察忽略了一些重要细节，”Pan说。

关注SDI，后台发送 “ 001 ” 获取研究论文原文

<SDI原创，欢迎转载、投稿联系>

往期精彩推荐:

麻省理工：教你如何成为AI工程师

AI工程师--下一个重大技术角色！

麻省理工预测：2024年十大突破性技术揭晓

专注AI、XR、元宇宙前沿洞察和商业服务

最新文章

国内首部AI知识产权标准启动编制，诚邀科技企业、律所律师、知产服务机构参编！

GPT 10 月份访问量达 37 亿次，同比增长 115%

假如 AI 欺骗了你

23000 名阿联酋航空机组人员将接受空客和波音 VR 培训

MIT：重新审视生成式人工智能的神秘山谷

国际电信联盟就 AI 和元宇宙做出承诺

Nature：元宇宙技术有助于促进更包容的社会

AI走向人性化：未来我们将如何与其共存？

麻省理工研究：AI聊天机器人可减少信仰阴谋论

沉浸感的诱惑：从爆火的JellyCat到《I Am Cat》VR游戏

福布斯：人工智能革命如何重塑世界？

扎克伯格推出带有神经接口的“Orion” AR 智能眼镜--黄仁勋开箱亲测

Gartner：2027 年，80% 软件开发人员将要接受 AI 培训

特斯拉推出Cybercab出租车，但Optimus机器人确更引人注目

诺贝尔奖的AI时代：为什么物理学奖和化学奖都颁给了人工智能？

Apple Vision Pro 2 传闻及最新消息

为什么女性使用 AI 的频率低于男性？

科隆数字展邀您亲身体验元宇宙与人工智能前沿技术

Roblox 重磅推出文字生成 3D 模型 AI工具

今年最值得关注的沉浸式协作趋势

生成式人工智能是如何忽悠你被解雇的？

AR 智能隐形眼镜将于 2026 年问世

牛津大学：AI科学家写论文，每篇仅需15美元

【深度】黑悟空爆火，再审视元宇宙第一股Roblox

阿迪达斯如何在元宇宙中全速前进

在Vision Pro发布六个月后的9个想法

联想如何使用 GenAI&XR 技术赋能培训？

AI机器人或将多年后参加奥运会？

七夕福利：10 款最佳 AI 约会应用，请查收！

微软AI语音技术：因功能太强，不敢公开！

西雅图腾讯的10亿人工智能大军，是干什么的？

欧洲议会刚刚批准了《人工智能法案》

美国在联合国推动全球人工智能治理

NVIDIA如何使用Vision Pro 训练机器人

这是微软 Co-pilot AR 智能眼镜的首次亮相吗？

AI初学者必看：第 8 篇 - 生成式人工智能的挑战和局限性

AI初学者必看：第 7 篇 - 生成式人工智能中的伦理考量

AI初学者必看：第 6 篇 - 与人工智能沟通的艺术

AI初学者必看：第 5 篇 - 什么是大型语言模型 (LLM)？

AI初学者必看：第 4 篇 - 生成式人工智能简介

AI初学者必看：第 3 篇 - 深度学习基础

AI初学者必看：第 2 篇 - 理解机器学习

MCM的品牌元宇宙创想新体验

Vision Pro里看欧洲杯是种什么快乐？超乎你想象

AI初学者：第 1 篇 - 人工智能简介

麻省理工：一只企鹅引发的AI革命性进展

麻省理工：大型语言模型帮助机器人导航

元宇宙前沿速递：全球趋势、企业动态与行业深度剖析

麻省理工：如何用生成式AI来培养学生？

麻省理工：教你如何成为AI工程师

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉