HelloAI｜[译]Voyager：一个基于大型语言模型的开放式具体化代理

文摘科技 2023-05-29 15:19 上海

Voyager是第一个由LLM驱动的体现性终身学习代理，它利用GPT-4不断探索世界，发展越来越复杂的技能，并在没有人类干预的情况下不断做出新发现。Voyager 在发现新物品、解锁 Minecraft 技术树、穿越不同的地形以及将其学到的技能库应用于新实例化世界中的未见任务方面表现出卓越的性能。Voyager 可以作为一个起点，在不调整模型参数的情况下开发强大的通用代理。以下是原文翻译，原文、项目链接和开源地址在文末。

我们介绍 Voyager，这是 Minecraft 中第一款LLM驱动的嵌入式终身学习代理，它在没有人为干预的情况下不断探索世界，获得各种技能，并做出新的发现。Voyager 由三个关键组成部分组成：1）最大化探索的自动课程，2）用于存储和检索复杂行为的可执行代码的不断增长的技能库，以及3）一种新的迭代提示机制，该机制结合了环境反馈、执行错误和程序改进的自我验证。

Voyager 通过黑盒查询与GPT-4交互，从而绕过了模型参数微调的需要。Voyager 开发的技能是暂时扩展的、可解释的和合成的，这迅速增强了代理的能力，缓解了灾难性的遗忘。从经验上讲，Voyager 表现出了强大的情境终身学习能力，并在玩 Minecraft 方面表现出了非凡的熟练度。它获得的独特物品是之前的3.3倍，旅行距离是之前的2.3倍，解锁关键技术树里程碑的速度是之前的SOTA的15.3倍。Voyager 能够在一个新的 Minecraft 世界中利用学到的技能库从头开始解决新的任务，而其他技术则难以推广。

构建能够在开放世界中不断探索、规划和发展新技能的具有普遍能力的具体代理，对人工智能社区来说是一个巨大的挑战。经典方法采用了对原始动作进行操作的强化学习（RL）和模仿学习，这可能对系统探索、可解释性和泛化具有挑战性。基于大型语言模型（LLM）的代理的最新进展利用预先训练的LLM中封装的世界知识来生成一致的行动计划或可执行策略。它们被应用于游戏和机器人等具体任务，以及没有具体化的NLP任务。然而，这些代理人并不是终身学习者，他们可以在较长的时间内逐步获得、更新、积累和转移知识。

让我们以 Minecraft 为例。与人工智能研究的大多数其他游戏不同，Minecraft 没有强加预先定义的最终目标或固定的故事情节，而是提供了一个具有无尽可能性的独特游乐场。一个有效的终身学习代理应该具有与人类玩家类似的能力：（1）根据其当前的技能水平和世界状态提出合适的任务，例如，如果它发现自己在沙漠而不是森林中，就要学会在打铁之前先收割沙子和仙人掌；（2）根据环境反馈完善技能，并将掌握的技能保存在记忆中，以备将来在类似情况下重复使用（例如，与僵尸作战类似于与蜘蛛作战）；（3）以自我驱动的方式不断探索世界并寻找新的任务。

我们介绍了 Voyager，这是第一款LLM驱动的嵌入式终身学习代理，可以在无需人工干预的情况下推动探索，掌握广泛的技能，并不断做出新发现。Voyager 是通过三个关键模块实现的：1）最大化探索的自动课程；2）用于存储和检索复杂行为的技能库；以及3）新的迭代提示机制，其生成用于具体控制的可执行代码。我们选择使用代码作为行动空间，而不是低级的运动指令，因为程序可以自然地表示时间扩展和合成的动作，这对 Minecraft 中的许多长期任务至关重要。Voyager 通过提示和上下文学习与黑盒LLM（GPT-4）进行交互。我们的方法绕过了对模型参数访问和基于显式梯度的训练或微调的需要。

Voyager 由三个关键组成部分组成：用于开放式探索的自动课程，用于日益复杂的行为的技能库，以及使用代码作为动作空间的迭代提示机制。

自动课程

自动课程考虑了探索的进展和主体的状态，以最大限度地进行探索。该课程由GPT-4基于“发现尽可能多的不同事物”的总体目标编制。这种方法可以被视为一种上下文中的新颖性搜索形式。

技能库

上图：添加新技能。每项技能都通过嵌入其描述进行索引，这些描述可以在未来类似的情况下检索。

下图：技能检索。当面对自动课程提出的新任务时，我们进行查询以识别前五名的相关技能。复杂的技能可以通过编写更简单的程序来综合，随着时间的推移，Voyager的能力会迅速增强，并缓解灾难性的遗忘。

迭代提示机制

左图：环境反馈。GPT-4意识到在制作木棒之前还需要2块木板。

右图：执行错误。GPT-4意识到它应该制作一把木斧，而不是一把洋槐斧，因为 Minecraft 中没有洋槐斧。

自我验证。通过向GPT-4提供代理的当前状态和任务，我们要求它作为一个批评者，告知我们程序是否实现了任务。此外，如果任务失败，它还会通过建议如何完成任务来提供批评。

我们系统地评估了 Voyager 和基线的探索性能、技术树的掌握情况、地图覆盖率以及对新世界中的新任务的 zero-shot 概括能力。

明显改善的探索

如第一张图所示，Voyager 的优势体现在它能够不断取得新的进展，在160次提示迭代中发现了63个独特的项目，与同类项目相比是其3.3倍的新项目。另一方面，AutoGPT 在发现新项目方面明显滞后，而 ReAct 和 Reflexion 则难以取得重大进展。

技术树的掌握

Minecraft 技术树测试代理人制作和使用工具层次的能力。通过这棵树（木制工具→石制工具→铁制工具→钻石工具）的进展需要代理人掌握系统性和构成性的技能。在这个表格中，分数表示三次总运行中的成功试验次数。数字是三次试验中平均的提示迭代次数。迭代次数越少，方法就越有效。与基线相比，Voyager 解锁木质等级的速度快了15.3倍（就提示迭代而言），石质等级快了8.5倍，铁质等级快了6.4倍，Voyager 是唯一能解锁科技树中钻石等级的人。

广泛的地图遍历

Minecraft 地图的两个鸟瞰图。与基线相比，Voyager 能够通过穿越各种地形而航行2.3倍的距离，而基线代理经常发现自己被限制在局部区域，这大大阻碍了他们发现新知识的能力。

对未知任务的高效零样本泛化

对未见过的任务进行零样本概括。我们清除代理人的库存，将其重置到一个新的实例化的世界，然后用未见过的任务进行测试。在上表中，分数表示三次总运行中的成功试验的数量。数字是三次试验中平均的提示迭代次数。迭代次数越少，方法的效率就越高。Voyager 可以持续地解决所有的任务，而基线在50次提示迭代中不能解决任何任务。值得注意的是，我们从终身学习中构建的技能库不仅增强了 Voyager 的性能，而且也给 AutoGPT 带来了提升。这表明，技能库作为一种多功能的工具，可以随时被其他方法所采用，有效地作为一种即插即用的资产来提高性能。

消融研究（Ablation Studies）

GPT-3.5意味着用GPT-3.5代替GPT-4进行代码生成。Voyager的性能优于所有替代方案，表明了每个组件的关键作用。此外，GPT-4在代码生成方面明显优于GPT-3.5。

在这项工作中，我们介绍了 Voyager，第一个由LLM驱动的体现性终身学习代理，它利用GPT-4不断探索世界，发展越来越复杂的技能，并在没有人类干预的情况下不断做出新发现。Voyager 在发现新物品、解锁 Minecraft 技术树、穿越不同的地形以及将其学到的技能库应用于新实例化世界中的未见任务方面表现出卓越的性能。Voyager 可以作为一个起点，在不调整模型参数的情况下开发强大的通用代理。

原文链接/项目地址：https://voyager.minedojo.org/

开源地址：https://github.com/MineDojo/Voyager

本文由 https://helloai.wiki 分享

http://mp.weixin.qq.com/s?__biz=MzkzNjQ5MzAxMA==&mid=2247485128&idx=1&sn=7bbac9c08ac4d2744a48c923f718785f

赛脖古

新技术分享，前沿科技探查

最新文章

纯血鸿蒙被海外热议：速度惊人，能力强悍，“求海外版”！

iPhone16销量暴涨20%？苹果AI落后2年，库克急了

特斯拉“面包车”震撼发布，自动驾驶未来之战已打响

微信鸿蒙原生版官宣，界面清爽，网友求推广

淘宝饿了么偷偷开通“先用后付”？别再替我“贷款”了！

新造车9月销量：卷低价奏效，“理小零”创新高

苹果将推廉价新品，用 M5 芯片！

Sam Altman 发布新开发工具！AI 领域大跃进：通往 AGI 之路更清晰，开发者的新时代来了！

苹果头显遭 Meta 暴击！如何突出重围？

刚刚，SpaceX“龙”飞船再发射！接宇航员回家

惊！特斯拉被锁：车联网时代，你的汽车安全吗？

突发！高通拟全盘收购 Intel

微信朋友圈能发Live实况照片了！安卓用户可能要等等了

BP机爆炸事件：台湾公司撇清责任，爆炸原因扑朔迷离

iPhone16出厂将预装iOS18正式版，老iPhone依旧流畅使用

Apple Watch的10年之作：所有的升级你都看得到

华为狙击苹果

iPhone16系列5999元起售，会不会发售当天就破发？

手机厂商集体宣布，这类App下架！网友发现新机不如旧机好用了...

苹果微信只能二选一？临近发布会，网友很认真

马斯克炫耀新机房，特斯拉超级计算集群内部曝光

英伟达Blackwell芯片供应将暴增！老黄：量大管饱！

扎克伯格公开信：我错了！下次不敢了！

亿万富豪亲自上阵：SpaceX 首次私人太空行走任务即将开启！

《黑神话：悟空》卖爆，单机游戏要翻身了？

苹果终于开放NFC芯片，开发者得先付钱

iPhone 16继续挤牙膏，四年了，依然毫无新意

波音头大了，星际客机变星际牢笼，宇航员何时归来？

马斯克xAI公司Grok 2测试版，AI界的新宠儿即将发布

500兆瓦！特斯拉超级计算集群命名为“Cortex”，耗电量惊人

多家大厂宣布大模型价格跳水，一场新的“烧钱”游戏？

OpenAI首席科学家离职，曾参与驱逐CEO，这是被秋后算账了吗？

OpenAI泄密者，投奔马斯克

58行代码把Llama 3扩展到100万上下文，任何微调版都适用

几张图看懂华为Pura70系列，看完就明白!

阿里云们的2024：打不完价格战，卷不动大模型

苹果再次发出警告：90多个国家和地区的 iPhone 用户要小心间谍软件

马斯克：两年内AI将比人类聪明，确信中国AI不会落后于西方

【Graphy 】高颜值图表制作AI工具

【Dora AI 】一键生成可交互式 3D 网站

增强插件KeepChatGPT——让你跟chatGPT聊天有更好的体验

HelloAI｜[译]Voyager：一个基于大型语言模型的开放式具体化代理

大象P转身开箱即用！港大、南大、清华等抢先开源“复刻”版DragGAN

StableStudio 重磅开源！人手一个 Midjourney不是梦

Midjourney 中文官方版内测已开放！可通过腾讯QQ频道免费试用

围猎马斯克星链的战役打响，中国“星链”即将开建！

SpaceX第三代猛禽V3推力达到269吨，马斯克：之前星舰终究是做小了

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉