【AI 新突破】ROCKET-1:在 Minecraft 中挖掘钻石,AI 如何实现实时视觉追踪与交互?

文摘   科技   2024-10-29 09:41   上海  
图源:Arxiv。研究团队提出的管道解决了创造性的任务,例如在原始的《我的世界》版本中获取黑曜石,使用与人类玩家相同的操作空间(鼠标和键盘)。研究者提出了一种新颖的指令接口——视觉-时间上下文提示,在此基础上学习到了具有空间敏感性的策略,即 ROCKET-1。视觉语言模型(VLMs)在每次观测中识别出感兴趣的区域,有效地引导 ROCKET-1 进行交互。


【2024年10月29日讯】在虚拟世界的探索中,人工智能正变得越来越像人类。近日,一个由顶尖研究人员组成的团队(北京大学、加州大学洛杉矶分校和北京通用人工智能研究院)发布了ROCKET-1,这是一个革命性的AI系统,它能够精确地与虚拟环境如 Minecraft 进行交互。这一技术不仅能够识别和跟踪对象,还能执行复杂的任务,如挖掘钻石和创建黑曜石。


技术亮点:视觉-时间上下文提示

ROCKET-1的核心在于其“视觉-时间上下文提示”技术,这一创新使得AI代理能够更准确地理解虚拟环境中的对象和动作。通过结合对象检测、跟踪和多模态AI模型,ROCKET-1展现了前所未有的交互精度。


多级系统:GPT-4o、Molmo、SAM-2的协同作战

ROCKET-1的工作方式类似于人类的决策和行动过程。GPT-4o作为高级规划者,将复杂任务分解为简单步骤;Molmo识别图像中的相关对象;SAM-2则负责生成精确的对象掩码并实时跟踪这些对象。最终,ROCKET-1执行实际动作,控制键盘和鼠标输入,实现与游戏世界的直接交互。

基于研究者提出的视觉-时间上下文提示的一种分层代理结构。GPT-4o 模型根据当前观测将复杂任务分解为步骤,而 Molmo 模型通过输出坐标来识别交互对象。SAM-2 根据坐标提示对这些对象进行分割,ROCKET-1 则使用对象掩码和交互类型来做出决策。GPT-4o 和 Molmo 以较低的频率运行,而 SAM-2 和 ROCKET-1 的运行频率与环境相同。


人类行为的灵感

研究人员表示,ROCKET-1的设计灵感来源于人类行为。在执行任务时,人类不会预先想象动作,而是通过感官感知直接与目标对象互动。ROCKET-1正是模仿了这一自然行为,通过点击游戏世界中的对象,系统被提示进行相应的交互。

解决具身决策任务的不同管道方法。(a) 端到端管道建模:处理语言、观测和动作的令牌序列。(b) 语言提示:视觉语言模型(VLMs)分解指令以执行基于语言的策略。(c) 隐式提示:将离散的行为令牌映射到低级动作。(d) 未来图像提示:为基于图像的控制,对视觉语言模型(VLMs)和扩散模型进行微调。(e) 视觉-时间提示:VLMs 生成分割和交互提示以引导 ROCKET-1。


训练与学习:后向轨迹重标记

ROCKET-1的训练过程同样引人注目。研究团队使用了OpenAI的“Contractor”数据集,包含16亿张人类游戏行为图像。通过“后向轨迹重标记(Backward Trajectory Relabeling)”方法,ROCKET-1能够自动学习识别和交互相关对象。

《我的世界》中的轨迹重标记管道。在交互事件前一帧的画面中心应用边界框和点选择来识别交互对象。然后,SAM-2 以相反的时间顺序运行指定的时长,其间交互类型保持一致。


成绩斐然:成功率高达100%

在Minecraft的测试中,ROCKET-1在简单任务中的成功率达到了惊人的100%,即使在更复杂的任务中,如钻石挖掘,成功率也达到了25%。

这一成绩不仅展示了ROCKET-1的强大能力,也预示着AI在虚拟环境中的无限潜力。


未来展望:计算工作量的挑战

尽管ROCKET-1在交互能力上取得了显著提升,但它仍存在局限性,如无法与视野外或未遇到过的对象交互。这导致了更高的计算工作量,需要更频繁地介入更高级别的模型。


结语

ROCKET-1的问世,不仅是AI技术的一大飞跃,也为虚拟世界的探索和游戏交互带来了新的可能性。随着技术的不断进步,我们有理由相信,AI将在未来的虚拟世界中扮演更加重要的角色。


感谢阅读!欢迎留言、点赞、转发。



图文收集自网络,非本号观点;如有侵权,请联系删除

更多AI热点资讯,请每日关注AI今说~

AI今说
每天发布AI相关资讯,让您了解AI世界的最新发展。同时,周一至周五关注AI在社会各领域的应用与发展(论文解读)。
 最新文章