【AI 新突破】ROCKET-1：在 Minecraft 中挖掘钻石，AI 如何实现实时视觉追踪与交互？

文摘科技 2024-10-29 09:41 上海

图源：Arxiv。研究团队提出的管道解决了创造性的任务，例如在原始的《我的世界》版本中获取黑曜石，使用与人类玩家相同的操作空间（鼠标和键盘）。研究者提出了一种新颖的指令接口——视觉-时间上下文提示，在此基础上学习到了具有空间敏感性的策略，即 ROCKET-1。视觉语言模型（VLMs）在每次观测中识别出感兴趣的区域，有效地引导 ROCKET-1 进行交互。

【2024年10月29日讯】在虚拟世界的探索中，人工智能正变得越来越像人类。近日，一个由顶尖研究人员组成的团队（北京大学、加州大学洛杉矶分校和北京通用人工智能研究院）发布了ROCKET-1，这是一个革命性的AI系统，它能够精确地与虚拟环境如 Minecraft 进行交互。这一技术不仅能够识别和跟踪对象，还能执行复杂的任务，如挖掘钻石和创建黑曜石。

技术亮点：视觉-时间上下文提示

ROCKET-1的核心在于其“视觉-时间上下文提示”技术，这一创新使得AI代理能够更准确地理解虚拟环境中的对象和动作。通过结合对象检测、跟踪和多模态AI模型，ROCKET-1展现了前所未有的交互精度。

多级系统：GPT-4o、Molmo、SAM-2的协同作战

ROCKET-1的工作方式类似于人类的决策和行动过程。GPT-4o作为高级规划者，将复杂任务分解为简单步骤；Molmo识别图像中的相关对象；SAM-2则负责生成精确的对象掩码并实时跟踪这些对象。最终，ROCKET-1执行实际动作，控制键盘和鼠标输入，实现与游戏世界的直接交互。

基于研究者提出的视觉-时间上下文提示的一种分层代理结构。GPT-4o 模型根据当前观测将复杂任务分解为步骤，而 Molmo 模型通过输出坐标来识别交互对象。SAM-2 根据坐标提示对这些对象进行分割，ROCKET-1 则使用对象掩码和交互类型来做出决策。GPT-4o 和 Molmo 以较低的频率运行，而 SAM-2 和 ROCKET-1 的运行频率与环境相同。

人类行为的灵感

研究人员表示，ROCKET-1的设计灵感来源于人类行为。在执行任务时，人类不会预先想象动作，而是通过感官感知直接与目标对象互动。ROCKET-1正是模仿了这一自然行为，通过点击游戏世界中的对象，系统被提示进行相应的交互。

解决具身决策任务的不同管道方法。(a) 端到端管道建模：处理语言、观测和动作的令牌序列。(b) 语言提示：视觉语言模型（VLMs）分解指令以执行基于语言的策略。(c) 隐式提示：将离散的行为令牌映射到低级动作。(d) 未来图像提示：为基于图像的控制，对视觉语言模型（VLMs）和扩散模型进行微调。(e) 视觉-时间提示：VLMs 生成分割和交互提示以引导 ROCKET-1。

训练与学习：后向轨迹重标记

ROCKET-1的训练过程同样引人注目。研究团队使用了OpenAI的“Contractor”数据集，包含16亿张人类游戏行为图像。通过“后向轨迹重标记（Backward Trajectory Relabeling）”方法，ROCKET-1能够自动学习识别和交互相关对象。

《我的世界》中的轨迹重标记管道。在交互事件前一帧的画面中心应用边界框和点选择来识别交互对象。然后，SAM-2 以相反的时间顺序运行指定的时长，其间交互类型保持一致。

成绩斐然：成功率高达100%

在Minecraft的测试中，ROCKET-1在简单任务中的成功率达到了惊人的100%，即使在更复杂的任务中，如钻石挖掘，成功率也达到了25%。

这一成绩不仅展示了ROCKET-1的强大能力，也预示着AI在虚拟环境中的无限潜力。

未来展望：计算工作量的挑战

尽管ROCKET-1在交互能力上取得了显著提升，但它仍存在局限性，如无法与视野外或未遇到过的对象交互。这导致了更高的计算工作量，需要更频繁地介入更高级别的模型。

结语

ROCKET-1的问世，不仅是AI技术的一大飞跃，也为虚拟世界的探索和游戏交互带来了新的可能性。随着技术的不断进步，我们有理由相信，AI将在未来的虚拟世界中扮演更加重要的角色。

感谢阅读！欢迎留言、点赞、转发。

图文收集自网络，非本号观点；如有侵权，请联系删除

更多AI热点资讯，请每日关注AI今说~

AI今说

每天发布AI相关资讯，让您了解AI世界的最新发展。同时，周一至周五关注AI在社会各领域的应用与发展（论文解读）。

最新文章

革命性突破：腾讯混元视频大模型开源，引领视频创作新纪元！

论文解读 | 媒体融合实践的空间转型——以澎湃新闻编辑部搬迁为例

李飞飞 World Labs 突破性技术：让每张图片一键变成可探索的三维空间！

论文解读 | 主流化、平台化、智能化：新型主流媒体的演进逻辑与实践进路

特斯拉 FSD v13“缩水版”推送引争议，无人监督自动驾驶目标再遭质疑！

论文解读 | 从场域重构到路径适配：走向未来的媒体融合

Adobe 携手密歇根大学研发革命性AI：MultiFoley 一键生成电影级音效，同步精度惊人！

AI 震撼科学界：大语言模型预测神经科学结果，超越人类专家！

马斯克 xAI 挑战巨头：12月将发布独立聊天机器人，能否撼动 ChatGPT 王位？

论文解读 | 生成式人工智能发展的产业促进与风险规制——以 Sora 为例

微软 TinyTroupe：模拟人类行为，重塑商业测试

论文解读 | 教育大模型智能体的开发、应用现状与未来展望

奔驰汽车全新苹果手表应用上线，车主体验再升级！

论文解读 | 粉丝“脱粉”背后的偶像魅力悖论

英伟达 Fugatto：用文字操控声音的“瑞士军刀”，引领音频创作革命

论文解读 | 人作为计算机的“他者”：验证码人机互动中的能力主义陷阱

联手打造“数字人类”：斯坦福、华盛顿大学和谷歌 DeepMind 探索人类行为未知领域，社会实验准确性惊人

论文解读 | 人机传播的失灵与修复：家庭成员“共同媒介参与”的视频分析研究

苹果智能家居新动作：AI 指挥中心概念模型曝光，市场格局或将重塑

苹果 LLM Siri：智能助手市场的下一个霸主？

论文解读 | 人工智能嵌入国家治理数字化的三个向度

英伟达收入几乎翻倍：Blackwell AI 芯片引领行业变革

论文解读 | 人工智能素养的概念、框架与教育

Suno AI 音乐生成模型v4震撼发布：音质与歌词双提升，但挑战与争议并存

论文解读 | 病由“网”生：一项关于“网络疑病症”影响因素的实验研究

特斯拉或推大车型，马斯克再引期待

论文解读 | 越界游戏：与 GPT 的“生死”爱恋及其示能之思

Apple Vision Pro 引领观影新风尚，Vimeo 短片《currents》引爆话题

论文解读 | “用而后舍”还是“不用而弃”：生成式人工智能应用阻力探讨

手术机器人超越人类、外骨骼赋予新生

AI 助力营销传播内容创新：TikTok 推出 Symphony Creative Studio

11月22日 Vision Pro：苹果独演音乐会系列即将引爆，RAYE 携新 EP 震撼登场！

论文解读 | 人工智能推进新质生产力发展的时代意涵——基于马克思机器观的探赜

iOS 18.2：苹果智能（Apple Intelligence）功能大升级！

论文解读 | 人工智能赋能教师一体化发展：逻辑架构与生成路径

Qwen AI 革命性编程助手：阿里巴巴引爆开发者圈

论文解读 | 智能传播驱动下的城市治理界面：环境演化、结构升级与功能扩展

身价暴涨700亿引热议：马斯克或成特朗普政府 AI 顾问

论文解读 | 社交媒体使用与情绪研究：理论基础与测量指标构建

谷歌 ReCapture：未来视频编辑革命，一键改变视频视角！

论文解读 | 符号互动：品牌数字传播的社会认同建构

特斯拉市值重返万亿，超其后十大车企总和

Xbox 拥抱 AI：聊天机器人来了！

论文解读 | 有限整合论: 人工智能的道德决策问题新解

极速执法：特斯拉 Model S Plaid 警车亮相

论文解读 | 教育情感计算的价值、困境与出路

论文解读 | 混杂的空间：地铁“低头族”的媒介化空间生产

亚马逊新型无人机 MK30 获批：亚利桑那州开启未来派送货革命！

OpenAI/贝索斯背书：新机器人公司估值翻倍

论文解读 | 算法媒介研究的人文洞察——兼评《隐形超权力：算法传播研究》

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉