首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

GPT-4o能玩《黑神话》！精英怪胜率超人类，无强化学习纯大模型方案

科技 2024-09-23 11:54 北京

但是AI也搞不定空气墙。

文丨量子位 ID：QbitAI

AI玩黑神话，第一个精英怪牯护院轻松拿捏啊。

有方向感，视角也没有问题。

躲闪劈棍很丝滑。

甚至在打鸦香客和牯护院时，AI的胜率已经超过人类。

而且是完全使用大模型玩，没有使用强化学习。

阿里巴巴的研究人员们提出了一个新型VARP（视觉动作角色扮演）智能体框架。

它能直接将游戏截图作为输入，通过视觉语言模型推理，最终生成Python代码形式的动作，以此来操作游戏。

以玩《黑神话·悟空》为例，该智能体在90%简单和中等水平战斗场景中取胜。

GPT-4o、Claude 3.5都来迎战

研究人员以《黑神话·悟空》为研究平台，一共定义了12个任务，75%与战斗有关。

他们构建了一个人类操作数据集，包含键鼠操作和游戏截图，一共1000条有效数据。

每个操作都是由原子命令的各种组合组成的序列。原子命令包括轻攻、闪避、重攻击、回血等。

然后，他们提出了VARP智能体框架。

主要包含动作规划系统和人类引导轨迹系统。

其中动作规划系统由情境库、动作库和人类引导库组成，利用 VLMs 进行动作推理和生成，引入分解特定任务的辅助模块和自我优化的动作生成模块。

人类引导轨迹系统利用人类操作数据改进智能体性能，对于困难任务，通过查询人类引导库获取相似截图和操作，生成新的人类引导动作。

同时VARP还包含3个库：情景库、动作库和人工引导库。

这些库中存储了agent自我学习和人类指导的内容，可以进行检索和更新。

动作库中，“def new_func_a()”表示动作计划系统生成的新动作，“def new_func_h()”表示人导轨迹系统生成的动作。”def pre_func()”代表预定义的动作。

动作案例研究和相应的游戏截图。第一行和第二行中的操作是预定义的函数。第三行动作由人工制导轨迹系统生成。

SOAG会在玩家角色与敌人的每次战斗互动后总结第四行和第五行中的新动作，并将其存储在动作库中。

框架分别使用了GPT-4o（2024-0513版本）、Claude 3.5 Sonnet和Gemini 1.5 Pro。

对比人类和AI的表现结果，可以看到小怪部分AI们的表现达到人类玩家水平。

到了牯护院时，Claude 3.5 Sonnet败下阵来，GPT-4o胜率最高。

但是对于新手玩家普遍头疼的幽魂，AI们也都束手无策了。

另外研究还提到，由于VLMs推理速度受到限制，是无法实时输入每一帧画面的。它只能间隔输入关键帧，这也会导致AI在一些情况下错过boss攻击的关键信息。

以及由于游戏中没有明确的道路引导且存在很多空气墙，在没有人类引导下，智能体也不能自己找到正确的路线。

如上研究来自阿里团队，一共有5位作者。

后续相关代码和数据集有发布计划，感兴趣的童鞋可以蹲下。

One More Thing

AI打游戏并不是一个新鲜事了，比如AI基于强化学习方法打《星际争霸II》已经可以击败人类职业高手。

利用强化学习方案，往往需要输入大量对局。商汤此前训练的DI-star（监督学习+强化学习），就用了“16万场录像”和“1亿局对战”。

但是纯大模型也能打游戏，还是很出乎意料的。在本项研究中，数据集中的有效数据为1000条。

论文地址：https://arxiv.org/abs/2409.12889

项目地址：https://varp-agent.github.io/

（首图来源：图虫）

你“在看”我吗？

http://mp.weixin.qq.com/s?__biz=MzI1Mjc2NjkwMg==&mid=2247514018&idx=1&sn=c81b20a6afde00712d7075bc70159a98

AI星球，提供人工智能资讯

最新文章

大疆和宁德，都在悄悄开发机器人

这届秋招生，在银行AI面试中尴尬致死

智算中心太“多”，大模型不够用了

腾讯杰出科学家刘威已离职，为混元大模型技术负责人之一

昆仑万维推出"天工大模型4.0"4o版，实时语音对话助手Skyo将于12月上线

OpenAI“23位叛将”出走创业，融资近百亿！华人科学家约占1/3

一朝成名，一夜破产！这家谷歌前高管创立的AI公司突然宣布倒闭

黄仁勋：英伟达对AI的理解和布局

Scaling Law遭遇瓶颈，OpenAI被曝押注智能体“Operator”

孙正义首次透露曾三次尝试买下英伟达

第一家被AI摧毁的巨头出现了：这家教育公司股价暴跌99%

AI人形机器人作画，一幅卖了800万

空间智能版ImageNet来了！李飞飞吴佳俊团队出品

奥特曼专访自曝OpenAI掌握AGI密钥，2025年降临！

老黄还是不死心：英伟达明年再次杀入PC市场

对话李开复：先不谈AGI梦想要接地气、落地为王

每帧都是AI实时生成的，全球首款AI游戏问世了！

当AI搜索开始赚钱养家

L4级自动驾驶全栈解决方案提供商元戎启行完成1亿美元C1轮融资

谷歌Agent首次发现真实世界代码漏洞！

刚刚！ChatGPT正式成为AI搜索，免费可用

Runway CEO：AI公司的时代已经结束了

马斯克：脑机接口植入物可拆卸，手术10分钟完成，价格相当于一部手机

OpenAI语音转录工具被曝严重幻觉：转录100小时，一半儿在瞎扯

AI招聘“作弊”逗笑马斯克，在简历加一句话就让面试邀约涨四倍

比尔·盖茨认证的AI领域最牛大佬，发布新20年的AI预言

苹果AI落后两年？CEO库克回应来了，“不抢首发，只做最好”

“AI微信”，来了？！！

诺奖得主最新万字访谈：视AI为普通技术错误，AGI还差2到3项重大创新

大厂做AI，卷到哪儿了？

巨头抢布局，VC狂撒钱，为了能让「AI读心」这些公司卷疯了

Anthropic CEO大胆预言：人类将自主掌控外貌，寿命长至150岁！

放弃造车之后，苹果又对自动驾驶说再见

OpenAI惊天剽窃！20岁创始人自曝代码结构被抄袭，多智能体Swarm陷争议

高瓴创投，领投一家机器人感知技术公司

ChatGPT幕后大佬、o1推理模型作者官宣离职！

杀疯了！诺贝尔又把化学奖颁给AI大模型，谷歌成最大赢家

人工智能学者拿下诺贝尔物理学奖，意料之外还是情理之中？

下一个 ChatGPT？谷歌这款AI应用凭什么在一年后爆红

AI音频成诈骗神器！律师父亲险被骗走21万，3秒原声即可克隆声音

OpenAI“史上最大”融资轮，难了

地表最强全息AR眼镜问世！Meta十年绝密豪赌烧10亿

OpenAI突发高层人事变动！CTO宣布将离职

很马斯克！特斯拉Robotaxi不颠覆网约车，颠覆公交车

全文来了！OpenAI CEO奥特曼谈智能时代：我们可能在“几千天内”拥有超级AI

GPT-4o能玩《黑神话》！精英怪胜率超人类，无强化学习纯大模型方案

Kimi创始人杨植麟最新分享：关于OpenAI o1新范式的深度思考

阿里CEO吴泳铭：AI最大的想象力不在手机屏幕，而是改变物理世界

马斯克盯上了盲人，Neuralink下一代脑机接口产品获批

“AI教母”李飞飞新公司启航，已融资2.3亿美元“3个月”速成独角兽

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉