通过游戏测评AI大模型的性能以获取准确的认识

文摘   2024-11-05 23:59   北京  

2024年11月5日,techcrunch.com发表一篇报道提出,可以通过游戏来测评人工智能大模型的性能。文章指出,大多数人工智能(AI)基准测试都意义不大。它们所提出的问题可以通过死记硬背来解决,或者涵盖的主题与大多数用户并不相关。

因此,一些AI爱好者开始转向游戏,以此作为测试AI问题解决能力的一种方式。

自由职业AI开发者保罗·卡尔克拉夫特(Paul Calcraft)开发了一款应用程序,可以让两个AI模型之间玩一场类似“你画我猜”(Pictionary)的游戏。一个模型负责涂鸦,而另一个模型则尝试猜测涂鸦所代表的内容。

“我觉得这听起来非常有趣,而且从模型能力的角度来看也很有意思,”卡尔克拉夫特在接受TechCrunch采访时说道。“所以,我在一个阴云密布的周六,待在室内把它做出来了。”

卡尔克拉夫特受到了英国程序员西蒙·威利森(Simon Willison)一个类似项目的启发,该项目要求模型渲染一幅矢量图,内容是一只鹈鹕骑着自行车。和卡尔克拉夫特一样,威利森也选择了一个他认为会迫使模型超越其训练数据内容的挑战。

“我的想法是设计一个无法作弊的基准测试,”卡尔克拉夫特说。“一个不能通过记忆特定答案或在训练过程中见过的简单模式来被击败的基准测试。”

16岁的阿多尼斯·辛格(Adonis Singh)认为,《我的世界》(Minecraft)也属于这种“无法作弊”的范畴。他创建了一个名为Mcbench的工具,该工具可以让模型控制《我的世界》中的角色,并测试其设计结构的能力,这与微软的Project Malmo类似。

“我认为《我的世界》测试了模型的应变能力,并赋予了它们更多的自主权,”他告诉TechCrunch。“它不像[其他]基准测试那样受到诸多限制和饱和。”

利用游戏来评估AI并非新鲜事。这个想法可以追溯到几十年前:数学家克劳德·香农(Claude Shannon)在1949年提出,像国际象棋这样的游戏是对“智能”软件的一个有价值的挑战。更近一些,Alphabet的DeepMind开发了一个可以玩《Pong》和《Breakout》的模型;OpenAI训练AI参加《Dota 2》比赛;而Meta则设计了一种可以与职业德州扑克玩家一较高下的算法。

但现在不同的是,爱好者们正在将大型语言模型(LLMs)——那些能够分析文本、图像等数据的模型——与游戏相结合,以探究它们在逻辑方面的表现如何。

从Gemini和Claude到GPT-4o,市面上有大量的大型语言模型,它们各自都有着不同的“风格”。在一次又一次的互动中,它们给人的“感觉”各不相同——这是一种难以量化的现象。

图片来源:ADONIS SINGH

“大型语言模型对提问方式的特定变化非常敏感,而且通常都不可靠且难以预测,”卡尔克拉夫特说。

阿尔伯塔大学的人工智能研究员兼教授马修·古兹迪亚尔(Matthew Guzdial)表示,与基于文本的基准测试相比,游戏提供了一种直观且可视化的方式来比较模型的表现和行为。

“我们可以将每个基准测试视为对现实的一种简化,专注于特定类型的问题,如推理或沟通,”他说。“游戏只是你可以用AI来做决策的其他方式之一,所以人们像使用其他方法一样使用它们。”

那些熟悉生成式AI历史的人会注意到,“你画我猜”与生成对抗网络(GANs)有多么相似。在GANs中,一个生成模型向判别模型发送图像,然后判别模型对这些图像进行评估。

卡尔克拉夫特认为,“你画我猜”可以捕捉大型语言模型理解形状、颜色和介词(例如,“in”与“on”的含义)等概念的能力。他并不认为这个游戏是推理能力的可靠测试,但他认为,要想获胜就需要策略和理解线索的能力——而这两点对于模型来说都不容易。

“我还真的很喜欢‘你画我猜’游戏的这种近乎对抗的性质,类似于GANs,你有两个不同的角色:一个画,另一个猜,”他说。“最好的画家并不是最有艺术天赋的,而是最能清晰地向其他大型语言模型(包括那些更快但能力更低的模型!)传达想法的人。”

“‘你画我猜’是一个不那么实用或现实的玩具问题,”卡尔克拉夫特提醒道。“不过话说回来,我确实认为空间理解和多模态是AI进步的关键因素,所以LLM‘你画我猜’可能是这条道路上的一小步,也是早期的一步。”

图片来源:ADONIS SINGH

辛格认为,《我的世界》也是一个有用的基准测试,可以衡量大型语言模型的推理能力。“根据我目前为止测试过的模型来看,结果与我对模型在推理相关任务上的信任程度完全一致,”他说。

但也有人对此持怀疑态度。

专门从事AI研究的伦敦玛丽女王大学研究员迈克·库克(Mike Cook)认为,《我的世界》作为AI测试平台并没有什么特别之处。

“我认为,一些人对《我的世界》的迷恋来自于游戏领域之外的人,他们可能认为,因为它看起来‘像真实世界’,所以它与现实世界的推理或行动有更紧密的联系,”库克告诉TechCrunch。“从解决问题的角度来看,它与《堡垒之夜》、《星露谷物语》或《魔兽世界》等视频游戏并没有太大区别。它只是换了一个不同的外观,让它看起来更像日常任务,比如建造东西或探索。”

就库克的观点而言,即使是最优秀的游戏AI系统通常也很难适应新环境,并且无法解决它们以前从未见过的问题。例如,一个在《我的世界》中表现出色的模型不太可能在《毁灭战士》(Doom)中展现出真正的技能。

“我认为,《我的世界》从AI的角度来看确实有一些优点,比如奖励信号非常弱,以及程序化的世界意味着会面临不可预测的挑战,”库克继续说道。“但它并不代表现实世界,并不比其他视频游戏更有代表性。”

即便如此,看着大型语言模型建造城堡确实是一件很吸引人的事情。

清华大学智能法治研究院
发布清华大学法学院、清华大学智能法治研究院在“计算法学”(Computational Law)前沿领域的活动信息与研究成果。
 最新文章