通过游戏测评AI大模型的性能以获取准确的认识

文摘 2024-11-05 23:59 北京

2024年11月5日，techcrunch.com发表一篇报道提出，可以通过游戏来测评人工智能大模型的性能。文章指出，大多数人工智能（AI）基准测试都意义不大。它们所提出的问题可以通过死记硬背来解决，或者涵盖的主题与大多数用户并不相关。

因此，一些AI爱好者开始转向游戏，以此作为测试AI问题解决能力的一种方式。

自由职业AI开发者保罗·卡尔克拉夫特（Paul Calcraft）开发了一款应用程序，可以让两个AI模型之间玩一场类似“你画我猜”（Pictionary）的游戏。一个模型负责涂鸦，而另一个模型则尝试猜测涂鸦所代表的内容。

“我觉得这听起来非常有趣，而且从模型能力的角度来看也很有意思，”卡尔克拉夫特在接受TechCrunch采访时说道。“所以，我在一个阴云密布的周六，待在室内把它做出来了。”

卡尔克拉夫特受到了英国程序员西蒙·威利森（Simon Willison）一个类似项目的启发，该项目要求模型渲染一幅矢量图，内容是一只鹈鹕骑着自行车。和卡尔克拉夫特一样，威利森也选择了一个他认为会迫使模型超越其训练数据内容的挑战。

“我的想法是设计一个无法作弊的基准测试，”卡尔克拉夫特说。“一个不能通过记忆特定答案或在训练过程中见过的简单模式来被击败的基准测试。”

16岁的阿多尼斯·辛格（Adonis Singh）认为，《我的世界》（Minecraft）也属于这种“无法作弊”的范畴。他创建了一个名为Mcbench的工具，该工具可以让模型控制《我的世界》中的角色，并测试其设计结构的能力，这与微软的Project Malmo类似。

“我认为《我的世界》测试了模型的应变能力，并赋予了它们更多的自主权，”他告诉TechCrunch。“它不像[其他]基准测试那样受到诸多限制和饱和。”

利用游戏来评估AI并非新鲜事。这个想法可以追溯到几十年前：数学家克劳德·香农（Claude Shannon）在1949年提出，像国际象棋这样的游戏是对“智能”软件的一个有价值的挑战。更近一些，Alphabet的DeepMind开发了一个可以玩《Pong》和《Breakout》的模型；OpenAI训练AI参加《Dota 2》比赛；而Meta则设计了一种可以与职业德州扑克玩家一较高下的算法。

但现在不同的是，爱好者们正在将大型语言模型（LLMs）——那些能够分析文本、图像等数据的模型——与游戏相结合，以探究它们在逻辑方面的表现如何。

从Gemini和Claude到GPT-4o，市面上有大量的大型语言模型，它们各自都有着不同的“风格”。在一次又一次的互动中，它们给人的“感觉”各不相同——这是一种难以量化的现象。

图片来源：ADONIS SINGH

“大型语言模型对提问方式的特定变化非常敏感，而且通常都不可靠且难以预测，”卡尔克拉夫特说。

阿尔伯塔大学的人工智能研究员兼教授马修·古兹迪亚尔（Matthew Guzdial）表示，与基于文本的基准测试相比，游戏提供了一种直观且可视化的方式来比较模型的表现和行为。

“我们可以将每个基准测试视为对现实的一种简化，专注于特定类型的问题，如推理或沟通，”他说。“游戏只是你可以用AI来做决策的其他方式之一，所以人们像使用其他方法一样使用它们。”

那些熟悉生成式AI历史的人会注意到，“你画我猜”与生成对抗网络（GANs）有多么相似。在GANs中，一个生成模型向判别模型发送图像，然后判别模型对这些图像进行评估。

卡尔克拉夫特认为，“你画我猜”可以捕捉大型语言模型理解形状、颜色和介词（例如，“in”与“on”的含义）等概念的能力。他并不认为这个游戏是推理能力的可靠测试，但他认为，要想获胜就需要策略和理解线索的能力——而这两点对于模型来说都不容易。

“我还真的很喜欢‘你画我猜’游戏的这种近乎对抗的性质，类似于GANs，你有两个不同的角色：一个画，另一个猜，”他说。“最好的画家并不是最有艺术天赋的，而是最能清晰地向其他大型语言模型（包括那些更快但能力更低的模型！）传达想法的人。”

“‘你画我猜’是一个不那么实用或现实的玩具问题，”卡尔克拉夫特提醒道。“不过话说回来，我确实认为空间理解和多模态是AI进步的关键因素，所以LLM‘你画我猜’可能是这条道路上的一小步，也是早期的一步。”

图片来源：ADONIS SINGH

辛格认为，《我的世界》也是一个有用的基准测试，可以衡量大型语言模型的推理能力。“根据我目前为止测试过的模型来看，结果与我对模型在推理相关任务上的信任程度完全一致，”他说。

但也有人对此持怀疑态度。

专门从事AI研究的伦敦玛丽女王大学研究员迈克·库克（Mike Cook）认为，《我的世界》作为AI测试平台并没有什么特别之处。

“我认为，一些人对《我的世界》的迷恋来自于游戏领域之外的人，他们可能认为，因为它看起来‘像真实世界’，所以它与现实世界的推理或行动有更紧密的联系，”库克告诉TechCrunch。“从解决问题的角度来看，它与《堡垒之夜》、《星露谷物语》或《魔兽世界》等视频游戏并没有太大区别。它只是换了一个不同的外观，让它看起来更像日常任务，比如建造东西或探索。”

就库克的观点而言，即使是最优秀的游戏AI系统通常也很难适应新环境，并且无法解决它们以前从未见过的问题。例如，一个在《我的世界》中表现出色的模型不太可能在《毁灭战士》（Doom）中展现出真正的技能。

“我认为，《我的世界》从AI的角度来看确实有一些优点，比如奖励信号非常弱，以及程序化的世界意味着会面临不可预测的挑战，”库克继续说道。“但它并不代表现实世界，并不比其他视频游戏更有代表性。”

即便如此，看着大型语言模型建造城堡确实是一件很吸引人的事情。

http://mp.weixin.qq.com/s?__biz=MzUwOTkwNzEwNg==&mid=2247513627&idx=3&sn=932fa07d9db04b3dd4f1abdc873b1616

清华大学智能法治研究院

发布清华大学法学院、清华大学智能法治研究院在“计算法学”（Computational Law）前沿领域的活动信息与研究成果。

最新文章

第七届计算法学国际会议通知

李强主持召开国务院常务会议研究推动平台经济健康发展有关工作等

意大利骑手算法案的最新处罚决定

《纽约时报》律师团队指责OpenAI意外删除了版权侵权行为的取证数据

四部门开展“清朗·网络平台算法典型问题治理”专项行动

美国FCC因数据安全漏洞拟对视频门铃制造商处以70多万美元罚款

关于发布《网络安全标准实践指南——粤港澳大湾区（内地、香港）个人信息跨境处理保护要求》的通知

常州3人非法抓取小红书数据获刑

国家数据局印发《可信数据空间发展行动计划（2024—2028年）》（附图解、媒体解读）

美国政府问责署建议成立新机构来规范政府保护公民数据的方式

ICO关于共享个人信息以支持防范欺诈和诈骗的工作建议

工业和信息化领域数据安全合规指引（全文）发布

美国发布关键基础设施人工智能安全建议

NIST发布后量子密码学转型战略草案：网络安全的未来之路

卡巴斯基2025年犯罪软件和金融网络威胁的趋势预测

《国家数据基础设施建设指引（征求意见稿）》发布

《重庆市公共数据资源登记管理实施办法（试行）》《重庆市公共数据资源授权运营管理实施办法（试行）》｜公开征求意见

公安机关依法处罚快手公司

《中国互联网发展报告2024》和《世界互联网发展报告2024》发布

斯坦福李飞飞：《AI Agent：多模态交互前沿调查》论文全文翻译

《杭州市功能型无人车管理运行指南（1.0版）》公开征求意见

ICO关于养老营销业务的的数据保护声明

全球数据跨境流动合作倡议（全文）

英国ICO负责人：对大型科技公司征收巨额罚款并不是最有效的监管方式

美国司法部可能迫使谷歌出售Chrome

澳大利亚发布人脸识别技术隐私风险评估指南

香港私隐专员公署检视十个网上旅游平台收集个人资料的情况

美国17州总检察长致函国会支持《儿童网络安全法案》

数字化转型：海湾合作委员会法律的未来

隐私设计的数字权力风险与多元优化路径

因泄露超23.5万患者数据，美国一地方医疗机构赔偿150万美元

主播离职后，公司还能继续使用其出镜拍摄的视频吗？

美国零售商泄露5700万用户数据

上海市通信管理局关于侵害用户权益行为APP的通报（2024年第二批）

吉林省农业农村厅就《吉林省农村集体经济数字监管平台管理办法》征求公众意见

河南省市场监管局等八部门联合印发《河南省数据知识产权登记办法（试行）》

最高人民法院、最高人民检察院联合发布《关于办理拒不执行判决、裁定刑事案件适用法律若干问题的解释》

中国将发布《全球数据跨境流动合作倡议》

澳大利亚议会发布关于拟议隐私改革的报告

欧洲数字治理政策的未来趋势

ChatGPT允许访问底层沙箱操作系统

美国律所因泄露用户个人信息赔偿超5700万元，人均最高7.2万元

网络攻击扰乱美国超市药房运营，超2000家门店受影响

黑客声称近5亿Instagram用户的数据被抓取

零日漏洞已经成为黑客最常利用的漏洞类型

英国：使用隐私增强技术（PET）负责任地释放数据价值

上海市数据产品知识产权登记存证暂行办法

欧盟发布《通用人工智能实践准则草案（第一稿）》

网信办《移动互联网未成年人模式建设指南》全文及官方解读

江苏法院判决一起AI图片版权案，附判决书全文

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉