上一期【魔方研究】中,跟大家一起聊了AI音乐的话题,可能有不少小方块会和小魔方发出一样的疑问:魔方这个小作坊,什么时候开始有了AI研究的大团队?
小魔方顺藤摸瓜,发现一切的起源竟是一位转行的大学教授!今天我们就一起来采访一下这位毕业于英国伯明翰大学的IT男、前新加坡南洋理工大学教授、在游戏AI研发领域已有20多年经验的Elvis,也是现今魔方技术中心AI团队的负责人,顺便一起来简单了解下魔方的AI团队吧!
团队组建
据Elvis透露,在他从大学教授转行来到魔方的2020年,魔方还没有属于自己的AI的团队,当时《火影忍者》手游项目组正在和腾讯IEG中台的AI团队合作解决游戏中AI训练的难题,但频频卡顿无法顺利上线。小作坊认为还是需要成立自己的AI部门,才能与魔方的各个游戏有更加深层的合作,同时可以根据游戏策划的一线反馈和线上玩家们的实时数据来迅速验证和调整AI训练的方案。正巧魔方的技术总监跟Elvis是认识了20多年的好友,之前一起共事过,所以也十分信任他的技术能力,于是顺理成章地拉他进了“这趟浑水”。
魔方的AI团队成立伊始,或许都称不上团队二字,毕竟加上Elvis本人也一共才3名成员。他们当时面临的难题有两个:一个是《火影忍者》手游中想加入PVE玩法,需要训练出适应玩家水平的AI首领;另一个则是需要大量AI对战的数据来验证版本中各个忍者的平衡性。
动漫作品中的AI首领
提出可能的解题思路、验证、推翻、再重新解题……经过了一年苦思冥想后,魔方的AI团队终于找到了解决这两个难题的共同答案:一个可以快速训练数百个角色的大规模强化学习方案,他们称之为【集海训练系统】。
集海训练系统
传统的强化学习方案强调的是Policy(方针),由此方法训练出来的AI,对战时需要先记住并识别对手的出招,结合自己当前拥有的招式再计算出最佳应对的Policy(方针)。
但这个方案在拥有400多个角色,且每个角色都拥有数种出招方式的《火影忍者》手游根本无法推行,且不论需要输入的数据量有多大,就是真的有了这些数据,验证平衡性时每个忍者一一对战的耗时就已经达到了惊人的400天,这显然无法满足游戏快速调整的基本需求。
因此魔方的AI团队提出了另一种完全不同的训练方案:与其记住招式,不如把这些都拆解成数据、参数和状态等几个可量化的指标来制定对战策略,这样一来它便不再是一个忍者对应另一个忍者这样的单一模型,而是一对几十甚至一对几百的通用模式,训练效率得到了极大提高,同时这样的AI就算面对一个完全陌生的角色也有应对之力,可以很便捷地测试一些新忍者的强度。
一对多的训练模式
当然,这个训练系统并不是万能的,存在一些短板:因为完全泛化的训练方式,AI没有办法实现对单角色非常精准的操控,换句话说,水平不是很强。这样的方案满足了快速且批量训练AI从而获得平衡性数据的需求,但要怎么在PVE活动中做出可以匹配不同玩家水平的AI首领呢?其实解决方法很简单,在【集海训练系统】的基础上加入混合的算法,就能有效提高AI的强度,还能将AI的强度控制在某个数值水平。比如各位村长们熟知的【晓·觉醒】这一活动,游戏中便是通过这样混合算法的模式将第三等级的首领关卡通过率控制在了10%左右。
随着【集海训练系统】在《火影忍者》手游中正式应用,这套由魔方AI团队首创的格斗游戏大规模强化学习方案,陆续受到游戏和学术领域认可,2023年Elvis在IEEE Conference on Games分享技术方案后,2024年3月在全球游戏开发者盛会GDC的AI峰会受邀演讲,7月还会在AI三大顶会之一的国际机器学习大会(International Conference on Machine Learning)发表论文。
GDC AI峰会现场,与游戏开发者交流的Elvis
以“首个应用AI学习的商业格斗游戏”的称号拔得头筹后,魔方AI团队也从一开始的2个人发展到现今20多人的大团队。这套格斗游戏大规模训练系统也会被应用到后续魔方的其它格斗游戏。
比如《异人之下》
其他AI技术的应用
除了继续调优并将【集海训练系统】应用到更多游戏,魔方AI团队也在努力为各个游戏研究合适的AI技术。比如持续优化《暗区突围》手游中的各式人机,让它们学会各种各样的对战策略,同时为玩家带来更加拟真的体验。比起传统行为树训练出的呆呆笨笨的普通人机,暗区现在也加入了用强化学习训练的高阶智能化人机,它们会更懂得如何跟玩家缠斗、利用各式战术道具和掩体进行博弈、有更加灵活的身法和走位,比如【追捕行动】中的博雷罗和他带领的小队成员。
与玩家对战的高阶智能化人机
学术界正在探索的新AI技术,魔方AI团队也会及时跟进学习,并评估是否适用魔方的产品。比如之前风靡的ChatGPT语言模型,如果单纯植入游戏内做一个聊天bot,可能更适用于《荒野大镖客2》这类存在大量对话需求的游戏,而不适用于魔方现有的几款游戏。
又比如常用于各种开放世界游戏中的Meta AI(一种掌管游戏世界进展、可以控制具体全局世界的AI)。传统的RPG游戏中,特殊事件只在玩家视野内发生,比如《GTA》中只有玩家到达ATM时,才有可能发生提款路人被抢劫的事件。但如果游戏中引入了这种AI,这些故事就算玩家看不到也会持续发生,比如《刺客信条·奥德赛》中,不管玩家去干了什么任务,斯巴达和雅典的大战都会持续进行。但这种AI运用在魔方的游戏中会是什么效果,会不会好玩,我们还得谨慎评估并试验。
另外还有一些已经被运用,不面向玩家而面向制作组的AI技术。比如说用General AI(生成式AI)技术辅助一些游戏资产的生产:将美术画出来的草图直接生成原画和动画、读取实际动捕的数据生成全新的动捕无法实现的动作等等。
生成式AI技术的应用
玩家对AI的误解
在采访的最后,小魔方邀请Elvis来分享一些玩家对游戏AI经常存在的误解,竟然得到了几个意料之外的答案。
Q
AI对战时会作弊?
Elvis:不少玩家在被AI“暴揍”之后得出了“AI是通过作弊来打败人类”的结论,这个说法其实不完全准确。AI确实因为经历了几百万场的训练,获得了大量策略的验证数据,所以可以做出比较过关的策略。
但AI的各类数值和知晓信息都与真实玩家们相同。不管是AI打你一拳,还是你打AI一拳,都是一样的伤害和分数。AI看到的你的位置就是肉眼位置,没办法通过各种后台数据来“开图”(即拥有全知的OB视角)。同时,AI打人也不会更快,因为AI的反应时间是根据人类的反应时间来定的。技术人员以各位玩家真实的反应时间为采样建立了正态分布模型,以玩家段位作为区分,以此来设定各个段位下AI的反应时间。
Q
AI会故意做出有别于玩家的行为?
Elvis:从AI加入游戏之后,便诞生出了各式各样“辨别人机”的诀窍,比如人机在游戏中会一直滑步,又比如人机不会点投降等等,貌似人机(AI)总会有各种各样异于人类的行为和表现,事实总是如此吗?其实不一定。
在AI的强化学习过程中,因为它们是通过自主学习和适应来完成任务的,所以有时候会自主地产生一些复杂、高级的行为和策略,这些往往与玩家的操作有些不同,所以会被玩家识别出来是人机。比如部分《火影忍者》手游的AI在强化学习到一定强度之后,对战开始时会静止不动,以对手的行为来解读指令并制定相应的策略。
但这些“奇异”的涌现行为,到底会因为有意思被实际加入到游戏中,还是会当成bug删除,最终取决项目组的决定,所以大家辨别人机的方法也不一定有效噢!
好啦~这期魔方研究就聊到这里,也拜托大家多多点赞收藏支持一下小魔方的工作哦~让我们下期节目再见吧。