受Google谷歌邀请,智东西到新加坡现场观看了2024年国际象棋世界冠军赛,深度体验了一把AI技术与棋艺的碰撞。这次行程收获颇丰,我们闭门观看了Google DeepMind联合创始人兼CEO Demis Hassabis的自传电影《The Thinking Game》、听了Google DeepMind资深科学家Nenad Tomašev探讨AlphaZero发展的演讲,还在AI体验区畅玩生成式AI设计棋子。这次谷歌作为大赛冠名赞助商,把AI和国际象棋的融合鼓捣出花,让AI既做设计,又当起专业国际象棋解说。因为对蛋白质结构预测的重大贡献,Google DeepMind联合创始人兼CEO Demis Hassabis和Google DeepMind高级研究科学家John Jumper共同获得了2024年诺贝尔化学奖,电影里回顾了两人带领团队用AI改变科研方式的幕后故事。了解AI发展史的朋友想必都知道,AI和棋类游戏是一对“初恋CP”。AI产业革命就是被2016年AlphaGo打败世界围棋冠军李世石给唤醒的。这次观影会,就带领我们回顾了一手造就这对CP的过程。据介绍这部自传电影的拍摄耗时5年,一路跟拍Demis Hassabis和Google DeepMind团队,揭秘了很多细节,比如Demis Hassabis为啥会从国际象棋选手变成开发游戏的,为啥在17岁时放弃100万美元坚决要去读大学,又为啥在AI很冷门时就毅然要创办一家AI公司,还选择研究AI下棋这条古怪赛道。就是这样一个看起来完全不知道怎么盈利的创业方向,在近几年为全人类创造了无法估量的价值——加速破解生命密码、治愈疑难杂症的进程。我们也跟随镜头回到了AI产业革命的起点,看到Demis Hassabis早期对游戏和战略思维的热情为他未来在AI领域的开创性工作奠定基础,看到世界顶级AI研究机构如何破釜沉舟、不懈追求创造出在各种任务上能媲美或超过人类能力的AI。一群技术理想主义者在前景模糊时选择坚定地往前走,最终赢得了世界的掌声。
片名《The Thinking Game》是整部影片的主线。Demis Hassabis从小在国际象棋上天赋异禀,将这种脑力竞技视作一种“思维游戏《The Thinking Game》”。他琢磨的“思维游戏”,在8岁时变成了写代码和制作游戏,日后又变成了AI。他将构建AGI(通用人工智能)视作人类踏上的最令人兴奋的旅程,想要终其一生进行探索,使用AI作为最终工具来解决世界上复杂的科学问题。影片带领观众一起穿越时空,走进Google DeepMind实验室,通过快节奏的故事展开和高密度的对话补充,回顾这个时代最重要的科学冒险之一。国际象棋的对决是顶尖脑力的碰撞。Demis Hassabis在4岁接触国际象棋时就已经展现出天赋,他在孩提时期就在思索:大脑是怎么做到的?在12岁参加一场锦标赛时,他突然产生了一个直觉:如果把这栋楼所有人的脑力插到一个系统里,能用来解决癌症问题。这使他觉察到国际象棋不是他一生该做的事。17岁的Demis Hassabis被剑桥大学录取时,因为年纪太小没达到入学标准。于是他加入了一家游戏开发公司Bullfrog Games,参与开发了史上最成功的游戏之一——模仿人类行为的《主题公园》(Theme Park),展现了AI如何能带来改变。后来Bullfrog老板愿掏100万美元,让Demis Hassabis不要继续上大学。在20世纪90年代,对于一个17岁的穷小子来说,100万是一笔相当大的诱惑。但被拒绝了,他对上剑桥大学意向坚决,想成为解决AI的人。1997年,IBM“深蓝”击败国际象棋冠军卡斯帕罗夫。令Demis Hassabis印象深刻的不是AI系统“深蓝”,而是卡斯帕罗夫的头脑,他可以跟顶尖AI对弈,也可以做其他很多“深蓝”不会的事情。用AI解决生物医学问题的萌芽,则跟一个热衷于蛋白质折叠问题的朋友有关。朋友痴迷的讨论触发Demis Hassabis的思考,他认为这可以用AI改变。Demis Hassabis刚开始研究AI时,在学术圈得不到什么支持。那会儿AI研究还是几乎尴尬的存在,甚至不被认为是门严肃的科学。做AI将需要大量的资金、大量的计算,顶着巨大的风险。但他相信,一旦成功,这将是有史以来的一件大事!为这个项目寻找初始资金异常困难,他们四处推销,告诉投资人这是有史以来最重要的事情,然后听到经典问题:你的产品是什么?怎么赚钱?2010年,Demis Hassabis等人创办DeepMind,并坚持将DeepMind总部设在英国伦敦。他认为真正了不起的人在剑桥、牛津、UCL等高校;而硅谷每年投大量公司,不见效就立刻换新的,这种风气不利于长期研究挑战。创立头两年,DeepMind没有出现在公众视野,一切都很模糊,没建网站,办公室在一个秘密地点,一度被来应聘者的家人担心是骗子公司。后来有两家公司参与了收购DeepMind的谈判。Demis Hassabis很纠结。他希望收购方意识到研究的重要性,给足够的研究时间、不紧盯商业利益。最终,DeepMind被谷歌以4亿英镑收购了。DeepMind团队也没有搬去硅谷,仍在伦敦独立运营。在Demis Hassabis看来,游戏是AI的完美训练场。DeepMind将强化学习和深度学习结合,想要训练AI最多能玩上千种不同的雅达利游戏。一开始AI玩游戏总是丢分,经过几百场比赛后,它突然能玩得像人类一样好。通用智能的雏形出现了。DeepMind的团队又将挑战的目标转向围棋,让AI围棋系统AlphaGo看了10万场比赛,然后模仿人类选手。最终在举世瞩目的人机对决上,AlphaGo击败了世界围棋冠军李世石。第二年,AlphaGo又战胜了代表围棋顶级战力的中国选手柯洁。随后,DeepMind发现了一种更优雅的方法,剥离了所有人类知识,让AI完全从零开始自学。能够掌握三种不同复杂游戏的AlphaZero由此诞生,它自学了国际象棋、将棋、围棋,并都击败了世界冠军程序,标明单一算法可以学习如何在各种环境中发现新知识。▲AlphaZero仅用4小时就首次超越了国际象棋程序Stockfish,仅用2小时首次超越Elmo,仅用30小时首次超越AlphaGo版本
下一个挑战是让AI打《星际争霸》游戏。一开始AlphaStar连业余选手都打不过,但最终它做到与《星际争霸》职业选手展开了一场精彩的对决。几次人机大战背后,Google DeepMind团队都顶着失败和不被看好的压力。一旦AI输了,团队就会回到桌前进行改进。Demis Hassabis随即转向更大的挑战——用AI解决蛋白质折叠问题。尽管第一代AlphaFold赢得了国际蛋白质结构预测竞赛,但它远不够解决现实科研问题。Demis Hassabis大胆指定年轻资浅的John Jumper当突击组组长,并补充了计算生物学家成员。Jumper突击小组将AI算法完全推倒重来,在疫情居家办公的艰难环境中,成功研发出革命性的AlphaFold2,破解了50年来的蛋白质折叠难题,拉开了整个蛋白质结构世界的帘幕,大举加速新药开发的进程。(Demis Hassabis和Jumper因此斩获2024年诺贝尔化学奖)Google DeepMind还在探索更广泛的智能。在影片结尾,Demis Hassabis拿着手机将镜头扫过桌面上的棋盘、铅笔雕塑……,向AI发问,AI则能毫不费力地对答如流。从创立到现在,Google DeepMind一直在做探索无人区的研究,换言之没有人知道这是不是一条有生之年会成功的路,但团队中的成员们都认可相同的目标,而且坚持往前走。这在被追问商业盈利前景的现实创业环境中很难得,谷歌确实给了Google DeepMind很大的自由和底气。影片也有稍显遗憾之处。这部虽然叫Demis Hassabis的自传电影,看起来更像是Google DeepMind成长的纪录片,但对Demis Hassabis的刻画却显得封闭而内敛。在影片中,他像个缄默的天才。观众只能听到他宣之于口的观点,却很难感受到他的内心世界。
这次多谢谷歌邀请,现场观看了一场世界棋王丁立人和印度特级大师古克什的对垒。将现场的局势拍给Gemini,它则能对棋局进行分析和预测。谷歌通过Gemini打造了Chatting Chess体验,可以用生动有趣的语言,深入浅出地讲解国际象棋中各种复杂概念,比如解释开局策略、棋子结构抑或是科普国际象棋冠军赛的一些关键里程碑。看AI分析棋局还是有一定门槛的。谷歌推出的另一个互动项目GenChess则更轻松易玩——用生成式AI设计国际象棋棋子。这也是我在AI体验区驻留最久的展位。上手很轻松,输入关键词,选“经典”或“创意”风格,AI就能按照你的关键词来创作出一组个性化的棋子。生成过程快到只有几秒钟,背后是Imagen 3和Gemini Flash*模型在发挥作用。在体验区可将自己钟意的棋子设计打印出来。具体实现方法是:输入关键词后,Gemini Flash会将其增强为详细且富有创意的提示词,每个提示词对应于象棋中的6个棋子之一。然后Imagen 3基于这些被增强的提示词, 生成一套独特的国际象棋。在新加坡,我也在线上体验了这个项目(部分Google技术仅适用于出海技术开发者)。功能更丰富,点击“Generate Opponent”,它会自动根据你输入关键词的对立主题来生成对手棋,比如“奶酪”对应“红酒”、“Meme”对应“Reality”。然后就可以来一盘国际象棋比试了。用自己和AI联合设计的棋子来下棋,格外愉快。游戏提供了三种难度选项(简单、中等、困难)和两种计时选项(5/3和10/0)。除了AI设计棋子、跟AI下棋外,谷歌还在国际象棋世界冠军赛期间推出很多有意思的AI项目,比如与国际棋联合作在全球最大AI/ML开源社区Kaggle上举办国际象棋AI编程挑战赛。
除了轻松的体验环节外,我们还有幸听了一堂关于AI国际象棋算法的大师课。演讲者是Google DeepMind资深研究科学家Nenad Tomašev。他不仅深度参与了AlphaZero的开发,也是一名国际象棋选手。在超过1小时的演讲及Q&A环节,他深度分享了AI与游戏的关联、AlphaZero的发展历程、AI在下棋时的“大脑”内部运行机制等内容。通过这场演讲,我们对Demis Hassabis所说的“游戏是AI的完美训练场”有了更清晰的认知。游戏设置的清晰目标有助于衡量进展,多样化挑战可激励智能,模拟环境能测试大量想法,而且可将AI性能量化并与人类能力对比,从游戏中获取的算法设计经验也可以复用于在其他领域构建AI系统。这提供了开发和测试AI算法的绝佳环境。传统国际象棋引擎依赖于人类玩家的经验与规则。前代用深度神经网络设计的下棋程序也需从人类比赛中学习。AlphaZero则采用了完全不同的方法,从随机游戏开始训练,在没获取任何人类先验知识的情况下自学成才。这种算法设计思路使AlphaZero不受人类游戏规则约束,具备重新学习每一种游戏的能力,因此掌握了更强的“通用性”。Nenad Tomašev提到AlphaZero在搜索棋路时优先考虑质量,而非数量,不用传统搜索算法也能构建出更强大的网络。传统方法用子力价值进行快速位置评估。AlphaZero则不太重视子力价值,而是愿意在游戏初期牺牲子力,以获取长期战略优势。其初步评估偏离了人类感知,但随着训练推进而收敛,它展示了一个平行于人类战略进化的学习曲线。该模型的偏好从子力丰富转向位置优势,表明国际象棋理解的成熟类似于人类玩家。国际象棋的美妙之处在于找到规则的例外。由于计算限制,AI必须通过创造性地解决问题。AlphaZero能发现与传统人类游戏玩法不一致的新颖复杂概念,做出不明显但有利的选择,拓展对策略游戏中AI认知的理解界限。AI还有助于给人类棋手的策略带来新启发,丰富了数百年来对国际象棋策略的思考。DeepMind探索了在AlphaZero引入“多重人格”的方法,希望让AI能平等考虑所有选择,从而优化决策过程。他们打造了一个由不同AlphaZero组成的单一网络,相当于有一个多元化的团队,取决于AlphaZero扮演哪个玩家,每个玩家的策略都不同,有一个目标来激励不同参与者的不同策略的多样性,这些策略会以某种方式组合,产生最终的行动。多个AlphaZero算法与不同策略集的方法,最初可能涉及较少的最优解,但最终通过创造性的适应和迭代带来更好的性能。引入策略变化可以使国际象棋中的AI Agent更强大、更具创造力。关于破译深度学习黑盒的问题,Nenad Tomašev认为,这个问题永远不会得到完全解答,因为人类也并不能完全理解自己,会因为非常模糊的原因、基于自己并不完全理解的直觉做出很多决定。Gemini、ChatGPT等系统也是这样,它们可以告诉你给出这些答案的思考过程,但这些答案不会100%准确。据Nenad Tomašev分享,一种受AlphaZero启发的新方法正在医疗健康领域探索。特别是一个对话诊断系统,通过模拟训练,语言模型承担医生和患者的角色,通过提出适当的问题和进行鉴别诊断,进而提高诊断准确性。该方法处于概念验证阶段,尚未在真实患者身上测试,但初步人体试验已显示出有希望的结果,在很大一部分病例中表现优于人类医生。
棋类游戏是AI走进大众视野的第一站。从AlphaGo系列与人类高手的切磋,再到后来预测蛋白质结构的AlphaFold、加速数学研究的AlphaProof、发现全新算法的AlphaDev,AI发展日新月异,对生活、行业及科研都产生了不可逆转的积极影响。从无人问津之时,Google DeepMind团队已经为自己立下一个不图功利的远大目标,谷歌也为其提供了源源不断的资源支持和宽松优越的研发环境。在他们证明了AI具备突破智力极限的潜能后,深度学习革命才一夜席卷大江南北,帮助人类解决从日常琐事到复杂的科学难题。今天,AI下国际象棋不再稀奇,但AI+国际象棋的探索空间远无止境,既在棋盘之上,又超越棋盘,将自主学习机制及改进方法用于探索新药发现、医疗健康、量子计算等更多领域,助力人类探索科学进步和创造力的更高峰。(本文系网易新闻•网易号特色内容激励计划签约账号【智东西】原创内容,未经账号授权,禁止随意转载。)