今天和一位大佬聊天的时候,他随口说了一句话:“你知道吗,当年 OpenAI 还打过 Dota。”这句话一下子把我拉回了很多年前。
不是因为 Dota 本身——而是因为提起 OpenAI,我们印象里留下的就是GPT,一次次能力的进化,让人们已经忘记OpenAI也曾经把基石放在一款小众游戏上。
我顺着这句话,重新翻了翻那段历史。
第一节:神降临在遗迹战场
那是2019年4月13日。主角是TI8的世界冠军OG战队和“OpenAI Five”的AI战队。比赛仅10分钟就令人印象无比深刻,AI战队靠一次“精准买活”成功打出漂亮的反击。人类世界冠军都懵了,解说也语塞了:“他疯了吗?这才10分钟!”那个瞬间,AI展现出了远超人类理解的意识——神经网络的算法下,没有教条,只有概率。只要买活的收益大于金钱成本,决定毫不犹豫,决策丝毫没有拖泥带水。通过全新而又疯狂的战术意识,实现降维打击,直接碾碎了OG的防线。
(简化版的 OpenAI Five 模型架构)
随后,OpenAI开放了公众参与的“竞技场”。短短几天,全球玩家贡献了7257场比赛,AI赢下了其中的7215场。胜率 99.4%。数据来源:https://cdn.openai.com/dota-2.pdf
第二节:被Google统治的恐惧
然而,OpenAI在Dota里杀疯了,但如果把镜头拉远,你会发现那个时代的“主角”并不是他们,而是Google的DeepMind。那时候的AI圈,是属于AlphaGo的剧情。
当时的Google,是一支逐渐让围棋人绝望的存在。2016年初出茅庐,AlphaGo 4:1 击败李世石,虽互有胜负,但实力已经远超人类水平。当我们以为这就是AI的全部,Google戏耍了一众职业选手。2017年初,一个ID叫“Master”的神秘账号出现在弈城和野狐围棋平台。数日,在职业棋手云集的平台取得了60胜0负。随着战绩的发酵,“Master”就是下一代AlphaGo的传闻甚嚣尘上,直至DeepMind的黄博士公开确认。随后公开挑战AI的柯洁在赛后更是坦言自己的绝望。紧接着,DeepMind宣布转战《星际争霸2》,推出了AlphaStar,展示了令人咋舌的多线微操,把职业选手按在地上摩擦。
在Google面前,OpenAI显得格外渺小,甚至有些“狼狈”。
相比于DeepMind在围棋上展现出的那种令人窒息的、完美的统治力,OpenAI在Dota2上的战绩其实是有瑕疵的。虽然在2019年的大众公测中胜率高达99.4%,但它还是输掉了几十场比赛。人类玩家很快发现,AI虽然操作无敌,但缺乏变通,一些“无赖战术”(比如一级偷肉山,或者利用召唤物卡位)开始在一般玩家之间传播,战胜AI仍然是一种可能。
在当时的语境下,如果将OpenAI和DeepMind放在同一水准比较甚至是一种误读。那时的DeepMind是背靠Google无限资源的正规军;而OpenAI更像是一个硅谷富豪们的昂贵玩具。或许连马斯克都对彼时的OpenAI看走了眼。当DeepMind在攻克围棋这一人类智力皇冠,并转身去解决蛋白质折叠这种造福人类的科学难题时,OpenAI花着巨额融资去打Dota2,在很多人眼里更像是一场为了融资而表演的科技杂耍。根本没人觉得这会改变什么,只是看个热闹罢了。
但谁也没想到,正是这种看似笨拙的、充满暴力的探索,让OpenAI在乱局中摸到了通往AGI的两把真正的钥匙。
第三节:在废墟中发现的两把钥匙
OpenAI的Dota之旅,表面上是一部从“脚本”到“大师”的游戏史,但其内核,却是他们对AI发展路线的一次豪赌。在被DeepMind的光环笼罩时,OpenAI通过Dota2项目,悄悄验证了两个后来颠覆世界的真理:
首先是算力即正义(Scale is All You Need),这是OpenAI与DeepMind在当时最大的分歧。DeepMind团队当时普遍认为,AI的未来在于更精妙的算法、更高效的强化学习策略。
但OpenAI的顿悟,其实源于更早一年的TI8。那一年,初出茅庐的OpenAI Five自信满满地挑战职业战队(paiN Gaming)和中国传奇老将组成的Big God战队,结果被狠狠地上了一课。人类发现AI虽然微操无敌,但只会单纯的冲脸,没有战术,没有意识。AI面对未经学习、无法处理的战场陷入了逻辑死循环,像无头苍蝇一样徘徊,最终输掉了比赛。这让OpenAI看起来远逊于DeepMind,丝毫没有形成DeepMind那般的绝对统治力。
OpenAI的路线令业内吃惊:他们没有像DeepMind那样去优化特定的策略模块,而是把模型做大,把自我博弈(Self-Play)的规模拉满。在2019年的版本中,OpenAI Five每天的训练量相当于人类打 45,000年的游戏。没有什么魔法,就是大力出奇迹。
这才有2019年对战世界冠军的胜利。大力出奇迹成了OpenAI基因级别的信仰,是后来Scaling Laws(缩放定律)的雏形。
然后是转向Transformer,这一决断是OpenAI能在后来弯道超车的另一个关键。在打Dota2时,OpenAI使用的是LSTM(长短期记忆网络)。虽然赢了,但工程师们发现,LSTM在处理超长序列和大规模并行训练时,效率极低。这令OpenAI意识到它已经是上一个时代的产物了。Dota2的胜利终是成了LSTM的墓志铭。
正是因为在Dota2撞到了LSTM的“天花板”,迫使OpenAI必须寻找一种能承载更大算力、更长上下文的架构。于是,在Dota项目进行的同时,OpenAI内部做出了一个违背祖宗的决定:彻底拥抱来自Google、但在GPT-1上尚不出彩的Transformer架构。 既然Dota证明了“大力出奇迹”是可行的,那么如果把LSTM换成更强的Transformer,会发生什么?
答案就是后来震惊世界、走进世界、改变世界的大语言模型。
第四节:分道扬镳与群星闪耀
故事并没有在Dota2项目关闭后戛然而止。花开两朵,各表一枝。OpenAI关掉了Dota2项目,Google也在不久后结束了星际争霸的征程。两家巨头都意识到,游戏只是游戏,真正的战场在更广阔的人类世界。
DeepMind并没有因为在通用大模型上慢了半拍而显得黯淡。他们的科学家们,转身就携AI攻克了“蛋白质折叠”,这一人类科学史上最难的谜题之一。 AlphaFold 的横空出世,解决了生物学界困扰五十年的难题。攻克疾病、探索生命起源,这是Google的“科学家团队”给全人类的一份厚礼。
而当大模型的浪潮袭来,Google最终也完成了转身。他们整合了DeepMind与Brain团队,推出了 Gemini。有趣的是,Gemini是Google回到Transformer架构的集大成者。兜兜转转,Google最终回到了自己开辟的道路上。
相比于DeepMind在科学领域的遍地开花,OpenAI显得有些“无趣”且“固执”。他们似乎只认准了“暴力美学”的死理。在Dota2项目验证了“规模效应”后,OpenAI把公司几乎所有的资源都赌在了语言模型上,开启了属于他们的“蛮力炼丹”。
和DOTA2项目同时进行的GPT-1 只是个不起眼的尝试。GPT-2便将规模膨胀到15亿参数。因为写出的文章过于逼真,OpenAI甚至吓得不敢第一时间开源完整模型。到了 GPT-3,参数量已经暴涨至 1750亿。
当时很多学者嘲笑OpenAI,认为这种单纯堆砌参数的做法没有技术含量,只是制造了一个“随机鹦鹉”。但是OpenAI不语,只是一味的坚持扩大训练规模之路,坚信只要量变积累到一定程度,质变就会发生。事实证明,他们继承了Dota2项目上最重要的遗产——“大力出奇迹”。这种看似最笨的办法,最终在历史的战争迷雾中通向ChatGPT的诞生。
然而,历史总是惊人的相似。 到了2025年,这种单一的信仰似乎撞上了隐形的墙。当Gemini和Claude在各项基准测试中轮番超越GPT,当DeepSeek利用MoE架构乃至最新的Engram不断推高效率时,OpenAI却显得步履蹒跚。哪怕2025年拉响了“红色警报”,它依然沉迷于不务正业的轨道上,单纯的堆砌算力、扩大算力规模被认为是和英伟达玩着三角融资游戏。除了暴力美学,OpenAI迫切的需要找到下一把关键钥匙。
尾声
回过头看,那场Dota 2的诸神黄昏,或许是硅谷历史上最昂贵的一次“A/B测试”。它催生了GPT,也验证了强化学习。无论是后来Google的Gemini,还是OpenAI的ChatGPT,或者是AlphaFold的杰出贡献,它们的底层逻辑,都来自于那个曾经的遗迹战场上。
那不是游戏的结束,那是AI世界的开端。
相关阅读:
https://openai.com/index/openai-five-defeats-dota-2-world-champions
https://deepmind.google/blog/alphago-zero-starting-from-scratch
https://deepmind.google/blog/alphafold-a-solution-to-a-50-year-old-grand-challenge-in-biology
▽▽▽

