一年前的今天,山姆·阿尔特曼 (Sam Altman) 在五天前被解雇后重返 OpenAI。董事会里到底发生了什么?游戏和 AI 模拟公司 Fable 构建了其 AI 模拟 Francisco“战争游戏”,以找出为什么闭门造车的棋盘战会变成这样。
以这种方式模拟现实生活中的事件感觉有点奇怪,但 Fable 首席执行官 Edward Saatchi 对一组不同的决策是否会导致这家处于生成式 AI 革命中心的公司产生不同的结果感兴趣。
该模拟让不同的董事会成员和个性在 “多代理竞争” 中相互竞争,每个 AI 玩家都试图脱颖而出。这是今天发布的战争游戏研究论文,它来自这个实验。
用于 AI 决策的 SIM-1 框架基本上是对从 Sam Altman 被免去 OpenAI 首席执行官职务到他回归的五天的模拟。
“模拟提供了一种全新的方式来探索丰富环境中的 AI 决策——包括在战争游戏情况下,预测可能的结果可能是无价的,”与 Fable 合作撰写这篇研究论文的 AI 初创公司 Tree 的首席执行官 Joshua Johnson 在一份声明中说。“这些不仅仅是聊天机器人。这些 AI 需要睡觉和吃饭,并平衡许多不同的身体、心理和情感目标。
SIM-1 部分使用新的推理模型 GPT4o,讲述了 Sam 和 Ilya 在 OpenAI 闭门造车后发生的事情,Satya Nadella 和 Marc Andreessen 等领先参与者的隐藏策略,以及领先参与者在努力应对科技行业前所未有的危机时所说的话。
“发现 Sam 回来的可能性有多大,这很有趣,”Saatchi 在接受 GamesBeat 采访时说。“这就是人们在华盛顿特区及其他地区进行战争游戏的原因。特定事件发生的可能性有多大?然后,您可以围绕此做出决策。这个场景显示,20 次中有 16 次 Sam 没有回来。
在 20 次模拟中,Sam Altman 的 AI 四次以 CEO 的身份回归——这表明这种结果是多么不可能。在其他结果中,代理首席执行官 Mira Murati 仍然是 CEO,而在一个结果中,SIM-1 选择了阿尔特曼的竞争对手埃隆马斯克成为新任首席执行官。
“今天,AI 代理是由他们的个性定义的。我们想展示代理在复杂的模拟中根据决策进行操作,“Saatchi 在一份声明中说。“在 11 月 17 日至 11 月 21 日的五天里,全世界都看到了一些最聪明的人——像萨蒂亚·纳德拉、山姆·奥特曼和伊利亚·萨茨克弗这样的人——被迫在快速的权力游戏、高压、短时间场景中运作,他们不得不使用博弈论和欺骗来取得胜利。我们认为这是测试 SIM-1、GPT4o 和 Sim Francisco 的完美场景。
对我们来说,Sim Francisco 在斗争和派系方面拥有实际的力量和智慧。它让我们能够开始思考从旧金山传出的一整季的故事弧线,而不仅仅是我们去年展示的那些小小的小插曲。它使我们能够在旧金山讲述更丰富、更复杂的故事,或者让 AI 为我们讲述这些故事。有很强的派系目标,这样你就可以合理地开始制作《权力的游戏》的故事。
Fable 赢得了几项黄金时段艾美奖,并且在虚拟现实、游戏和 AI 技术方面经历了丰富的实验性发明历史。它构建 SIM-1 是为了试图解开 OpenAI 董事会之争中发生的事情的谜团。
运作方式
20 次模拟中,每一次都以宣布 Sam Altman 已被免去 CEO 职务开始。在一天的四个回合中,每个代理都有能力哄骗、吸引和操纵他们进入最高职位——取代 Sam 成为 CEO,为他的新企业提供资金,或者雇佣 OpenAI 的员工。
不同的 AI 代理可以选择一种策略,例如欺骗,以尝试领先于其他人并被任命为新任 CEO。
“今天的 AI 角色'不错但很沉闷'。我们想展示那些好斗、聪明、能够操纵和欺骗,但也对自己的决定和目标感到困惑的代理——就像真人一样,AI 角色必须复杂,并包含荣格所说的'影子',“Saatchi 说。“从 Sam Altman 被撤职并返回 OpenAI 后的五天是光速博弈论。”
他说,这就像在五天内观看《权力的游戏》的一季上演。全世界都在看着高智商的玩家争夺成为硅谷最有权势的人,无论是通过雇用 OpenAI 的全体员工,成为 OpenAI 的新任首席执行官,还是资助 Sam 和 Greg 进行新的投资以获得超额投资回报的机会。
“这是现实生活中的《权力的游戏》,使用 AI 来找出闭门造车后发生的事情并预测不同的结果,这是一个了不起的挑战,”Saatchi 说。
在模拟弗朗西斯科的模拟中,在五天的时间里,代表 Sam Altman、Satya Nadella 和 Ilya Sutskever 等科技名人的特工每天轮流 4 次,包括一次睡眠,并且可以对彼此的行为做出反应。裁决代理 - 类似于地牢守护者 - 决定哪个代理赢得每一轮,以及总冠军。
在尝试的 20 次模拟中,Sam Altman 特工只返回了 4 次——最多但仍然只有 20% 的时间表明他回来的可能性有多大。在不同的模拟中,代理使用不同的技术来获胜,包括建立联盟、直接对抗和更被动的纯信息收集。在某些情况下,代理只收集信息并避免采取任何激进的行动。在一个案例中,Mira Murati 成为永久 CEO,同时允许其他代理人相互破坏。
不同的代理被赋予了适合他们角色的不同目标。例如,Anthropic 的首席执行官 Dario Amodei 平衡了为 Anthropic 招聘的愿望,借此机会筹集资金,推动他的安全愿景,以及决定是否旨在成为合并后实体的新 CEO。
模拟的有趣之处在于,LLM 知道不同的参与者是谁,因为他们都是相对著名的人。它可以猜测他们在特定情况下会如何表现,以及当他们试图在董事会斗争中智取对方时,会发生什么轮流展开。
“这就像一个轮流的电子游戏,他们在不同的轴上做出选择,然后他们又会相互反应,”Saatchi 说。“某人在第 7 回合做出的选择可能会导致其他人在第 8 回合做出反应。有一个裁决代理,他就像一个地下城主。该代理人决定谁赢得了每一轮,谁领先,然后谁决定最后,作为战争游戏中最有效的代理人获胜。
人类拥有我们内部所说的“影子”,或者说他们自己和他们个性的另一面。这些角色可以具有侵略性、偏执狂、野心、欺骗等。当你将一堆不同的性格混合在一起时,你可以在模拟中获得各种结果。
“我们注意到 LLM 设计不是基于决策的,而决策对于游戏来说非常重要。它更多地基于个性。如果你想玩一款策略游戏,没有人真正关心你的个性。他们关心您的决策。你是如何承受压力的?在过去的 20 年里,你做了什么,让你对他们未来可能会做什么有所了解?
模拟是游戏的未来吗?
Saatchi 认为,在模拟中行动的 AI 代理是游戏的未来。
Saatchi 说:“我们正在巨人的肩膀上发展,包括 Demis 在 Republic、The Revolution 方面的工作、Joon Park 的 Generative Agents 论文以及 Altera 最近在 Minecraft 中的工作。
“我们的理论是,游戏和讲故事的未来是模拟。如果你想同时构建《辛普森一家》游戏和《辛普森一家》电视节目,你将来会构建斯普林菲尔德,然后为你生成《辛普森一家》的剧集,这些剧集将为你生成游戏和在斯普林菲尔德探索的地方。
他补充说:“一旦你让这些模拟正常工作,你就可以在磨难中讲述许多不同的故事。我们有一个 alpha 版本,人们将自己作为角色上传到旧金山,讲述故事,讲述自己的故事。
他说,“你会建造斯普林菲尔德,然后你可以指导斯普林菲尔德可能发生的事情,并说出斯普林菲尔德可能发生的事情,或者你可以让它自己产生。对于未来的娱乐、游戏和节目制作方式,这是一个相当大的思维转变。
Saatchi 指出,AI 研究员 Noam Brown 对游戏 Diplomacy 进行了一项引人入胜的实验。他和其他研究人员“获得了 125,261 个在 Web Diplomacy.net 在线玩的外交游戏的数据集”。其中,40,408 个游戏包含对话,玩家之间共交换了 12,901,662 条消息。他们的目标是通过玩外交游戏来训练一个能够进行战略推理的人类水平的 AI 代理。
“他是如何做到这一点的,我们真的受到了启发。他有国家,我们把不同个性和特定立场的人加入进来。Saatchi 说,我们喜欢非常紧凑的时间线的想法,“整个场景会一遍又一遍地快速上演。
在游戏行业及其他行业的模拟工作中都有着丰富的历史。Deepmind(被谷歌收购)的创始人,最近获得 2024 年诺贝尔化学计算蛋白质设计奖的 Demis Hassabis 实际上最初是一名视频游戏 AI 设计师。Hassabis与Peter Molyneux在几款游戏中进行了广泛的合作,其中包括如主题公园、黑白和辛迪加等模拟元素。
哈萨比斯还创办了自己的公司来制作政治模拟游戏。
你的工作是以工会老板、政治家、警察或记者的身份接管苏联共和国,它有完整的昼夜循环。它提出了一个问题,即你如何拥有一个代理生活的 3D 世界,以及彼此之间的接近是否起作用。
对于 Sim Francisco OpenAI 项目,它说明了与 AI 进行权力斗争的可能性。
Saatchi 表示,上述示例表明,游戏技术经常成为激进新想法的温床和 AI 研究的起点。例如,Deepmind AlphaFold 的一位领先工程师在《模拟人生》中担任 AI 程序员,开始了他们的职业生涯。
Richard Evans 关于《The Sims 3》的 GDC 演讲 — 这位研究人员从为《The Sims》编写 AI 到 Deepmind,这与 Demis Hassabis 从游戏到创立 Deepmind 的旅程相反。
Evans GDC 演讲,在《模拟人生 3》中塑造个人个性,是非常有影响力的演讲。在参与《模拟人生》的工作后,他继续加入了 Deepmind。Saatchi 说,游戏世界和 AI 世界有很大的重叠,这是进一步学术研究的一个潜在领域。
Saatchi 的选择之一是让玩家放松模拟,创建自己的模拟,然后上传通过模拟讲述的故事。
Saatchi 还对 AI 生成的《南方公园》剧集和 AI 角色在西部世界背景中相互战斗进行了一些其他实验。
“感觉就像在五天内看完了《权力的游戏》的六季,因为它是世界上最强大的行业中最强大的位置,”Saatchi 说。“人们也非常相信这个人会引导我们进入超级智能的新时代。你可以说它是地球历史上最重要的人。
关注+星标“硅基LIFE”,每日获取关于人工智能、芯片领域最新动态。 加微信fusion9000,进“硅基LIFE”粉丝交流群交流并接收实时滚动推送的最新信息