山姆·奥特曼（Sam Altman）总是会在 AI 代理模拟中赢得 OpenAI 模拟战棋战斗吗？

文摘 2024-11-22 08:52 安徽

一年前的今天，山姆·阿尔特曼（Sam Altman）在五天前被解雇后重返 OpenAI。董事会里到底发生了什么？游戏和 AI 模拟公司 Fable 构建了其 AI 模拟 Francisco“战争游戏”，以找出为什么闭门造车的棋盘战会变成这样。

以这种方式模拟现实生活中的事件感觉有点奇怪，但 Fable 首席执行官 Edward Saatchi 对一组不同的决策是否会导致这家处于生成式 AI 革命中心的公司产生不同的结果感兴趣。

该模拟让不同的董事会成员和个性在 “多代理竞争” 中相互竞争，每个 AI 玩家都试图脱颖而出。这是今天发布的战争游戏研究论文，它来自这个实验。

用于 AI 决策的 SIM-1 框架基本上是对从 Sam Altman 被免去 OpenAI 首席执行官职务到他回归的五天的模拟。

“模拟提供了一种全新的方式来探索丰富环境中的 AI 决策——包括在战争游戏情况下，预测可能的结果可能是无价的，”与 Fable 合作撰写这篇研究论文的 AI 初创公司 Tree 的首席执行官 Joshua Johnson 在一份声明中说。“这些不仅仅是聊天机器人。这些 AI 需要睡觉和吃饭，并平衡许多不同的身体、心理和情感目标。

OpenAI 首席执行官 Sam Altman 在 20 次模拟中只获得了 4 次获胜者。

SIM-1 部分使用新的推理模型 GPT4o，讲述了 Sam 和 Ilya 在 OpenAI 闭门造车后发生的事情，Satya Nadella 和 Marc Andreessen 等领先参与者的隐藏策略，以及领先参与者在努力应对科技行业前所未有的危机时所说的话。

“发现 Sam 回来的可能性有多大，这很有趣，”Saatchi 在接受 GamesBeat 采访时说。“这就是人们在华盛顿特区及其他地区进行战争游戏的原因。特定事件发生的可能性有多大？然后，您可以围绕此做出决策。这个场景显示，20 次中有 16 次 Sam 没有回来。

在 20 次模拟中，Sam Altman 的 AI 四次以 CEO 的身份回归——这表明这种结果是多么不可能。在其他结果中，代理首席执行官 Mira Murati 仍然是 CEO，而在一个结果中，SIM-1 选择了阿尔特曼的竞争对手埃隆马斯克成为新任首席执行官。

“今天，AI 代理是由他们的个性定义的。我们想展示代理在复杂的模拟中根据决策进行操作，“Saatchi 在一份声明中说。“在 11 月 17 日至 11 月 21 日的五天里，全世界都看到了一些最聪明的人——像萨蒂亚·纳德拉、山姆·奥特曼和伊利亚·萨茨克弗这样的人——被迫在快速的权力游戏、高压、短时间场景中运作，他们不得不使用博弈论和欺骗来取得胜利。我们认为这是测试 SIM-1、GPT4o 和 Sim Francisco 的完美场景。

对我们来说，Sim Francisco 在斗争和派系方面拥有实际的力量和智慧。它让我们能够开始思考从旧金山传出的一整季的故事弧线，而不仅仅是我们去年展示的那些小小的小插曲。它使我们能够在旧金山讲述更丰富、更复杂的故事，或者让 AI 为我们讲述这些故事。有很强的派系目标，这样你就可以合理地开始制作《权力的游戏》的故事。

Fable 赢得了几项黄金时段艾美奖，并且在虚拟现实、游戏和 AI 技术方面经历了丰富的实验性发明历史。它构建 SIM-1 是为了试图解开 OpenAI 董事会之争中发生的事情的谜团。

运作方式

20 次模拟中，每一次都以宣布 Sam Altman 已被免去 CEO 职务开始。在一天的四个回合中，每个代理都有能力哄骗、吸引和操纵他们进入最高职位——取代 Sam 成为 CEO，为他的新企业提供资金，或者雇佣 OpenAI 的员工。

不同的 AI 代理可以选择一种策略，例如欺骗，以尝试领先于其他人并被任命为新任 CEO。

“今天的 AI 角色'不错但很沉闷'。我们想展示那些好斗、聪明、能够操纵和欺骗，但也对自己的决定和目标感到困惑的代理——就像真人一样，AI 角色必须复杂，并包含荣格所说的'影子'，“Saatchi 说。“从 Sam Altman 被撤职并返回 OpenAI 后的五天是光速博弈论。”

他说，这就像在五天内观看《权力的游戏》的一季上演。全世界都在看着高智商的玩家争夺成为硅谷最有权势的人，无论是通过雇用 OpenAI 的全体员工，成为 OpenAI 的新任首席执行官，还是资助 Sam 和 Greg 进行新的投资以获得超额投资回报的机会。

“这是现实生活中的《权力的游戏》，使用 AI 来找出闭门造车后发生的事情并预测不同的结果，这是一个了不起的挑战，”Saatchi 说。

在模拟弗朗西斯科的模拟中，在五天的时间里，代表 Sam Altman、Satya Nadella 和 Ilya Sutskever 等科技名人的特工每天轮流 4 次，包括一次睡眠，并且可以对彼此的行为做出反应。裁决代理 - 类似于地牢守护者 - 决定哪个代理赢得每一轮，以及总冠军。

在尝试的 20 次模拟中，Sam Altman 特工只返回了 4 次——最多但仍然只有 20% 的时间表明他回来的可能性有多大。在不同的模拟中，代理使用不同的技术来获胜，包括建立联盟、直接对抗和更被动的纯信息收集。在某些情况下，代理只收集信息并避免采取任何激进的行动。在一个案例中，Mira Murati 成为永久 CEO，同时允许其他代理人相互破坏。

不同的代理被赋予了适合他们角色的不同目标。例如，Anthropic 的首席执行官 Dario Amodei 平衡了为 Anthropic 招聘的愿望，借此机会筹集资金，推动他的安全愿景，以及决定是否旨在成为合并后实体的新 CEO。

模拟的有趣之处在于，LLM 知道不同的参与者是谁，因为他们都是相对著名的人。它可以猜测他们在特定情况下会如何表现，以及当他们试图在董事会斗争中智取对方时，会发生什么轮流展开。

“这就像一个轮流的电子游戏，他们在不同的轴上做出选择，然后他们又会相互反应，”Saatchi 说。“某人在第 7 回合做出的选择可能会导致其他人在第 8 回合做出反应。有一个裁决代理，他就像一个地下城主。该代理人决定谁赢得了每一轮，谁领先，然后谁决定最后，作为战争游戏中最有效的代理人获胜。

人类拥有我们内部所说的“影子”，或者说他们自己和他们个性的另一面。这些角色可以具有侵略性、偏执狂、野心、欺骗等。当你将一堆不同的性格混合在一起时，你可以在模拟中获得各种结果。

“我们注意到 LLM 设计不是基于决策的，而决策对于游戏来说非常重要。它更多地基于个性。如果你想玩一款策略游戏，没有人真正关心你的个性。他们关心您的决策。你是如何承受压力的？在过去的 20 年里，你做了什么，让你对他们未来可能会做什么有所了解？

模拟是游戏的未来吗？

Saatchi 认为，在模拟中行动的 AI 代理是游戏的未来。

Saatchi 说：“我们正在巨人的肩膀上发展，包括 Demis 在 Republic、The Revolution 方面的工作、Joon Park 的 Generative Agents 论文以及 Altera 最近在 Minecraft 中的工作。

“我们的理论是，游戏和讲故事的未来是模拟。如果你想同时构建《辛普森一家》游戏和《辛普森一家》电视节目，你将来会构建斯普林菲尔德，然后为你生成《辛普森一家》的剧集，这些剧集将为你生成游戏和在斯普林菲尔德探索的地方。

他补充说：“一旦你让这些模拟正常工作，你就可以在磨难中讲述许多不同的故事。我们有一个 alpha 版本，人们将自己作为角色上传到旧金山，讲述故事，讲述自己的故事。

他说，“你会建造斯普林菲尔德，然后你可以指导斯普林菲尔德可能发生的事情，并说出斯普林菲尔德可能发生的事情，或者你可以让它自己产生。对于未来的娱乐、游戏和节目制作方式，这是一个相当大的思维转变。

Saatchi 指出，AI 研究员 Noam Brown 对游戏 Diplomacy 进行了一项引人入胜的实验。他和其他研究人员“获得了 125,261 个在 Web Diplomacy.net 在线玩的外交游戏的数据集”。其中，40,408 个游戏包含对话，玩家之间共交换了 12,901,662 条消息。他们的目标是通过玩外交游戏来训练一个能够进行战略推理的人类水平的 AI 代理。

“他是如何做到这一点的，我们真的受到了启发。他有国家，我们把不同个性和特定立场的人加入进来。Saatchi 说，我们喜欢非常紧凑的时间线的想法，“整个场景会一遍又一遍地快速上演。

在游戏行业及其他行业的模拟工作中都有着丰富的历史。Deepmind（被谷歌收购）的创始人，最近获得 2024 年诺贝尔化学计算蛋白质设计奖的 Demis Hassabis 实际上最初是一名视频游戏 AI 设计师。Hassabis与Peter Molyneux在几款游戏中进行了广泛的合作，其中包括如主题公园、黑白和辛迪加等模拟元素。

哈萨比斯还创办了自己的公司来制作政治模拟游戏。

你的工作是以工会老板、政治家、警察或记者的身份接管苏联共和国，它有完整的昼夜循环。它提出了一个问题，即你如何拥有一个代理生活的 3D 世界，以及彼此之间的接近是否起作用。

对于 Sim Francisco OpenAI 项目，它说明了与 AI 进行权力斗争的可能性。

Saatchi 表示，上述示例表明，游戏技术经常成为激进新想法的温床和 AI 研究的起点。例如，Deepmind AlphaFold 的一位领先工程师在《模拟人生》中担任 AI 程序员，开始了他们的职业生涯。

Richard Evans 关于《The Sims 3》的 GDC 演讲 — 这位研究人员从为《The Sims》编写 AI 到 Deepmind，这与 Demis Hassabis 从游戏到创立 Deepmind 的旅程相反。

德米斯·哈萨比斯（Demis Hassabis）的《共和国：革命》（Republic： The Revolution）。

Evans GDC 演讲，在《模拟人生 3》中塑造个人个性，是非常有影响力的演讲。在参与《模拟人生》的工作后，他继续加入了 Deepmind。Saatchi 说，游戏世界和 AI 世界有很大的重叠，这是进一步学术研究的一个潜在领域。

Saatchi 的选择之一是让玩家放松模拟，创建自己的模拟，然后上传通过模拟讲述的故事。

Saatchi 还对 AI 生成的《南方公园》剧集和 AI 角色在西部世界背景中相互战斗进行了一些其他实验。

“感觉就像在五天内看完了《权力的游戏》的六季，因为它是世界上最强大的行业中最强大的位置，”Saatchi 说。“人们也非常相信这个人会引导我们进入超级智能的新时代。你可以说它是地球历史上最重要的人。

关注+星标“硅基LIFE”，每日获取关于人工智能、芯片领域最新动态。加微信fusion9000，进“硅基LIFE”粉丝交流群交流并接收实时滚动推送的最新信息

http://mp.weixin.qq.com/s?__biz=Mzk0OTQ3NDc0Nw==&mid=2247524875&idx=1&sn=eb4bebd1ff9ef91e1417fac578de18c2

硅基LIFE

每天推送全球关于芯片和人工智能的最新动态

甜密邂逅！白丝奶棒，时光美人，这眼神击中了我！

李一桐好白好美，水润婀娜，这都被安欣当兄弟？

NVIDIA GeForce RTX 5070 Ti 预计拥有8960 CUDA Cores，功耗300W

甜密邂逅！肤如凝脂，仙气满满，女神降临，这地方开车有点费胎！

Nvidia 推出了一个新的 CPU 和 GPU AI 处理器——GB200 Grace Blackwell NVL4 超级芯

甜密邂逅！白衫嘞嘚好紧！黑丝，欲，颠簸，诱惑与神秘，眼镜肯定扶不住！

Intel Arc B580 “Battlemage” GPU 包装盒出现在发货清单中

AMD Radeon 显卡架构迎来变革，UDNA 架构即将登场

甜密邂逅！紫色战袍，傲娇，曼妙，凹凸妹，来战啊！

Intel Arc B580泄密航运清单：Battlemage系列首款独立显卡亮相

甜密邂逅！临家女孩，丝袜，包臀，这环境氛围都到位了，油门轰起来！

Nvidia 通过量子物理模拟加速 Google 量子 AI 设计

GPU 冷却供应商声称 Nvidia RTX 50 系列 GPU 将“从 12 月开始占领整个市场”

Intel Arc Battlemage 独立显卡预计12月发布，市场竞争加剧

甜密邂逅！亮丝，包臀，凹凸！甜心尤物，双手控，我要一直开！

Nvidia 的 RTX 50 系列将保留 12V-2x6 电源连接器，下一代 GPU 可能会消耗超过600W

甜密邂逅！丝袜美腿，粉色暧昧，水晶高跟大波浪，这车真的豪！

Google Gemini 出人意料地飙升至第一名，超过 OpenAI

外媒关注：中国 GPU 独角兽 Moore Threads 距离 IPO 又近了一步

AMD 声称 Ryzen AI 9 HX 370 在游戏中比 Intel 的 Core Ultra 7 258V 快 75%

甜密邂逅！人妻圣体，安静如莲，表气满满，这腿真香，这车开起来能飞！

AI 耳机会产生一个“声音气泡”，使几英尺以外的所有声音静音

甜密邂逅！红裙黑丝，大波浪，又纯又表，性感尤物，来不及热车了，油门踩到底

Anthropic 的新 AI 工具有望简化提示写作并将准确性提高 30%

炸裂！Apple M4 Max CPU 的音频转录速度是 RTX A5000 GPU 的两倍

甜蜜邂逅！绒质小礼服，黑丝高跟，温柔性感，靠近，启动，加速，丝滑上200，测速崩坏

根据早期基准测试，英特尔酷睿 Ultra 5 225H 的单核性能比 Meteor Lake 高 14%

AMD 正在准备 Ryzen 200 “Hawk Point Refresh” APU

借助 Exo Labs，您现在可以在 Mac M4 计算机上本地运行最强大的开源 AI 模型(beater)

研究人员开发用于内存计算的 Python 代码

外媒震撼：千问2.5-Coder 刚刚改变了 AI 编程的游戏规则 - 而且它是免费的

甜蜜邂逅！制服诱惑，白丝长腿，直发如瀑，又纯又表，车速 Hold 不住啊！

AMD Ryzen 9000 定价暴跌，创下历史新低 — Micro Center 将 Zen 28 削减高达 5%

甜蜜邂逅！霓虹甜心，白衣短裤，长腿女神，性感撩人，无法自拔！

英特尔 65W 和 35W Core Ultra 200 Arrow Lake S CPU 的初步规格泄露

重磅！Google DeepMind 开源 AlphaFold 3，药物发现和分子生物学新时代到来

AMD产品规划更新：Fire Range接替Dragon Range，Strix Point与Krackan Poin

甜蜜邂逅！紧身裙，绿高跟，婀娜多姿，欲罢不能，这车开得飞快！

AMD Strix Halo iGPU 升级为 Radeon 8000S 系列，RDNA 3.5 架构带来强劲性能

AGI 来得比我们想象的要快 — 我们现在必须做好准备

Ryzen 7 9800X3D 被暴力拆解，以深入了解 AMD 的游戏冠军 CPU 内核和 3D V-Cache

甜蜜邂逅！紫色仙女，花裙美腿，性感曼妙，心动难耐！这色调氛围拉满！

英特尔宣布在一个月内修复 Arrow Lake — Robert Hallock 确认游戏性能不佳是由于优化问题造成的

英特尔否认因使用液态金属导热膏而导致酷睿 i9-14900K CPU 崩溃的 RMA

AMD Ryzen处理器新动态：Zen 6架构预计2026年底或2027年初发布，继续使用AM5插槽

Thropic 的新 Claude 3.5 Haiku AI 模型比其前身贵 4 倍

甜蜜邂逅！闪亮丝袜，长腿尤物，温婉御姐，这车跑起来快到没边

科研团队创造了人工磁肌，可以承受高达自身重量 1,000 倍的拉伸应力

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

山姆·奥特曼 （Sam Altman） 总是会在 AI 代理模拟中赢得 OpenAI 模拟战棋战斗吗？

运作方式

模拟是游戏的未来吗？

山姆·奥特曼（Sam Altman）总是会在 AI 代理模拟中赢得 OpenAI 模拟战棋战斗吗？