从斯坦福小镇开始,类似由大模型驱动的模拟社会实验都让人心驰神往。而从社会实验再往前一步,就到了文明实验。几天前 ALTERA 发布了一篇技术报告,里面详细描述了他们在《我的世界》游戏上的多智能体文明实验的结果。
ALTERA 是谁
ALTERA 是一家源于 MIT 的 AI 初创公司。他们在官网上这样定义自己:"我们是一家多智能体研究公司,致力于建造数字人类:拥有人类基本特质的机器。" ALTERA 选择游戏作为数字人类的首个应用领域,此前已在《我的世界》上发布了智能体演示视频。事实上,很难找到第二个像《我的世界》这样的平台——既开放复杂,又具备社交和协作属性,同时又远比现实社会简单。正因如此,许多智能体实验都选择在这个平台上进行。
ALTERA 团队早在两个月前就预告了这个名为 Project Sid 的实验项目。该项目旨在通过大规模智能体协作,探索由智能体构建的文明在各种场景和方面的表现。
智能体文明实验难在哪?
从模型到架构,今天的大模型技术下,智能体文明实验依然面对太多的挑战:
模型本身的能力限制:模型依然做不好长程规划,而不管是现实里还是《我的世界》中,任务往往需要通过很多步骤才能完成。准确地规划这些步骤,发现执行中的错误并且从中恢复,对今天的模型来说是极其挑战的任务。 模型幻觉:因为这类实验当中每个智能体的驱动和智能体间的交互都通过与大模型的语言交互完成,模型幻觉会对完成目标带来额外的困难。导致得到错误回答的智能体做出错误决策。 并发稳定:在模拟环境中每个智能体的操作都会对环境和社会产生影响,而每个智能体从输入到决策到执行需要时间,在大量智能体并行运行的时候,如何保证实验中每个智能体能够快速行动,又能够根据部环境的变化做出调整,本身对工程提出了很大的挑战 错误累积:因为实验的过程中完全无人干预,每一个智能体动作的错误和每一次智能体之间交互的错误都会影响后续结果,如果不能及时审视并发现错误,实验中的错误就会不断累积。 缺少衡量标准:今天对智能体的衡量标准往往集中在针对特定领域任务,比如编程,推理等的表现。而针对开放领域,尤其是没有所谓标准答案的智能体文明发展该如何度量依然是个开放问题。
Project Sid 的成果和发现
为了解决上述问题,ALTERA 团队提出了新的智能体框架,称之为 PIANO(Parallel Information Aggregation via Neural Orchestration/基于神经网络调控的并行信息聚合)。这里不详细叙述,感兴趣的朋友们可以看技术报告里的详细介绍。
比起模型框架,更有意思的是这个系列文明实验中的一些发现。下面的每一个发现都基于一个单独的实验。
专业分工:
这个实验中,不同的智能体通过社交互动在社区中逐步发展出了不同的职业角色。所有智能体的初始设定完全相同,但通过观察彼此的社交动机,他们逐渐生成了各自的目标,从而实现了专业分工。农业型的智能体专注于种植农作物,艺术型的智能体则收集花朵作为艺术创作的材料。有意思的是这种专业分工完全源于社交认知,在对比实验中一旦限制了智能体的社交认知模块,他们就不再出现专业化的趋势,而只是随机重复执行相同的动作。
群体规则:
智能体可以遵守并适应集体规则,比如税收制度。这个实验中一开始智能体按既定规则缴纳税款,但随着被设定的意见领袖通过社交推动,智能体们通过民主投票调整了税率。调整后智能体也相应调整了他们交税的税率。这一实验显示了智能体不仅能适应集体规则,还能受到影响并主动参与规则的修改。这某种程度上表明智能体可以在有结构的、受规则约束的社会中运行。
大规模社交:
这个实验探索了文化概念和宗教思想在分布在 6 个城镇中的 500 个智能体组成的社会中的传播。在实验中,一些文化概念最初在智能体社交当中自发出现,而后围绕这些主题,城镇之间逐渐形成独特的文化身份,城市区域的文化内容比农村更丰富。例如一个小镇偏向环保主题,而另一个小镇则以恶作剧文化著称。
ALTERA 团队也在这个实验中植入了一个宗教“Pastafarian”(传说中的飞天意面神教)。通过指定的牧师智能体布道传播,逐渐渗透到普通智能体的日常交流中。搞笑的是,或许是因为大模型偶尔的错误,智能体们还将“意面”或“意大利面”等词语用于社交场合。技术报告中表示这展示出宗教理念的文化扩散效应,恰恰类似 breakfast 最早指宗教意义上的禁食之后的第一餐,后来演变成泛指普通早餐。或许有点牵强,但听起来竟然非常地有道理。
文明实验的意义
讨论智能体文明虽然还为时尚早,但 Project Sid 和相关的大规模智能体实验已为 AI 研究带来诸多现实意义。当前,行业中的 AI 智能体仍无法处理复杂问题或进行大规模协作,这很大程度上源于前文列举的一系列挑战。
现有的 AI 模型和智能体虽然能在重复性简单任务上大幅提升效率,将个人武装成“超级个体”,但对大型组织的效能提升却不明显。它们能让我们在十秒内完成原本需要十分钟的写作,却无法帮我们完成三小时的工作,让我们安心地休息放松。
针对这些问题,我们需要更强大的智能体,以及更大规模的智能体协作。这听起来或许很科幻,但模拟实验至少帮我们迈出了理解问题的第一步,也为 AI 系统的未来迭代指明了方向。
📮 更多阅读