从数学角度概述阿西莫夫机器人三定律

科技 2024-10-21 22:02 上海

Possible principles for aligned structure learning agents

https://arxiv.org/pdf/2410.00258?

摘要

本文提出了一条从自然智能的基本原理描述出发，开发可扩展且对齐的人工智能（AI）的路线图。简而言之，实现可扩展且对齐的AI的一条可能路径是，使人工智能体能够学习一个包含我们偏好模型的良好世界模型。为此，主要目标是创建能够表示世界和其他智能体的世界模型的人工智能体；这是一个属于结构学习（又称因果表示学习）范畴的问题。本文在明确这一目标的前提下，揭示了结构学习和对齐问题，以及指导我们前进的原则，综合了数学、统计学和认知科学中的各种思想。1) 我们讨论了核心知识、信息几何和模型简化在结构学习中的关键作用，并建议学习核心结构模块以掌握广泛的自然世界。2) 我们概述了通过结构学习和心智理论实现智能体对齐的途径。作为一个说明性示例，我们从数学角度概述了阿西莫夫的机器人学三定律，该定律规定智能体应谨慎行事，以最大限度地减少对其他智能体的伤害。我们通过提出改进的对齐方法来补充这一示例。这些观察结果可能为人工智能的发展提供指导，有助于扩展现有或设计新的对齐结构学习系统。

关键词：贝叶斯、生成模型、世界模型、因果表示学习、主动推断

5.4 机器人学三定律

在主动推断框架下，与另一事物保持一致仅仅是符合其世界模型。但一块静止的石头与我保持一致，并不意味着这块石头对我有所帮助。我们现在探索更多关于AI对齐的具体方法，并重新回顾一个来自科幻领域的著名概念：阿西莫夫的机器人学三定律[114]。这三定律为我们的同理心代理讨论提供了一个有趣且富有启发性的思想实验。回顾一下机器人学三定律：

机器人不得伤害人类个体，或因不采取行动使人类个体受到伤害。
机器人必须服从人类的命令，但前提是这些命令不与第一定律相冲突。
机器人在不违反第一及第二定律的情况下，必须保护自己。
——阿西莫夫（1950）《我，机器人》[114]

虽然这些定律本身并不是AI对齐的实际解决方案，但它们为我们提供了一个起点，用以说明如何在主动推断框架内将伦理约束形式化。

让我们探讨一下如何使用迄今为止讨论过的概念来体现第一定律的精神。最小化伤害——即在第10点意义上最大化福祉——支持第一定律，并且可能更为强大，可能已经包含了第二定律和第三定律，如我们稍后将看到的，因此这意味着除了防止日常意义上的伤害之外，还隐含着其他行动方针。

机器人学第一定律的数学实例化：为了在数学上实现第一定律，首先考虑一个同理心代理，其唯一偏好是防止另一个代理（目标代理）受到伤害。同理心代理的行动可以由预期自由能（4）来支配，其中我们除了目标的伤害之外，丢弃所有外部变量：

第一定律的一种实现方式可以是，例如，在（11）中假设目标伤害的首选分布为随伤害指数衰减的概率分布，这样零伤害或低伤害就会比高伤害更受青睐，或者通过（软）阈值设定将目标的福祉控制在理想值范围内。8为了适当模拟目标的伤害程度，同理心代理必须模拟许多其他外部变量；然而，驱动其行动的唯一指令将是消除关于目标福祉的不确定性——并实现其偏好。

短期内优化福祉与长期内优化福祉可能截然不同，根据（11）对行动方案进行评分涉及一个规划范围，它定义了同理心代理试图改善目标代理福祉的时间跨度。这个时间跨度是同理心代理在伤害生成模型中的时间深度（参见第4.3.3节）。由于同理心代理基于目标的世界模型进行推断，因此同理心代理对于福祉的时间范围是其对目标自身时间范围的估计。然而，根据情境的不同，这可能并不是期望的行为，因为即使目标代理无法预见某些事件，但在这些事件发生时，它可能会预测到自己会关心（或受到伤害），因此保护目标代理免受这些事件的伤害可能是可取的。但是，在为多目标代理行动以满足多个目标代理的偏好时，这个问题在多代理系统中得到了解决，因为规划时间范围预计将成为目标范围的上限。

多代理环境中的第一定律：在存在n个目标代理的环境中，我们可以通过将（11）中的伤害替换为（harm1,..., harmn）来为多代理制定第一定律，这代表了目标代理的联合福祉。因此，同理心代理必须预测每个目标的福祉水平，同时维持这些变量上的联合偏好分布。这的一种可能实现方式是平等且独立地对待每个目标的福祉，从而形成一个分解的联合偏好分布：P(harm1,..., harmn | d) = ∏(i=1 to n) P(harmi | d)，其中每个个体的伤害偏好分布对于所有个体都是相同的。如果我们进一步指定目标代理是环境中的人类，那么（11）就成为了阿西莫夫机器人学第一定律的一个实例化：一种谨慎行动的规范，旨在防止任何人类受到伤害。然而，我们注意到，联合分布的具体选择本身是一个复杂的伦理和社会问题，超出了本文的范围。

第二和第三定律：如果我们在预期自由能（11）中重新引入具有平坦（或最大熵）先验偏好的外部变量，同理心代理的行动应该基本保持不变——特别是与第一定律保持一致——但至关重要的是，我们可以允许从这些额外变量的经验中学习偏好（即脚注8）。由于在主动推断中，偏好是通过最大化模型证据来学习的，因此这些额外的偏好（即激励[115, 116]）将以最有利于满足第一定律中编码的最大化他人福祉的硬性约束的方式学习。

• 第二定律：从观察到的不服从会导致伤害（在（10）的意义上）这一事实出发，机器人会学习到，为了最小化对其他人类的伤害，它应该服从他们的命令，除非这与第一定律相冲突。

• 第三定律：从观察到机器人必须保持其存在以积极减少他人伤害这一事实出发，机器人可能会学习到，只要这不违反第一或第二定律造成伤害，它就应该保护自己的存在。

请注意，在这个三定律版本中，第二和第三定律是从第一定律中衍生出来的，并且是为了实现第一定律而学习的。一个重要的细微差别是，同理心代理会遵循能让目标代理变得更好的行动——即使目标代理自己都不知道——即使这些行动明确地被命令相反。这意味着，在同理心代理通过多代理环境中的心理理论获得了理解其人类目标受益之处的超人能力之前，应该限制其干预能力。除了以人类为中心的方法之外，我们注意到，对于同理心代理来说，更可取的是寻求最大化其生态系统中所有生物的福祉。这可以通过修改第一定律（11），将考虑范围扩大到所有代理的福祉，而不仅仅是人类代理来实现。

诚然，我们距离在实际应用中实现这些法则（可能指的是人工智能的伦理或对齐原则）还有很长的路要走，这些法则目前仅能在简单的示例中得到应用，而详细研究它们则面临着诸多挑战。然而，我们期望通过将这些以及类似的想法用更正式的语言来表达，将有助于实际研究对齐的人工智能。

1 引言

本文探讨了遵循仿生原理开发可扩展且对齐的人工智能（AI）智能体所面临的挑战。我们考虑了需要解决的研究问题及其指导原则，并提供了一个综合数学、物理学、统计学和认知科学思想的广阔视角。

智力的第一性原理方法：我们旨在将人工智能的自然主义方法纳入考虑范围，并与其保持相关性。为此，我们致力于采用一种称为“主动推断”[1–3]的建模智力的“第一性原理”方法。主动推断并非与建模智力的其他自然主义方法相脱节，而是旨在将它们纳入一个更广泛的框架中。主动推断源自一系列长期存在的思想，可能起源于赫尔姆霍茨关于感知是无意识推断的运动的观点，这一观点在本世纪初被神经科学重新诠释为预测编码，并被推广为贝叶斯大脑假说。主动推断随后在21世纪中期被提出，通过假设行动与感知和学习优化相同的目标，扩展了这些贝叶斯观点[4, 5]。这一观点被建议作为一种潜在的统一大脑理论，即能够以特殊情况的形式容纳大量先前存在且部分不重叠的大脑理论[6]。鉴于这些思想的描述性力量，研究人员已试图从统计物理学的角度为这一观点提供合理性证明，并日益注重数学严谨性和复杂性。这些努力催生了一个新兴的非平衡物理学领域，即“贝叶斯力学”，它架起了粒子随机描述与推断描述之间的桥梁。这已被用于推导我们在此介绍的主动推断框架，从第一性原理出发描述了感知行为[7]。主动推断框架可用于模拟认知科学中的一系列显著现象，从人类选择行为[8]到精神病理学[9]，再到大脑解剖学和生理学的许多已知特征[10,11]，包括神经群体的活动[12,13]——有关综述请参见[1–3,14]。最近，主动推断在机器学习和机器人领域也获得了更多关注——有关机遇和挑战的综述请参见[15–17]。

学习生成（世界）模型：要在规模上解锁这种自然主义方法在人工智能中的实用性，关键挑战在于使智能体能够学习其世界模型，因为当前解决这一问题的方法仍然有限（但参见[18, 19]）。请注意，这个问题并非主动推断所独有：它贯穿于所有基于模型的强化学习[20]中。本文的重点正是这一结构学习问题：我们研究了人工智能系统和智能体如何切实可行地学习其数据生成过程的模型。我们详细研究了这个问题，并讨论了核心知识、信息几何和模型简化所发挥的关键作用，并提出了能够学习广泛自然世界的核心结构模块。

通过结构学习实现对齐：然后，我们通过结构学习和主动推断的视角来考虑人工智能的对齐问题。在主动推断中，智能体的世界模型为其提供了偏好，因为行为只是最大化该模型的证据。我们提出的论点是，通过允许智能体推断其他智能体的世界模型（其中包含它们的偏好），可以在人工智能对齐方面取得进展。然后，要求行动满足他人的偏好，这相当于通过采取他人的视角来与他人对齐。这是一种主观的对齐概念，超越了为行为制定保障措施的做法，这构成了当前许多对齐方法的核心。作为这些思想的一个应用示例，我们在这一框架中从数学上勾勒出了阿西莫夫的机器人学三定律，该定律规定了智能体应谨慎行事，以最大限度地减少对其他智能体的伤害。

论文结构：在第2节中，我们简要介绍了自然智力的“第一性原理”框架，为后续内容奠定基础。然后，我们在第3节中讨论了静态数据集的数据生成过程学习模型（即结构学习和因果表示学习），并在第4节中讨论了智能体背景下的这一问题。接下来，我们在第5节中转向人工智能安全性和对齐问题，作为这些思想的一个潜在应用。最后，我们在第6节中通过讨论更广泛的认知科学和人工智能领域中的这种自然主义方法，得出了结论。

2自然智能的第一原理方法

我们的目标是提供一个关于自然智能的“第二原理”描述。为此，我们总结了一个物理理论，该理论描述了主动与周围环境相互作用的物体的动力学。

符号说明：在以下讨论中，除非另有说明，我们将用小写字母表示在有限时间区间上的随机过程，并用时间作为这些随机过程的下标，以表示它们在某个（些）时间点上的（随机）值。我们用P表示这些随机过程的概率分布。

这里的“第二原理”可能是指从基本的物理和生物原则出发，探索自然智能的本质和机制，而不是依赖于现有的理论框架或模型。这种方法强调从基础出发，逐步推导出关于自然智能的深入理解和描述。

在符号说明部分，我们明确了随机过程的表示方法和概率分布的标记，这有助于在后续讨论中更清晰地表达和理解相关的概念。

需要注意的是，这里的“第二原理”并非一个标准的科学术语，可能是作者为了强调从基本原理出发的研究方法而提出的。在科学研究中，通常提到的“第一原理”或“基本原理”是指最基础、最本质的原理或法则，而“第二原理”可能是在此基础上的进一步推导或应用。然而，在这个上下文中，“第二原理”更多地是强调从基础出发的研究思路。

最大化模型证据：这里有一个不言而喻的道理，即最可能的内部活动和动态将最大化生成世界模型的证据（1）。确切地说，在给定感官轨迹的情况下，活动和内部过程的轨迹越可能，模型证据就越高，反之亦然。这是一个支撑后续所有论述的简单观察：我们可以将事物的内部活动和动态视为在优化一个单一目标：即世界生成模型的证据。接下来，我们将回顾自然系统中这些自证动态的特征。以下特征假设世界的动态具有一定的函数形式，通常是（但不限于）随机微分方程，因为这些方程构成了物理学大部分内容的基础，例如统计物理学和经典物理学，而我们旨在给出一个与自然界其他物理现象相一致的自然智能描述。

Maximizing model evidence: A tautology here is that the most likely internal and active dynamics will maximize the evidence for a generative world model (1). Precisely, the more likely a trajectory of active and internal processes (given a sensory trajectory), the higher the model evidence—and vice-versa. This is a simple observation that underwrites all that follows: we can frame internal and active dynamics of things as optimizing one single objective: the evidence for a generative model of the world. In what follows, we review characterizations of these self-evidencing dynamics in natural systems. The following characterizations assume some functional form to the dynamics of the world, usually (but not limited to) a stochastic differential equation, as these form the basis of a large part of physics, for instance statistical and classical physics, and we aim for a description of natural intelligence that is consistent with the rest of physics.

这种描述被称为主动推断，因为优化自由能或证据下界对应于变分贝叶斯推断，而主动推断通过将行为纳入相同的推断目标中来扩展了这一理论。关于状态（或路径）推断情况下（2）式的推导，请参见[7]（或[26]），更多详细信息请参见[27-30]。

关于变分推断的另一种视角是内部路径和活动路径上的分布。在足够高的粗粒化水平上，我们得出内部路径和活动路径遵循玻尔兹曼-吉布斯分布：

2.1 主动推断框架

该理论为建模和模拟事物（如认知和行为）的内部活动和动态提供了一个规范性框架，这一框架被称为主动推断[1-3, 35]。在主动推断中，内部活动和动态被视为最大化生成性“世界”模型P的证据，该模型指定了外部、感官和主动过程之间的相互作用。这通过数值最小化变分自由能（2）和/或预期自由能（3）来实现。换句话说，内部活动和动态仅由生成模型决定，并且是生成模型的函数。因此，模拟一致智能行为的问题在于选择正确的生成模型类型。这是一个开放性问题，也是本文的重点。

我们概述了主动推断的两个将在后续讨论中相关的特征，并将这些特征与其他行为方法相结合进行阐述：

模型证据引导行为：在主动推断中，行为的目标是最大化世界生成模型的证据。这意味着智能体的世界生成模型描述了从智能体视角来看事物应该如何表现，而行为只是满足这些偏好。例如，如果我们考虑主动轨迹和内部轨迹的成本函数，即预期自由能，它可以分解为风险和模糊性，其中风险是预测与偏好之间的KL散度，即智能体试图最小化的预测误差：

偏好对数据的依赖性意味着这些偏好可以随时间被推断出来——即学习得到[34,36]。将成本函数分解为风险和模糊性对人工智能安全具有技术意义，我们将在第5节中详细探讨。在主动推断中，没有原生的奖励或效用函数，但如果我们将对数概率解释为奖励函数，那么预期自由能可以与强化学习联系起来[37, 38]。从这一角度来看，预期自由能是预期效用加上预期信息增益的保守界限[32]。

划定智能体大脑的边界。主动推断的另一个特征是，智能体的身体通常被建模为外部过程的一部分。也就是说，在模拟像我们这样的智能体时，内部和外部的边界通常划在智能体的大脑周围，而不是身体周围。例如，在主动推断中模拟手臂运动时，手臂的位置将是外部过程的一部分，感官过程将是大脑对手臂位置的感觉，而动作将是大脑影响这些位置的方式[8]。这与大多数强化学习方案形成对比[39]。

3 贝叶斯结构学习

结构学习（在此与因果表示学习同义）是指学习数据生成过程中因果机制的问题[21, 23]。这是因果性、认知科学和人工智能中的一个基本问题：事实上，认知发展可以被视为一个结构学习过程[40, 41]，而结构学习可能是实现类人人工智能的一种途径，即从儿童心智开始，逐渐发展至成人心智，如图灵所论证的那样[42]。

3.1 问题

数据生成过程是一个未知的（因果）贝叶斯网络η，具有未知的潜在变量和因果关系。这是根本性的原因：贝叶斯网络是解释随机变量及其因果关系的一种自然数学形式[43]：所有数据生成过程都可以表示为贝叶斯网络（或更一般地，概率图形模型），当它们被这样表示时，其因果机制就变得清晰了。

一个贝叶斯网络或图形模型η（以下简称模型）包含三个组成部分[43]：

1）因果网络m，由潜在表示（节点）及其因果关系（有向边）构成；

2）因果映射的参数θ（假设这些映射具有某种函数形式）；

3）潜在状态s（即这些表示的状态）。

问题是 我们下面要论证的问题是，找到一个生成模型，该模型能够最大化数据的边缘似然性，同时我们对潜在贝叶斯网络的状态、参数和结构进行边缘化处理。在本节中，我们考虑一个静态数据集d（即离线学习）；我们将在第4节中重新引入动态性。

3.1.1 优化边缘似然性...

我们希望获得一个生成模型P(d, η)，该模型能够最大化数据的模型证据P(d)（也称为边缘似然性）。这从形式上为数据提供了一个最小长度的描述[44, 45]。对数证据可以分解为准确性与复杂性的差值：

其中，准确性量化后验信念与数据的拟合程度，而复杂性量化后验从先验偏离的程度。最大化准确性意味着进行最大似然推断，而最小化复杂性则强制实施一种受限的最大熵（从技术上讲是最小相对熵）来正则化后验。复杂性也可以看作是推理计算成本的代理，并且根据兰道尔原理（Landauer’s principle），它也可以代表能量成本[46]。简而言之，针对某些数据优化边缘似然，可以得到既最准确又最简洁的模型，这体现了奥卡姆剃刀原理的一种形式。

3.1.2 ... 通过变分界

由于边缘似然的精确计算是棘手的，我们优化了一个变分界：即变分自由能F或证据下界。特别是，这涉及通过对潜在贝叶斯网络η进行近似贝叶斯推断，来优化网络结构m、参数θ和状态s上的近似后验分布Q(η)；见图2。从（5）式：

在（7）式的最后一行，我们利用了近似后验分布可以分解为Q(m, θ, s) = Q(s | m, θ)Q(θ | m)Q(m)这一事实，从而使得问题可以分解为关于状态、参数和结构的分层推断。

备注3.1（对结构不确定性的编码）。比较最大化证据（6）式的问题与寻找具有最高边缘似然的结构的问题，即arg maxm P(d | m)。后者可以看作是对结构进行最大后验推断（MAP），即在（7）式中Q(m)是一个点质量分布，且结构上的先验P(m)是均匀的。这也对应于在给定数据下最大化结构的似然（即最大似然）。然而，我们对结构的先验知识通常不是均匀的，因此先验P(m)是非均匀的。此外，在有限数据甚至无限数据的情况下，可能存在多个具有相同似然的结构（即不可识别性[22,47]），这意味着只考虑一个单一的结构容易导致过拟合。为了避免这种情况，采用编码（7）式中结构不确定性的更丰富的近似后验分布族是有帮助的。通过优化变分界（7）式来最大化贝叶斯网络的边缘似然是一个在大规模上难以解决的问题[48, 49]。其中一个主要的内在困难在于，可能的因果网络的数量随着潜在变量的数量呈超指数增长[50]，因此，可能解释任何给定数据集的模型空间先验上是巨大的。在接下来的内容中，我们将讨论如何针对先验和近似后验优化变分界，旨在产生更具可扩展性的方法。

3.2 先验：模型简化

先验P(η)应该代表关于外部世界的先验知识状态，并且当某些假设没有直接得到先验知识的支持时，不应先验地过度承诺这些假设。例如，当先验知识以对该分布的约束形式表达时，通常认为先验应该是与该先验知识一致的最大熵分布[51]。

贝叶斯模型简化[1, 52, 53]是在接收到一些数据后选择更好先验的极其有效的计算工具。其思想是在某个集合λ ∈ Λ中索引一系列先验分布Pλ(η) ≜ P(η | λ)。尽管似然是固定的，但模型证据（和后验）变得依赖于λ。

3.3 先验：信息几何

模型空间具有一定的结构——直观上，它有一种几何形状——在选择先验以及解决当前的变分推断问题时，应该考虑这种结构。

关于先验，如果两个模型表达完全相同的信息，则它们应该被赋予相同的先验概率；如果它们表达的信息量相似，则它们应该被赋予相似的先验概率——见图3的说明。从数学上看，模型空间上似乎应该存在一种信息几何（即距离的概念），用以表达两个模型在信息内容上的差异程度，并且先验应该在相关的拓扑结构中是连续的（即将相似的模型映射到相似的概率上）。

信息几何是由距离或散度诱导的[54, 55]；那么，在模型空间上自然的信息距离或散度是什么？在实践中，实现这一理想目标的方法可能有哪些？这些问题的难点在于，模型空间似乎是一个分层空间，即不同层的并集，其中每一层都是在相同底层空间上的概率分布空间；也就是说，它是所有具有相同状态和参数联合空间的模型的集合。

从数学上讲，每一层都定义了一个具有明确信息几何结构的统计流形，但这种几何结构似乎并不能扩展到测量不同层或属于不同层的元素之间的距离。这是因为，当应用于两个在状态和参数的联合空间上存在差异的贝叶斯网络时，通常的信息距离概念会得出无穷大的结果。总之，经典的信息几何理论并未解决这一问题。为模型空间赋予一个在实践中可实现的有意义的信息距离，对于结构学习将非常有帮助：它可以在先验上提供局部一致性约束，并提供自然梯度[56]，这些自然梯度在变分推断过程中提供了局部最优更新。

展望未来，我们应该退一步，考虑在具有信息几何结构的模型空间上进行贝叶斯推断的自然问题，以便识别出包含完全相同信息的模型，并推断出在信息不变性条件下的模型等价类。这将防止我们“过度计算”模型数量，这对于大规模结构学习可能是至关重要的。事实上，随着考虑的隐变量数量的增加，使两个模型等价的对称性数量会大幅增加。这些信息不变性通常并未被当前的方法所考虑，这意味着这些方法所面临的模型假设空间要比应有的空间大得多。通过除以这些（和其他）不变性，可以极大地降低问题的复杂性（并大大提高模型证据）。此外，直接在等价类上指定先验有一个优势：考虑到模型等价类的先验概率等于该类中所有元素的先验概率之和，当在单个模型而非等价类上指定先验概率时，我们可能会产生意外的过度计算效应；从而导致具有大量隐变量的模型具有更高的先验概率。从实践角度以这种方式考虑问题，对于可扩展的结构学习将大有裨益。

3.4后验:对结构的近似推理

(b) 贝叶斯优化观察到结构推断的自由能是一个评估成本高昂的函数，因此通过贝叶斯优化[70]对每个粒子进行全局更新。这依赖于对自由能景观的生成模型，有时也称为元建模。我们设想的最简单方案是在离散的结构空间上有一个（多元高斯）先验，用于编码每个结构的先验优良性，即每个给定结构的自由能最小值。然后，我们可以使用采集函数（如预期自由能）来选择要评估的新结构，并且一旦我们确定了某个结构，就可以通过跟随自由能梯度来推断其参数和状态。关键的是，随着我们评估多个结构，我们可以学习高斯分布的协方差，从而可以实证地学习结构之间的相似性。这将为我们提供关于结构之间信息几何的实证见解，并且所得的协方差可以作为后续更高效贝叶斯优化的实证先验。这种方法可以称为章鱼搜索，因为它通过探索和利用的混合（与非线性估计中的无味滤波相对应），用其n条臂（狄拉克粒子）来感知自由能景观。

2. 全分类近似后验：在这种情况下，我们正在参数化的分布是一个完整的分类分布，这样我们就可以考虑对潜在大量结构的信念，这些结构的数量可能和先验中考虑的结构数量一样大。为此，有两种主要的方法：

(a) 摊销推断：训练一个神经网络来根据数据预测变分参数 [71]。

(b) 生成流网络 (GFlowNets)：是一种用于离散组合空间（例如模型空间）的基于抽样的近似推断的通用工具 [72-74]。从技术上讲，这是一个状态-动作策略，其状态是结构。例如，动作可以是向模型中添加或删除节点。该策略隐式编码了近似后验：近似后验 \(Q(m)\) 是其最终状态的分布，因此我们可以通过运行策略从后验中采样。GFlowNets被训练（隐式地）以使变分后验最小化变分自由能 [75]。

这些方法具有各自的特点和权衡。例如，表达完整分类分布的方法具有更高的表达能力，并能为贝叶斯推断问题提供更准确的解决方案；但它们的训练速度可能较慢。结构推断方法的一个重要要求是，通过找到目标分布P(m | d)中的多个模式（参见备注3.1），来准确反映结构不确定性；而马尔可夫链蒙特卡洛（MCMC）方法在这方面明显受限，而生成流网络（GFlowNets）和贝叶斯优化可能更具优势。与其他方法相比，完全分类和受限连续优化方法处理的是一个纯粹的连续优化问题，这通过提供梯度来促进了变分推断，但也使得推断容易陷入局部最小值（其他方法也不免受此影响）。我们希望未来的工作能全面量化这些方法的特点和权衡。对于结构学习主体而言，一个重要的要求是能够实时进行快速推断。

这一分类引发了许多问题和猜想，我们希望这些问题能在未来的工作中得到解决：如果有的话，这些方案中哪一种在生物学上是合理的？哪一种最适合解释人类大脑中的结构学习？如何将这些方案与信息几何考虑相结合，以提高它们的速度（通过使用自然梯度）和可扩展性（通过考虑信息不变性）？从时间序列数据中在线推断的能力（真实主体的一个特征）是否是粒子近似后验的特征？关于前两个问题，我们注意到，大脑在任何给定时间只能在短期记忆中存储并关注少数几个对象[76, 77]。这是否是大脑只能考虑少数几个关于世界的竞争因果假设的假设的间接证据，从而隐式地用少数几个粒子编码了一个粒子近似后验？

4 结构学习主体

我们现在转向讨论学习世界因果结构的主体。主体的设置如图5（左图）所示：主体与外部过程进行动态交互，当前外部状态ηt产生观察结果ot，然后主体采取行动at，该行动影响外部过程等；感知-行动循环不断重复。与第3节相比，主体可以访问一个不断流入的（干预性）数据流t → d(t) ≜ d，该数据流由过去的感知和行动组成，即d ⊆ {o≤t, a≤t}，并且每个循环都会对其进行持续更新。

4.1 基于模型的规划与多尺度推断

继第2节之后，我们提议通过主动推断的视角来研究这个问题。实际上，这意味着致力于基于模型的规划和多尺度推断。

基于模型的规划：主体拥有一个关于潜在状态、参数和描述世界因果结构的生成模型（我们将在后面看到示例）。它使用这个模型进行规划，通过优化一个结合探索和开发驱动的目标函数，如预期自由能（4）。

多尺度推断：行为贝叶斯方法的定义特征是从数据d中推断外部过程η。这涉及对（过去、现在和未来的）结构、参数和世界状态的近似后验信念P(m, θ, s | d)的推断。这可以通过更新近似后验分布Q(m, θ, s)以匹配传入数据来变分地解决（7）。如我们在（7）中所见，这种推断可以通过推断状态Q(s | m, θ)（即感知），然后推断参数Q(θ | m)（即学习），最后推断因果结构Q(m)（即结构学习）来分层分解。此外，主体可能会进行贝叶斯模型简化以简化其对世界的模型。

这些推断过程可能在不同的时间尺度上运行：感知比学习快，学习比结构学习快，结构学习比模型简化快。这是因为准确学习所需的数据比感知所需的数据更多，而准确结构学习和随后的模型简化所需的数据甚至更多。有实证证据表明大脑符合这种时间尺度的分离：神经元群体的感知可能编码在它们的放电率中——这是快速过程——而学习则编码在神经连接强度（即赫布型可塑性）的调制中，这种调制波动得更慢[12, 13, 78]。因果结构是否编码在神经元群体之间的功能连接中，并且更新得更慢呢？模型简化可以合理解释为神经元群体内部或之间的连接修剪[79]，这在发育过程中和整个生命过程中（例如，在睡眠-觉醒周期中）都会发生。在物理学中，在不同尺度上运行的过程被称为多尺度过程[80]。

为了在实践中模拟这种多尺度推断过程，可以将Q(m)的优化中的学习率设置为远低于Q(θ | m)，而Q(θ | m)的学习率又远低于Q(s | m, θ)。为了方便起见，实践中通常的做法是在每次新观察后推断状态，在每小批观察后推断参数[1]，在每大批观察后推断结构——并在更大批的观察后简化模型。指定相应的批量大小相当于指定不同推断过程的相对时间尺度。在物理学中，这对应于多尺度过程的绝热近似[80]。图5（右图）总结了这一点。

4.2 相关工作

一个与之高度相关的工作领域是基于理论的强化学习[81–83]。在一篇奠基性论文[81]中，主体维持着关于概率程序的信念，这些程序隐式地编码了世界的因果结构、参数和状态。然后，主体通过优化预期效用加上信息增益来选择下一个动作（注意这与（4）的相似性）。作者在一系列简化的Atari游戏中部署了这一架构，并发现他们的主体不仅在这些游戏中实现了与人类相当的学习效率（在与人类参与者的数据对比后），而且主体的学习轨迹也相对类似于人类。这项工作证明了将关于世界结构的推断与基于模型的规划相结合——同时利用探索和开发——可以实现人类水平的样本效率和性能，以及相对类似人类的行为，从而验证了这一概念的可行性。

当前的主动推断方案涉及多尺度的感知、学习、结构学习和模型简化[1, 2, 79, 84]。结构学习的主动推断主体是一个活跃的研究领域，当前的方案确实持有关于不止一种替代结构的信念[19, 79, 85–87]。

4.3 精炼可能结构的搜索空间

构建能够可扩展地学习世界因果模型的主体是一个相对开放的挑战[21]。或许，主要困难在于可能解释越来越复杂世界的结构搜索空间的爆炸式增长[50]。为了说明这个问题，我们可以考虑上述基于理论的强化学习工作[81]。他们的主体所考虑的世界解释性假设的搜索空间是由生成数据的计算机程序的代码所能生成的所有程序（直到一定长度）的集合。即使对于他们的主体所面临的简化版Atari环境而言，这也是一个极其庞大的搜索空间，而这项工作的一个成就就是即使如此也使得结构推断变得可行；然而，这种方法在可扩展性方面显然存在局限性：1) 在更复杂的环境中，由生成环境的代码语法所能生成的程序空间可能过于庞大而无法搜索；2) 一般来说，建模者并不知道生成过程，也无法形成一个包含数据生成过程的候选解释空间。我们现在分别通过考虑核心知识先验和通用生成模型来探讨解决这些不足的方法。

4.3.1 核心知识先验

核心知识代表了关于外部世界的先验知识，这种知识在任何主体可能诞生的世界中都是有效的。尽可能多地将这种核心知识反映在潜在世界模型解释的先验概率中，以减少可能解释的搜索空间。对于在自然世界中运作的主体而言，核心知识可能包括对物理学的直观理解，例如“物体不能远距离相互作用，但主体可以”等陈述，以及其他许多内容[77, 88]。

进化已经将这种核心知识刻入了我们的基因中，使得人类和动物新生儿天生就拥有丰富的世界先验知识。例如，人类婴儿天生就至少拥有关于物体、地点、主体、数字、几何形状、社会团体和他人心理状态等七个丰富的核心知识体系[77, 88]。这些知识体系在不同年龄和文化的人类中共享，有时也在几种动物物种中共享[77]。我们可以将进化学习这种先验知识的过程视为一个进化时间尺度上的证据最大化过程[89]。

这种“常识”先验知识极大地提高了主体世界模型的证据。核心知识通过避免对自然界做出过于具体的假设而保证了模型的准确性，并通过限制世界解释的搜索空间而大大降低了模型的复杂性。这种知识极大地促进了结构学习：核心知识将世界有效地划分为具有独特属性的不同类别的事物（如物体或主体），而不是将其留作待学习的结构。通过这种方式，核心知识极大地加快了推断和学习的速度；例如，如果两件事物似乎在远距离相互作用，那么可以确信地推断出其中至少有一个是主体。

将人类和动物系统的核心知识逆向工程为模型或概率程序的先验是一项雄心勃勃且正在进行的研究工作[82,88]。基于理论的强化学习的后续工作将核心知识编码为可能解释给定（Atari）世界的程序类型的软约束，并发现拥有核心知识的主体遵循了比没有这种归纳偏见时更类似人类的学习轨迹[82]。在更复杂的世界中，我们假设核心知识先验对于任何有效的学习都是绝对必要的。

因此，核心知识构成了在任何自然世界中都有效的知识，这转化为对模型先验的重大约束。作为世界解释的模型先验受到与底层信息几何（即局部约束）和核心知识约束（即非局部约束）一致性的限制。

4.3.2 迈向通用、可解释、自主生成的模型

一个基本问题是，什么样的基本元素和组合规则可以构成一组“通用”集合，用以生成一系列模型作为对世界的潜在解释，这些解释既要[91]：

具有足够的表达能力，能够近似表达代理与环境之间的任何种类的自然、动态交互。
足够粗略，以便在这个空间上进行推理时计算上是可行的。
此外，这个空间中的每个模型都应该：
可解释，以便从模型所呈现的内容中轻松理解代理的理解和后续行为。
支持快速行动、感知和学习。

定义1（通用生成模型）。我们称满足要求1-4的模型空间为通用模型空间。因此，基于通用模型空间的生成模型适合于对任何种类的自然世界进行因果解释；我们将这称为通用生成模型。

要求1和2之间已经存在矛盾，平衡这些要求是一个重大困难。在询问通用模型空间可能是什么样的时，我们首先考虑了现有文献：概率程序空间可以很容易地变得极具表达力，但如何在保持足够粗略以使推理保持可行的同时做到这一点，目前尚不清楚。概率程序并不总是容易解释的，而且，除非做出特定假设，否则它们不支持有效的感知和学习，因为对状态和参数的贝叶斯推理可能需要采样。可能（在初步近似中）满足这些要求的一个概率程序示例是分层离散和连续状态部分可观察马尔可夫决策过程（POMDPs）[92, 93]。事实上，已经证明，随时间相互作用的连续随机变量动态模型能够执行图灵完备计算[94]。此外，令人惊讶的是，在主动推理中近二十年的几乎所有建模工作都使用了通过分层堆叠这两种类型的层来构建的模型[1, 2, 14, 15]。这可能是一种偏见，但它仍然表明，这个模型空间在能够再现各种行为模拟和实证数据方面非常具有表达力。

重要的是，这些网络支持快速行动、感知和学习，其中对状态和参数的推理是通过快速变分推理程序实现的[1, 2, 35, 95, 96]，这些程序在能够再现真实神经动力学的广泛特征方面具有一定程度的生物合理性，例如[10,12,13,97]。除了在这些层中使用神经网络来表达非线性[17]之外，每一层都提供了一个可解释的动力学模型。

4.3.3 随机过程的表达力

由此，我们可以设想一组满足要求3和4的基本结构模块，这些模块可以分层组装，以表达广泛的代理与环境之间的动态交互。在这里，我们通过描述两个可以组合起来表达离散和连续状态上一大类随机过程的构建块，来继续这一思路。

离散动力学：马尔可夫过程是一类相当普遍的随机过程[98]。所有离散状态上的马尔可夫过程都具有由线性代数给出的简单转移动力学。当这些转移也依赖于动作时，我们得到马尔可夫决策过程。当状态是部分可观察的，并且观察仅依赖于当前潜在状态时，我们得到部分可观察马尔可夫决策过程（POMDPs）。我们可以向这些POMDPs添加辅助潜在状态（即动量、加速度等的等效物），以解释系统中记忆的影响，从而产生半马尔可夫POMDPs。最后，我们可以分层堆叠这些层，以表达多尺度半马尔可夫过程。总之，扩展的离散POMDPs分层组合成一类非常通用的模型，用于离散状态上的代理与环境交互。图6以图形方式表示了离散POMDPs及其各种自由度。

连续动力学：对于表达连续动力学而言，情况要复杂一些。从离散状态空间重复构建似乎不太可能，因为连续空间马尔可夫过程由无限（而非有限）维空间中的线性算子给出[100]。一个可行的替代方案是限制自己使用一个更易于管理但仍然非常具有表达力的过程类别。我们可以考虑潜在动力学由随机微分方程（SDEs）给出的连续POMDPs，这是另一类非常具有表达力的随机过程。请注意，自然代理的行为特征在于打破细致平衡和有色噪声的非线性动力学[8, 101–103]，并且在主动推理下，这些动力学必须包含在模型中，因为代理的身体通常被建模为外部过程的一部分（参见第2.1节）[35]。幸运的是，有一类非常具有表达力的SDEs支持非线性、有色噪声和打破细致平衡，即多次可微分的随机微分方程（SDEs）[28]，对于这些潜在动力学，具有这些潜在动力学的POMDPs支持快速且生物上合理的行动、感知和学习更新规则[2,28,96,97]。这些连续POMDP单元通过改变如图6所示的时间、层次、因子和广义深度，产生了一个非常具有表达力的连续状态贝叶斯网络空间。

仍然存在一个重要挑战：在不牺牲可解释性的情况下对连续POMDPs中的非线性（例如SDEs的流）进行参数化，并从数据中学习这些参数化。一个有前途的方法是使用循环切换线性动力系统（rsLDS；见图7）来表达非线性SDEs[104]；即线性SDEs的切换混合，因为可以使用非常精细的分段线性近似来恢复任意非线性（如有必要）。使用切换线性SDEs的优点是它们具有可解释性，并且支持相对可扩展的精确贝叶斯推理[104]。然而，rsLDS架构仅限于近似用欧拉方案离散化的非线性扩散过程的动力学[104]，这些过程按定义不包含有色噪声。展望未来，似乎很适合将rsLDS架构扩展到表达有色噪声SDEs，也许是通过将其与广义坐标的机制相结合[28]。特别是，这将需要在rsLDS层中引入广义深度。这应该为表达满足基本要求3-4的连续状态动力学提供了一个具有表达力和可搜索性的模型类别。

分层混合动力学：在离散层级的层次结构之上叠加连续层级的层次结构，可以构建出混合生成模型，这些模型能够在多个抽象层次上表达丰富的非线性和动力学特性。尽管这里没有传统的神经网络，但这些层次结构形成了一个网络，其中层级是离散和连续的POMDP（部分可观察马尔可夫决策过程），计算则是高效近似贝叶斯推断。这些层级的层次结构可能是可解释的，因为它们代表了在不同时间尺度上运行的嵌套过程。这些层次结构符合大脑的观点，即大脑维持着离散状态、低维抽象动力学，这些动力学对更接近感官输入的高维连续表征产生条件作用[11, 106]。

4.4 结构学习代理的生成模型

现在我们已经了解了一系列可能适用于描述广泛世界动态结构的模型，接下来我们回到代理可能用来推断这种结构的生成模型上。

在最简单的情况下，环境的因果结构是随时间恒定的。在这种情况下，最简单的适当世界模型将因果网络描述为一个需要推断的静态超参数，因此代理仅通过行动影响外部过程的状态和参数。我们在图8中展示了这种生成模型。

更一般地，环境中的因果关系可能随时间演变，并且可能受代理控制，也可能不受控制。例如，在游戏包含难度逐渐增加的关卡时，每个关卡在复杂性上都有所不同，或者在学习进度逐渐推进的课程学习环境中逐渐引入更复杂的概念时，就会出现这种情况[107, 108]。环境的因果网络可能是可控的，例如，当采取特定行动会移除（例如杀死）另一个对象或游戏中的代理时。

为了表示这两种情况，代理需要更复杂的生成模型：在因果网络上应用隐马尔可夫模型和POMDP，这引导代理优化对世界（过去、现在和未来）因果网络的信念，这些信念可能以或不以一系列行动为条件（即在规划（4）期间）。请参阅图9中的插图。

4.5 展望未来

迈向通用、可解释、代理化的模型类别：我们已经描述了一类模型，它们能够近似离散和连续状态上的非常大的一类随机过程，并且可以作为代理与环境交互的通用模型类别。这类模型具有很强的表达能力，同时足够稀疏，因此可以合理地进行搜索[86]。（这是因为因果网络在很大程度上是由潜在表示决定的，从而避免了为给定潜在表示数组考虑所有可能因果映射的组合爆炸问题）。这类模型中的每一个都支持高效的行为和感知，并且可能是可解释的。

模型的先验：这类模型是无穷的，因此可以选择非参数先验[109]，或者在一个大的有限子类别上的先验。这引发了一个问题：什么样的先验支持最高效的推断，同时又是最具生物合理性和最适合解释大脑功能的？无论如何，模型的先验应该由信息几何一致性约束（即局部约束）和核心知识考虑[82]（即非局部约束）来指导。

模型的近似推断：我们在第3.4节中概述了模型近似推断的各种方法，并得出了一系列问题：这些方法中的哪一种最适合快速且在线运行，就像结构学习代理所要求的那样？这些方法（如果有的话）中哪一种具有生物合理性，并且可能最适合模拟人类大脑中的结构学习？粒子近似后验是否更具生物合理性？

精炼模型类别：虽然我们讨论的模型类别是一个有希望的步骤，但它可能对于许多用途来说是不够的，未来的工作应该测试其局限性，并积极寻求使其更具表达力，同时保持其足够粗糙以进行高效的结构推断。一个有趣的额外约束是，给这些层次结构强加无标度特性，这可以通过诉诸重整化群和仿生考虑来得到支持[87]。由此产生的（减少的）结构类别仍然足够表达力，能够模拟从原始像素和声音文件生成的视频，以及从像素数据中进行规划[87]。核心知识应该进一步帮助精炼模型构建块。例如，注意到代理可以在远处交互，而物体不能，因此外部世界中的两个物体比两个代理会导致更多的因果独立性；以这种方式将物体和代理形式化，将使我们能够考虑带有独特因果独立性的有生命和无生命的潜在因素，这些因素无需每次重新学习。这对于所有其他核心知识体系也是如此[77, 88]。

利用深度神经网络进行摊销：尽管这里描述的层次模型中没有传统神经网络，但深度神经网络对于摊销关于状态、参数和结构的某些推断仍然很重要[17]。如果我们考虑快速思考和慢速思考——即卡尼曼（Kahneman）所说的I型和II型推理——分别由摊销推断和迭代推断来实现，那么这一点就特别合适[111]。

5 AI对齐

我们现在转换话题，讨论AI对齐作为结构学习主动推断代理的潜在应用。AI对齐指的是确保人工智能系统的行为与人类价值观和意图保持一致所面临的挑战。随着AI系统变得越来越强大和自主，这一问题引起了越来越多的关注，对人类可能产生深远的影响。与AI对齐紧密相关的一个主题是AI安全，它侧重于开发稳健、可靠和安全的AI系统。尼克·波斯特洛姆（Nick Bostrom）的《超级智能》（Superintelligence）[112]和斯图尔特·罗素（Stuart Russell）的《人类兼容》（Human Compatible）[113]等开创性著作对这些主题进行了广泛探讨，强调了高级AI系统可能带来的潜在风险和挑战。

接下来，我们将通过主动推断和结构学习的视角来探讨AI对齐问题，以阿西莫夫（Asimov）的机器人学三定律[114]作为一个简单的示例来说明。我们的重点是提供关于AI对齐问题的新思考方式，而不是推荐一个具体的解决方案来实施。一个概念上的要点是，我们可以将对齐理解为采取符合他人偏好的行动，并且我们可以通过结构学习来学习这些偏好，这在心理学上对应于一种复杂的心智理论形式。

5.1 相关工作

本文所提出的方法与其他用于AI对齐的因果建模方法有着重要联系。与我们的工作类似，埃弗里特（Everitt）及其同事的工作也使用了代理-环境交互的因果模型，但其目的是识别代理的激励因素[115, 116]。这为分析和设计具有理想激励结构的AI系统提供了互补的视角，并与我们关于心智理论（包括其潜在的善意和敌对用途）的讨论高度契合。我们所开发的结构学习方法可能为动态构建这些因果网络提供了一种途径，并且通过对这些现象进行量化，超越了仅仅识别各种属性（如激励[115]、意图[117]和欺骗[118]）的存在与否。

避免行动产生非预期后果的挑战，例如[119]，也与风险规避代理的可取性相呼应。惩罚导致重大、不可逆转且可能有害变化的行动的概念，与主动推断中通过预期自由能最小化产生的风险规避行为相一致。

5.2 福祉、对齐和谨慎的AI

为了构建安全和对齐的AI系统，主动推断提供了三个概念性成果：

定义福祉和伤害：在主动推断中，代理的福祉由其世界生成模型的（对数）证据（实际上是对数证据的上界）来量化，而伤害则由其负值来量化。在时间t：

其中d ≜ d(t)是代理在时间t时所处理的数据；这些数据必然是代理过去和当前状态（边界状态和内部状态）的一个子集。请注意，当以这种方式表达时，福祉是以自然信息单位（nats）来量化的。这种福祉定义在主动推断文献中已相当成熟[120–123]。通过以这种方式量化伤害并遵循主动推断方程，还可以再现一些受伤害的生物群体所表现出的著名实证现象[124]。

对齐：从这种观点来看，与另一个体对齐只是指在其世界模型下具有较高的模型证据。这意味着符合另一个体的世界模型，在主动推断中，这描述了从另一个体的角度来看事物应该如何理想地表现（回顾第2.1节）。例如，一个能够准确按照期望和意图完成任务的AI助手在人类关于帮助行为的生成模型下将具有较高的模型证据。相反，一个以意外或有害方式行动的AI系统在这种模型下将非常令人惊讶，因此是不对齐的。这种关于对齐的观点强调了学习和尊重嵌入在他人世界模型中的偏好和期望的重要性，这是开发安全和有益的AI系统所面临的关键挑战。

谨慎行动：主动推断中用于动作选择的预期自由能目标（4）促进了谨慎行为。预期自由能的风险部分作为一个模式寻求目标（作为反向KL散度[125]），使代理避免在其偏好分布下的低概率区域。此外，代理通过探索以获得揭示外部过程的观察来最小化模糊性，从而提高风险量化的准确性（即评估）。在新环境中，模糊性减少最初占据主导地位，驱动探索性行为，直到代理拥有足够的信息来有效地最小化风险[10]。例如，一个AI助手可能会首先就用户的要求提出澄清问题，以确保它正确理解任务并避免潜在的误解。这种探索和利用之间的平衡允许进行自适应的、上下文感知的决策制定，这与代理所学习的偏好和对环境的理解相一致。

除了这里讨论的概念问题外，主动推断还为构建更安全、更稳健的AI系统提供了算法上的进步[15, 16]。

5.3 迈向具有同理心的AI

我们现在将具有同理心的代理定义为一种不仅能够对其外部世界中的物体进行建模，而且还能对其内部的其他代理以及它们的心理（即内部）状态进行建模的代理。这实际上认识到，外部世界包括其他代理的行动、观察和内部状态，这些都可以从数据以及共享环境中的其他所有外部状态中推断出来。从技术上讲，一个对另一个代理的心理状态有信念的代理就具备同理心。在认知心理学的语言中，具有同理心的AI具有心智理论。

在实践中实现这一点是一个难题，可能需要像图10（左面板）那样采用生成式世界模型。一个具有同理心的代理原则上可以从另一个代理的推断观察和行动中推断出它的世界模型（例如，假设它采取最小化预期自由能或其他任何目标的行动，并解决逆问题）。注意，假设另一个代理与自己拥有相同的生成模型（“你像我一样”）会极大地简化一个人对另一个人形成信念的过程，因为我的自我模型就变成了我的你模型[126, 127]。当另一个代理的生成模型在结构上与自己不同时，比如对于AI教师或AI学习者来说可能是必要的，学习其他代理世界模型的结构就变得对于换位思考至关重要。有经过充分研究的核心知识系统，涉及人类如何表示其他代理及其心理状态，这些可以被用来实际学习其他代理世界模型的结构[88]。这个推断和学习其他代理世界模型结构的过程正是（贝叶斯）结构学习的问题，并且需要将这些概念扩展到社会认知[128]和多代理交互[129]领域。这听起来可能很雄心勃勃；然而，这些基本程序现在在计算精神病学中已经得到常规使用，其中使用贝叶斯模型选择来确定最能解释患者选择行为的生成模型。这被称为计算表型分析。这里的建议是赋予人工代理这种表型分析能力。

我们注意到，具有同理心的主动推断代理对其他代理自然充满好奇且谨慎。具体来说，最小化预期自由能的行动必须解决关于其他代理的模糊性，同时在实现目标方面保持风险厌恶（即公式（4））。在这些要求下，一个首选的行动方案可能是寻求与其他代理进行沟通，并通过提问来解决关于它们的状态、世界模型、福祉和未来计划等的不确定性——见图10（右面板）。

对于对齐而言至关重要的一点是，一个能够形成关于他人世界模型信念的具有同理心的AI将能够推断出他人的福祉或伤害程度（10）。当然，对他人福祉的估计将取决于代理对他人的模型，而这个模型（例如其表示的粗粒度化）需要仔细优化。幸运的是，这种优化正是贝叶斯结构学习所依赖的模型证据（6）的优化，其意义在于找到与可用数据相关的最准确且最简洁的他人表示。

然而，必须认识到的一点是，同理心本身并不能保证仁慈或安全。出于工具性原因，竞争甚至对抗性的代理可能会从复杂的他人模型中获益。特别是，他们可能会利用这些模型来操纵或欺骗他人以实现自己的目标[130, 131]。关键在于，可能需要规定代理的行动要在符合他人偏好的意义上表现出仁慈。然而，请注意，仁慈的代理仍然可能会选择欺骗，因为在优化人类福祉的过程中，操纵人类可能会带来好处（例如，善意的谎言）。

5.4 机器人学三定律

机器人不得伤害人类个体，或因不采取行动使人类个体受到伤害。
机器人必须服从人类的命令，但前提是这些命令不与第一定律相冲突。
机器人在不违反第一及第二定律的情况下，必须保护自己。
——阿西莫夫（1950）《我，机器人》[114]

虽然这些定律本身并不是AI对齐的实际解决方案，但它们为我们提供了一个起点，用以说明如何在主动推断框架内将伦理约束形式化。

5.5 超越视角选择的对齐

虽然我们主要讨论了基于视角采择和心理理论的对齐，但重要的是要认识到，为了对齐而假设其他主体的显式模型并不是必要的。例如，我们肠道中的微生物群通常与我们自身是对齐的，其细菌成分之间在一定程度上也可能相互对齐，但似乎没有理由认为它们中的任何一个都拥有关于其他细菌或其宿主的高级心理理论。

实际上，从主动推断的角度来看，对齐的更根本问题是：什么样的主体交互能够最大化群体或生态系统中每个成员的福祉？这一体系被称为“自由能平衡”[129]，它将经典博弈论中的纳什均衡概念推广到有限理性主体上。这些平衡状态已经开始得到正式研究[132]，对这些平衡状态的理解为设计能使生态系统更接近自由能平衡的主体提供了可能。

数值研究表明，种群可能会自然地趋向于自由能平衡，其中所有主体共享相同的生成模型（和偏好），尽管这可能是在进化时间尺度上[126,127,133]。在这种情况下，每个主体的目标都是群体（共享）的目标，共情成为一种涌现属性（第5.3节）。显然，这些数值研究需要扩展到那些进行结构学习并学习自身偏好的主体上[34,36]。

综上所述，虽然具有共情能力的主体可能是实现对齐的一种方式，但其他途径也是可能的。自由能平衡为在那些可能无法或无需明确进行视角采择的系统中提供了对齐的框架。这在多主体系统或主体认知能力差异很大的场景中尤其有价值。未来的工作可以探索自由能平衡与人工智能对齐领域其他概念的关系，以及它们如何应用于实际设计对齐的人工智能系统。

6 讨论

在本文中，我们的目标是绘制一张研究问题地图，以扩展自然主义方法对对齐人工智能的应用，并提出前进的道路。我们旨在涵盖所有自然主义智能方法，并在此过程中，特别致力于一种被称为主动推断的第一性原理方法。这一框架为解决结构学习和对齐的各种问题提供了连贯的方法。在这里，我们退一步，讨论每个部分单独考虑时背后的承诺：

第一性原理方法：主动推断可以从两个相反的方向得出：一是自下而上、归纳和历史的方法，即不断精炼和概括大脑功能理论，以解释各种经验现象[5,6,134,135]。二是自上而下、演绎的方法，通过新兴的物理学领域——贝叶斯力学[7,27,136]，将物理世界中粒子、事物和主体的基本描述与推断描述联系起来。从理论角度来看，进一步发展贝叶斯力学和主动推断的基础还有很多机会。

贝叶斯结构学习主体：我们采用了从主动推断得出的关于结构学习的贝叶斯观点。即，外部世界（数据生成过程）是一个随机过程，可以总结为一组随机变量及其因果关系。由于这些随机变量和因果关系是未知的，因此必须从数据中推断出来。然而，近似贝叶斯推断不是终点，而是优化数据生成过程的生成模型证据（技术上对应于数据的最小长度描述，即压缩）的手段。在考虑新数据不断到来且主体对世界采取行动的代理设置时，我们假设规划是使用世界模型完成的，通过结合信息论目标下的探索和利用的混合策略[137]。

人工智能的安全性与一致性：最后，最后一节大量使用了主动推理框架，利用主动推理中智能体的世界模型为智能体提供偏好（即期望等于偏好）这一事实，因此，仅仅学习这个世界模型就能告诉我们如何与另一个智能体保持一致。这里另一个重要的特征是用于选择动作的预期自由能目标，它为智能体规定了谨慎的行为，从而支持安全性和一致性。

计算认知科学与人工智能的融合：总的来说，这一观点可以看作是基于三个支柱的，这三个支柱是同一底层现象的不同方面：最大化世界模型的证据、结合探索和利用的基于模型的规划，以及对外部环境的近似贝叶斯推理。这些是认知科学和人工智能中的共同理念，尤其与多位寻求通过范式转变开发下一代系统的AI专家的观点产生共鸣[21, 138]。

7 结论

我们提出了构建更具可扩展性且一致的人工智能智能体的原则，这些原则可以指导人工智能研究。这些原则利用了理解智能的多种方法的融合，综合了数学、物理学、统计学和认知科学中的思想。我们大量使用主动推理框架来构建前述叙述，这是一种描述自然智能的第一性原理方法。

实际上，这意味着致力于最大化生成式世界模型的证据、结合探索和利用的基于模型的规划，以及对外部世界及其因果结构的近似贝叶斯推理——这是计算认知科学和人工智能中的三个共同理念。

在这一观点的指导下，正在进行数值研究，以基于本文讨论的想法构建更具可扩展性、能力和一致性的系统。

贝叶斯模型简化：实践总结

给定一些数据d，首先选择一个基础先验Pλ(η)（通常是在先验族中熵最大的，下面会解释原因）。然后，计算一个相应的近似后验Qλ(η | d) ≈ Pλ(η | d)。从（8）式开始，

对于多个分布类别，(12)式中的期望具有闭式解，因此可以直接对其进行关于λ'的最大化[53]。当闭式解不可用时，可以从近似后验Qλ(η | d)中进行采样（使用GFlowNets[75, 139]或粒子近似后验[69]可以很容易地完成），以获得给定λ'下期望的蒙特卡洛估计量。在这两种情况下，目标都是最大化关于λ'的证据比，从而得到一个新的先验和改进的生成模型P(d | η)Pλ′(η)，该模型可用于处理下一批数据。

为什么这被称为模型简化？如果基础先验Pλ(η)不是最大熵的，那么近似后验也将不是最大熵的。但这样一来，(12)式中期望的蒙特卡洛估计量的方差会更高，这使得该方法在实际应用中不太可行。因此，基础先验通常被选择为最大熵的，以便应用此方法能够减少先验和模型的熵，这就是为什么它被称为模型简化的原因。

https://arxiv.org/pdf/2410.00258?

http://mp.weixin.qq.com/s?__biz=MzA5MDMwMTIyNQ==&mid=2649404052&idx=1&sn=bef5e3699af0fa3421286fcd5dd8de1f

CreateAMind

ALLinCreateAMind.AGI.top ，前沿AGI技术探索，论文跟进，复现验证，落地实验。鼓励新思想的探讨及验证等。探索比大模型更优的智能模型。