ON EFFICIENT COMPUTATION IN ACTIVE INFERENCE 2307.00504
关于主动推理中的有效推理
https://arxiv.org/pdf/2307.00504
https://github.com/aswinpaul/dpefe_2023
摘要
尽管主动推理被认为是神经生物学上合理的,但在复杂环境中模拟智能行为时,由于其计算成本高和为代理指定适当目标分布的困难,主动推理面临着挑战。本文引入了两种协同工作的解决方案来解决这些限制。首先,我们提出了一种新颖的有限时间范围规划算法,计算复杂度大大降低。其次,受控制理论文献中Z学习的启发,我们简化了为新的和现有的主动推理规划方案设置适当目标分布的过程。我们的第一个方法利用动态规划算法,该算法以其计算效率而闻名,通过Bellman最优性原则最小化规划中使用的成本函数。相应地,我们的算法递归地评估行动的预期自由能,以相反的时间顺序进行。这提高了计算效率,并允许即使在不确定条件下也能进行精确的模型学习和规划。我们的方法简化了规划过程,并展示了即使仅指定代理的最终目标状态时也有意义的行为。与定义一个时间信息丰富的目标分布相比,我们提出的解决方案使得从目标状态定义目标分布变得直接。这些方法的有效性通过标准网格世界任务中的模拟测试和展示。这些进展为各种应用创造了新的机会。
关键词:主动推理 · 动态规划 · 随机控制 · 强化学习
1. 引言
当一个生物体出生在一个新世界时,它应该如何感知、学习和行动以确保生存?“代理”最终是如何在自然界中学会表现出有感知的行为,例如狩猎和导航?
解决这些问题的一个著名框架是随机最优控制(SOC),它确定了在任何给定时间和面对不确定性时的最佳决策集——基于特定标准。SOC解决的基本问题可以定义如下:当在时间t = 1出生并向前看时,“代理”从其周围“环境”接收观察结果。这个“代理”不仅被动接收观察结果,而且还能够用“行动”回应。此外,它可能会接收信息或拥有内置的奖励系统,这些系统量化了其生存和进步的机会。因此,从代理的角度来看,这个过程可以总结为一系列数据流:(o1; a1), (o2, r2; a2), ..., (ot, rt)。这里,ot代表时间t的观察结果,at代表代理在时间t的行动,rt代表来自外部环境或代理内置奖励结构的时间t的“奖励”。在这种设置中,代理的主要目标是:
方程1是一个优化问题,由于其一般结构,它在科学各个学科中有着广泛的应用。在过去的几十年中,围绕这个想法发展出了许多研究领域,如强化学习(RL)[Sutton和Barto,2018]、控制理论[Todorov,2006, 2009]、博弈论[Fudenberg和Tirole,1991, Lu等人,2020]和经济学[Mookherjee,1984, Von Neumann和Morgenstern,1944]。但实际上,将决策制定作为效用最大化的起源要早得多,它起源于18世纪哲学中的功利主义伦理理论[Bentham,1781, Mill,1870],并在20世纪初被Pavlov应用于解释动物条件反射[Pavlov,1927]。许多当前的工程方法,如Q学习[Watkins和Dayan,1992],基于Bellman最优性原则来学习适当的观察-行动映射,以最大化累积奖励。RL中的基于模型的方法,如Dyna-Q Peng和Williams[1993],使用内部模型来加速这一规划过程[Sutton和Barto,2018]。同样,在经典控制理论中出现了线性扩展的高效方法,用于在类似设置中计算最优行动[Todorov,2006, 2009]。
另一个关键且互补的研究方向是研究显示“一般智能”的系统,这种智能在自然界中普遍存在。事实上,我们在自然界中看到了一种行为谱系,这些行为可能或不可能由优化累积奖励这一相当狭窄的目标来解释。通过更多地了解大脑如何产生有感知的行为,我们可以希望加速人工通用智能的产生[Goertzel,2014, Gershman,2023]。这种观点激励我们深入研究神经和认知科学,其中的一个综合理论是自由能原则(FEP),它将Helmholtz对感知的早期观察与统计物理学和机器学习的最新思想结合起来[Feynman,1998, Dayan等人,1995],试图用推断来数学描述大脑功能和行为,这种推断有潜力统一许多先前关于该主题的理论,包括但不限于累积奖励最大化[Friston,2010, Friston等人,2022, Da Costa等人,2023]。
在过去的十年中,FEP已经被应用于模拟和生成生物行为,这被称为主动推理[Da Costa等人,2020]。由于其作为行为的一般建模框架的雄心壮志,主动推理已经渗透到许多相邻领域[Pezzato等人,2023, Oliver等人,2022, Deane等人,2020, Rubin,2020, Fountas等人,2020, Matsumoto等人,2022]。特别是,最近的几项实验认为主动推理是最优控制和可解释、透明的人工智能的有前景的方法[Friston等人,2009], Friston[2012], Sajid等人[2021a], Mazzaglia等人[2022], Millidge等人[2020], Albarracin等人[2023]。在本文中,我们考虑将主动推理作为随机控制的方法,其当前的限制,以及如何通过动态规划和适当指定目标分布来克服这些限制。
在接下来的三个部分中,我们考虑主动推理框架,讨论现有的解释感知、规划和决策制定的观点,并识别它们的局限性。接下来,在第5节中,我们展示动态规划如何通过实现高效规划来解决这些限制,并且可以扩展现有方法。我们在第5.1节中为部分观察的马尔可夫决策过程(POMDP)制定这些想法的实际算法。然后我们在第6节讨论通过建立在Z学习基础上学习代理偏好的可能性[Todorov,2006]。我们在第8节通过说明性模拟展示这些创新。
2 主动推理作为生物学上合理的最优控制
主动推理框架是一种正式的建模方式,用于模拟与外部世界交互并随时间保持一致形态的自组织系统的行为[Friston等人,2021],[Kaplan和Friston,2018],[Kuchling等人,2020]。该框架假设代理拥有他们互动环境的生成模型,并基于这些模型(智能)行为[Tschantz等人,2020],[Parr和Friston,2018]。然而,该框架并不对这些模型施加特定的结构。在这里,我们关注以部分观察的马尔可夫决策过程(POMDPs)形式的生成模型,因为它们在最优控制文献中简单且无处不在[Lovejoy,1991],[Shani等人,2013],[Kaelbling等人,1998]。在下一节中,我们将讨论POMDPs的基本结构以及主动推理框架如何使用它们。
2.1 使用POMDPs的生成模型
假设代理对其周围环境有离散的表示,我们转向POMDP框架[Kaelbling等人,1998]。POMDPs提供了一个相当富有表现力的结构,用于模拟离散状态空间环境,其中参数可以表示为可处理的分类分布。基于POMDP的生成模型可以被正式定义为有限集合的元组(S, O, U, B, A):
因此,从代理的角度来看,当在时间中遇到一系列观察结果,如,作为执行一系列行动的结果时,生成模型通过一些假定的环境隐藏状态定量耦合并量化从行动到观察的因果关系。这些被称为“隐藏”状态,因为在POMDPs中,代理不能直接观察它们。基于这种表示,代理现在可以尝试优化其行动以持续接收偏好的观察结果。目前,生成模型没有“偏好”和“目标”的概念[Bruineberg等人,2018]。与尝试从环境中最大化累积奖励不同,主动推理代理最小化遇到观察结果的“惊喜”[Sajid等人,2021a,b]。我们将在下一节中仔细探讨这个想法。
2.2 惊喜和自由能
在主动推理中,特定观察结果的“惊喜”[Friston, 2019, Sajid等人,2021a]是通过以下关系定义的:
代理无法获得观察结果的真实概率:Ptrue(o)。然而,内部生成模型预期以一定的概率P(o)观察到某个结果,该概率在方程3中量化了惊喜[Friston, 2019, Sajid et al., 2021a]。直接最小化惊喜需要对生成模型进行边缘化,即P(o) = ∑s P(o, s),这通常由于状态空间的庞大而难以计算[Blei et al., 2017, Sajid et al., 2022a]。由于f(x) = log(x)是一个凸函数,我们可以通过定义惊喜的上界来使用詹森不等式3来解决这个问题:
新引入的项Q(s)通常被解释为对(隐藏)状态s的(近似后验)信念。这个上界(F)被称为变分自由能(VFE)(它也通常被称为证据下界——ELBO[Blei et al., 2017])。因此,通过优化信念Q(s)来最小化变分自由能(F),代理能够最小化惊喜S(o) = -log(P(o))或者至少保持它在低值范围内有界。
这种公式对随机控制有什么用?想象一下,代理拥有一个带有“目标导向”期望的有偏生成模型。那么目标就变成了最小化F,这可以通过感知的结合来实现,即优化信念Q(s),或者通过行动,即控制环境来采样导致F降低的观察结果[Tschantz et al., 2020]。因此,代理不是被动地推断观察结果的原因,而是开始“积极地”推断,使用U中可用的行动对环境施加控制。这种形式主义的中心优势在于,现在只有一个单一的成本函数(F)来优化所有方面的行为,如感知、学习、规划和决策(或行动选择)。在强化文献中有相关工作指出使用类似的信息论度量进行控制Rhinehart et al. [2021],Berseth et al. [2019]。下一节将详细讨论这一特性,并进一步发展主动推理框架。
3感知和学习
3.1感知
从代理的角度来看,感知意味着(贝叶斯最优地)维持关于导致观测结果o的隐藏状态s的信念。在主动推断中,代理优化信念Q(s)以最小化F。使用恒等式P(o, s) = P(s)P(o|s),VFE可以(从方程4)重写为:
在第一时间步,即 t = 0 时,我们使用关于隐藏状态 D 的已知先验来替代项 P(st+1)。
同样,在方程8中的第二项,即从我们在时间 t + 1 从环境中收集的观测中估计隐藏状态,可以评估为似然函数 A 和在时间 t + 1 收集的观测之间的点积。这里的信仰传播方案在文献中被证明具有一定的生物学合理性,因为它可以通过局部神经消息传递方案来实现 [de Vries 和 Friston, 2017]。接下来的部分讨论了模型参数的学习。
3.2 学习
我们的生成模型的参数学习规则是依据关于状态的优化信念 Q(s) 来定义的。
在我们的架构中,代理使用信仰传播 6 来最好地估计 Q(s),即对环境中(隐藏)状态的信念。鉴于这些信念、代理采样的观测和代理采取的行动,代理希望学习环境的潜在关联。主动推断的学习规则包括在较慢的时间尺度上推断 A、B 和 D 的参数。我们在下文中详细讨论这些学习规则。
3.2.1 转移动态
代理通过维持一个浓度参数 bu,使用在主动推断文献中已有充分记录的共轭更新规则来学习时间上的转移动态 B,例如:
3.2.2 似然
类似于方程11中的共轭更新,似然动态(A)的狄利克雷参数(a)是在试验中随时间学习的,使用的更新规则是:
在这里,ot 是在时间 t 从环境中收集的观测,而 Q(st) ≈ P(st|o1:t) 是关于隐藏状态(s)的近似后验信念 [Friston 等人,2017,Da Costa 等人,2020]。
与感知和学习类似,决策和规划也可以围绕成本函数 F 和信念 Q 来制定。在下一节中,我们将详细回顾现有的规划和决策理念 [Friston 等人,2021,Sajid 等人,2022b]。然后我们将识别它们的局限性,并接下来提出一个改进的架构。
4 规划和决策制定
4.1 主动推断的经典表述
传统上,通过主动推断的代理进行规划和决策制定围绕的目标是最小化预期未来观测的变分自由能。为了实现这一点,我们定义了一个包含随时间序列行动的政策空间。在经典主动推断中的政策空间 [Sajid 等人,2021a] 被定义为一系列政策的集合:
这些政策本身就是随时间索引的行动序列;也就是说,,其中 ut 是可用行动集 U 中的一个行动,而 T 是代理的规划范围。N 是由在规划范围 T 内可用行动 u 的排列所定义的唯一政策的总数。
为了实现目标导向的行为,我们需要一种方法来量化代理对样本观测 o 的偏好。通常,对观测的先验偏好被定义为对观测的分类分布,
因此,如果 C 中对应某个观测的值最高,那么这个观测就是代理最偏好的观测。
鉴于这两个额外的参数(Π和C),我们可以定义一个新的量,称为政策 π 的预期自由能(EFE),类似于 [Sajid 等人,2021a, Schwartenbeck 等人,2019, Parr 和 Friston,2019] 中的定义,如下所示:
在上述方程(16)中,πt 是 π 中的第 t 个元素,即对应于时间 t 的政策 π 的行动。术语表示由政策 π 在时间 t 引起的最可能的观测。DKL 代表 KL 散度,当其最小化时,会迫使分布 更接近 C。这个术语也被称为“风险”项,代表代理的目标导向行为。两个分布 P 和 Q 之间的 KL 散度定义为:
第二项也被称为“预期模糊性”项。当关于信念 的的预期熵较小时,代理对其生成模型中的状态-观测映射(即 A)更有信心。因此,通过选择政策 π 来做出决策以最小化 G,代理在最小化“风险”的同时,也减少了对状态-观测映射的“模糊性”。因此,在主动推断中,决策自然平衡了探索-利用困境 [Triche 等人,2022]。我们还注意到,代理并不是在优化 G,而只是在政策空间 Π 中评估和比较不同政策 π 的各种 G。一旦确定了最佳政策 π,最简单的决策规则就是选择时间 t 的行动 ut = πt,其中 πt 是 π 的第 t 个元素。
可能已经很明显,上述表述有一个根本问题:在实践中常见的随机控制问题中,可能的行动空间 U 的大小和规划的时间范围 T 使得政策空间过大,难以计算处理。例如,如果 U 中有八种可用行动,规划的时间范围 T = 15,那么需要考虑的(可定义的)政策总数是 (3.5 * 10^13) 即 35 万亿。即使对于这个相对较小规模的例子,这个政策空间在计算上也是不可行的(除非考虑额外的决策树搜索方法 [Fountas 等人,2020, Champion 等人,2021a,b] 或政策摊销 Fountas 等人 [2020], Çatal 等人 [2020]),或者通过使用奥卡姆原理排除不可行的政策轨迹。我们现在转向一个改进的方案,重新定义政策空间和规划。
4.2 高级推断
从将政策定义为随时间的行动序列的经典定义中毕业,高级推断 [Friston 等人,2021] 试图评估在给定时间 t 的观测-行动对的预期自由能 (EFE),即。鉴于这个联合分布,代理可以在观察到时间 t 的 ot 时,使用条件分布 来抽样行动,
在方程(25)中,第一和第二项可以像我们之前对方程(23)的解释一样理解。然而,方程(25)中的第三项引出了一个递归树搜索算法,累积未来(我们向前评估时间的深度)的自由能。这种评估在图1(A)中有图示性表示。
尽管贝曼最优(Bellman optimal)[Da Costa et al., 2021],高级推断规划算法的一个不可避免的局限性是,即使是相对较小的规划范围,它也面临着更严重的维度灾难。例如,要在十五个时间步长内评估一个行动的好坏,并有八种可用行动和一百个隐藏状态,需要进行巨额的次计算,相比之下,经典主动推断需要次计算。[Friston et al., 2021] 中提出的一个简单解决方案是通过为预测概率设置阈值来消除树搜索分支,例如方程(25)中的 Q(ut+1|ot+1)。所以,例如,在规划过程中,当 Q(ut+1|ot+1) < 1/16 时,算法终止对未来分支的搜索。这种限制显著减少了计算时间,并在 [Friston et al., 2021] 中展示了一系列有意义的模拟结果。
另一个局限性是,在所有主动或高级推断代理中,为了促进理想行为,需要由建模者定义或由代理学习先验偏好,告知代理一些状态比其他状态更受偏好,如图2(B)所示的网格问题在图2(A)中所示。一个知情的先验偏好使代理能够通过仅规划四步或更多时间步来解决这个导航任务。如果不是最终目标状态,它可以采取行动并朝着“更受偏好的状态”移动。然而,没有这些信息,代理就是“盲目的”(参见图2(C)),只有在规划给定网格的整个八步轨迹时才能找到最优移动。
我们在 [Paul et al., 2021] 中比较不同的主动推断方案与各种知名的强化学习算法时,首次注意到了这个局限性,在完全可观察的设置中(即,MDPs)。在下一节中,我们将展示如何使用动态规划来扩展高级推断方案,以适应基于 POMDP 的生成模型的一般情况。
5 动态规划评估预期自由能
贝尔曼最优性原理指出,对于给定问题的最优策略的子策略本身必须是相应子问题的最优策略 [Sutton 和 Barto, 2018]。动态规划是一种自然遵循贝尔曼最优性原理的优化技术;动态规划不是尝试将问题作为一个整体来解决,而是尝试解决问题的子部分,并将子解决方案整合成原始问题的解决方案。这种方法使得动态规划的扩展性很好,因为我们一次解决一个子问题,然后再进行整合。我们将大问题分解成相应的子问题越多,解决方案在计算上就越可行。
受这一原理的启发,让我们考虑一个代理需要在我们的环境中解决的空间导航问题。这个导航问题的最优解决方案是一系列单独的步骤。我们对“目标状态”的先验偏好是规划时间范围的结束。因此,代理可以从最后一个时间步骤(一个步骤的子问题)开始规划,并向后解决这个问题。这种方法也被称为通过后向归纳进行规划 Zhou et al. [2019]。
因此,对于规划范围 T(即,代理旨在在时间 T 达到目标状态),在 POMDP 设置中,第 T-1 时间步的(最后一个)行动的预期自由能(EFE)被写为:
术语 G(uT −1|oT −1) 是与任何行动 uT −1 相关的预期自由能,假设我们处于(隐藏)状态 sT −1。这个估计量衡量了我们相信在时间 T 的观测将与我们的先验偏好 C 有多吻合。
请注意,为了简化,我们在上面的方程中忽略了“预期模糊性”项,即状态-观测映射(或似然)的不确定性,参见方程 25。这不会影响我们随后的推导;我们总是可以将其作为一个额外的项添加进去。下面的推导提供了动态规划的技术细节,同时只关注 G 中的“风险”项。
为了估计 Q(oT |uT −1, sT −1),我们利用了关于在时间 T 可能发生的状态 Q(sT) 的预测:
然后我们将分布 映射到观测空间,并使用似然映射 A 来评估。在方程 33 中,我们假设时间上的行动是相互独立的,即 ut 与 ut+1 无关。尽管行动被假设为在时间上明确独立,但是关于行动的信息(以及因此的可取性)也是从预期自由能的递归评估中向后传递的。
在向后评估预期自由能 G 的过程中,我们使用了方程 31 中的行动分布。这个行动分布可以直接用于行动选择。给定在时间 t 的观测 o,可以从中采样 ut:
在下一节中,我们将上述公式总结为一种新的主动推断算法,适用于在顺序 POMDP 设置中建模智能行为。
5.1 DPEFE 的算法表述
在这里,我们形式化了一个通用算法,该算法可以用于顺序 POMDP 问题。主算法(见 Alg.1)按时间顺序工作,并结合了代理行为的三个不同方面,即感知(推断)、规划和学习。
对于规划,即评估随时间变化的行动(给定状态)的预期自由能(G),我们采用规划算法(见 Alg.2)作为 Alg.1 的子程序。在最一般的情况下,算法使用似然函数(A)和转移动态(B)的“平坦”先验进行初始化。该算法还允许我们为代理配备关于 A 和 B 的更知情的先验。在 DPEFE 算法中学习 C 是将 C 设置为一个与遇到的最终目标状态相对应的独热向量。这种技术加速了试验中参数的学习过程,并提高了代理性能。我们也可以随时向代理提供环境的“真实”动态。有了“真实”动态,代理可以准确地推断隐藏状态并进行规划。下一节讨论了在高级推断中改善维度灾难的不同方法。之后,我们讨论了一种受控制理论文献中的一项开创性工作启发的先验偏好分布 C 的潜在学习规则。
6 学习先验偏好
在上一节中,我们介绍了一个实用的算法解决方案,可以加快高级推断中的规划速度。第二个创新是使偏好 C 的学习成为可能,这样较小的规划范围就足以让我们的代理采取最优行动,如 Fig.2 中所讨论的。控制理论文献中的一篇开创性工作提出了使用一个“可取性”函数,评分每个状态的可取性,以计算特定类别 MDPs 的最优行动,并且重要的是,展示了计算这些行动的规划复杂度是线性的 [Todorov, 2006]。当环境的底层 MDP 模型不可用,代理需要仅基于状态和奖励的样本流(即,st, rt, st+1)来采取行动时,提出了一种称为 Z-学习在线算法来解决这个问题。给定一个最优的可取性函数 z(s),最优控制或政策可以进行分析计算。z(s) 的计算不依赖于对底层 MDP 的了解,而是依赖于以下在线学习规则:
其中,η 是一个学习率,它会被持续优化——见下文。这两个术语形成了一个加权平均,更新对的估计,其中 ηt 控制旧估计和新信息之间的平衡。
受这些发展的启发,我们为更新 C 编写了一个学习规则,这可能对高级推断代理有用。给定样本,代理可以使用类似于方程 35 的规则在线学习参数 c,
在上述方程中,表示在时间 t 的观测 o 的可取性。的值根据收到的奖励和下一个时间步骤收到的观测的可取性进行更新。
学习率 η 是 Z-学习中的时间依赖参数,如下方程所示。e 是一个我们优化的超参数,它影响 η 随时间更新的快慢 Todorov [2009]:
如果 ηt 很高,算法会更加重视新信息。如果 ηt 很低,算法会更加重视当前估计。使用方程(36)中的更新规则,并且学习率按照(37)中的方式演变,c 的值会随时间演变,并且可以用来在线更新 C,确保 C 是一个使用 softmax 函数对观测的分类分布:我们使用图 3 所示的标准网格世界环境来评估各种代理的性能(更多细节在下一节中介绍)。图 6 是一个可视化,代表了对高级推断代理有用的学习先验偏好(针对图 3(A) 所示的网格)。有了这样知情的先验偏好,代理只需要提前一个时间步骤规划就能成功导航网格。需要注意的是,在 DPEFE 设置中,我们在试验前固定先验偏好 C,或者在遇到目标时将其作为独热向量学习。我们在论文中呈现的模拟中,DPEFE 代理并没有学习知情的先验偏好。本节讨论的学习先验偏好的方法适用于任何代理,但在我们的论文中,DPEFE 并没有使用这个特性来展示其深入规划的能力。当我们用 C 的学习规则辅助主动推断算法时,规划范围 T = 1 就足以采取可取的行动(即不需要像 SI 或 CAIF 中的政策空间 (Π) 那样进行深度树搜索)。只考虑下一个时间步骤(即只考虑立即可用行动的后果),所有主动推断代理(CAIF、SI 和 DPEFE)在算法上是等价的。在论文的其余部分,我们将这个辅助 C 学习规则的规划范围 T = 1 的代理称为主动推断 AIF (T = 1) 代理。在我们的模拟中,我们比较了这两种方法的性能(即,用稀疏 C 进行深度规划和用学习 C 进行短期规划)。可以在此处链接找到可视化网格在图 2 中 50 个回合中学习先验偏好分布的动画。在接下来的部分,我们讨论并比较现有方案和新引入方案之间的规划计算复杂性。
7 计算复杂性
在本节中,我们比较了用于规划和决策的预期自由能项的计算复杂性,与另外两种主动推断方法:经典主动推断 Da Costa 等人 [2020]、Sajid 等人 [2021a],以及高级推断 Friston 等人 [2021]。
在经典主动推断(Da Costa 等人 [2020],Sajid 等人 [2021a])中,对于 MDP(即,完全可观察的情况)的预期自由能由以下公式给出:
在这里,P(st) 代表代理的先验偏好,在 MDP 设置中等同于 C。在本文中,C 是直接以隐藏状态来定义的。为了避免混淆,我们始终在本文中使用 C 这个符号来指代观测 o。
同样地,对于高级推断 [Friston 等人,2021],我们有:
在上述方程中,我们限制了第二项的递归评估,向前时间直到“规划范围(T)”,如 Friston 等人 [2021] 中提到的。T 对于“全深度规划”即规划到剧集结束通常是必需的,这是因为稀疏定义的先验偏好。这是必要的,因为代理在通过树搜索到达剧集的最后一步之前,无法区分行动的可取性。
在经典主动推断中,为了评估方程 39,计算复杂度与以下成正比:O[card(S) × card(U)T]。对于高级推断,为了评估方程 40,复杂度按比例扩展到:O[(card(S) × card(U))T]。所涉及数量的维度在表 1 中指定。回想一下,为了简化,方程 39 和方程 40 都忽略了“模糊性”项。
8 模拟结果
8.1 设置
我们在图 3 中的标准网格世界环境中进行模拟,以评估我们提出的算法的性能。在每个剧集开始时,代理在随机的起始状态出生,并且可以在每个时间步骤中采取四种可用行动之一(北、南、东、西),以向目标状态前进,直到剧集因超时(图 3 中的网格分别为 10000、20000 和 40000 步)或达到目标状态而结束。为了完整性,我们在网格世界中比较以下算法的性能:
• Q-learning:一个基准的无模型强化学习算法 Watkins 和 Dayan [1992]
• Dyna-Q:一个改进 Q-learning 的基准模型基础强化学习算法 Peng 和 Williams [1993]
• 严格定义(稀疏)C 的 DPEFE 算法(见第 5.1 节)
• 辅助 C 的学习规则和规划范围 T = 1 的主动推断算法(见第 6 节),即没有像 SI 那样的深度树搜索,或者像 CAIF 那样在政策空间 (Π) 中。只考虑下一个时间步骤,(即只考虑立即可用行动的后果),所有主动推断代理(CAIF、SI 和 DPEFE)在算法上是等价的。在本文的其余部分,我们称这个辅助 C 的学习规则和规划范围 T = 1 的代理为主动推断 AIF (T = 1) 代理。
我们在图 3 所示的确定性和随机性网格变体中进行模拟。确定性变体是一个完全可观察的网格,没有噪声。因此,代理完全观察到当前状态——即,一个 MDP 设置。此外,行动的结果是非概率性的,没有噪声——即,一个确定性 MDP 设置。在随机变体中,我们通过在转换中添加 25% 的噪声和在观察到的状态中添加 25% 的噪声,使环境更具挑战性。在这种情况下,代理在每个时间步骤都面临关于潜在状态(即,部分可观察)和下一个可能状态(即,随机转换)的不确定性——即,一个随机 POMDP 设置。
8.2 结果总结
代理在导航问题中的表现总结在图 4 和图 5 中。表现以代理学习解决网格任务的速度来量化,即总得分。当代理达到目标状态时,会获得十分奖励,并且每采取一步都会获得少量负奖励。因此,总得分代表了代理在给定剧集中导航到目标状态的速度。在图 4(A、B)和图 5(A)中的网格在整个剧集中都有一个固定的目标状态。对于图 5(B)中的模拟,目标状态每 10 个剧集转移到另一个随机状态。这种设置有助于评估代理面对环境变化时的适应性。很明显,在最初的几个剧集中,代理需要更长的时间才能到达目标状态,但随着剧集的展开,代理学会了更快地导航。这里使用标准强化学习算法(即,Dyna-Q 和 Q-Learning)作为主动推断代理性能的基准,因为它们是解决这类任务的高效最新算法。
在我们的模拟中,DPEFE 算法的表现与规划深度为 T = 80 的 Dyna-Q 算法相当(见图 4(A、B)、图 5(A))。当我们每 10 个剧集随机化目标状态时,DPEFE 代理的表现甚至更好(图 5(B))。与像 Dyna-Q 这样的在线学习算法相比,主动推断代理可以利用可重新定义的显式先验偏好分布 C。对于 AIF(T = 1) 代理,我们观察到随着时间的推移表现有所提高,但不如 DPEFE 代理。这是因为 AIF(T = 1) 代理按设计在我们的试验中只计划一步。我们还可以观察到,Q-Learning 代理的表现比随机代理差,并且在面对目标状态的不确定性时,恢复速度比 AIF(T = 1) 代理慢。优化 AIF(T = 1) 代理中先验偏好 C 的学习是一个有希望的方向,确保在不确定性面前的准确性。所有模拟都进行了 100 次试验,使用不同的随机种子以确保结果的可复制性。
除此之外,我们观察到在最初的几个剧集中,两种主动推断代理(甚至比“随机代理”还要长)达到目标状态的时间更长。这是主动推断代理的一个特征性特征,因为在最初的试验中,它们的探索行为占主导地位。只有在代理充分最小化模型参数的不确定性之后,目标导向行为才占主导地位 Tschantz 等人 [2020]。
8.3 为 AIF (T = 1) 代理优化学习率参数
对于高级推断在方程 37 中提出的学习规则,需要为每个环境手动优化 e 的值,这个值影响学习率 η。Todorov [2009] 启发了这个学习规则,其中 ηt 的值决定了给定试验中参数 c 的收敛速度。学习到的 c 的结构对主动推断代理至关重要,因为 C 决定了代理的规划意义。在图 B.1 中,我们绘制了 AIF(T = 1) 代理在图 3 中网格的性能作为 e 的函数。未来研究的一个有希望的方向是改进基于 η 的学习规则,并微调学习 C 的方法。图 B.1 中的观察结果是 AIF(T = 1) 代理的性能并不严重依赖于 e 的值。在本文的所有设置中,我们在 AIF(T = 1) 代理中使用了不同的 e > 10000 的值。
8.4 强调计算复杂性
为了理解为什么经典主动推断(CAIF)和 SI 方法不能使用传统规划方法解决这些网格环境问题,我们在表 2 中提供了一个示例设置。考虑图 3 中显示的小网格,其中 card(S) = 100,card(U) = 4,T = 30。表 2 总结了模拟各种主动推断代理在这种小网格世界问题上的计算复杂性。即使在 T = 2 的规划范围内,计算复杂性也超出了实际实施的范围。我们可以在图 7 中直观地观察到这一点。
然而,我们注意到,首先使用 Z-学习规则学习先验偏好(见第 6 节)的提出的解决方案,使得主动推断(AIF)代理能够学习并解决未知环境,同时避免了深度树搜索的计算复杂性。还应注意,两种主动推断算法(DPEFE 和 AIF (T=1))都没有配备关于(生成)模型参数(B、C 和 D)的有意义的先验。代理从“不知情”的模型先验开始,并通过整合行为的所有方面:感知、规划、决策和学习来发展。然而,与 Q-学习提供的无模型替代方案相比,它们从一开始就拥有世界模型这一事实意味着它们不那么不可知。下一节讨论了优化主动推断中决策的优点和局限性。
9 讨论
在这项工作中,我们探索了主动推断作为模拟智能行为的算法的有用性及其在基准控制问题——随机网格世界任务中的应用。我们识别了主动推断最常见的一些表述 Friston 等人 [2021] 的局限性,这些表述在高维设置中规划和决策任务的扩展性不佳。我们提出了两种计算解决方案来优化规划:利用动态规划和贝尔曼最优性原理提供的机制,以及利用 Z-学习算法学习知情偏好。
首先,我们提出的规划算法向后评估预期自由能,利用贝尔曼的最优性原理,只考虑近期未来,就像动态规划算法一样。我们提出了一个适用于一般顺序 POMDP 问题的算法,它将感知、行动选择和学习结合在变分自由能的单一成本函数下。此外,先验偏好,即关于控制任务的目标状态,被严格定义(即,不知情)并提供给代理,与早期表述中看到的知情先验偏好不同。其次,我们探索了为代理配备学习其先验偏好的实用性。我们观察到,学习先验偏好使代理能够在避免计算上(通常是禁止性的)昂贵的树搜索的同时解决任务。我们使用最先进的基于模型的强化学习算法,如 Dyna-Q,来基准测试主动推断代理的性能。最后,还有进一步优化计算时间的潜力,方法是利用规划和决策中涉及的近似参数。例如,规划和决策中使用的 softmax 函数决定了输出分布的精度。还有进一步优化本文提出的 SI 代理的潜力,通过学习先验偏好。基于 Z-学习方法,先验偏好参数的学习规则应在未来工作中针对主动推断应用进行优化和微调。由于 Z-学习方法针对特定类别的 MDP 问题进行了微调 Todorov [2006],我们将两种方法的详细比较留给未来的工作。我们得出结论,上述结果将主动推断作为模拟智能行为和解决随机控制问题的有前景的方法集推进了一步。
原文链接:https://arxiv.org/pdf/2307.00504