实现合成的主动推理代理:理论、算法、工业应用、开源

科技   2024-10-23 00:00   上海  

Realising Synthetic Active Inference Agents, Part II- Variational Message Updates2306.02733v3

实现合成的主动推理代理,第二部分:变化的信息更新

https://arxiv.org/pdf/2306.02733



摘要
自由能原理(FEP)描述了(生物)个体如何通过最小化其环境生成模型上的变分自由能(FE)来行动。主动推理(AIF)是自由能原理的一个推论,描述了个体如何通过最小化预期自由能目标来探索和利用环境。在两篇相关论文中,我们描述了一种通过自由形式的 Forney 风格因子图(FFG)上的消息传递来实现可扩展的认知主动推理的方法。一篇配套论文(第一部分)介绍了一种约束因子图(CFFG)符号,该符号可以直观地表示主动推理中的(广义)自由能目标。本文(第二部分)通过变分演算推导了在约束因子图上最小化(广义)自由能目标的消息传递算法。通过比较模拟的 Bethe 代理和广义自由能代理,我们展示了在 T 型迷宫导航任务中,合成主动推理的消息传递方法如何诱导认知行为。将 T 型迷宫模拟扩展到 1) 学习目标统计信息,以及 2) 多代理议价场景,这些例子说明了该方法如何在替代场景中鼓励节点重用和更新。有了合成主动推理代理的完整消息传递描述,我们就可以在不同的模型中推导和重用消息更新,从而更接近合成主动推理在工业中的应用。

关键词:主动推理,自由能原理,变分消息传递,变分优化


1 引言

自由能原理(FEP)提出,生物个体的行为可以建模为最小化变分自由能(VFE)(Friston等人,2006)。主动推理(AIF)是自由能原理的一个推论,它描述了个体如何通过最小化内部化了环境生成模型(GM)和期望结果先验信念的预期自由能(EFE)目标来提出有效行动(Friston等人,2009, 2015)。
早期的研究将AIF描述为基于耦合微分方程的连续时间过程(Friston等人,2010;Kiebel等人,2009)。后来的离散时间公式允许对未来(期望)结果进行明确建模,并在部分可观察马尔可夫决策过程的背景下将AIF描述为变分推断(Da Costa等人,2020;Friston等人,2013)。模拟的离散时间代理随后会表现出信息寻求行为,并自动在探索和利用模式之间进行权衡(Friston等人,2015)。然而,这些方法并不容易扩展到自由形式模型。
离散时间AIF的变分目标可以通过在生成模型的Forney风格因子图(FFG)表示上进行消息传递来最小化。多位作者尝试在此消息传递框架下扩展AIF(van de Laar和de Vries,2019;de Vries和Friston,2017)。然而,基于这些方法的代理缺乏关键的认识论特性(Schwobel等人,2018;van de Laar等人,2022)。
在两篇相关论文中,我们描述了一种通过拉格朗日优化实现可扩展合成AIF代理的消息传递方法。在第一部分中,我们指出了AIF问题规范语言中的空白(Koudahl等人,2023)。具体来说,我们认识到,当前的FFG符号中未包含优化约束(S¸enoz等人,2021),这可能导致问题描述的模糊性。第一部分引入了一种约束因子图(CFFG)符号,用于在FFG上指定约束,并说明了包括广义自由能(GFE)(Parr和Friston,2019)在内的自由能目标如何与特定约束和消息传递计划相关联
在本文(第二部分)中,我们使用第一部分中引入的CFFG符号来定义局部约束的变分目标,并使用变分演算推导出基于GFE控制的变分消息更新。所得的控制算法随后在合成AIF代理中诱导出认识论行为。我们纯粹从工程角度进行推理,并不关注生物合理性。
在本文中,我们的贡献有四个方面:
• 我们使用变分演算推导出合成AIF代理中基于GFE控制的通用消息更新表达式;
• 我们为实践中常用于AIF控制的离散变量模型推导了专用消息;
• 我们在响应式编程框架中实现了这些消息,并在T型迷宫导航任务上模拟了感知-行动循环;
• 我们通过将T型迷宫模拟扩展到1)学习目标统计信息和2)多代理设置,说明了消息传递方法在合成AIF中如何实现AIF代理的自由形式建模。

有了GFE优化的完整消息传递描述和响应式实现,就可以在不同的模型中推导和重用自定义消息更新,从而向实现可扩展的合成AIF代理在工业中的应用迈出了一步。
在第2节中,我们回顾了变分贝叶斯作为可以通过在约束因子图(CFFG)上进行消息传递解决的约束优化问题。在第3节中,我们回顾了AIF,并将感知、学习和控制表述为在CFFG上进行消息传递。在第4节中,我们重点关注两个相对节点子模型周围的约束定义,并推导了基于GFE控制的平稳解和消息。在第5节中,我们将这些一般结果应用于实践中常用于AIF的特定离散变量目标-观测子模型,然后朝着在模拟环境中实现所推导的消息迈进。T型迷宫任务在第6节中描述,并在第7节的响应式编程框架中进行了模拟。最后,我们在第8节中总结了相关工作,并在第9节中得出了结论。


2 变分信息传递回顾
在本节中,我们简要回顾了变分信息传递(VMP)作为最小化变分自由能(VFE)目标的一种分布式方法。我们首先回顾变分贝叶斯方法,然后回顾在受限 Forney 风格因子图(CFFG)上受限 VFE 目标的可视化表示。

2.1 变分贝叶斯
给定一个概率模型和一些观测数据,贝叶斯推断关注的是计算感兴趣变量的后验分布。由于贝叶斯推断通常难以处理,因此贝叶斯推断问题通常被转化为一个受限的变分优化问题。所谓的变分贝叶斯方法的优化目标是一个信息论量,即变分自由能(VFE)。

由某个通用变量s上的概率模型f和变分分布q组成。作为符号约定,我们用斜体粗体来表示变量的集合。符号约定的概览可见于表1。变分自由能(VFE)是在一组约束Q下进行优化,

变分自由能(VFE)为贝叶斯惊讶度(即模型证据Z的负对数)提供了一个方便的上界。通过最小化,VFE可以紧密地近似惊讶度,同时变分分布也紧密地近似于(难以处理的)精确后验分布p。然后,在最小值处,

库尔贝克-莱布勒散度。

2.2 Forney 风格因子图
Forney 风格因子图(FFG)G = (V, E)可用于图形化地表示一个因子化函数,其中节点为V,边为E。给定一个因子化模型,

2.3 Bethe拉格朗日优化

我们现在可以使用模型的分解来诱导变分分布在Bethe分解上。

将Bethe因子化代入变分自由能(VFE)中,得到的Bethe自由能(BFE)可以分解为节点和边的局部贡献。在概率符号表示中,我们通常假设模型中的因子和变分分布中的因子由其参数变量索引(在上下文允许的情况下)。然后,BFE可以分解为节点和边的局部贡献,具体为

利用拉格朗日乘数,我们可以将约束Q上的优化问题转化为拉格朗日函数的自由形式优化问题,其中拉格朗日乘数用于强制执行局部(例如归一化和边缘化)约束。然后,完全局部化的优化目标变为:

信念传播算法(Pearl, 1982)已经通过因子图上的信息传递被表述为Bethe拉格朗日优化问题(Yedidia et al., 2001)。变分分布的额外因子化诱导出了结构化和均值场变分信息传递(VMP)算法(Dauwels, 2007)。关于约束操作和由此产生的信息传递算法的全面概述,可参见(S¸enoz et al., 2021)。

2.4 受限Forney风格因子图
单独的FFG并不能明确定义一个受限的VFE目标,而且一个与FFG(1)相对应的局部化拉格朗日的完整表达式可能会变得相当冗长。一种可视化表示可能有助于解释和消除变分目标和约束的歧义。我们的伴生论文(Koudahl et al., 2023)详细介绍了受限FFG(CFFG)符号。

简而言之,CFFG(图1,中间部分)通过珠子和桥梁对FFG(图1,左侧部分)进行注释,这些珠子和桥梁对(1)中的BFE拉格朗日施加额外的约束(例如,变分分布的(结构化)因子化和数据约束)。然后,CFFG符号强调了与“标准”BFE约束不同的约束。

节点上的注释与节点局部自由能有关,边上的注释与边局部熵(1)有关。节点上的珠子表示相应节点局部变分分布的因子化。通过节点连接的桥梁表示结构化的变分因子,其中连接的边变量形成一个联合分布。边上带有刻入δ符号的实心珠子表示数据约束。

例如,考虑图1(中间部分)的CFFG,它对应于(1)中的拉格朗日,其中注释施加了以下额外约束。

节点c上的珠子表示在连接的边上变量上的完全局部因子化,


对于CFFG示例,所得的信息传递方案如图1(右侧)所示。白色圆圈表示通过和积更新(Loeliger, 2004)计算的消息,黑色圆圈表示变分消息更新(Dauwels, 2007)。


3 变分信息传递的主动推断回顾
在本节中,我们致力于构建合成主动推断(AIF)的信息传递公式。我们首先回顾主动推断和用于控制目标的广义自由能(GFE)目标的CFFG表示。关于AIF的变分目标和认知论考虑的更多细节,可参见(Koudahl et al., 2023)。

3.1 主动推断
主动推断定义了一个由马尔可夫毯分隔的代理和环境(Kirchhoff et al., 2018)。通常,在每个时间步,代理向环境发送一个动作。相应地,环境以一个由代理观察到的结果作为回应。代理的目标是操纵环境以产生期望的结果。


生成模型(GM)定义了一个联合概率分布,该分布代表了代理关于如何在环境中进行干预以导致可观察结果的信念。为了提出有效的干预措施,代理必须执行感知、学习和控制等任务。主动推断(AIF)通过在生成模型上进行(近似)贝叶斯推断,分别推断状态、参数和控制,从而执行这些任务。

3.2 生成模型定义
我们假设代理在一个动态环境中运作,并定义了一系列状态变量z = (z0, z1, ..., zT),这些变量模拟了环境随时间变化的潜在状态。我们还假设代理可以影响环境,这通过控制u = (u1, ..., uT)来建模,这些控制间接影响观察结果x = (x1, ..., xT)。最后,我们定义了模型参数θ。我们假设参数随时间变化的尺度比状态慢,因此可以有效地认为它们是时间无关的。

然后,生成模型定义了一个分布p(x, z, θ, u),该分布代表了代理在某些参数下关于控制如何影响状态和观察结果的信念。一阶马尔可夫假设随后在状态之间施加了条件独立性(Koller和Friedman, 2009)。然后,生成模型被分解为状态空间模型(SSM),

3.3 信息传递
在本节中,我们将合成主动推断(AIF)表述为在过去和未来状态模型上的信息传递过程。对过去状态模型的推断与感知和学习相关,而对未来状态模型的推断与控制相关。

3.3.1 过去状态模型
设t为当前时间,我们用x = x<t、z = z<t(包括z0)和u = u<t来表示过去变量的序列。然后,我们可以根据(3)式构建过去状态模型,具体为

而不是用公式来表示变分自由能(VFE)的目标和约束,我们在图3(左)中绘制了过去状态的约束因子流图(CFFG)。所示的信息传递方案在CFFG上定义了一个前向和后向传递过程。前向传递,包括消息1到5,代表感知推断,其中通过滤波过程估计(分层)状态。前向和后向传递的结合代表学习推断,其中通过平滑过程将所有过去的信息整合起来,以推断参数的后验分布。这些后验分布然后可以作为未来状态模型中的(经验)先验分布使用。

3.3.2 未来状态模型

主动推断(AIF)在控制方面的应用是从一个与未来状态模型相关的自由能目标中推断出策略的后验信念。我们定义了未来(包括现在)变量的序列x = x≥t,未来(包括前一时刻)状态变量的序列z = z≥t-1(包括zt-1),以及未来控制变量的序列u = u≥t。由于未来的结果按定义是未观察到的,我们在未来的观察变量上加入了目标先验。根据(3)式的生成模型,我们构建了未来状态模型,具体为

其中T是前瞻时间范围。(经验)状态先验和参数先验分别来自感知和学习中的信息传递。请注意,由于观察模型和目标先验同时对x施加了约束,因此未来状态模型是未归一化的。

最小化广义自由能(GFE)可以最大化未来观察与状态之间的互信息(Parr和Friston,2019)。因此,代理倾向于选择能够解析预期观察信息的策略,从而导致认知行为。关于约束因子流图(CFFG)中认知属性的数学探讨,请参见(Koudahl等人,2023)。

在本文中,我们将p-替代(4)视为优化约束的一部分(右侧)。按照惯例,在被替代的因子Q处绘制方形珠。然后,我们在CFFG中用方形珠表示p-替代,如图3所示(Koudahl等人,2023)。


4 基于广义自由能的一般信息更新

在未来状态模型中,目标先验和观察模型同时对观察变量施加约束。在相应的CFFG中,这种配置由两个相对的节点建模。在本节中,我们推导了一对相对节点基于广义自由能的一般信息更新。我们将局部优化问题表示为拉格朗日函数。然后,我们使用变分法推导出局部平稳解,从中我们可以获得基于广义自由能的信息的一般更新表达式。

4.1 目标与观察模型

在这里,我们定义了一个广义的目标和观察模型,它们同时对观察变量x施加约束。观察模型p(x|z, θ)由状态z和参数θ组成。目标先验扩展为目标模型,其中包含状态w和参数ϕ,从而扩大了适用范围。

图4中的约束因子流图(CFFG)将观察模型和目标模型绘制为两个相对的节点。关键的是,从CFFG的角度来看,这些节点在更大模型中的作用并不重要,从而使其适用范围超出了观察和目标模型。此外,这两个相对的节点被一个复合结构所包含,该结构作为与图中其余部分通信的马尔可夫毯。

4.2局部拉格朗日函数

4.3 局部平稳解

我们现在准备推导节点局部拉格朗日函数(9)的平稳点。我们首先将节点局部拉格朗日函数视为变分因子qx的函数。

4.4消息更新

4.5 收敛性考虑

虽然(19)式的直接应用在某些情况下效果很好,但这种信息更新方法也可能产生算法,导致广义自由能(GFE)在实际迭代过程中发散。这种可能看似反直觉的效果对(19)式的实际实现有着重大影响。

这种发散问题与我们的定理实际证明的内容有关的一个微妙之处有关。虽然我们的定理证明了平稳信息与节点局部拉格朗日函数的固定点相对应,但定理并没有保证固定点方程的迭代实际上会收敛到这些固定点。为了改善收敛性,我们为下面的信息2推导了一个替代的信息更新规则。


5 应用于离散变量模型

在本节中,我们将第4.4节中的一般消息更新规则应用于在AIF实践中常用的特定离散变量模型。利用一般结果,我们推导出该特定模型上的消息。5.1 目标-观测子模型

5.2基于GFE的消息更新

不幸的是,消息3并不表示一个(缩放的)标准分布类型作为A的函数。因此我们直接传递对数消息作为函数,并使用重要性采样来评估q(A)的期望值(Akbayrak等人,2021年)。通过重要性采样来估计观测矩阵,从而使GFE优化成为一个随机过程。因此,GFE可能会在迭代过程中波动。为了选择策略,我们在短暂的预热期(本例中为十次迭代)之后,对迭代过程中的GFE取平均值。

对于数据约束的观察变量(图3,左侧)的信息更新,可以简化为标准的变分贝叶斯推理(VMP)更新,如(van de Laar,2019,附录A)所推导的。


6 实验设置

在本节中,我们描述了一个T型迷宫任务,这是研究认知行为的一个经典设置。该设置紧密遵循(Friston等人,2015)中的定义。

6.1 T型迷宫布局

T型迷宫由四个位置P = (O, C, L, R)组成,如图6所示。代理从位置O开始,目标是获取位于左臂L或右臂R的奖励。隐藏奖励的位置分别由R = (RL, RR)表示,对应位置L和R。访问提示位置C可以让代理得知奖励的位置。

代理被允许进行两次移动(T = 2),每次移动后,代理会观察到一个结果O = (CL, CR, RW, NR),该结果指示:

• CL:奖励位于左臂L;
• CR:奖励位于右臂R;
• RW:获得了奖励;
• NR:没有获得奖励。


这些结果与代理的位置和奖励位置之间存在随机关系,如表3所示,其中α表示访问正确手臂时获得奖励的概率。

为了确保代理最多只观察一次奖励,无论是否获得奖励,移动到任一奖励手臂后都必须返回起始位置。一个认知型代理会首先访问提示位置,然后移动到指示的奖励位置。

6.2 T型迷宫模型规范

在这里,我们为T型迷宫环境定义了一个生成模型(GM)。观察变量xk ∈ O×P表示时间k时代理位置的结果(共有十六种可能的组合)。然后,观察矩阵A将xk与状态zk ∈ P × R相关联。状态变量表示时间k时代理的位置,并结合了隐藏的奖励位置(共有八种可能的组合)。

控制变量uk ∈ P表示代理期望的下一个位置(有四种可能性)。然后,控制变量选择转移矩阵Buk。

与之前一样,生成模型使用独热编码向量表示分类变量。

我们将对T型迷宫进行S次连续试验的模拟。对于模拟s,其目标约束模型则变为

6.3 感知-行动循环

本文中T型迷宫设置的感知-行动循环扩展了(Parr和Friston,2019)的公式,其中过去的观察将观察模型的变分分布简化为狄拉克函数。在条件功能自由图(CFFG)公式中,感知-行动循环可以可视化为一个随时间修改约束Qt的过程(图7)。

在初始时间t=1时,没有可用的观察结果,我们在所有时间都用p-替代约束初始化感知-行动循环(Q1)。随着动作的执行和观察结果的获得(1<t<T),数据约束会替代观察变量上的p-替代。当达到时间范围并且所有观察结果都可用时(t=T),推理对应于学习参数的后验信念。然后,将后验qs(A)用作下一个模拟试验的先验ps+1(A)。因此,具有时间依赖约束的感知-行动循环在单个生成模型(GM)和计划下统一了感知、控制和学习的任务,也见(van de Laar和de Vries,2019;van de Laar等人,2022)。


7 模拟

在本节中,我们将考虑T型迷宫实验设置(图7中的条件功能自由图,CFFG)的模拟以及两个基于此的扩展。初始的T型迷宫模拟考虑了从重复试验中进行的感知和学习,我们比较了基于广义自由能(GFE)和基于贝叶斯自由能(BFE)的代理之间的行为。第一个扩展在目标统计上引入了一个超先验,并学习了关于目标的后验。第二个扩展考虑了一个谈判场景,其中主要代理(在T型迷宫中导航)可以从次要代理那里购买信息,以换取奖励概率的一部分。模拟实验1是使用反应式信息传递工具箱RxInfer(Bagaev和de Vries,2021)进行的。


7.1 感知与学习

在初始模拟中,我们设定奖励概率α=0.9,奖励效用c=2,并在图7的条件功能自由图(CFFG)上连续进行S=100次试验的感知-行动循环。按时间分组得到的试验中的最小策略广义自由能(GFE)如图8(左上角)所示。可以看出,随着代理不断改进其对环境的模型,广义自由能总体上呈下降趋势。有了更好的模型,就可以提出更好的行动方案,代理学会了首先寻找提示,然后访问指示的奖励手臂。

中间的图表显示了代理在试验中(在任何一次移动中)是否观察到了奖励(RW),我们将其称为获胜。如果代理在两次移动中都没有观察到奖励,我们则认为该试验失败。自由能图表在学习阶段(左上角,t=3)显示了几个尖峰。这些尖峰与意外的失败(图8,左上角中间)相吻合。也就是说,经过几次移动后,代理已经学会了利用线索位置C。然而,即使代理访问了指示的奖励手臂,仍然有可能以α-1的概率出现(意外的)未获得奖励(NR)的观察结果。

在所有试验完成后,我们可以检查代理学到了什么。在图8(左下角)中,我们绘制了按代理位置分组的强化统计量AS-A0。然后,每个子图都表示在指示的代理位置上,结果和奖励位置之间学到的相互作用。基于广义自由能(GFE)的代理已经确信地学到,位置C提供了关于奖励环境的消歧信息,而位置L和R则提供了与环境相关的奖励RW(有时为NR)。这一知识使代理能够自信地追求认知策略。

我们将基于广义自由能(GFE)的代理与内部化了一个没有替代约束的目标的代理进行了比较。具体来说,在图7的条件功能自由图(CFFG)中,表示替代约束的方框被替换为了圆圈。这一简单的调整将广义自由能(GFE)目标简化为(结构化的)贝叶斯自由能(BFE)目标,而贝叶斯自由能(BFE)已知缺乏认知特性(Schwobel等,2018;van de Laar等,2022)。我们执行了与之前相同的实验协议,并在图8(右上角)中绘制了最小自由能。

基于贝叶斯自由能(BFE)的参考代理无法识别认知行为模式。观察矩阵先验的具体选择阻止了任何外在信息(至少在最初时)影响策略选择。由于缺乏认知驱动力,基于贝叶斯自由能(BFE)的代理坚持那些确认其先验信念的策略,而没有探索在T型迷宫环境中利用可用信息的可能性(图8,右下角)。

我们通过模拟R=100次运行,每次运行S=30次试验,来评估基于广义自由能(GFE)的代理的可靠性。每次运行中获胜次数的直方图绘制在图9(左侧)中。该直方图表明了一个双峰分布,其中大部分集中在右侧,中间有一个小部分。作为参考,虚线曲线表示从一开始就知道(根据表3)的代理的理想表现。对于必须先学习A的代理,其表现与理想表现会有所偏差。中间的小部分则表明,广义自由能(GFE)优化并不是模拟完全成功的认知代理的万全之策。也就是说,对于某些初始化选择,基于广义自由能(GFE)的代理仍然可能会陷入局部最优。

每次试验的平均获胜次数绘制在图9(右侧)中,这表明基于广义自由能(GFE)的代理(平均而言)能够迅速学会利用T型迷宫环境。

7.2 学习目标

给定一个很小的值ϵ。强化统计量ck,s - ck,0以及试验过程中策略对应的广义自由能(GFEs)的结果绘制在图10中。图中仅绘制了通过学习得到强化的统计量。

7.3 信息的价格


8 相关工作

Forney风格的因子图(FFG)符号首次由Forney(2001)提出。Loeliger(2007)的工作在信号处理和估计的背景下,对FFG上的消息传递进行了全面介绍。

信念传播算法由Pearl(1982)开创,并由Kschischang等人(2001)和Yedidia等人(2001)从变分优化的角度进一步形式化。变分消息传递(VMP)由Winn和Bishop(2005)引入,并由Dauwels(2007)在FFG的背景下进行了公式化。关于约束自由能优化的较新观点可见于Zhang等人(2017)的工作。此外,Şenöz等人(2021)提供了关于因子图上常见约束及由此产生的消息传递更新的全面概述。

为了将主动推断(AIF)公式化为消息传递形式,Parr和Friston(2019)提出了一个广义自由能(GFE)目标,该目标将对未来结果的先验信念作为生成模型(GM)的一部分。本文在当前工作中,在一个可视化的CFFG框架中重新表述了这些想法,并阐明了反向消息在GFE优化中的作用(也见我们的配套论文Koudahl等人(2023))。受Winn和Bishop(2005)的启发,Champion等人(2021)的前期工作通过向变分消息更新中添加一个预期自由能(EFE)项,为AIF推导了变分消息传递更新。相比之下,本文采用了约束优化方法,增强了变分目标本身,并通过变分优化推导出了消息更新表达式。

AIF的消息传递公式允许对层次结构进行模块化扩展。de Vries和Friston(2017)探索了消息传递背景下的时间厚度,通过在一个层次GM的FFG表示上进行消息传递,制定了深度时间AIF。Friston等人(2017)进一步探讨了深度时间模型中的消息传递对神经连接的影响。van de Laar和de Vries(2019)描述了通过FFG上的消息传递进行AIF的操作框架和模拟环境。

关于认知论和探索-利用权衡,Friston等人(2015)的开创性工作正式地将EFE目标分解为行为的构成要素,并从最大化信息增益的角度论证了认知价值。Koudahl等人(2021)的详细观点考虑了线性高斯动态系统背景下的EFE最小化,并表明在这种背景下,AIF不会导致有目的的探索行为。

不幸的是,正如我们的配套论文所论述的,EFE优化的观点并不容易扩展到自由形式模型上的消息传递(Koudahl等人,2023)。为了解决这一局限性,Schwobel等人(2018)将AIF表述为BFE优化,但也指出BFE缺乏EFE中诱导探索的关键减少歧义成分。Millidge等人(2020)引入了一个替代目标,即预期未来的自由能。该目标包含了EFE中减少歧义的成分,并可以解释为从有偏GM到真实GM的发散。van de Laar等人(2022)提出了另一个AIF目标,该目标从约束BFE的角度考虑了认知行为。

Parr等人(2019)描述了AIF消息传递的生物学上合理的观点,该观点结合了信念传播和VMP的优势,来描述一种替代类型的边缘消息更新。


9 结论
本文采用以约束为中心的方法研究合成主动推理(AIF),并通过从单一广义自由能(GFE)目标派生的消息传递模拟感知-动作循环。具体而言,我们使用受约束的 Forney 风格因子图(CFFG)可视化表示来区分生成模型(GM)和变分自由能(VFE)上的约束。通过约束可视化,我们展示了如何将AIF的感知、控制和学习的自由能目标在具有时间相关约束的单一GM规范和计划下统一起来。

我们的贡献在于提出了合成AIF代理的模块化和可扩展性公式。我们使用变分微积分推导出基于GFE控制的通用消息更新规则。这为合成AIF提供了一种模块化方法,其中自定义消息更新可以在不同模型之间推导和重用(Cox等,2019)。例如,我们为两个相对节点的通用配置推导了基于GFE的消息,并将这些结果应用于推导AIF实践中常用的离散变量目标-观测子模型的特定消息。通用更新规则允许围绕其他子模型(包括连续变量模型和可能的机会约束模型(van de Laar等,2021))推导基于GFE的消息。此外,通用消息更新结果允许参数化目标先验,这可以通过二级动态模型进行建模(Sennesh等,2022)。

至关重要的是,局部更新包括在传统AIF公式中未表达的新型反向消息。这些反向消息确保了完整GFE目标的统一优化,而无需为状态估计和自由能评估采用不同的计划。作为局限性,我们发现了消息更新中的收敛问题,并通过可通过牛顿法求解的替代更新规则解决了这些问题。然而,该方法仍可能收敛到次优局部最小值或极限环。此外,我们还采用重要性采样来计算难以处理的期望值。

有了CFFG表示和局部消息传递规则,就可以轻松混合和匹配约束。我们制定了一个实验协议,将感知、控制和学习的任务在单一GM和计划下统一起来。我们通过响应式编程实现(Bagaev和de Vries,2021)模拟了感知-动作循环,其中消息更新会根据观察到的可用时间相关约束动态反应。

所展示的T形迷宫模拟说明了合成AIF中的消息传递方法如何引发认知行为。具体而言,基于GFE的代理会探索新的参数设置和显著状态,而基于参考Bethe自由能(BFE)的代理则始终无法识别环境中的信息状态。我们讨论了T形迷宫设置的两个扩展,一个是学习目标统计信息,另一个是模拟讨价还价场景,其中卖方代理与买方代理共享信息以换取奖励概率的份额。这些扩展说明了合成AIF中的消息传递方法如何在非传统模型和多代理设置中重用节点和消息。

在本文中,我们采用了纯粹的工程观点,并未关注生物合理性。具体而言,推导出的消息更新考虑了稳定性和非标准表达式。尽管我们已经设计了解决方案来克服这些复杂性,但我们认为大脑不太可能采用此类策略。










https://arxiv.org/pdf/2306.02733

CreateAMind
ALLinCreateAMind.AGI.top , 前沿AGI技术探索,论文跟进,复现验证,落地实验。 鼓励新思想的探讨及验证等。 探索比大模型更优的智能模型。
 最新文章