具身决策的闭环推理,四模型途径——证据累积、运动规划和紧迫性、运动推断与承诺、习惯形成

科技   2024-11-01 10:43   上海  

Embodied decisions as active inference

作为主动推理的具身决策

https://www.biorxiv.org/content/10.1101/2024.05.28.596181v1.full.pdf

摘要

决策通常被概念化为一个序列过程,在此过程中,感官证据被累积以支持选择选项,直到达到某个阈值,此时做出决策并执行行动。这种先决策后行动的观点成功解释了实验室中感知和经济学决策的各个方面,其中行动动态通常与选择无关。然而,生物体经常面临另一类决策——称为具身决策——这需要在动态环境中及时选择要执行的潜在行动方案,例如,对于狮子来说,决定追逐哪只瞪羚以及以多快的速度追逐。具身决策的研究揭示了目标导向行为的两个方面,与序列观点形成鲜明对比。首先,决策和行动过程可以并行展开其次,与行动相关的组件,如与选择选项相关的运动成本以及在它们之间“改变主意”所需的成本,对所做出的决策产生反馈效应。在这里,我们展示了这些具身决策的特征在主动推理中自然出现——这是一个同时优化感知和行动的框架,根据相同的(自由能最小化)指令。我们表明,优化具身选择需要运动规划(其中对选择选项的信念指导行动动态)和运动推理(其中行动动态完善对选择选项的信念)之间的持续反馈循环。此外,我们的主动推理模拟揭示了具身决策在生态环境中的规范性特征——即在保持高准确性和降低失去有效机会的风险之间实现有效平衡。

1 引言

决策通常被概念化为一个序列的先决策后行动过程,在此过程中,感官证据被累积直到达到某个阈值,此时做出决策并执行行动。这种由漂移扩散及相关模型形式化的方法,在分析来自实验室感知和经济学决策研究的行为和神经数据方面非常有用[1, 2, 3]。在这些研究中,参与者在反映感知判断(如运动辨别)或经济报价(如彩票)的固定选择选项(通常是两个)之间进行选择。然而,动物经常面临另一类具身决策,这需要在动态环境中立即选择要执行的行动方案;例如,对于狮子来说,选择追逐哪只瞪羚,或者对于足球运动员来说,选择向哪个队友传球[4, 5, 6, 7, 8, 9, 10]。为了应对这些具身决策的需求,动物通常需要在决策过程中并行地指定、准备甚至执行行动——正如可操作性竞争的概念所捕捉到的那样[11, 5]。

这些考虑激发了一系列使用感知和经济选择期间表现的连续测量实验;例如,在参与者从起点移动到响应按钮时跟踪鼠标或手部运动学[12, 13]。尽管这些实验很简单,但它们允许分析导致决策的动态过程以及正在进行审议和运动之间的相互影响(即边行动边决策或连续决策[14])。它们揭示了参与者同时移动和审议;他们通常很早就开始移动,如果他们更不确定,要么朝向特定目标,要么在中间;他们经常在试验中途重新审视他们的决策,这从他们运动的曲率中显而易见;他们有时在目标之间改变主意,从轨迹的剧烈变化中可以看出[15, 16, 17, 18]。这些发现摒弃了序列模型,并由并行[19]或连续流模型[20]更好地解释,在这些模型中,展开的感知和决策过程同时驱动一个或多个响应的准备和可能的公开执行——这意味着任务中的运动提供了正在进行审议的连续读出。从规范的角度来看,并行模型提供了一种更快实现决策的方式,这对生存至关重要,因为它避免了失去有价值机会的风险——有时以降低准确性为代价[21]。

至关重要的是,一些具身决策的研究揭示了行动动态对决策过程的反馈效应,这在序列甚至并行决策模型中之前被忽视了。例如,一个反复出现的结果是,与不同选择选项相关的运动成本影响感知和经济决策。在模糊的感知决策[22, 23]和基于价值的决策[24]中,参与者倾向于选择与较低成本运动相关的响应选择。如果在改变运动方向时成本更大,例如当响应按钮相距较远时,感知任务中的改变主意就不那么频繁[25]。类似地,在经济任务中,运动轨迹扰动后的改变主意对运动系统的当前状态(位置和速度)敏感,并且在抵消扰动成本更高时较少发生[26]。

这些和其他研究不仅表明审议在运动开始后继续进行(与并行模型一致),而且还受到行动动态(如运动成本)的反馈影响。这激发了一类新的具身决策模型,其中行动不是决策过程的惰性结果,而是影响它,形成一个闭环[27, 21]。这些模型受到以下事实的启发:从具身角度来看,代理的目标不仅是选择选择选项(如在经典设置中),而且同时选择潜在的行动方案以达到目标(通常在截止日期内)并跟踪行动本身——这意味着决策和行动过程需要共同和连续地优化。反过来,在神经水平上,具身决策可能需要在处理结果价值和运动计划的各种脑网络之间达成分布式共识,而不是传统上假设的集中过程[28]。

在这里,我们展示了具身决策的关键特征在主动推理中自然出现,这是一个将感知和行动选择建模为自由能最小化同一目标的两个方面的框架[29, 30, 31, 32]。通过将具身决策模拟为主动推理过程,我们能够重现关于行动和决策在时间上并行展开以及运动动态在感知中反馈效应的各种实证发现。此外,我们说明了在时间压力下具身选择相对于序列选择的规范性优势。

2 结果

我们通过模拟一个具有时间变化信息的两选一强制选择(2AFC)决策任务来说明具身决策的主动推理模型的功能,即其中支持一个选择或另一个选择的证据(以顺序提供的线索形式表示)在每次试验中不断变化,如[33, 34]所示(图1a)。代理必须将3自由度手臂从起始位置(中心的小蓝点)移动到左(红圈)或右(绿圈)目标按钮,以报告哪个目标有或将有更多的线索。在任务期间,15个线索一个接一个地出现,要么在左圈要么在右圈,然后消失,只留下最后一个可见。代理可以随时开始移动,并且在移动期间线索继续正常出现。试验在代理到达两个按钮之一(或在截止日期内)时结束。

至关重要的是,通过操纵线索的顺序,我们在三种条件(或试验类型)下比较代理的决策动态:一致的,其中更大比例的线索最初出现在正确的目标中;不一致的,其中更大比例的线索最初出现在错误的目标中;和中性的,其中最初出现在两个目标中的线索比例是平衡的。

实证证据表明,这些试验类型显著影响选择和运动动态。在Tokens任务[33]中,该任务在概念上与此任务相似(除了旧线索消失的事实外),试验的不一致性导致更多的错误和更长的反应时间[33],并且在记录运动运动学时,影响决策前的横向手部位置[37]。在Eriksen侧翼任务[34]中也观察到类似的结果,该任务与我们的任务在概念上相似,因为正确的视觉目标与一致或不一致的线索一起呈现。侧翼任务可以建模为注意力随时间逐渐向正确目标转移的过程,相当于从越来越精确的分布中对其进行采样[16]。这一过程解释了不一致条件下性能显著下降的原因(侧翼效应),因为初始采样过程偏向于错误响应。性能下降表现为错误数量增加、反应时间和运动轨迹曲率增加,这些任务跟踪了运动运动学[38, 16]。此外,目标呈现后对运动电位的测量(ERP:事件相关脑电位和EMG:肌电活动)表明,竞争性响应同时被激活[39],这与通过猴子背侧前运动皮层单细胞记录的类似发现一致[40]。

下面,我们展示了一个混合主动推理模型(即由离散和连续变量组成的模型),该模型联合优化决策和行动,再现了具身选择的这些特征。该模型可以分解为四个相互作用的途径——证据累积、运动规划、运动推理和跨试验的统计学习(以及习惯形成)——参见图1b的示意图说明和附录B的技术细节。下面我们讨论这些途径,并展示模拟,说明它们如何影响代理的决策和行动过程。

2.1 第一条路径:选择替代方案的证据累积

2.1 第一条路径:选择替代方案的证据累积 第一条路径负责对选择替代方案的顺序证据累积。它包括离散的隐藏状态s,编码每个目标是当前试验正确选择的概率(即,包含最多线索的那个)。它们是从分类(这里,二项式)分布中采样的,即,s = Cat(D) = [st1 st2],其中D是Dirichlet分布的参数,定义了代理的先验信念。在接下来的模拟中,我们为每个试验初始化它们为均匀分布。离散隐藏状态s并行生成两个离散预测。前者——通过似然矩阵Ac计算——是对代理将观察到的线索的预测,其中αc扮演权重因子的角色,类似于漂移扩散模型中的漂移率。后者——通过似然矩阵Ah计算——对应于手部动态:它预测手是否会向左目标移动、向右目标移动,或者根本不移动(概率为αh)。简而言之,两种映射的不确定性影响证据累积的展开速度,以及代理采取的运动策略:

由于代理需要在没有未来规划的情况下做出简单决策,我们没有用转移矩阵B(如附录B中定义的)来模拟离散动态。在每个离散步骤τ,观察到特定的线索oc和特定的手部动态oh,并与相应的预测进行比较。因此,离散隐藏状态s的推断遵循以下方程:具有斜率(或精度)w。w的高值确保离散状态之间的快速过渡,从而避免在两个目标之间的位置。简而言之,离散更新是来自上一步的先验(在试验开始时等于D)和两个似然的组合。第一个似然有助于感官证据累积,并基于感官线索迭代细化选择。第二个似然将目标估计与手部动态联系起来;这样,变量oh作为离散模型的感官信号(类似于oc),并允许从代理的运动中累积证据。我们将在下一节中解开第二个似然的作用;在这里,为了模拟标准的证据累积,我们让第二个项依赖于一个参数kh,我们在这里设置为0,以便正确选择的推断仅依赖于感官线索oc。最后,我们包含一个参数kd作为遗忘因子(可能有助于处理非平稳任务),我们在模拟中保持固定为1。此外,我们设置αh = 0(因此代理在试验开始时开始移动)和αc = 0.4

我们用上述三种条件测试主动推理模型。在一致的试验中,线索向正确目标移动,初始概率为80%,然后逐渐增加并在8个线索后达到100%。在中性和不一致的试验中,正确目标的概率分别初始化为50%和20%,然后像一致试验中那样增加。每个试验包含21个离散时间步τ,每个时间步又包含30个连续步骤t。在τ = 0时,没有线索呈现,但代理可以移动。在接下来的15个时间步中,每个时间步呈现一个线索。最后,在最后4个时间步中,没有线索呈现,但代理仍然可以移动并到达目标。

图2显示,在所有条件下,当运动开始是即时的,代理在两个目标之间移动。在不一致条件下,代理首先向错误目标移动,最终改变主意。这些结果在定性上与引言中讨论的关键实证发现[15, 16, 17, 18]相匹配。为了评估模型在三种条件下是否生成统计上不同的轨迹,我们每种条件模拟了100次试验,并考虑了一个广泛使用的选择不确定性指数:轨迹从起始点到正确目标的理想直线的最大偏差[12, 10]。我们发现不一致试验(M = 125.97,SD = 25.0)的最大偏差显著大于中性试验(M = 88.19,SD = 30.73),中性试验的最大偏差显著大于一致试验(M = 56.64,SD = 18.56)(所有测试,p < .001)。


2.2 第二条途径:运动规划和紧迫性

面对相同的任务时,不同的参与者群体可能表现出不同的策略;例如,保守策略推迟运动直到他们感到足够自信,或冒险策略猜测正确选择并立即开始移动[41]。

在我们的模型中,选择保守或冒险策略取决于两件事。首先,通过不确定性参数αc的证据累积权重:不确定性越低,代理越快形成关于正确目标的强烈信念。其次,通过与手部动态相关的似然矩阵的不确定性αh的运动紧迫性:αh越低,代理对正确目标开始移动的确定性越低。回想一下,oh(手部动态的离散集合)编码了两个目标生成向左、向右或无运动的概率(即oh = [oh,t1, oh,t2, oh,s])。

重要的是,oh指定了潜在的行动计划,因为它与指定代理手部在外在(例如,笛卡尔)坐标中的瞬时轨迹(位置xh和速度)的连续隐藏状态进行通信。具体来说,oh的每个元素都与一个动态函数相关联:


其中µh是对手臂位置xh的信念,λ是吸引子增益,而pt1和pt2是两个目标的位置——假定为已知且固定的。这种机制实现了竞争性运动计划的同时准备,这也在猴子的前运动皮层中有所报道[40]。离散信号和连续信号之间的映射是通过贝叶斯模型平均来完成的——如附录B中解释的。特别地,通过加权三种潜在的轨迹(到达两个目标和停留)及其各自的概率oh,计算出对手臂速度x'h的先验信念ηx,h',代理为给定的离散目标规划:

期望速度通过动态预测误差进入连续隐藏状态的更新,表现为连续模型实现的复合运动。逆过程,即当前轨迹的推断,在后续部分中解释,更多细节见附录 B。

图 3 展示了在不一致试验中,不同紧迫度对运动启动和速度的影响。高紧迫度导致更冒险的策略,容易做出错误决定并改变主意;而低紧迫度则产生保守但反应较慢的策略。紧迫度操控为证据积累与运动动态的关系提供了灵活性。

其中,µh 是对手部位置 xh 的信念,λ 是一个吸引子增益,而 pt1 和 pt2 是两个目标的位置——假设是已知且固定的。这种机制实现了竞争性运动计划的同时准备,正如在猴类前运动皮层中所报告的[40]。

离散信号和连续信号之间的映射是通过贝叶斯模型平均来完成的——如附录B中解释的。特别地,通过对手部速度 x'h 的先验 ηx,h' 进行加权,计算出三个潜在轨迹(到达两个目标和保持不动)及其各自的概率 oh,即代理为给定的离散目标规划的概率:

这个期望速度进入了连续隐藏状态的更新,作为一个动态预测误差 εx,h = µ'h − ηx,h',表达了连续模型将实现的复合运动。逆过程,即当前轨迹的推断,在下一节中解释,更多细节见附录B。

图3展示了在不一致试验期间,三种紧迫性水平对运动开始和速度的影响。由于 kh = 0,三个案例的证据累积相同,但轨迹根据代理的紧迫性而变化,产生了冒险、中等和保守策略。高和中等紧迫性水平产生冒险策略,最初向错误的目标移动,然后表现出改变主意。低紧迫性产生保守策略,直接向正确的目标移动,但当两个目标概率太接近时,反应时间更长,未能在截止日期内完成试验。这是因为离散模型生成的轨迹不断被停留动态加权,因此高不确定性 αh(意味着低紧迫性)不仅导致运动开始晚,而且运动速度也慢。这个模拟说明了操纵紧迫性在证据累积和运动动态之间的联系中提供了灵活性。在高紧迫性下,代理更早移动并承担失败的风险,而在低紧迫性下,代理可能会等到积累了足够的证据,对正确的目标有非常高的把握。有趣的是,紧迫性和证据累积速度可以相互作用,如图S1所示。

2.3 第三条路径:运动推断与承诺

多项研究发现,启动运动的参与者即使面对相反的证据,也对最初选择的目标表现出高度的承诺,当达到替代目标所需的成本增加时[26, 25]。有趣的是,在我们的模型中,这种承诺在模型反演过程中自动出现。当代理联合推断正确的目标和达到它的最优离散手部动态时,运动规划的(自上而下)路径和它的双重(自下而上)路径的运动推断之间存在相互作用(图1b)。这是因为在我们的模型中,代理不仅对将要观察到的提示(即,Acs)做出预测,还对手部轨迹(即,Ahs)做出预测。后者的预测意味着离散目标(在这种情况下,两个目标的概率)和代理的运动(在这里,达到目标所需的动态)之间存在因果关系——如附录B中解释的。这种观点的关键含义是,可以从手部轨迹本身估计两个目标的概率(oh)。因此,一个自我证明机制发生,在这一过程中,通过某些线索推断出的目标产生了一个达到它的计划,这反过来又确认了代理最初的估计。换句话说,通过运动推断,运动稳定了(即,降低了对)决策的不确定性,并创造了对最初选择目标的承诺。

证据累积、运动规划和运动推断之间丰富的相互作用产生了三个竞争过程。第一个竞争发生在估计手部轨迹的连续隐藏状态时,由广义信念定义:这个更新规则包括来自视觉观察的似然项,用于保持信念接近实际手部轨迹;前一节中定义的动态预测误差 εx,h,作为前向或后向消息影响两个顺序;以及一个先验预测误差 εη,h,它偏向于对手部位置的信念。后者通过正向运动学,与一个内在的连续模型编码本体感受轨迹(例如,用关节角度表示)相关联。因此,从对手部位置的信念发送到内在模型的后向消息执行逆运动学,最终驱动动作。有关运动学推断的更多细节,请参见附录C和[42, 43]。

第二个(也是最有趣的)竞争发生在这种连续信念与达到选定目标所需的期望手部动态发生冲突时。从自上而下的角度看,方程4中定义的动态作为按概率 oh 平均的潜在轨迹,从自下而上的角度看,它们被用来推断实际轨迹的最可能解释。更正式地说,通过贝叶斯模型比较,在时间 τ 找到离散手部动态 oh,即通过比较离散预测 Ahsτ 与手部轨迹的连续证据 Lh,在时间窗口 T 上累积:

有关简化后验 µ'h,m 和先验精度 px,h 的更多细节可以在附录B以及[44, 35, 36]中找到。这里,我们注意到每个潜在的动态函数 fm 都与通过感官观察推断出的当前动态 µh 进行比较。结果,对数证据 Lh 为更好地匹配真实轨迹的潜在轨迹分配更高的值。

第三也是最终的竞争出现在运动推断和证据累积的交汇处,如方程2中强调的。由于离散手部动态不断被引导向当前手部轨迹,后者成为正确目标的预测器。这最终产生了对选定动态的承诺——在方程2的最右项中表达。

欣赏承诺的一种方式是考虑,当两个目标之间的距离增加时,人类参与者改变主意的次数会减少[25]。为了保持一致,在模拟100个目标距离不同的中性试验时,我们发现目标距离近时(n = 29)比中等距离(n = 20)和远距离(n = 8)更频繁地改变主意——见图4中的一些样本试验。这个结果的原因在于方程7。由于离散手部动态 oh 被用来推断正确的选择替代方案,所以更近的目标比更远的目标得到更高的概率评分。此外,由于softmax函数放大了当前和潜在轨迹之间的差异,一个目标离另一个目标越远,它被分配的概率就越低。这在图S2中很明显,它显示了整个试验期间达到两个目标的潜在轨迹、实际轨迹以及随时间累积的对数证据。另一种欣赏承诺的方式是通过比较代理在一致和不一致条件下的行为,有运动推断(kh > 0)和没有运动推断(kh = 0)——见图S3。当在一致条件下激活运动推断时(图S3b),手部动态稳定决策:目标比没有运动推断时(图S3a)更快地被推断出来,第二个错误的提示(在τ = 9观察到)被忽略。当在不一致条件下激活运动推断时(图S3d),代理可能会承诺一个错误的决定,忽略相反的证据——这种行为在没有运动推断的情况下(图S3c)是观察不到的。

最后,我们比较了几种模型的权衡:两个串行模型,一个是瞬时决策模型(仅决策模型),另一个是固定决策时间为480步的模型(先决策后行动模型);以及两个具身选择模型,一个具有运动推断(kh = 0.15),另一个则没有(kh = 0)。为了进行这一比较,我们通过调整紧迫性αh和漂移率αc来模拟100次中性实验,以获得广泛的解。图5a显示,具身选择模型的速度-准确性权衡比先决策后行动模型更好,因为它们更接近瞬时移动的仅决策(理想)模型。此外,图5b显示,在不同的紧迫性αh水平下,具身选择速度与信心(即正确选择的概率)之间存在显著相关性,这在实验证据中已有报道 [45]。

2.4 第四条途径:统计学习和习惯形成

在各种认知任务中,如Flanker[46]和Posner任务[47],可以学习统计规律,如正确响应的概率或线索在试验中的有效性。在这些任务中,经常报告试验序列效应,表明参与者在试验中形成期望,影响其后续响应和运动[48]。我们模型的第四条途径实现了这种统计学习,这仅仅是对离散隐藏状态s在试验中的Dirichlet先验进行计数。每次试验后,这些计数根据以下公式更新:

其中 n 是试验编号,ω 是旧试验的遗忘因子,η 是新试验的学习率(通常以一个相当高的值初始化,反映了对先验信念 d0 的高信心)。然后,计数通过一个softmax函数传递,以计算下一次试验的正确反应的先验:

图6显示了在50次不一致试验中学习正确响应先验的效果。在前10次试验中,正确的(左)响应保持稳定,然后反转。在第一(学习)阶段的前几次试验中(图6a中的深蓝色),代理向错误方向移动,然后改变主意。然而,在后续试验中(图6a中的深红色),它逐渐开始向正确目标早期移动,预期错误线索的累积过渡。同时,运动开始减少(图6b)。这些结果表明,强烈的先验可以克服冲突的证据。在第10次试验反转后,第一个目标的离散先验缓慢减少,因为第二个目标的Dirichlet计数开始增加(图6b)。在前几次试验中,运动曲率增加,运动开始较慢,因为代理对线索采样下的正确分布不确定。在后几次试验中,运动曲率减少,运动开始加快,因为代理学习了新的偶然性。

这些结果表明,我们的模型可以包含在认知任务中出现的序列效应[48]。请注意,虽然我们专注于学习正确选择的先验概率,但其他模型参数,如似然矩阵Ac和Ah的不确定性,可以使用相同的方法进行更新。


3 讨论

多年来,关于人类和动物行为的主导观点是序列的先决策后行动策略。然而,各种研究表明,在需要同时指定和选择替代行动方案的具身决策中,序列观点是不够的。这些研究报告了早期运动开始、改变主意以及运动成本对决策的影响,表明决策和行动过程并行展开并相互影响[27, 21, 12, 13, 10]。在这里,我们展示了这些具身决策的特征在主动推理中自然出现:一个在自由能最小化指令下联合优化决策和行动的框架[31, 29]。我们的模拟强调了四个模型途径——证据累积、运动规划、运动推理和统计学习——形成一个闭环,允许决策和行动过程相互影响。由此产生的具身模型在速度-准确性权衡上优于序列模型——表明它们可能具有生态优势(图5a)。

我们模型的一个创新方面是运动规划和运动推理之间的相互作用。在运动规划期间,代理对正确选择的推断生成关于下一个离散手部动态的预测,这些预测被转换为连续的运动计划以到达相关目标。反过来,在运动推理期间,代理使用行动动态作为正确选择的证据。这种机制意味着运动稳定决策并产生承诺。此外,它解释了具身决策的关键方面,例如任务前[22]或任务期间[26]明显的运动成本影响决策结果的事实。请注意,我们的模型并不明确计算运动成本,而是计算离散手部动态oh的概率,这些概率可以等效地考虑为遵循推断公式(使用概率)和控制公式(使用成本)的对偶性[49, 50]。简而言之,代理只是试图从其可用的信息(包括其自身的运动)中推断出正确的目标,高运动成本仅意味着一个在当前上下文中解释不佳的潜在动态。尽管如此,额外的运动成本可以作为对生物力学上更简单运动的先验偏好包含在模型中[22]。

我们模型的另一个关键方面是,通过调节移动的紧迫性,它可以模拟实证研究中观察到的一系列策略——从更具风险到更保守[41]。未来的工作可能会探索这里提出的生成模型如何被反转,以从行为数据中识别个性化的参数(例如,一个人的紧迫性)。虽然我们在主动推理中涵盖了具身决策的几个重要方面,但我们主要关注离散决策和连续动态之间的关系。一个更现实的模型还将考虑离散动态,这可能对于解释人类如何在有限时期内优化成功累积的数量至关重要——如[33]中所分析的。此外,虽然我们的模型解释了运动如何稳定决策,但它不包括其他稳定机制,如感觉增益调制[51, 52, 53],这可能在未来的研究中涵盖。



https://www.biorxiv.org/content/10.1101/2024.05.28.596181v1.full.pdf


从机器人到AGI,从具身到可解释,从入门到应用实现的最全自由能原理资料

机器人自监督NeSy神经符号框架,5大应用落地无人驾驶

CreateAMind
ALLinCreateAMind.AGI.top , 前沿AGI技术探索,论文跟进,复现验证,落地实验。 鼓励新思想的探讨及验证等。 探索比大模型更优的智能模型。
 最新文章