code: 如何从第一原理建模具身机器人

科技   科学   2024-11-18 00:00   上海  
https://github.com/priorelli/dynamic-planning

具身智能实现路径 系列论文




DYNAMIC PLANNING IN HIERARCHICAL ACTIVE INFERENCE

感知与行动之间存在着一种微妙的平衡,在感知中,预测误差会爬上层级,使信念更接近观察结果,在行动中,预测误差被抑制在较低水平,从而使观察结果更接近其预测
关键的是,它不允许对任务进行建模,其中不仅必须学习自身的动态,而且还必须学习目标的动态(例如,如果应动态抓住一个移动物体,则代理应推断其轨迹预测它会落在哪里)。
通过上面定义的特定形式 - 以及隐藏状态分解 - 在设计复杂交互的意图时具有很高的灵活性

可以实现固定的多步骤行为[74] ,不需要在每一步修改动态函数,而只需调整隐藏的原因
需要区分本体感受和外感受(例如视觉)观察
该架构的模块化允许代理在 2D 投影平面、眼睛的 3D 参考系或简单的聚散调节角中定义动态吸引子
从生物学角度来看,这两种情况可以解释为模拟镜像神经元的功能

主动推理下的自我、对象和其他主体之间的关系
该模型编码的转换机制不是很灵活,但正是由于这个原因,它能够更快地对环境刺激做出反应
结合了分层公式的表达能力推断和施加混合单元固有的动态多步骤意图的优点以及对外部对象和其他代理进行编码的可能性
可以与婴儿典型的运动牙牙学语的过程进行比较[115],从而在不同的分层级别生成随机吸引子以确定正确的身体结构
https://priorelli.github.io/projects/

(翻译后2万字供参考)
ABSTRACT
通过动态规划,我们指的是人脑推断和施加与认知决策相关的运动轨迹的能力。最近的一个范式,主动推理,为生物有机体的适应带来了基本的见解,不断努力最小化预测错误,以将自身限制在与生命相容的状态。在过去的几年里,许多研究表明,如何用主动推理过程来解释人类和动物的行为 无论是离散决策还是连续运动控制 激发了机器人和人工智能领域的创新解决方案。尽管如此,文献仍然缺乏关于如何在不断变化的环境中有效规划行动的全面观点。为自己设定建模工具使用的目标,我们深入研究主动推理中动态规划的主题,同时牢记生物目标导向行为的两个关键方面理解和利用对象操作的可供性的能力,以及学习层次结构的能力-自我与环境(包括其他主体)之间的相互作用。我们从一个简单的单元开始,逐渐描述更高级的结构,比较最近提出的设计选择并为每个部分提供基本示例。这项研究与以神经网络和强化学习为中心的传统观点保持了距离,并指出了主动推理中尚未探索的方向:分层模型中的混合表示。
1 Introduction
等级制度在世界各地随处可见。它们如此普遍,以至于它们不仅作为环境物理特性之间的因果关系而存在,而且也是生物有机体如何作用于环境的固有关系。即使是最复杂的动物运动结构也遵循严格的分层策略,即不同的肢体从以身体为中心的参考系传播。大脑功能网络的分层模块化得到了广泛认可[1,  2],以及体感和运动区域中身体图式的表示  [3],以及有关顶叶和前运动皮层的分层运动序列的组织[4]。特别是,身体图式不是一个静态的实体,而是随着人体在儿童期和青春期的发育而变化的[5]。令人惊讶的是,神经系统能够以某种方式将外部物体与自我联系起来,尽管不能反映身体与环境之间的实际因果关系,但最适合在特定背景下更好地运作。生理学研究表明,随着工具的广泛使用,猴脑的顶叶和运动区域逐渐适应,为工具腾出空间,增加了感知肢体的长度[6,  7]。这种适应具有高度可塑性,可以在很短的时间内同化物体[8] ,并引起身体形态的体感表征的改变,即使在使用工具后仍然持续存在[9]。
为什么以及如何发生这种情况?最近的一个理论是预测编码[10,11,12 ] ,近年来它引起了越来越多的兴趣,并提出自己作为皮质功能的统一范式。预测编码假设生物体通过构建内部生成模型来理解世界,该模型试图模仿外部生成过程的层次因果关系。从关于世界事态的高级假设开始,发生一系列神经预测,最终导致对感官的低级猜测证据。将模型的猜测与感觉中枢进行比较会引发另一级联的预测错误,这些错误会追溯到最深的皮质水平。该模型迭代地完善其结构,直到所有预测误差最小化,也就是说,直到它最终能够预测接下来会发生什么。这种优化与更传统的深度学习观点不同,因为消息传递是局部的,沿着层次结构向上爬的内容并不表示检测到某个特征,而是表示模型对其预测感到惊讶的程度。除了在多种情况下刺激认知和神经研究[13,14,15,16 ]之外,该理论还影响了机器学习的新方向:预测编码网络( PCN)已被证明可以很好地推广到分类或回归任务[17 ,  18],与神经网络相比具有关键优势,并且仍然逼近反向传播算法  [19,20,21]。
虽然预测编码可以通过严格的计算框架[22]来阐明幻觉和视觉现象,例如双眼竞争[23],但它仅解释了故事的前半部分(感知)。更具体地说,它并没有解释为什么会发生与环境的相互作用 考虑到上面的例子,这个过程导致猴子大脑在工具使用过程中主动扭曲其身体模式。这种复杂的任务总是涉及决策,而众所周知,大脑可以通过多种方法来实现决策[24]。其中,其中一个特别重要:审议规划,也称为替代性试验和错误,即在生成并评估多个替代方案后选择一项行动[25]。人类规划最有趣的特征之一是想象的能力,或者内生生成未来状态的动态表示的能力,包括导致这种状态的潜在轨迹和子目标[26,  27]。海马体是已知支持轨迹生成的关键神经结构,尽管规划是与实施选项评估和响应选择的其他区域一起完成的[25]。人脑如何解释自我和环境的动态以提供有目的的计划?
在这一过程中,人们提出了第二个创新视角,希望不仅能揭示皮质功能,而且能揭示所有生物体行为的统一第一原理。这种观点被称为主动推理[28,29,30,31 ] ,基于与预测编码相同的理论基础,但进一步假设了生物行为的两个关键方面。首先,生物体不会维持关于世界事态的静态假设,但也可以构建内部动态 无论是瞬时轨迹还是未来状态 使其能够预测在不同时间尺度发生的事件的发展。其次,这些动态假设可以通过运动来实现。后一个假设用智能体取代模型,传达了一个有点违反直觉但富有洞察力的含义:虽然感知让智能体的假设符合环境(如预测编码),但行动通过让智能体对这些观察结果进行采样,迫使环境符合假设。这使得假设成立。如果这样的假设(通常称为信念)对应于例如由表型定义的期望状态,则行动和感知之间的循环最终允许代理生存。这是所谓自由能原理的核心,该原理指出,为了维持体内平衡,所有生物体都必须基于一小组与生命兼容的选择,不断地、主动地最小化它们的感觉状态和期望之间的差异。举一个实际的例子,如果我相信自己手里有一个工具,我会尽全力去观察我手中工具的视觉图像;在此过程中,会发生联合的伸手和抓握动作。这种观点与神经科学中广泛建立的刺激‑反应映射相距甚远,并且有证据表明它可能比最优控制和强化学习(RL)在生物学上更合理[32,33,34,35]。
原则上,主动推理可能是理解目标导向行为如何在人脑中出现的关键[36]。例如,用于操纵的相关物体可能通过运动命令和感官证据之间的闭环逐渐成为一个人身份的一部分,这意味着每当智能体设法预测其自身运动的后果时,自我与环境的界限就会增加37]。此外,主动推理可能被证明是当前人工智能体取得进步的基础,推动了一个有前途的研究领域,称为推理规划[38,39,40 ] 。主动推理实现可以分为两个框架,它们已用于在运动控制[32,41,42,43,44,45 ]和决策[46,34 ,  47、48、49 ] 。第一个框架 通常与低级感觉运动环路相比 是在连续时间中定义的[50,  51] ,并利用广义过滤[52]来模拟自我和环境的瞬时轨迹;这些轨迹是通过最小化称为变分自由能的量来推断的,这是机器学习中已知的负数作为证据下界。与最优控制不同,主动推理中的运动命令源自经典脊髓反射弧实现的本体感觉预测[34]。这消除了对成本函数的需要 因为逆模型从本体感受(而不是潜在)状态映射到动作 并用推理问题取代了控制问题[33]第二个框架 归因于大脑皮层,特别是前额叶阿拉斯[53],以及皮质纹状体环 在离散状态空间中表达[54,  55] ,并利用部分可观察马尔可夫决策过程(POMDP)的结构来计划抽象行动高于预期的未来感觉。这种(主动)推理依赖于预期自由能的最小化,即智能体期望在未来感知到的自由能。预期的自由能可以分解为两个术语,类似于控制理论的两个经典方面:探索和利用 它们在这里自然出现;它们分别对应于减少不确定性项和目标寻求项,与之前一样,目标寻求项推动智能体找到导致其先前信念的一系列行动。
主动推理的三个特征与设计可以处理现实生活应用程序的智能代理相关,并且为了本研究的目标,需要使用工具来完成任务。首先,由简单似然和状态转换分布组成的多个单元可以轻松连接以适应复杂的层次结构[56]。例如,可以在连续时间内设计分层运动学模型,其中每个单元在内在和外在参考系中编码一定的自由度(DoF)  [44]。这使得人们能够实现涉及多个肢体同时协调的高级运动,例如手持玻璃杯移动。这种层次结构可以推广到在参考帧之间执行⻬次变换,例如透视投影[57]。然而,单独的连续模型在现实世界中缺乏有效的可用性,因为它只能处理当前的感官状态,而不能执行任何形式的未来规划
后者通常可以通过所谓的混合模型[47,  58]  实现,该模型将离散模型的潜力与连续信号的推理相结合,从而允许在不确定和变化的环境中做出稳健的决策。虽然贝叶斯模型简化理论[59,60,61,62 ]提供了两个模型之间的有效通信,但这种统一的方法暂时还没有得到许多实际的实现[ 31,47,58,63,64,65 ,  66]。一个悬而未决的问题是如何处理高度动态的环境:标准混合模型通常在静态先验之间进行比较,限制代理实现例如通过固定位置的多步到达运动。一项研究解决了主动推理中的现实机器人导航问题,但使用了替代的仿生  SLAM  方法[67]。在[68]中,一种混合模型,其中代理的假设是在系统动力学的每个时间步生成的,允许将连续轨迹与离散计划联系起来。
该框架的第三个吸引人的特征是,人们不仅可以对自己的身体状态编码信念,还可以对外部物理变量编码信念。最近,这是在主动对象重建的背景下完成的[69,70,71,72 ]   代理对多个元素的独立表示进行编码,并使用动作来更准确地推断其动态;用于模拟动眼行为[73]   目标信念的动态因隐藏位置而产生偏差;或用于分析认知可供性[49],即不同对象的可供性相对于主体信念的变化。在连续时间内,此类可供性可以在与潜在代理配置相对应的内在参考系中表达,从而定义与对象交互的特定方式。根据智能体的意图[43]操纵这些额外的信念,可以在动态环境中有效地操作,例如,用眼睛跟踪目标[73],或在飞行中抓住物体[68]并将其放置在目标位置[74] ]。然而,这些应用程序没有利用深层分层模型的效率,并且控制除手之外的多个肢体并不简单。至关重要的是,他们不会欣赏动物大脑在重新映射神经元活动以解释可用工具方面的灵活性。
基于这些前提,出现了一个问题:如何对多个对象的层次结构进行动态规划?换句话说,如何将这三个功能组合到一个视图中?虽然目前在文献中可以找到许多连续时间的研究[51,75,76 ] ,但仍然缺乏如何实现目标导向行为的严格形式主义,其结果是对类似问题使用不同的解决方案尤其是在上下文中这需要在线重新规划。另一方面,通过将离散时间主动推理的能力与神经网络相结合,取得了有希望的结果,其方式大致类似于深度强化学习。事实上,与传统方法相比,所谓的深度主动推理在学习和解决在线任务方面具有关键优势[77,78,79,80,81 ] 。
尽管如此,神经网络在自由能最小化过程中仍被视为黑匣子,而没有充分享受分层和时间深度的潜在好处。主动推理最吸引人的方面之一是,它提供了一个统一的视角,不仅可以适应复杂的高维数据(如神经网络或  PCN  所做的那样),还可以体现环境动态并对其采取行动,以最大程度地减少不确定性并遵守环境动态到先前的信念。
出于这些原因,在本研究中,我们探索了最优控制问题的替代方向,该方向不需要额外的框架,简而言之,就是层次系统中混合计算的方向。我们分析了许多已应用于电机控制领域的设计选择,并深入研究了上述三个特征。当我们问自己如何对工具使用进行建模时,我们从一个简单的单元开始,构建更丰富的模块,这些模块可以以分层方式链接,展示有趣的高级功能。在第二章中,我们考虑单自由度智能体,并探索如何仅在连续时间内实现一种多步行为。在第三章中,我们分析了在单个网络中组合不同单元、使用更复杂的运动学配置并区分内在和外在动力学的含义。在第  4  章中,我们描述了在连续环境中使用离散决策的优点,重点关注混合结构并在两个世界之间绘制一些并行性。最后,在讨论中,我们详细阐述了一起解决离散和连续表示的好处,并为该主题的未来工作提出了一些建议。
2 Flexible intentions
在本章中,我们首先解释连续时间内基本单位的推理机制。然后,我们一一讨论我们引入的更改和功能,以便在不需要深度分层建模或在线重新规划的简单任务中实现多步骤行为。
2.1 A simple representation
最基本的单元如图  1  所示。这是连续时间主动推理代理的最简单的公式,我们只保留关键节点。这使我们能够轻松地描述速度控制的动态具有以下似然  g  和动态  f  的系统:
其中x和o分别称为隐藏状态和观测值,字母w表示从高斯分布中采样的噪声项。为了简单起见,我们只考虑了two temporal orders ‑  尽管我们在下面阐明的所有特征都适用于广义坐标系统[52]  ‑  并且我们仅针对单个时间顺序定义了似然函数。我们假设相应的生成模型分解如下:
精度(或逆方差)π 表示。请注意,我们在隐藏状态上引入了先验 η,这通常不用于连续时间公式,但它是连接不同级别的关键元素离散时间主动推理 [58] 或 PCN [16]——稍后将对此进行解释。另请注意,我们对瞬时轨迹或路径使用了通用符号,即,其中 x 将在下面表示为第 0 阶,x′ 为第 1 阶。我们分别用绿色和红色突出显示单元的输入和输出,即先验 η 和观测值 o。目前,我们没有指定它们的性质,要么是中间表示来自其他级别,或层次结构的最高和最低级别,即固定的先验和感官观察。
隐藏状态的估计是通过变分方法[83]完成的,例如,通过最小化差异正确选择的近似后验和生成过程的真实后验之间的关系。 这种优化依赖于自由能 F,并且在适当的假设下,可以分解为预测误差的最小化 - 有关更多详细信息,请参阅[31]。特别是,在拉普拉斯近似[84]下,我们可以优化隐藏状态后验的均值(也称为最佳猜测或信念),用μ表示。如果我们将与等式 2 中生成模型的分布相关的预测误差表示为:
其中 D 是将每个导数平移 1 的运算符,即。该术语的出现是因为生成模型所维护的信念不是静态点,而是动态轨迹,并且只有当运动平均值 ŭ等于运动平均值 Dũ 时,自由能才会最小化。简而言之,推理过程不涉及匹配状态(如 PCN 中),而是跟踪路径 [85]。解包方程 5,我们注意到第 0 阶受到先验的前向误差、似然的后向误差以及动态函数的后向误差的影响。另一方面,第一阶仅受后者影响,但以前向误差的形式存在。然后通过梯度下降更新置信度,即其中 Δť 是时间常数。
该智能体如何执行简单的伸手动作?如图  1  中突出显示的,我们可以将手部位置和速度编码为广义隐藏状态。我们稍后会讨论本体感受域和外感受域之间的关系,因为这值得仔细讨论。现在,我们考虑一个单一的自由度,它在关节角度和笛卡尔位置,因此我们可以用相同的变量和因子来表示它们(但请注意,为了概括和与研究的其余部分保持一致,我们保留了粗体符号)。以ρ表示要达到的目标,我们可以定义以下动力学函数:
从图 2 中可以更好地理解这些量之间的相互作用,图 2 显示了具有定义的动力学函数的到达运动和代理生成模型的轨迹。在这里,信念受到两种不同的力量的影响:将其推向当前感知的可能性梯度(即真实角度),以及将其推向有偏差的动态(即目标角度 p)的其他分量。请注意,在第三张图中,在构成置信度更新的三个分量中,后向误差对整体 T更新方向的影响最小。虽然动态预测误差产生的确切相互作用尚未分析,但在下文中我们假设目标导向行为是通过一阶前向误差实现的。另一种选择是直接控制后向误差,而不保持对增加时间顺序的信念[86],然而,这需要考虑梯度,并且在定义适当的吸引子以达到目标时可能更具挑战性。最后看看,在中间的图中,代理如何在每个时刻都尝试最小化之间的差异,从而跟踪隐藏状态的实际路径
但这个代理实际上是如何移动的呢?正如引言中提到的,行动是自由能原理的另一面,智能体通过行动对符合其先前信念的观察结果进行采样。事实上,除了预测编码典型的感知推理之外,主动推理还假设生物体也通过与环境相互作用来最小化自由能。这种最小化分解为更简单的更新,仅取决于观测预测误差。由于这些预测误差是由智能体的信念产生的,这意味着每当智能体偏向于某种首选状态时,运动自然就会随之而来。因此,感知与行动之间存在着一种微妙的平衡,在感知中,预测误差会爬上层级,使信念更接近观察结果,在行动中,预测误差被抑制在较低水平,从而使观察结果更接近其预测。然而,关于如何在连续时间内实际实现主动推理仍存在一个悬而未决的问题。一些研究表明,直接使用外感受信息来计算运动命令可以导致更平滑的运动和视觉本体感受冲突的解决[28,41,43 ],事实上,一些机器人实现有效地使用了这种方法[86,87 ]。然而,有证据似乎表明,运动命令是通过仅抑制本体感觉信息而产生的[34,  33],本体感觉信息已经位于运动所需的内在参考系中,因此导致更容易的逆动力学。因此,在下文中,我们假设 用下标p表示本体感受域 运动是通过最小化本体感受预测误差εp的自由能来实现的:
其中执行从本体感觉预测到运动命令a  的逆动力学,可能由经典脊髓反射弧实现。最后一点,动作也可以依赖于多个命令 速度、加速度等 允许更有效的运动和控制[90,91,92,93 ] ,但由于它超出了我们的范围,我们只最小化0  阶。尽管如此,通过指定隐藏状态的适当动力学,一阶运动(例如保持恒定速度)仍然是可能的。
2.2 Tracking objects
上一节定义的简单智能体只能实现嵌入动力学函数中的固定轨迹,那么如何让它跟踪移动物体呢?这通常是通过引入主动推理中的一个关键概念来完成的,即隐藏原因v,它链接层次级别并指定动态函数如何演化。在运动控制的主动推理文献中,它们还用于对要达到的目标进行编码[28,66,73,94 ] ,如图3所示。“这是一个我想要到达的物体,它产生了我的动作”。现在,代理的生成模型变成:
请注意,有两个先验,一个是关于隐藏状态的先验,另一个是关于隐藏原因的先验,分别用ηx和eta ηv  表示。还要注意,动力学和似然函数都取决于隐藏的原因,并且我们假设对似然进行进一步分解:
其中分别表示手部观察和目标观察。正是隐藏原因和观察结果之间的这种额外联系使智能体能够在动态环境中运行。事实上,我们可以定义如下的动力学函数:

我们只是用隐藏原因替换了静态目标。然后,对隐藏原因的后验信念根据以下公式更新:
我们定义了以下观察和先验预测误差:
显然,隐藏原因会受到先验预测误差、后向动态误差和后向似然误差的影响 类似于隐藏状态的更新,唯一的区别是这种推断是针对状态而不是路径。通过后向似然误差,智能体可以在移动时正确估计目标配置,如图  4  的跟踪模拟所示。关于动态预测误差,它现在可以流入两个不同的路径:具体来说,梯度的作用∂μf和∂νf分别推断位置状态和可能产生特定速度的原因;他们的实际作用将在第  4  章中明确。
2.3 Intention modulation and multi-step behavior
尽管能够在动态环境中运行,但最后一种方法仍然描绘了一个简单的场景,其中特定目标没有内部动态,并且始终充当隐藏状态的原因。换句话说,它不允许对诸如拾放操作之类的现实任务进行建模,其中对象可能是到达和抓取运动的原因,也可能是另一个原因(例如目标位置)的结果,从而导致放置动作;关键的是,它不允许对任务进行建模,其中不仅必须学习自身的动态,而且还必须学习目标的动态(例如,如果应动态抓住一个移动物体,则代理应推断其轨迹预测它会落在哪里)。
因此,要在复杂的环境中运行,智能体必须(i)维护它想要与之交互的每个实体的完整表示,以及(ii)根据当前上下文灵活地分配下一步动作的原因和结果‑  在与离散模型中的策略类似,稍后将对此进行解释。因此,我们首先在隐藏状态中编码多个环境实体,即,其中N是实体的数量[43]。因此,分解似然函数为每个元素生成镜面观察:
这种结构与之前的模型类似,只是目标现在一起嵌入到隐藏状态中,并且隐藏原因和观察之间没有联系。我们可以定义类似的使得隐藏原因和动态函数的每个因式分解,即x实体将具有因特定原因而有偏差的独立动态(例如,手或目标将来会在哪里) ;然而,这在需要实体之间交互的拾取和放置操作中用途有 限。因此,我们使用单个函数计算潜在的隐藏状态,例如:
权重W对组合每个实体的隐藏状态执行线性变换,而偏差b对它们施加静态配置[44]。等式15可以通过简单的神经连接来实现,其中权重被编码为突触强度,偏差代表激发尖峰所需的阈值。然后计算该潜在状态与当前状态之间的误差:
该向量与方程  11  的吸引子具有相同的作用,但现在它指向隐藏状态的函数。最后,我们定义以下动力学函数:
将误差乘以单值隐藏原因v。因此,后者并不打算作为隐藏状态之前的显式轨迹(例如,编码我的手将来会在哪里),其作用现在委托给偏差b;但作为吸引子增益,高值意味着朝向潜在状态的强大力量。结果,动态精度πx结合的附加调制;它们的相互作用将在第4章中解释。由于I(x)用于定义当前隐藏状态的路径,旨在产生所需的配置,因此我们称之为意图。同样,我们将ei称为意图预测误差但是请注意,严格来说,该数量不是预测误差,尽管可以设计模型将其称为预测误差。
总之,如图 5a 所示,就可能性而言,动力学函数不是由分离的路径组成,但会同时影响所有环境实体——例如,它根据目标计算手的轨迹。智能体在到达运动期间执行的步骤如下:(i)第 0 阶将动态轨迹强加到第 1 阶并生成感官预测;(ii) 第 0 阶推断其预测的结果,因此它现在偏向于意图和观察;(iii) 本体感觉预测是由这种新的偏向立场最终会推动行动。这种方法可以看作是[73]的概括,其中在动眼行为的背景下,目标和注视中心被编码为隐藏状态,具有自己的动态并被隐藏位置所吸引。尽管与非线性动力学函数相比有些限制(例如,避障可以通过由排斥势构建的动力学函数来实现[44]),通过上面定义的特定形式 - 以及隐藏状态分解 - 在设计复杂交互的意图时具有很高的灵活性。此外,从主动推理的角度来看,将隐藏原因解释为增益仍然有意义,因为在更高层次上表示的是向目标移动的意图,而目标位置是在较低水平上推断的。
单独来看,将隐藏的原因视为吸引子增益似乎没有那么有帮助。然而,如图5b  所示,我们可以通过以下方式组合  M  个意图
简而言之,轨迹。。分别从每个意图im和它们各自的增益中计算出来;然后,通过组合所有轨迹来找到最终轨迹。。。在第四章中,我们将会清楚地解释为什么我们在轨迹预测中使用先验符号。请注意,与之前一样,与可能性相比,这里有一个不同的结构。虽然观察是通过每个环境信念的并行路径生成的,但每个函数FM(x,v)都以特定的方式将它们组合在一起。因为每个意图预测误差与其隐藏原因v成比例,所以后者有助于与离散模型的策略并行,这将在后面解释:如果vm被设置为1而所有其他的被设置为0,则隐藏状态将仅受意图m的影响;相反,如果多个隐藏原因处于活动状态,隐藏状态将被拉向相应意图的组合。这意味着隐藏的原因既作为吸引子增益——表达信念被导向期望方向的绝对强度——又作为意图调节器——定义每个期望状态之间的相对强度。由此产生的动力学预测误差: 
公式 (19) 
然后将实现智能体针对当前情况预测的平均轨迹。这种方法之所以有效,有两个原因。首先,它允许根据更简单的子目标定义复合运动,这些子目标可以单独处理;例如,如果有人必须分析代理人在受到两个或多个相反先验的影响时的行为[43],这可能会很有帮助。主要的用途是可以实现固定的多步骤行为[74] ,不需要在每一步修改动态函数,而只需调整隐藏的原因,因为模型已经编码了智能体的所有中间目标会通过。然后,连续轨迹之间的转换可以通过隐藏原因的更高级别先验来实现,例如,对多步到达的触觉的信念,如图6  的模拟所示。
3 Hierarchical models
到目前为止,我们已经引入了几个具有两种输入(隐藏状态先验和隐藏原因先验)的单元以及一种输出(0  阶观察)。在本章中,我们重点讨论如何将这些单元组合在一个网络中,以实现更先进、更高效的控制。为此,我们将使用第一个输入,将第二个输入的讨论留到下一章。
3.1 Intrinsic and extrinsic causes
最后一个单元提供了连续时间内的多步骤行为,在某种程度上解释了环境的动态元素。然而,在之前的所有模拟中,我们只考虑了单自由度手臂,而在现实生活中,我们通常处理更复杂的运动结构,例如人体。在这种情况下,关节角度和笛卡尔位置之间不再存在一对一的映射,因此我们需要区分本体感受和外感受(例如视觉)观察。与最优控制一样,连续时间主动推理考虑三个参考帧和两个反转:首先将外部信号(例如,编码目标的笛卡尔位置)转换为内部信号(例如,编码与通过逆运动学,将手放在目标处),然后通过逆动力学将其转换为实际的电机控制信号(例如,关节扭矩)  [95]。这两个过程也归因于人脑[96,97,98 ] ,但最优控制和主动推理之间在实践中如何展开存在很大差异。如前一章所述,在主动推理中,运动命令被本体感觉预测误差所取代,而本体感觉预测误差通过脊髓反射弧被抑制[34]。因此,逆动力学变得更容易,因为行动被搁置,智能体只需知道从本体感受状态到运动命令的映射  ‑  参见方程  7。
但是逆运动学又如何呢?回想一下我们在上一章中提到的观点,即“这是一个我想要到达的物体,它产生了我的动作”。主动推理将最优控制颠倒过来,认为行动是由外在原因(例如目标)的本体感觉后果(例如肢体长度的变化)驱动的[ 33]。直观上,我们可以对外部运动进行建模,如图  7a  所示,即使用以下动态和似然函数:
其中  T  是返回手部位置的正向运动学,J  是雅可比矩阵。
简而言之,手(以整个手臂的关节角度表示)嵌入到隐藏状态中,而要到达的目标(以笛卡尔位置表示)则被编码在隐藏原因中。首先通过直接使用逆运动学模型作为动力学函数的正向模型来找到运动所需的本体感觉状态,例如通过雅可比转置或伪逆[ 86,87,88,37,28,99,94 ] ;然后,通过本体感觉似然gp  (这里是一个简单的恒等映射)生成预测视觉似然gv最终用于更新目标位置并进一步细化代理配置的推断。这种方法意味着外部参考系被反转以生成内部状态,该内部状态又在第一个域中再次转换以与视觉观察进行比较。因此,在传播视觉预测误差εv时,正向和反向运动学执行两次,一次在动力学函数中,一次在感知推理的正向和反向传递中:
如果不临时存储预测,则需要增加计算需求和内存。至关重要的是,还有一个关于生物学合理性的额外问题:在动力学函数中使用感觉级吸引子意味着一个单元知道并可以使用似然预测的层内部分(通常假设全部进入感觉中枢)及其逆映射(这是较低级别的特征)。最后,图7a中的模型不允许代理在所需的外在坐标中表达路径,例如,用于实现线性或圆周运动,或者在内在和外在域中施加约束,例如当手持玻璃行走时。相反,我们可以利用公式  21  并遵循生成过程的自然流程,以避免重复计算,如图7b  所示。该模型依赖于两个层次结构,其中内在单元(编码手臂关节角度)放置在顶部,并通过外在单元(编码目标的笛卡尔位置)的正向运动学生成预测[44]:
拥有一个处理外在信息的完整单元(因此不会嵌入内在单元的隐藏原因中)允许代理指定其动态,从而导致内在和外在吸引子之间以及本体感受和视觉观察之间的有效分解  ‑如图8  的模拟所示。请注意方程  23  与方程  20  和  21  的相似性:如果在图  7a  的模型中,我们有两种不同的正向和逆向运动学,用于目标导向行为或预测当前观察结果,在与观察结果相比的情况已经包含对首选状态的偏差,而不需要动态函数中的感觉级吸引子。
尽管生成模型遵循最优控制的前向流程,但主动推理所特有的本体感受结果与外在原因之间的关系仍然成立,因为运动学反演考虑了操纵抽象(内在或外在)表示的高级过程,并且两者都存在。同意产生低水平的本体感受状态。正如  Adams  及其同事所指出的,“关键区别不在于从外部(运动学)框架中的期望状态到内部(动态)参考框架,但是从期望状态(在任一框架中)到运动命令的映射“ [34]。话虽如此,图  7  中表示的两个模型之间存在显着差异,可以将其与预测编码[16]  的两种监督学习模式进行比较前向模式将潜在状态固定为标签,将观察固定为数据可以生成高精度的数字图像,而逆分类任务则更加困难,因为标签和数据之间没有明确的映射;相反,将潜在状态固定为数据并将观察结果固定为标签的后向模式在分类方面实现了高性能,但在生成图像时却表现不佳。基于此,我们可以将图  7a  的模型解释为后向模式,该模式将快速生成适当的运动学配置,手位于目标处,但这很难从本体感觉推断出计划运动所需的手位置。相反,我们可以将图  7b  的模型解释为前向模式,该模式可以高精度生成手部位置,但是很难推断出实际实现运动所需的运动学配置。
3.2 A module for iterative transformations
 图  7b  中的模型引入了两个(内在和外在)级别之间的层次依赖性,这通过隐藏状态之间的连接而成为可能。相反,连续时间主动推理的典型方法是让一个级别的隐藏状态和原因与下级的隐藏原因(而不是隐藏状态)交换信息,如图  9a  所示。虽然这允许人们为下面的单元强加动态轨迹,但为  0  阶隐藏状态指定固定设定点并不那么简单,因为隐藏原因生成的动态预测误差必须返回到先前的时间顺序。从图  7b  可以清楚地看出,在设计分层模型时,隐藏状态之间的连接极其重要。事实上,如图  9b  所示,它对于定义离散模型中较慢时间尺度的初始状态至关重要,例如,在象形文字阅读中[47]。还可以对  PCN  的分层连接进行类比,因为单元在多输入和多输出系统中连接,为下级定义静态先验[16]   如图  9c  所示。
按照这两个例子和前面的运动学模型,我们使用一个级别的观察来直接偏置下面级别的 0 阶隐藏状态。因此,观测预测误差和先验预测误差等式 4 的由同一变量表示:
其中层次级别用上标表示,较低级别用递增的数字表示。然后,我们可以设计一个多输入和多输出系统,其中一个级别强加并接收先验和观察到几个单位,如图  9d  所示。那么,隐藏状态的更新就变成了:
其中上标符号(i,  j)表示第i  个层次级别以及同一级别内的第  j  个元素。显然,这是  PCN  的类似分层连接 计算每个前向和后向预测误差的平均值 但增加了由方程最左边和最右边项表示的模型动态。
与浅层代理相比,深层分层模型具有哪些优势?如果我们考虑图7b的结构,尽管提供了相对于图7a中的模型更先进的控制,但其用途仍然限于解决简单的任务,例如用手执行操作。虽然多个肢体的同时协调当然是可能的,但它需要复杂的动力学函数,并且复杂性随着关节数量和运动链分支的增加而增加。至关重要的是,浅层智能体无法捕捉生成过程固有的层次因果关系,从而使人们能够预测和预期每当对身体状态的偏见信念产生运动时就会展开的局部力量交换。正如引言中提到的,如果需要灵活地使用外部工具来完成操作任务,那么还需要一个深度模型。除了正向运动学中发生的旋转平移之外,迭代变换在计算机视觉中也很重要 图像可以进行缩放、剪切或投影 更一般地说,当改变坐标向量的基础时。
其中 是逐元素乘积。这些方程表达了最有可能生成新参考系的内在和外在状态。如图 9e 所示,模块通过外部单元链接,而 U 执行内部操作,对分层连接没有贡献。将此架构应用于运动学,我们可以实现具有多输出系统的分层模型,其中级别的内在隐藏状态 x) 编码单个 DoF 的一对关节角度和肢体长度。迭代地将旋转平移应用到原点(例如,以身体为中心)参考系 x)(由笛卡尔位置和绝对方向组成)将根据外部坐标确定代理的运动学配置[44]。除此之外,与 PCN 不同的是,我们现在可以轻松表达每个关节和肢体将如何进化。或者 - 从主动推理的角度来看,这是相同的 - 代理打算如何移动其关节和肢体,提供高度先进的控制,如图 [10a 和 106] 的模拟所示。除了对肢体动力学进行建模之外,IE模块还可以应用于非仿射变换,例如透视投影。如图 10c 所示,这对于通过并行预测(例如,从眼睛或多个摄像机)估计对象的深度非常有用主动推理根据目标固定进行的过程[66]。该架构的模块化允许代理在 2D 投影平面、眼睛的 3D 参考系或简单的聚散调节角中定义动态吸引子
3.3 The self, the objects, and the others
在描述图  7b  时,我们忽略了开头介绍的一个关键机制:动态目标导向行为的对象表征。回想一下,隐藏状态不仅并行编码自我,还并行编码环境实体;然而,代理的模型现在分层地描述了生成过程:
对于自我来说,这有一个简单的解释,即,它只是根据其关节角度逐个生成运动链每个节段的位置。对于一个对象,将其视觉观察附加到特定级别的第二个外在隐藏状态将导致后者对其笛卡尔位置进行编码。那么前面的所有级别应该如何解释呢?如果生成模型为自身和对象保持相同的层次结构,则反向传播第二个组件的外在预测误差将最终推断出与对象相关的潜在代理的配置。例如,如果对象链接到最后一个(即手)级别,则这将表示对象位置处的手,而所有先前级别将对应于生成该最终位置的适当中间位置和角度。换句话说,隐藏状态和可能性的额外分解并不像以前那样编码简单的目标角度或位置,而是代理认为适合与对象交互的自我的整体配置。由于每个级别都可以通过其隐藏的原因来表达特定的动态,因此该潜在配置的推断将被引导以匹配对象的可供性和代理的意图(例如,通过手柄或用整只手抓住杯子)。这种推断的信念将受到仅用于来自对象的外感受信息,而本体感受状态仅用于更新代理对其当前配置的信念。
除了对对象动态进行建模之外,该策略在多智能体环境中也很有用。人们可以维护一个关于另一个代理的运动链的分层生成模型,该模型可以通过从不同的以身体为中心的参考系开始对其所有位置和关节角度进行外感受观察来推断。如图  11  所示,用于外部对象的目标导向方法也反映在这种情况下:代理可以通过并行分层路径表示与其自身相关的第二个代理,表达特定类型的交互(例如,第二个特工的手就其自己而言,导致摇晃动作)。从生物学角度来看,这两种情况可以解释为模拟镜像神经元的功能,每当受试者执行自愿的目标导向动作或其他受试者执行该动作时,镜像神经元就会放电[101]。用其他人的运动链建立一个内部模型 无论是本身还是与自我相关 对于预测(从而理解)他人的意图至关重要。按照这种观点,神经活动的结果是因为智能体根据其假设和当前上下文对其运动结构进行不断的预测  [102,  99]。
从图  12  的模拟中可以更好地理解主动推理下的自我、对象和其他主体之间的关系,该模拟显示了两个具有相互依赖的目标不兼容的主体。在这里,两个代理都能够使用潜在配置和实际配置的有效分解来推断不同运动链的并行表示。注意一个人当前的信念如何始终处于要实现的未来状态和实际配置之间;这谈到了主动推理的基本方面之一,即我们的信念从来没有真正反映世界事务的状况,而是总是偏向首选状态 最终驱动行动。一般来说,身体状态、物体或其他主体都可以在适合特定上下文的参考系中进行操纵;这与皮质柱使用以对象为中心的参考系来编码外部元素和更抽象实体的假设是一致的[103]。这种方法也与主动预测编码[104]和递归神经程序[105]有一些类比,它们通过递归地将参考帧变换应用于场景的各个部分来解决计算机视觉中的部分‑整体层次结构学习问题。
4 The hybrid unit
我们提出的所有分层模型都无法模拟涉及提前规划行动的现实应用程序。在本章中,我们将讨论如何将离散决策集成到连续电机控制中的问题。在此过程中,我们将重新审视第一章的基本单元,最后使用第二个输入 先验隐藏的原因。
4.1 Dynamic inference by model reduction
考虑图  5b  中的单元:回想一下,实现了某种多步骤行为,但这取决于关于不同模式的更高级别的先验。在大多数情况下,我们需要根据较低级别的信息转换意图,提供更具动态性和更少不确定性的行为。以拾取和放置操作为例,如果  IE  模块不仅可以依赖于触觉信念,还可以依赖于其内在和外在的隐藏状态,那么它会对第一次到达运动的成功更有信心。换句话说,隐藏原因v应该设法有效地利用其先验ηv和动态预测误差εx。后者根据其流入的路径承担两种不同的角色:相对于隐藏状态的梯度推断最有可能生成当前轨迹的位置;相反,相对于隐藏原因的梯度推断出最可能的增益vm  组合,表明轨迹的当前状态并导致意图的动态调制。然而,这条路径存在一些问题,因为隐藏的原因是由高斯分布生成的,并且没有编码正确的概率。因此,梯度∂νfx仅推断出多种可能的增益组合中的一种,并且只有在简单的上下文中并且做出适当的假设时,  “推断生成当前轨迹的最可能的意图”才有意义。因此,为了实现正确的意图选择,我们假设隐藏原因是从分类分布生成的:
其中Hv是类似于 ηv 的意图偏好。这样,  v的每个离散元素就代表了实现特定连续轨迹的概率。
它们具有与等式  18  和  19  相同的形式。事实上,隐藏状态仍然感知到包含每个意图的总贡献的单个动态预测误差。对于自下而上的消息l,它们首先被找到在离散隐藏原因和连续隐藏状态之间执行贝叶斯模型简化可以让代理在每个时间步更新其简化的先验。  (c)  简化图,仅显示混合控制的自上而下(红色)和自下而上(蓝色和绿色)消息的交换。
有关拉普拉斯假设下  BMC  的完整推导,请参阅[60,  61] ,有关所提出方法的更多详细信息,请参阅[68] 。公式  35  是与公式  12  类似的离散形式,但现在自下而上的消息编码了适当的离散分布,并且可用于推断与当前动态轨迹相关的最可能的意图。
该模型的因子图,我们称之为混合单元,显示在图13b中,其每个连续瞬间的推理过程更容易理解,如果我们分别分析图13c中显示的三条不同路径:
(i) 在前向传递期间,单元接收到一个离散的意图先验 Hv,执行与动态生成轨迹相关的每个环境实体的推断信念的BMA,并施加一个关于一阶的先验
(ii) 通过第一次反向传递,单元通过比较当前轨迹与动态函数生成的轨迹来累积与当前轨迹相关的最可能的意图;
(iii) 在第二次反向传递中,单元将动态预测误差传播回零阶,以推断与轨迹相关的最可能连续状态,最终生成偏倚观察结果。经过一段时间 T,单元最终计算离散先验和累积证据之间的差异,生成新的意图组合,然后重新开始该过程。
这种动态推理有多种用途,例如,它可以用于推断代理正在跟踪多个对象中的哪一个(如图  14  所示),方法是为不同对象生成轨迹并将其与它感知的轨迹进行比较  [ 68 ]。最后一点,方程  30  和  34  的动力学精度在这里有一个有趣的解释,与观测精度πo  相关。主动推理和预测编码假设,每当智能体感知到有关感官模态的高噪声时,该生成模型的精度就会下降,因为它不能被信任来理解世界的事态[11,  12]。此外,自由能原理固有的行动和感知之间的二元论告诉我们,精度的优化(被认为被编码为突触增益)可以在选择性采样感觉数据的注意力机制中发挥至关重要的作用[106,  107 ]。基于这个假设,我们可以将低精度πx,m解释为代理对最小化当前上下文中的预测误差的意图的信心下降;然而,低意图精度也可能意味着智能体不打算依赖它来实现预期目标。简而言之,对于解释情况(例如,理解远离手的物体的抓取动作的结果)或解决任务(例如,当物体超出范围时抓住物体)的意图精度有双重解释)。除了我们之前提到的隐藏原因的快速推断之外,这种观点还揭示了一种额外的机制:缓慢学习降低的精度,让智能体评分 最重要的是,关注 那些适合特定场景的意图[68] 。
4.2 A discrete interface for dynamic planning
大量研究表明,运动员大脑的后部和皮层下区域的激活程度较高,很少或根本不涉及有意识思维,从而在不同运动之间产生流畅的转换;相反,新手的大脑对前额叶计算的要求较高,从而导致性能较低[108,109,110 ] 。从主动推理的角度来看,我们可以将运动员的熟练程度与图  5b  的连续模型(对应于皮质下感觉运动环)进行比较。该模型编码的转换机制不是很灵活,但正是由于这个原因,它能够更快地对环境刺激做出反应,例如,当抓取高速移动的物体时[74]。一般来说,当环境的不确定性有限并且要解决的任务包含代理已经正确学习的严格动作序列时,此策略可能非常有效。然而,假设代理被引入一项新颖的任务,或者一项需要仔细思考即将到来的未来的高度复杂的任务。在这种情况下,如果出现意外情况,它应该能够重新规划正确的行动顺序,而总是为隐藏原因产生先验确定的行为的高级信念将无法完成任务
将图  5b  的连续隐藏原因替换为图  13b  中的离散隐藏原因后,我们现在可以通过由以下分布组成的离散模型赋予代理规划能力  ‑  如图15  所示:
请注意,在上述方程中,似然矩阵A表示离散隐藏层上的条件概率导致vτ 。 与传统的混合模型一样,离散隐藏状态与隐藏原因相关,但现在后者直接充当似然矩阵生成的离散观测值,从而取代了公式  29中的先验Hv 。
计算策略π上的后验概率变成了寻找使智能体符合 定义的双重目标的最佳动作。这里,离散动作并不是像等式  7  那样的实际运动命令,而是作为高阶抽象动作水平表示。事实上,主动推理中离散模型的层次性质使得通过时间尺度的分离来执行决策成为可能,其中特定级别可以生成并推断下面级别的状态和路径[ 111,112,113 ]。进一步评估较长时间范围内的行动后果可以提供更先进的规划,称为复杂推理证据。
[114]。用未来的自由能计算动作与连续模型的电机控制不同,连续模型的电机控制只是最小化当前状态的自由能。
在图15的组合结构中,混合单元的作用是像以前一样,从离散意图先验中预测动态轨迹,并推断出连续周期T内最可能的意图。但是现在生成了意图先验来自决定在当前情况下下一步采取哪些行动的高层政策:
其中lτ是时间 τ时的自下而上消息。如前所述,整个连续时间段内的证据累积是在混合单元内完成的。在分层设置中,这是特别有用的,因为如果我们将几个单元连接到离散模型,那么每个单元都有一个独立的接口,通过该接口离散模型计算不同的信号,并等待下一步τ + 1,那时它可以根据多个累积的证据推断其隐藏状态:
在这里,是发送第i个混合单元预测的似然矩阵。通过这种方式,也可以基于相同的高级策略同步不同连续信号的行为。例如,可以通过移动对象实现拾取和放置操作,如图16所示,分别在外部和内部域中产生平稳过渡的抓取和放置动作。请注意,两个动作之间自然产生了一个中间阶段,对应于一个复合的接近运动。原则上,通过学习意图精度可能可以解释运动技能学习是如何发生的,通过连续意图和离散策略之间的消息传递。此外,通过这种动态规划,代理可以在同一离散周期τ内推断和实现即时轨迹,例如,在不等待后续重新规划步骤的情况下抓取移动物体。最后,请注意,为了正确维持目标状态,我们现在需要引入一个隐含因素,大致对应于离散任务中常用的停留动作[55]。这个隐含原因可以与一个身份意图相关联,即,,可以解释为代理希望维持世界当前状态的愿望。再次强调,行动和感知之间的二元性也将这个隐含原因与任务的初始静止状态联系起来,并转化为对纯感知推理阶段的镜像愿望 - 就像图6的模拟中所显示的那样。
4.3 Hierarchical hybrid models
图  17  描绘了一个分层混合模型,旨在解决灵活的工具使用任务[100]。它结合了分层公式的表达能力推断和施加混合单元固有的动态多步骤意图的优点以及对外部对象和其他代理进行编码的可能性。如图  15  所示,IE  模块与顶部的离散模型进行通信,但现在它们以分层方式组合,概括了代理的运动链。结果,出现了两种不同的目标导向策略。考虑到简单的到达运动,在手部水平施加的吸引子将产生一系列外在预测误差,这些误差流回先前的水平并找到手在目标上方的合适的运动学配置。
这对应于沿着混合单元发生的水平分层深度,并且可以与婴儿典型的运动牙牙学语的过程进行比较[115],从而在不同的分层级别生成随机吸引子以确定正确的身体结构。除了这种幼稚的策略之外,由于离散模型现在可以为每个  IE  模块(内在和外在领域)生成意图,因此一旦正确执行逆运动学,就可以实现更高级的行为,这为整个模型施加了特定的路径。运动链。这对应于具有两个(离散和连续)时间尺度的垂直分层深度,将较低层的推理过程引导到一个方向,例如避免奇点或摆脱由排斥性产生的局部最小值。
因此,前向和后向外在可能性与离散模型的自上而下调制之间存在微妙的平衡:
其中是方程 33 先验轨迹的梯度。从离散模型的角度来看,离散隐藏状态为每个混合单元产生隐藏原因的特定组合;这个组合产生一个连续域中的复合轨迹加权独立意图,考虑整个离散步骤的动态元素。在这段时间之后,每个混合单元的证据都会积累起来,最终推断出最有可能产生自我和环境轨迹的离散状态。
在需要使用工具的任务中存在一个重要的问题,例如用棍子的末端触及球。就像其他智能体可能具有与自身不同的运动结构一样,工具也可能有自己的层次结构(例如,即使是一根简单的棍子也由两个笛卡尔位置和一个角度表示),必须以某种方式集成到智能体的生成模型中。具体来说,用工具的末端到达物体意味着定义一个由新的虚拟水平增强的潜在运动链,让代理将工具视为其手臂的延伸。这可以通过将工具的两个视觉观察链接到隐藏状态的第二条路径中的手和虚拟水平来实现,如图  17  所示。由于  IE  模块的固有单元也编码有关肢体长度的信息,因此代理可以通过视觉观察不仅推断出其运动结构,还推断出工具的实际长度[116]。虽然第二条路径仍然以工具和手臂之间的明显区别为标志,因为手水平仪接收来自两个元件的观察,但构建第三条路径使得对球的观察仅与虚拟水平仪相关联。因此,这种新的潜在配置将手臂和工具视为同一运动链的一部分。这三个途径之间的相互作用(如图  18  所示)可能有助于揭示随着工具的广泛使用,运动皮层的重新映射逐渐发生[6,  7],改变了自我与环境之间的界限。
5 Discussion
尽管在这个相对较新且有前途的研究领域取得了许多进展,并且在不同科学领域中越来越受欢迎,但目前的一个缺点是,迄今为止,关于低级运动控制和高级行为的研究有些不同,这使得使用两个高度镜面但分离的框架。因此,对于如何实现动态规划(即如何在不断变化的环境中执行决策)以及处理复杂任务的最先进的解决方案通常将主动推理与传统机器学习结合起来,尚未达成共识方法。从理论角度来看,一些著作提出了一种有效而优雅的方法,将离散和连续表示的能力组合成单个生成模型[47,  58];然而,这种混合方法还没有达到那么成熟,其结果是文献中关于该主题的研究少得多,没有应用于动态环境的研究。
出于这个原因,我们试图在这里对这个尚未探索的方向给出一个全面的看法,比较关于目标导向行为的几种设计选择,目的是使运动控制和行为研究更加接近。作为一个实际目标,我们决定对工具使用进行建模[100],这项任务不可避免地需要离散和连续框架,并且需要考虑两个额外的方面,即对象可供性和层次因果关系。在简单的场景中,将要达到的目标视为某些隐藏状态的原因是一个合理的假设,并使代理能够在动态上下文中运行。但假设存在多个对象,智能体如何决定哪个对象将导致特定操作呢?如果目标沿着一条不平凡的路径移动怎么办?如果隐藏状态被分解为编码多个实体的独立分布,则可以从不同的角度看待隐藏原因,即它们将通过灵活的意图操纵隐藏状态[43,44,74 ] 。这些实体中的每一个都有自己的动力学,允许代理预测例如移动球的轨迹。然后,该单元被扩展以构建复杂的层次结构,例如,用于模拟人体运动学[44],并执行更通用的参考系变换,例如透视投影[57]。隐藏状态的层次分解现在假设了更广泛的视角,也可以解多主体交互 这个方面也在离散框架中进行了分析[117]。最后,我们设计了一个具有离散隐藏原因和连续隐藏状态的混合单元,通过贝叶斯模型简化[68]提供动态推理,当与更高级别的离散模型结合使用时,可以模拟涉及在线规划的多步骤任务的行动。这表明连续域中的意图推断与离散模型中的策略之间存在进一步的并行性
尽管如此,真正的问题是我们如何在不将我们的先验知识嵌入到代理的生成模型中的情况下达到这样的性能。尽管与许多专注于运动控制不同方面的连续时间实现无关,但一个常见的批评是生成模型的结构通常是先验定义和固定的,具有复杂和硬编码的动力学函数,这引起了对生物合理性的一些担忧。相比之下,  PCN  的一个吸引人的特性是它们用神经网络连接的典型的极其简单的函数来模拟大脑处理(例如,传递给非线性激活函数的权重和偏差的线性组合)。这使得网络能够轻松适应高维数据,与自上而下调制的深度学习相比具有一些关键优势[16]。虽然大部分研究涉及静态表示,但一些研究开始解决如何使用预测编码来学习时间序列[118,  119],或解决RL  任务[120,  104,  121]。在这里,我们演示了如何通过简单的似然函数和动态函数来实现主动推理中的生成模型,与  PCN  的推理过程有一些相似之处。基于这些发现,一个有前途的研究方向是模仿它们的多输入和多输出架构(如图9d  所示),以便智能体不仅能够以生物学上合理的方式学习其运动学配置和系统动态,但也要对它们采取行动以符合先前的信念。
在连续环境中学习策略并不是一个容易的挑战,但用不同于传统方法的策略来解决它可能是推进当前智能代理、在主动推理和自由能原理的基础上实现全部理论潜力的关键。在这个问题上,最先进的技术是通过深度神经网络来近似似然和转移分布[ 77,122,123,82 ] 。虽然与深度强化学习相比有一些好处,但这仍然降低了神经网络内的层次结构,通常使用单级主动推理代理。一项研究使用生物学上更合理的  PCN  作为生成模型[121],但依赖于类似的方法。正如[50]中广泛分析的那样,神经网络可以被视为静态生成模型,在最后一级具有无限精确的先验并且没有隐藏状态。该架构可用于执行稀疏编码或主成分分析(PCA);然而,它无法考虑动态变量,例如反卷积问题或状态空间模型中的过滤。因此,时间深度(无论是离散的还是连续的)是推断最准确的环境表示的关键,事实上,皮层柱似乎能够表达模型动态(例如,前额叶皮层不断参与预测未来状态和运动)  ‑  早期视觉皮层中也记录了敏感神经元[124])。虽然时间序列确实可以通过循环神经网络或变压器等深层架构轻松处理[125],但它们的被动生成机制仍然可以反映主动推理代理的行为。与这种被动的人工智能相比,基于感觉运动经验并主动改变环境可能是真正理解的出现的基础[126]。总而言之,这些事实表明,针对中间级别的广义运动坐标或离散未来状态进行操作可以为解决强化学习任务带来多种优势。例如,以分层方式表示代理可以对其整个身体结构进行高度先进的控制,这是仅生成手部位置的单个级别无法实现的[44,  116]。
那么如何在层次模型中学习动态规划呢?在[127]中,强调了在考虑结构学习时离散的重要性。事实上,与连续模型相比,分层离散模型提供了更多的表现力,最重要的是,它源自计算预期自由能的简单性,允许代理在不久的将来规划行动。尽管如此,正如弗里斯顿和同事指出的那样,使用连续还是离散表示取决于模型证据。具体来说,当证据具有连续性时,例如在处理时间序列或欧几里德空间时,前者可能具有更好的性能。事实上,图  18  中举例说明的任务是有效的,因为贝叶斯模型简化在代理操作的外部空间上执行动态证据积累。因此,将图  17  中混合单元的分层深度与分层离散架构(而不仅仅是单个离散级别)耦合可以带来在不断变化的环境中也能进行有效的结构学习。另一种方法是以分层方式组合由联合离散连续模型组成的单元(如图  15  所示),这将允许在每个单元内执行动态规划。虽然这种解决方案可能没有经验证据的支持,但从机器学习的角度进行探索,将中央离散决策的假设与局部决策的分布式网络进行对比,这可能是一个令人鼓舞的方向。
第三个有趣的话题是运动意向性。尽管多步骤任务通常是在离散级别上处理的,但我们在这里表明,在适当的假设下,也可以在连续级别上实现和分析不平凡的行为。我们定义的灵活意图可以与运动技能学习的高级阶段进行比较,包括不需要有意识决策的自主且平稳的运动[74]。
尽管如此,在这种情况下模型的结构也是预定义的。在重复执行同一任务时,这种意图是如何出现的?智能体如何评估哪些意图适合特定环境?正如上一章提到的,意图精度的优化很可能涉及简化模型的自由能(见公式  34)。这个过程可以揭示离散行动如何从低级连续意图中产生,以及反过来,后者如何从复合离散行动中生成。最后,一些研究提出了不同时间尺度上展开的政策之间的额外联系,要么直接[112,  113] ,要么通过离散的隐藏状态[111]。这种方法也可以在混合和连续的上下文中采用,以便可以通过整个层次结构中隐藏原因之间的本地消息传递来传播灵活的意图。



大语言模型无法实现具身智能:5万字自我模型


https://github.com/priorelli/dynamic-planning


CreateAMind
ALLinCreateAMind.AGI.top , 前沿AGI技术探索,论文跟进,复现验证,落地实验。 鼓励新思想的探讨及验证等。 探索比大模型更优的智能模型。
 最新文章