探索和学习结构:导航代理中的主动推理方法

科技 2024-10-27 19:45 上海

Exploring and Learning Structure:Active Inference Approach in Navigational Agents

探索和学习结构:导航代理中的主动推理方法

https://arxiv.org/pdf/2408.05982

摘要。

受动物导航策略的启发，我们提出了一种基于生物学原理的新型计算模型，用于导航和绘图。动物通过有效利用记忆、想象力和战略决策，在复杂且存在混淆的环境中展现出卓越的导航能力。基于这些见解，我们将传统的认知绘图方法与主动推理框架（AIF）相结合，只需几步就能学习环境结构。通过整合用于长期记忆的拓扑绘图和用于导航规划及结构学习的主动推理框架，我们的模型能够在探索过程中动态理解环境结构，并根据预测的信念扩展其内部地图。与克隆结构图（CSCG）模型的对比实验突出了我们的模型能够在单个场景中快速学习环境结构的能力，且导航重叠度极低。这是在不知晓环境维度或观测类型等先验知识的情况下实现的，展示了我们的模型在导航模糊环境中的鲁棒性和有效性。

关键词：探索·主动推理·拓扑图·结构学习。

1 引言
一个功能完善的导航系统必须无缝地完成三个关键功能：自我定位、绘图和路径规划。这既需要一个用于空间感知的传感组件，也需要一个能够延伸这些感知的时间和空间范围的存储能力[33]。动物展现出了快速学习环境结构的惊人能力，通常仅在一次或几次访问中就能实现，这依赖于记忆、想象力和战略决策[32,26]。
海马体和新皮层在情景记忆、空间表征和关系推理中发挥着至关重要的作用。哺乳动物依赖于空间结构的心理表征，这些表征传统上被视为认知地图或认知图，将环境空间概念化为由节点组成的网络[33,25,7,1]。
最近的研究表明，结合这些概念的综合方法更为有效[23]。

我们的方法采纳了这一观点，提出了一种包含内部运动（欧几里得参数）的拓扑地图，以描绘空间体验。啮齿类和灵长类动物中存在的神经定位系统支持自我定位，并为位置之间的距离和方向提供度量标准[33]。该系统包括位置细胞、方向头朝向细胞[15]、网格细胞[2]、速度细胞[14]和边界细胞[30]，它们协同工作以实现快速学习、消除混淆以及全面理解空间导航[5]。

基于这些概念，我们引入了一种新型模型，该模型能够动态学习环境结构并扩展其认知地图。通过整合视觉信息和本体感受（推断的身体运动），我们的模型在其认知地图中构建位置和连接。从不确定性开始，模型设想行动结果，通过将假设纳入其生成模型中来扩展其地图，这类似于贝叶斯模型简化[9]，即在接收到新观测值后扩展其模型，而我们则在预测信念的基础上进行扩展。这一过程使我们的模型能够使用主动推理导航方案[17]，以最少的步骤高效地导航和理解环境结构。与克隆结构图（CSCG）[24]相比，我们的模型能够更高效地快速学习环境布局。图1展示了一次探索过程，从左到右依次为完整环境、提取的观测值和探索路径以及代理生成的内部地图。

2 相关工作
动物在导航过程中经常会因为混淆（aliasing）而遇到模糊的感官输入，导致出现重复性的观测，例如遇到两条极为相似的走廊。为了成功导航，它们必须迅速消除环境结构的歧义。

已经提出了诸如克隆结构图（CSCG）[12]或Transformer表示[4]等模型，以形成能够通过部分观测来消除混淆环境中歧义的认知地图。然而，这些模型需要使用随机或硬编码策略进行大量训练时间。相比之下，动物会根据微妙的线索和激励来调整自己的行为，学习以最少的实例进行导航[32]。

动物展现出由想象力（估计行动的后果）和对环境的整体理解驱动的决策能力，自然而然地想象未访问的区域并指导自己的下一步行动[2]。这种直观的决策过程会考虑诸如食物或安全等激励，迅速引导它们朝着目标前进[26]。

将观测结果与本体感受相结合[33]有助于动物绕过混淆，使用类似于主动推理的判断过程[17]。主动推理涉及根据感官输入不断更新内部模型，从而实现自适应和高效的决策制定。这一规范性框架通过假设行动和感知旨在最小化自由能，来解释认知处理和大脑动力学，自由能包含了可观察结果、行动和隐藏状态之间的因果关系[22,8]。

自适应行为的核心在于利用（基于现有信念选择最有价值的选项）和探索（选择有助于学习的选项）之间的平衡[27]。最近的行为证据表明，人类会混合使用随机和探索性目标导向行为[11]。我们的模型通过最小化自由能来实现这一平衡，选择随机策略以增强对环境的理解。这能够实现主动学习，迅速减少模型参数的不确定性（即减少我们信念的不确定性）[27]。

通过自由能平衡好奇心和目标导向行为，我们的系统能够以有意义的方式引导智能体，并以生物上合理的方式学习[22]。它实现了类似于迷宫中小鼠的少样本学习或一次学习[26]。通过将行动的结果投射到内部地图上，智能体能够将其想象力扩展到已知领域之外，提高其探索任何维度环境的导航能力。

3 方法

在我们的研究中，智能体在没有关于即将导航的地图的观测和维度的任何先验知识的情况下，开始探索环境。随后，我们将阐明智能体如何在每一步中推断当前状态，这是一个融合了观测和本体感受（给定运动的位置感知）概念的过程。这个推断任务涉及根据最新的观测和运动更新过去的信念，遵循部分可观测马尔可夫模型（POMDP）的原理。从此，智能体在战略上设想了一系列探索动作，即策略，同时不断扩展其内部地图，以容纳具有不确定先验的潜在未探索区域。尽管智能体可能知道这些区域的相对位置，但它无法预见观测结果。这一迭代且多步骤的过程构成了智能体在环境中自适应学习和导航策略的基础。

3.1 推断与空间抽象

在主动推断（AIF）的背景下，推断智能体的当前状态涉及在部分可观测马尔可夫决策过程（POMDP）中整合感官输入和先验信念。我们认为，我们的推断机制在分层空间框架内的最高抽象级别上运行[31]，其中较低层次处理观测变换和阻塞路径的概念，类似于视觉皮层处理视觉观测以及边界细胞感知运动限制的方式[30]。图1展示了智能体在环境中导航的情境，其中门表示过渡到不同状态，而墙壁对应障碍物。我们赋予智能体一个概念，即门通向另一个位置，而墙壁导致观测结果相同且姿态保持不变。在图1的中心，我们看到了智能体走过的路径以及我们的模型感知到的观测结果，展示了观测结果如何在最高抽象级别上被简化和概括为每个房间单一的颜色（地板颜色）。智能体根据其探索路径生成的内部拓扑地图如图1的最后一帧所示。指导这一推断过程的潜在POMDP模型如图2所示，其中当前状态st（定义一个房间）和位置pt（该房间的位置）是基于前一个状态st-1、前一个位置pt-1和导致当前观测ot（该房间的颜色）的动作at-1推断出来的。捕捉这一过程的生成模型由等式1描述，其中制定了状态、观测和动作的时间序列上的联合概率分布。波浪号用于表示随时间变化的序列。

经典的推断方案主要依赖过去和当前的经验来定位智能体在其环境中的位置。如果仅使用观测，智能体将难以区分不同位置的相似观测（即别名观测）。通过将观测与智能体的本体感受（位置感知）相结合，模型在区分模糊环境方面要更加稳健。在没有先验信息的情况下，内部定位p0在探索开始时被初始化，并随着智能体在房间之间移动（例如，通过门）而更新，只要智能体对其当前状态有信心。显示姿态、状态和观测之间关联的POMDP因子图如图2所示。

如果智能体被“绑架”并重新定位到其他地方，观测o和推断出的位置p将不符合预期，并且智能体对当前状态的信心将降低。如果状态的信心低于某个给定阈值，智能体将停止根据新信息更新其内部模型，并专注于重新获得对其状态/位置的信心。

然而，推断位置p不仅仅能提供定位稳健性，它还是通过参数学习将尚未探索的区域整合到模型中，从而扩展内部地图的关键。

3.2 参数学习

在主动推断框架下的学习包含对模型参数相关信念的调整，例如转移概率P(st|st−1)（例如，房间是如何连接的）和似然概率P(ot|st)（例如，一个房间的外观）。这些参数反映了环境的结构连通性以及在特定状态下预期的感官结果。主动推断中的生成模型依赖于关于参数分布的先验信念，而更新则是由主动推断框架驱动的[22]。

其中，P和Q分别是模型的联合分布和近似后验分布。模型根据观测数据和转移来更新其参数，在遇到新信息时，会扩展观测矩阵A的维度，如[29]所示。在初始化时，将高确定性分配给整合了首次观测的似然概率。在实现基于先验的参数更新后，模型会根据预测的转移来编辑其内部地图的维度和参数，从而在所有状态维度上扩展所有参数，进而改进对任何未知大小未探索环境的探索。

3.3 在模型参数中融入空间动态

为了扩展内部地图（即我们的状态空间），我们提出了一种新方法，其中智能体在考虑检测到的障碍物的情况下，预测所有方向上的一步策略结果。给定一个运动，Bp可以扩展其位置维度，而Ap则考虑在给定位置下处于给定状态的概率。当我们在某个方向上预测新位置且没有障碍物时，Bp会扩展。如果预期的运动导致到达一个未访问过的位置，则模型中不存在st+1。此时，状态是未定义的，而位置pt+1是确定的，因此所有马尔可夫矩阵的预期状态维度都会增长，以匹配这一新预测。这一过程使得观测和位置似然（Ao, Ap）以及状态转移（Bs）的维度能够动态扩展，以考虑新状态st+1，这一过程与[9]中的过程等效。随后，可以通过相同的方程4（此处以转移矩阵的形式展示）来更新状态转移概率（Bs）和位置似然（Ap）。

如果未检测到障碍物且预测到新位置，则st+1是一个新状态，否则为相同状态st。相较于想象中的转移，对于实验中的转移，我们设置了更高的学习率，这样与已访问的地方相比，我们对预期地方形成的新连接会更弱，这符合我们对动物突触学习的预期[6]。Ao在状态维度上有所增长，但缺乏关于在该位置预期的具体观测ot+1的信息，因此该状态呈现均匀分布。这样的区域在其观测似然模型中表现出高度的不确定性。利用这些先验信息，智能体可以利用主动推断方案来确定将自己引向何处以最大化其目标（例如，形成环境的全面地图）。虽然之前的模型如[9,29]会调整其内部模型的增长以适应新的观测模式，但我们扩展了这一概念，以预测未访问区域并生成没有观测的新状态。因此，在寻求信息增益时，这些未知状态极具吸引力，并大大改进了探索策略。

3.4 主动推断中的策略选择

策略选择在探索模型生成的预期状态中起着至关重要的作用。主动推断（Active Inference，AIF）基于最小化预期惊讶和不确定性来指导智能体的决策过程。由主动推断提供信息的策略选择决定了智能体对感官输入和内部信念的响应动作和地图扩展。

通常，假设智能体希望最小化其变分自由能（F），这可以作为量化联合分布P和近似后验Q之间差异的度量，如方程5所示。

主动推断智能体通过参与三个主要过程来最小化其自由能：学习、感知和规划。学习涉及优化模型参数，感知涉及估计最可能的状态，而规划则涉及选择导致最低预期自由能的策略或动作序列。本质上，这意味着该过程涉及形成关于隐藏状态的信念，这些信念为观察到的结果提供了精确且简洁的解释，同时最小化了复杂性。

然而，在规划过程中，我们使用预期自由能（G），它表示智能体在执行策略π后预期的变分自由能。与专注于当前和过去观测的变分自由能不同，预期自由能融入了由选定策略生成的未来预期观测。

预期信息增益量化了智能体在追求特定策略时，其关于状态的信念从先验Q(sτ |π)到后验Q(sτ |oτ , π)的预期变化。另一方面，效用项评估了在选定策略下观察到期望结果的预期对数概率。这个值直观地衡量了策略将引导智能体朝向其先前偏好的可能性。在本研究中，我们没有给智能体任何先前偏好，因为它对环境（未知观测和地图大小）一无所知。

为了计算策略中每一步τ的预期自由能G(π)，我们将每个时间步的预期自由能相加。

为了找到最佳策略，我们回顾一下，主动推断通过选择最小化预期自由能的策略来实现目标导向行为，从而旨在产生更接近期望结果或先前偏好的观测。这是通过如方程8[19]所示设置策略上的近似后验来实现的：

其中，σ表示softmax函数，通过超参数给出的温度参数γ进行调整，将策略的预期自由能转换为策略上的分类分布。然后基于这个后验分布对动作进行采样，较低的温度会导致更确定性的行为。

在没有明确偏好的情况下进行导航，我们期望获得最高的信息增益，从而有效地推动智能体向其预期但不知道会发生什么的状态前进。

4 结果

我们探索了实验场景，其中智能体在具有基本运动和静止运动的网格环境中进行导航。智能体无法直接获取环境的地图，并且视觉观测被认为经历了分层处理，从向量转换为与每个房间对应的单一描述符（即颜色）。它们接收局部感官输入，对应于它们当前所在的房间。感官输入可能在不同位置重复出现（别名观测）。给定一系列离散化的以自我为中心的观测和动作，智能体必须推断出其环境的潜在拓扑结构，以评估各种导航选项。从别名观测中学习这个潜在图对于大多数人工智能体来说是一个挑战[18]。我们将我们的模型与CSCG[10]进行了对比，CSCG是隐马尔可夫模型（HMM）的一种专门变体。CSCG采用概率方法，使用动作-观测对序列，而不假设欧几里得几何。每个观测对应于一组称为克隆的隐藏状态子集。尽管这些状态具有相同的观测似然性，但它们在转换模型中编码的隐含动力学上有所不同。通过分析动作-观测对序列，具有更高似然性的特定克隆可以消除别名观测的歧义。最初，CSCG通过迷宫探索收集数据集来学习空间结构[10]。

为了使两个模型更相似以便进行公平比较，我们在CSCG方法中包含了我们的模型的当前状态估计机制[19]。此外，我们决定看看如果我们将位置作为观测值包含在内，CSCG会如何表现。这实际上消除了别名，并且被认为与我们模型在没有先验时的本体感觉等效，我们将这种特定情况称为“CSCG姿态观测”。我们将我们的模型（仅接收观测作为输入）的性能与仅接收视觉观测或视觉观测-位置对的CSCG（无论是否包含随机探索策略）进行了比较。CSCG的内部路径估计器基于维特比方法[16,10]，并且每5步都会根据从第一个观测到当前时间步的序列对进行更新。

我们的环境由以不同方式连接的多个房间组成（完全连接的3x3和4x4房间环境、T形、环形迷宫，以及具有或不具有别名地板颜色的环境）。所有模型都接收房间地板颜色作为观测值。3x3房间环境示例以及每个房间的提取观测值如图1的第一和第二面板所示。智能体可以在四个基本方向上移动或选择留在当前位置。

在我们的探索运行中，在所有环境中，智能体最初都被放置在随机的起始位置，并被赋予学习环境拓扑结构的任务。结果代表每个环境中至少十次成功运行的平均值。值得注意的是，我们的智能体总是能够成功完成探索，而CSCG由于分配给学习拓扑结构的步数不足而偶尔失败。Oracle模型类似于A*路径规划，展示了理想场景，即智能体仅通过访问每个位置一次就掌握了环境的完整拓扑结构。在T形迷宫的情况下，结果是根据模型的起始位置对所有运行进行平均得出的。

我们的探索结果如图3a所示。当观测之间转换的内部信念与真实转换矩阵在所有正确转换上至少有60%的最小确定性对齐时，探索被视为完成。该阈值是基于结果中成功转换的表示而任意设置的，如图4所示的3x3观测地图中所见。该图显示了与不可能转换（由于墙壁）相比，可能转换的定义有多么清晰。我们还看到，提供唯一的观测（视觉观测-位置对）信息可以减少CSCG在别名方形环境中约100步、在T形迷宫中约200步的训练时间，这很可能是由于其结构所致，智能体会被困在走廊中。然而，使用随机策略或维特比算法进行导航并不能改善探索，因为智能体无法对未见观测进行推断，因此最终导致几乎随机的动作选择。这证明了在未访问区域进行地图扩展的益处。

如果我们比较学习环境结构所需的步数与智能体访问所有未知位置所需的步数，我们可以得出一些结论。首先，由于CSCG不能对可能的轨迹进行想象，因此它处于不利地位，因为它会反复访问已知的房间，无论是否随机，而不是像我们的方法那样被新奇性所吸引。我们的方法对非访问状态有先验知识，这使得未知房间具有高度不确定性，因此具有吸引力，可以减少智能体内部模型参数的不确定性。其次，我们看到我们的智能体能够探索所有房间，且步数与Oracle非常接近，这意味着如果我们增加对想象信念的信心，它就有可能实现一次性学习，更快地学习转换。然而，这也可能巩固对转换的错误信念。在这些实验中，我们让智能体确认其先验知识，而不是通过降低预测转换的模型学习率而过度信任它们。给定的探索似乎遵循了迷宫中小鼠行为的生物学证据[26]。

我们在图5的T形迷宫中给出了智能体行为的一个定性示例。图5a显示了从黑色到黄色变化的线条所表示的智能体走过的完整路径，智能体从T形迷宫的底部开始。图5b显示了智能体（在图中用X表示）在不同步骤中想象的轨迹，从左到右、从上到下阅读。想象的轨迹与它们的预期自由能相关联，颜色越深，对智能体来说路径越理想。在这些实验中，智能体完全由信息增益驱动。我们的模型对通向当前房间墙壁的路径不感兴趣，而对未探索区域非常感兴趣。当到达右侧走廊的尽头时（图5b第二行第一张图），未探索的走廊明显比先前访问过的走廊更具吸引力，这突出了智能体对不确定观测的偏好，而不是确认现有信念。在返回起点时，智能体对穿过墙壁的路径表现出兴趣。这是因为随着智能体对环境连通性的更好理解，这些转换变得更加有趣。通过新的墙壁观测，可以巩固其信念。这些观测证实，智能体表现出连贯且有效的探索行为，类似于我们探索环境的方式，即首先发现所有区域，然后再深入研究具体细节。

5 讨论
本研究提出了一种受生物学合理原则启发的新型高级抽象模型，该模型模仿了动物导航策略的关键点[33,1]。通过将动态认知图与内部定位和主动推理框架相结合，我们的模型能够成功地在几步之内探索环境并学习其结构，这与动物的预期表现相符[32,26]，从而促进了自适应学习和高效探索。此外，允许内部地图根据预期信念进行扩展，不仅创建了适应任何环境维度、形状或观测的地图，而且通过创建高度不确定的状态（即位置可预测但对应观测不可预测）来增强探索。与克隆结构图（CSCG）模型[10]的比较实验凸显了我们的方法在学习环境结构方面的有效性，该方法所需数据量少，且无需特定观测维度的先验知识。这主要归功于我们的智能体能够想象动作的后果并将其整合到信念中。未来，增加新状态的预测范围并将其整合到模型中，以及确定这对导航的影响将是一个有趣的研究方向。此外，研究完美记忆对未来策略和探索效率的影响，以及观察智能体在熟悉或新颖环境中尝试达到其先前已知的特定目标时的表现，将进一步完善这项研究。最后，基于谷歌地图观测的StreetLearn[20]等现实场景部署该模型，将使这一机制更接近动物行为，并提供更有力的证据。

http://mp.weixin.qq.com/s?__biz=MzA5MDMwMTIyNQ==&mid=2649404479&idx=1&sn=d736d13f89b828a483ef1a0651f6b5c7

CreateAMind

ALLinCreateAMind.AGI.top ，前沿AGI技术探索，论文跟进，复现验证，落地实验。鼓励新思想的探讨及验证等。探索比大模型更优的智能模型。