文献推荐｜自然主义的强化学习

文摘 2024-11-07 22:15 中国澳门

自然主义的强化学习

导语

在现实生活中，我们每个人都面临着各种各样的决策挑战。这些挑战往往涉及广泛、复杂且多维的问题。为了理解人类是如何做出这些决定的，计算神经科学领域一直在探索使用强化学习（RL）作为解释框架。然而，传统的研究方法通常侧重于受控的实验室环境中进行简化任务测试。在这篇Toby等人Trends in Cognitive Sciences的综述论文中，回顾了最近的研究开始尝试采用更加自然主义的方法来探究人们在更接近真实世界的复杂情境下是如何做决策的。通过将现实世界中的复杂因素融入实验设计中，科学家们希望能够获得关于支持人类成功应对复杂环境背后机制的新见解。这种方法不仅有助于深化人类对自身行为模式的理解，也为未来开发能够更好地模拟人类智能的技术提供了宝贵线索。

「READING」

自然主义的必要性

The need for naturalism

强化学习经常被用于对人类参与者的行为决策进行建模，但是在一些复杂、自然的任务设计中，个体的状态和行动空间非常庞大，传统的强化学习方法在这种环境下效率较低。如果我们的目标是了解现实世界的人类行为，我们应该开始接受它的复杂性，采用自然主义和还原论。作者将此称为“自然主义强化学习”，即将自然环境中固有的复杂性融入理论和实验设计（见图1和图2）。

完全自然主义的方法（图1右侧）使用完全不受限制的“任务”，代表了这一方法的极端方向。然而，从那些将自然复杂性元素融入其设计的任务和模型中，将人类行为的自然主义视角与传统实验范式的还原主义相结合。在本文中，总结了这一范围内的最新研究，概述了更自然主义的方法如何开始对人类学习和决策的关键方面提供新的见解。这一研究领域与其他努力描述自然行为模式的工作相一致，如计算行为学，但本文更关注将强化学习作为理解这种行为背后机制的框架。

图1. 对自然情境下强化学习的研究可以分为不同的层次。我们将自然情境下的强化学习定义为一种使用强化学习作为范式来理解自然情境行为复杂性的研究方法，超越简单任务，探讨更复杂的情境。该领域的研究可以分布在一个光谱上，从传统范式延伸到完全自然化的方法，后者试图复制现实世界的复杂性。位于中间的是大多数本文描述的研究所采用的方法，也就是图中下方所展示的部分。这种方法是在实验室受控任务中，研究与自然情境决策问题相关的过程，特别是在面对自然情境复杂性时的决策过程。所得的研究见解可以增进我们对自然情境行为的理解。缩写：VR.虚拟现实。

自然情景中的先验和背景

Naturalistic priors and context

在现实生活中，我们的决策通常依赖于观察和学习到的信息。这些信息在不同的决策中往往具有共享的上下文和来源。大量研究表明，先验知识对人类的感知和决策有重要影响（例如，图2中的选购冰淇淋的例子）。

然而，传统的用于研究人类强化学习（RL）的任务设计往往刻意排除了先验知识。这些任务采用新颖且简单的刺激（如分类图形），并设计被试做孤立、重复和独立的决策，脱离了任何先验或背景。尽管这些实验提供了宝贵证据，但它们未能揭示先验知识在更接近现实的条件下是如何被表征和使用的。

在自然环境中，人类对每个任务都带有丰富的候选对象特征和交互经验。例如，当我们看到一个红色、闪亮、圆形且小的物体时，可能会认为它是一个苹果。如果我们感到饥饿，还可能决定去取它。在这种情况下，我们已经具备了这些特征（如红色）和潜在行动（如取出）的标签，这些标签至少在一定程度上来自先前的经验。与实验室环境中常用的简单物体（如绿色刺激）相比，人类用于表示自然物体的特征往往是高度多维的，范围从具体到抽象。此外，自然物体具有明显的特征，这促进了特定环境状态与其潜在行动之间的联系。因此，与物体的先前交互可能会限制在强化学习任务中带来的潜在行动集，正如最近在人工智能（AI）和认知科学领域的研究所示 (如图2B)。

图 2. 现实世界决策任务的组成要素示例说明。

(A) 展示了一个看似简单的决策过程：决定是否吃冰淇淋。在这一过程中，从给定的起始状态或背景出发，采取的行动会导致期望的结果。
(B) 示意图展示了这种行为的复杂性，以及自然强化学习过程如何在这种复杂性中实现有效且高效的决策。起始状态依赖于感官输入、广泛的背景和自然先验知识交织的网络。这引发了一个包含无数状态和潜在行动的“任务”，这些状态和行动需要被评估。

任务状态的表征

Task-state representation

自然主义先验提供了一种结构，使我们能够解释和理解环境。然而，有效的决策也需要对当前决策问题进行表征（如图3）。任务状态表征通常通过认知地图的视角来研究。在这种观点下，任务的表征被定义为一个由离散且互相连接的状态组成的地图，代理在试图最大化奖励的过程中会遍历这些状态。这个地图的确切结构取决于最初考虑用于表征的特征。例如，如果思考一间博物馆的空间特征，我们可能会想到一个房间地图；而从如果我们思考意见博物馆的艺术风格，我们则可能会想到一些艺术家。最优的任务状态表征可能是多个特征的结合。在现实世界中学习和决策需要额外的表征学习步骤，即环境的特征被表征、整合到认知地图中，并随着经验进行修改。例如，在社交情境中行动时，可能会受益于对他人的信任度、权力或慷慨程度的表征的动态变化。

图3. 任务状态表征的示例。

在这个例子中，代理（黄色圆点）处于一个有两项潜在任务的环境中：‘导航到A’或‘导航到B’，每个任务都有潜在的子任务，分别在蓝色和粉红色框中。例如，为了到达A，代理必须进入一个房间，这需要打开一扇门。任务可以以高效的方式表征，取决于代理的目标，并由先验提供信息。代理可以利用先验，包括之前经验中的动作标签（推、拉）、对象标签（门）和上下文标签（墙），以帮助创建有用的状态表征，并限制给定任务或子任务的相关动作。代理将能够把动作空间限制在仅对特定子任务最相关的动作上，例如第一个蓝色子任务（‘打开门’）的‘推’和‘拉’，或者第一个粉红色子任务（‘清除岩石’）的‘打破’和‘攀爬’，同时根据相关先验建议表征更广泛的动作集（例如，最后的子任务‘导航到A’和‘导航到B’）。

大型和复杂的状态空间中进行规划

Planning in large and

complex state spaces

有效的任务状态表征为规划提供了基础。然而，即使在使用自然主义先验来简化表征的情况下，任务状态表征在自然环境中仍可能变得庞大且复杂，这使得规划本身具有挑战性。

图4. 自然规划 (A) 传统的规划任务要求参与者在一个较小的状态空间中规划少量的步骤，使用有限的可能行动范围（例如，选择向左或向右）。(B) 更自然的任务包含较大的行动空间和状态空间，更好地近似现实世界环境的复杂性。它们还要求参与者对未来进行更长远的规划，并可以融入其他智能体，以更好地反映现实世界中长期（并可能具有社会性）的规划需求。(C) 表格规划方法通过估计每个状态中每个行动的价值来确定给定决策问题的最优策略，使其在处理具有较小状态和行动集合的问题时非常有效。(D) 现实世界的决策问题通常具有更大的状态和行动空间，使表格方法无法胜任。依赖状态-行动轨迹模拟的规划算法（如树搜索规划算法）在这些情况下表现更好，使得在表格方法失效时仍然能够进行有效的行动选择。

人类决策者如何在具有复杂转换结构的广阔状态空间中确定最佳行动方案仍然是一个未解的问题，但最近的一些研究已经开始取得一些进展。这其中一个显著变化是从直接优化策略转向基于模拟的策略，这些策略依赖于启发式方法来降低计算成本（见图4C）。树搜索规划算法代表了一种能够扩展到庞大状态空间的规划方法，并且可能更好地描述现实世界中的人类规划（见图4D）。通过以有原则的方式模拟潜在行动和结果的轨迹，这些算法可以在传统基于模型的算法在计算上不可行的情况下逼近最优策略。虽然在人类决策研究中使用树搜索模型并不新鲜，但最近在模型拟合方面的进展使得它们能够在越来越大的状态空间中解释人类行为，这些状态空间更好地近似了现实世界中的决策。

稀疏和序列的奖励

Sparse and sequential rewards

任何一个强化学习（RL）代理的目标都是最大化奖励。然而，即使在看似简单的奖励方面，在自然环境中准确估计也会变得具有挑战性。对人类奖励估计的研究从传统学习范式中学到了很多。这些范式遵循一个共同的主题：参与者基于反复呈现的少量独立刺激来学习其价值。这样的任务有优点：它们简单、易于管理和分析，并且产生的行为可以通过简单的模型很好地描述。然而，在现实世界中，学习机会通常是稀疏的；为了了解我是否喜欢一家餐馆，通常不太可能在短时间内连续访问数百次。相比之下，许多传统任务中的一个隐含假设是，价值是根据其相关奖励的运行平均值确定的，通过增量的逐次试验学习进行估计。现实世界经验的稀疏性可能需要替代策略。

一种策略是使用情景记忆，另一个方面通常在传统范式中较少被关注的，就是学习经验的相互关联性。如果我在一家餐厅喜欢某种特定菜系的食物，我可以推断我可能会喜欢提供相同菜系的其他餐厅。研究泛化在学习中作用的一种方法是在‘相关多臂老虎机’任务中建模人类行为，这是多臂老虎机的一个变种，其中老虎机根据预定的协方差函数相关联。人类利用这种协方差结构来推断以前未选择的老虎机的价值，正如计算模型所揭示的那样，这些模型在多个研究中显示出与独立学习模型相比，结合泛化的模型拟合得更好。进一步的研究将其扩展到价值由多个感知特征函数计算的刺激，证明了人类可以通过结合有限的直接价值学习和复杂的函数学习来推断价值，而不是使用特定刺激的增量学习。

自然主义计算精神病学

Naturalistic computational psychiatry

许多心理健康问题可能涉及到推断学习和决策过程可能出错的方式。如果我们希望对经历这些状况的人的生活产生影响，那么我们的研究必须超越实验室，进一步强调自然主义的计算精神病学研究的更多途径。迄今为止，该领域的大多数研究都使用了传统范式。鉴于自然主义强化学习中的共同线索是在一个复杂和嘈杂的世界中进行推断、表征和使用结构，这种方法可以揭示许多心理健康问题是如何以及为什么与外部世界表征的改变相关联的。

规划是一个很好的例子，这一类型任务下自然主义方法可能有较大价值。大量研究强调了基于模型的规划在不同精神疾病中受损。如有研究使用了一种称为‘计算因子建模’的过程，揭示了这种损害与强迫症状和侵入性思维有关。虽然这一发现很可靠，但它来自于传统的任务，这些任务集中在两步规划问题上，使用简单的基于模型的规划模型。更复杂的规划过程中的改变可能与诸如担忧之类的症状有关，这可以被视为负面聚焦的规划。

结语

Concluding remarks

自然主义强化学习有潜力改变我们对学习和决策的思考方式，帮助理解我们在更接近现实世界的情况下如何做出有效决策。本文综述的研究表明，研究已经开始系统地探索人类在包含自然复杂元素的环境中如何做出有效决策。

「READING」

一些ANDlab Thoughts 和补充知识

对这些复杂的、自然的决策任务进行建模，我们可能会用到以下模型：

深度强化学习算法将深度学习与强化学习相结合，能够对复杂任务中的人类决策过程进行建模。

深度强化学习（Deep Reinforcement Learning, DRL）在神经科学和认知科学中获得广泛关注，主要原因在于其能够为人类大脑复杂的决策过程提供高度灵活的建模框架和理论工具；

理论驱动的强化学习（Theory-Based Reinforcement Learning, TBRL）为理解大脑中的推理与决策提供了新的视角。TBRL假设大脑不仅依赖于奖赏信号，还通过构建关于环境的内隐假设和规则来进行推理和行动选择。这一模型与贝叶斯推理模型相一致，认为大脑能够根据经验和环境信息推导出最优的行动策略（Gershman, S. J., & Daw, N. D., 2017）。通过结合深度强化学习的特征学习能力，TBRL为研究大脑中的决策机制提供了更丰富的理论框架，使得研究者能够更好地理解大脑如何在面对复杂、不确定的环境时通过假设和规则进行灵活的推理和决策。

树搜索规划算法（Tree Search Planning Algorithms）通过模拟多个可能的行动路径，帮助个体在面对复杂的决策树时找到最优策略。该方法不仅适用于单一任务的规划，还可以用于复杂的社交情境下的规划，如与他人的互动中进行预测和决策，尤其是蒙特卡洛树搜索（Monte Carlo Tree Search, MCTS），通过随机采样和模拟不同路径的可能结果，逐渐形成对最优决策的近似。这种方法不仅在单一任务中表现优异，例如在围棋和国际象棋等复杂博弈中的应用，还能够在多任务和复杂的社交情境中展现出卓越的规划能力（Silver et al., 2016）。

在社会互动场景中，树搜索算法通过预测他人的行为来优化自身决策，尤其是在需要考虑多个代理人行为的环境中。此类算法在多方博弈中的应用表明，通过评估多种可能的策略路径，个体能够更好地预测他人的行动并做出相应的调整（Bossaerts et al., 2017）。这种交互式的规划能力对复杂社交决策至关重要，因为个体不仅需要根据环境和规则做出决策，还需要根据对他人行为的推测来调整自身策略。特别是在团队合作或对抗性情境中，树搜索算法能够模拟多方行为的相互作用，帮助个体在瞬息万变的环境中优化决策。

研究表明，树搜索算法在决策深度上的提升与个体的专业知识和经验密切相关。经验丰富的个体能够通过更深层次的规划，在更复杂的决策树中选择最优路径。例如，在人类游戏对局中，具有更高专业水平的个体倾向于进行更深度的搜索和规划，这使得他们能够在复杂的博弈情境中做出更为优化的决策（Opheusden et al., 2023）。这种现象表明，树搜索算法不仅是决策优化的工具，还反映了人类认知中的策略规划和深度推理能力。

文案｜ANDLab

校对｜haiyan, shuo

排版｜Andy

好奇帮

本账号是心理学，神经科学和计算科学的结合。