史成春,伦敦政治经济学院统计系副教授。
1 引言
Sutton和Barto的强化学习导论[1] Agarwal及其合作者的强化学习理论和算法)[2] Deepmind和UCL的公开课视频[3]以及课件[4] 成春的课件及代码[5]
2 背景介绍:强化学习中的数据,策略和模型
在每个时刻,我们的AI智能体捕捉到当前环境的特征(observation),记作; 基于,智能体采取一定的行动(action),记作; 环境根据智能体的行动提供相应的收益(reward),记作,并且在下一个时刻转移到新的状态。
与历史相依的策略(history-dependent policy):这是最一般形式的策略。在每个时间点,我们定义为包含当前的观测以及之前所有的历史信息的集合。在此策略下,每个时刻的行动依赖于之前的整个历史。 马氏策略(Markov policy):第二种策略是第一种的子集。在该策略下,的条件概率分布函数只依赖于当前的观测,而不再依赖于整个历史。换言之,对于任意的和,我们有。 平稳策略(stationary policy):第三种策略是第二种的子集。在该策略下,的条件概率分布函数不仅满足马尔科夫性,还满足时间上的平稳性。换言之,对于任意的,和,我们有以及。
马尔科夫假设:在任意时刻,假设当前的观测和行动已知。那么当前的收益以及下一时刻的观测和之前的历史信息是条件独立的。 平稳性假设:对于任意的观测和行动,给定和,以及的条件分布函数不依赖于时间。
3 强化学习中的假设检验:实例分析和数值模拟
左图描绘了经典的MDP模型。如2节所述,离线数据满足马尔科夫性,现有的强化学习算法可直接应用于这些数据来估计最优策略。 中间描绘了一个高阶MDP模型(high-order MDP)。在此模型下,离线数据并不满足经典的一阶马尔科夫性,而是展现出高阶马尔科夫性。具体而言,和不仅依赖于和,还依赖于过去阶的滞后项。为了应用现有的强化学习算法,我们需要将当前的观测和过去阶的滞后项合并,定义为新的状态以满足马尔科夫性质,再将强化学习算法应用于变换后的三元组数据上。这样得到的策略才是最优的。 右图描绘了一个部分可观测的MDP模型(POMDP)。在此模型中,我们只能观测到一部分的状态或是状态的带误差的测量值。即使我们将观测和过去若干阶的滞后项合并,变换后的数据也可能无法满足马尔科夫性。在强化学习的文献中,已有针对POMDP的场景估计最优策略的算法(Krishnamurthy, 2016)。如果我们已知离线数据源自POMDP,就应使用这些专门的算法来估计最优策略。
确定模型阶数:如果数据来自于一个高阶MDP模型,假设检验可以帮助我们判断该模型的具体阶数,从而允许我们合并正确的滞后项来确定状态。我们将在接下来的实例分析中展开说明这一点。 识别模型类型:如果数据来自于一个POMDP,假设检验也可以帮助我们识别该模型,进而指导我们使用专门为POMDP设计的算法来估计最优策略。我们将在后续的模拟实验中展示这一检验方法的效果。
观测:我们定义观测为一个三维的向量,包括病人前一小时内的平均血糖浓度、摄入的平均卡路里数,以及平均运动强度。这里,血糖浓度是主要关注的指标,而摄入卡路里和运动强度对血糖浓度有显著影响。 行动:行动定义为该小时内病人接受的胰岛素注射量。我们对注射量进行离散化处理,其中0表示不注射胰岛素。 收益:收益由血糖指数 (Rodbard, 2009) 决定,若病人在该小时内的血糖浓度维持在正常水平,则收益为0;若不在正常范围内,则为负数,代表对健康的负面影响。
状态:游戏开始时,老虎随机地出现在左边或右边的门后。 行动:在每个时间点,我们可以采取以下三种行动:(i)打开左边的门;(ii)打开右边的门;(iii)聆听老虎发出的声音。 观测:我们选择聆听时,将得到一个老虎位置的估计作为观测。然而,聆听的结果并非完全准确,存在一定概率错误地估计老虎的实际位置。 收益:(i)打开门且门后有老虎时,收益为−100(代表重大惩罚);(ii)打开门且门后无老虎时,收益为+10;(iii)选择聆听的收益为-1。
4 方法论:基于双机器/生成学习的马尔科夫性检验和模型选择
根据 Shi et al.(2020)和Zhou et al.(2023)的定理2,在原假设下,只需两个条件期望和中的任意一个被正确识别,(1)式左侧既为0。这样的双稳健性为假设检验提供了极大的便利。具体而言,只要这些条件期望的收敛速度达到,其中代表样本总量,即可保证检验的相合性。我们不需要它们达到标准的参数收敛率;详见 Shi et al.(2020)的条件(C4)以及 Zhou et al. (2023) 的条件4。 鉴于需要考虑大量的和的组合,我们亟需一个能快速计算不同和下的条件期望的算法。Shi et al. (2020) 采用了类似分位数随机森林的算法 (Meinshausen and Ridgeway, 2006)来加速计算。其中,森林中每棵树的分支和叶子的划分与 (或 ) 无关,即对于任意的 (或 ),使用的都是同一片森林。最终输出条件期望的计算会根据 (或 )的具体形式有所不同。这样极大地简化了计算过程,因为森林无需随 (或 )的变化而重新学习。详见 Shi et al. (2020) 的5.1节;这里不再赘述。 同样地,Zhou et al. (2023) 采用生成学习的算法来提高计算效率。我们以计算第一个条件期望为例说明。其核心思想是通过学习在下的条件分布,从而为任意函数 的条件期望提供估计。具体而言,我们需要设计一个生成器,该生成器接收以及一些随机噪声作为输入,输出,使得输出的分布和在下的条件分布非常相似。这时,只需给定和一系列独立同分布的随机噪声,该生成器即可产生一系列在给定下独立同分布的,记为。随后,对任意函数,我们都可用来近似其条件期望。在实验中,Zhou et al. (2023) 使用经典的混合密度网络作为生成器。而Shi et al. (2021) 和 Shi et al. (2023b)考虑一般的条件独立性检验,采用了5---10年前很火的对抗生成网络 (GANs, Goodfellow et al., 2014) 作为生成器。此外,最近流行的扩散模型(diffusion model)或者变换器(transformer)也可作为生成器来使用。 再者,Shi et al. (2020) 和 Zhou et al. (2023) 都将和设为特征函数(正弦余弦函数),因它们与分布函数一一对应。此外,我们也可参考 Shi et al. (2021) 的方法,使用神经网络来代替特征函数。 最后,Shi et al. (2020) 和 Zhou et al. (2023) 都采用交叉拟合的方法来构建最后的检验统计量,即:(i)将数据切成若干份,用不同的数据来估计条件期望以及构建其统计量。每个数据组合都可得到一个。(ii)最后将所有的统计量取平均,再取关于,,的最大值。该方法消除了构建检验统计量的数据和估计条件期望的数据之间的相关性,使得假设检验的相合性证明无需加入关于条件期望估计函数的VC维度条件。此类交叉验证的方法在构建双稳健估计量时经常被应用 (Chernozhukov et al., 2018; Kallus and Uehara, 2022)。
基于单回归/生成学习的假设检验:Chen and Hong (2012) 和 Bellot and van der Schaar (2019) 分别提出了条件独立性和马尔可夫性检验的方法。这两个方法的共同点在于它们只学习了单个生成器/回归函数。因此,它们的检验统计量不具有双稳健性,极易受到生成器/回归函数带来的偏差影响。具体而言: Bellot and van der Schaar (2019) 通过对抗生成网络来学习生成器,但该方法是无法控制第一类错误的。除非我们考虑半监督学习的场景,有大量无标签数据可用于精确学习生成器(Berrett et al., 2020)。 Chen and Hong (2012) 通过经典的局部多项式回归的来计算我们之前讨论的条件期望。他们的方法可以控制第一类错误。这是由于他们采用了经典的统计非参方法,并进行了undersmoothing以减少估计的偏差。但undersmoothing增大了估计的方差,影响了最终假设检验在有限样本下的效果;详见 Zhou et al. (2023) 的模拟结果。 基于双回归学习的假设检验:Zhang et al. (2019) 以及 Shah and Peters (2020) 提出了基于双回归学习的条件独立性检验。虽然与 Shi et al. (2020) 和 Zhou et al. (2023) 的方法在概念上相似,但他们仅关注条件独立性检验而未涉及马尔科夫检验。并且他们的检验函数和仅限于单位函数。这简化了检验过程,因为不需要采用高维 bootstrap确定阈值,但是也因此限制了检验的势;详见 Shi et al. (2021) 以及 Shi et al. (2023b) 的模拟结果。 基于强条件独立性的检验:上述双生成学习的检验方法主要关注弱条件独立性 (Daudin, 1980)。它们无法识别所有的备择假设。实际上,存在某些备择假设,使得(1)式左侧对于所有的,和都为0。考虑到这一点,我们可以构建强条件独立性的检验统计量来识别所有的备择假设;详见 Shi et al. (2021) 定理5的后续讨论。在实际应用中,尽管弱条件独立性的检验方法无法识别所有的备择假设,但它们在多数实际情况下比强条件独立性的检验有更好的势。