强化学习中的统计推断——假设检验篇(上)

学术   2024-10-13 07:02   广东  
作者介绍

史成春,伦敦政治经济学院统计系副教授。


1 引言

相信你对强化学习一定不陌生。它旨在研究AI如何实时做出决策,以最大化人类决策者的长期收益(Sutton and Barto, 2018)。在过去的十年中,它是人工智能领域最热门的研究方向之一。谷歌学术的搜索结果显示,2023年发表了超过13万篇包含“强化学习”关键词的文章。在2024年的人工智能顶会ICML中,共有2609篇文章被接收,其中255篇涉及强化学习,占总接收文章数的10%。在统计学领域的“四大天王”杂志中,也有众多关于强化学习的研究见刊 (Chen et al., 2024; Ertefaie and Strawderman, 2018; Hu and Wager, 2023; Luckett et al., 2020; Liao et al., 2021, 2022; Li et al., 2024; Ramprasad et al., 2023; Shi et al., 2022, 2023a; Wang et al., 2023; Yang et al., 2022; Zhou et al., 2024)。此外,近十年来,强化学习已在诸多领域广泛应用,包括电子游戏(Mnih et al., 2015),围棋(Silver et al., 2016),共享出行(Xu et al., 2018),健康医疗(Liao et al., 2020)以及大语言模型 (Achiam et al., 2023)。
强化学习的文献浩如烟海,学者们提出了大量的算法。这些算法根据不同的应用场景可分为在线学习和离线学习。从技术方法上来看,又可分为有模型的(model-based)和无模型的(model-free)。在无模型的范畴内,进一步可以划分为基于价值的(value-based)和基于策略的(policy-based)。根据不同的任务目标,还可将其分为策略优化(policy optimization)和策略评估(policy evaluation)。对强化学习算法感兴趣的读者可以参考以下公开资料:
  • Sutton和Barto的强化学习导论[1]
  • Agarwal及其合作者的强化学习理论和算法)[2]
  • Deepmind和UCL的公开课视频[3]以及课件[4]
  • 成春的课件及代码[5]
本文不会赘述上述算法。相反,本文将从一个较为新颖的角度来探讨强化学习。具体而言,我们将介绍如何通过传统的统计推断方法,譬如假设检验,来提升这些强化学习算法的效率。后续,若时间允许,我们也将分享其他统计推断方法,例如置信区间,在强化学习中的应用。本文主要基于 Shi et al. (2020) 和 Zhou et al. (2023) 在ICML和JRSS-B上的研究成果。此外,云哲曾在狗熊会上介绍过后一篇文章,具体内容可以参考此链接[6]。从方法论的角度,Shi et al. (2021) 和 Shi et al. (2023b)  采取了类似的方法并应用于条件独立性检验和因果发掘。对上述应用感兴趣的读者可以进一步阅读这些论文。


2 背景介绍:强化学习中的数据,策略和模型

数据:强化学习研究序贯决策问题。这一问题可描述如下:
  • 在每个时刻,我们的AI智能体捕捉到当前环境的特征(observation),记作
  • 基于,智能体采取一定的行动(action),记作
  • 环境根据智能体的行动提供相应的收益(reward),记作,并且在下一个时刻转移到新的状态。
这一过程持续循环,见图1。因此,智能体所观测到的数据可以总结成一个包含“观测--行动--收益”三元组的时间序列。值得一提的是,每个时刻的观测并不等同于环境的状态。状态可以被视为具有马尔科夫性质的一种特殊观测,我们将在后续展开叙述两者的区别。
图 1: 序贯决策问题
策略:强化学习旨在基于“观测--行动--收益”的三元组数据来学习一个最优策略,以最大化决策者的长期收益。在数学上,策略被定义为从智能体收集的历史数据到行动空间的一个条件概率分布函数。这个函数指定了智能体在每个时间点采取各种行动的概率。以下我们将介绍三种主要的策略:
  1. 与历史相依的策略(history-dependent policy):这是最一般形式的策略。在每个时间点,我们定义为包含当前的观测以及之前所有的历史信息的集合。在此策略下,每个时刻的行动依赖于之前的整个历史
  2. 马氏策略(Markov policy):第二种策略是第一种的子集。在该策略下,的条件概率分布函数只依赖于当前的观测,而不再依赖于整个历史。换言之,对于任意的,我们有
  3. 平稳策略(stationary policy):第三种策略是第二种的子集。在该策略下,的条件概率分布函数不仅满足马尔科夫性,还满足时间上的平稳性。换言之,对于任意的,我们有以及
模型:绝大多数强化学习的算法采用马尔科夫决策过程(MDP, Puterman, 2014)来对数据进行建模。该模型基于两个核心假设:
  1. 马尔科夫假设:在任意时刻,假设当前的观测和行动已知。那么当前的收益以及下一时刻的观测和之前的历史信息是条件独立的。
  2. 平稳性假设:对于任意的观测和行动,给定以及的条件分布函数不依赖于时间
这两个假设为强化学习打下了坚实的数理基础。在这些假设下,我们可以证明,存在一个最优的平稳策略,其带来的长期收益不会比任何与历史相依的策略差 (Puterman, 2014; Ljungqvist and Sargent, 2018)。这一定理极大地简化了强化学习的计算复杂性,因为它指出我们只需在平稳策略集中寻找最优策略,无需在更一般的与历史相依的策略集中进行搜索。
尽管强化学习已有数十年的研究历史,对上述假设的检验方法却鲜有研究。本文旨在介绍关于马尔科夫假设的检验方法。后续,若时间允许,我们也将探讨关于平稳性假设的检验方法。


3 强化学习中的假设检验:实例分析和数值模拟

我们首先讨论在强化学习中检验马尔科夫性的必要性。本文考虑离线强化学习的场景,即在无法与环境进行在线实时交互的情况下,如何仅依靠已有的离线数据集来估计最优策略。这些离线算法的有效性很大程度上依赖于数据的马尔科夫性。为进一步说明,我们考虑三种不同的模型,如图2所示:
  1. 左图描绘了经典的MDP模型。如2节所述,离线数据满足马尔科夫性,现有的强化学习算法可直接应用于这些数据来估计最优策略。
  2. 中间描绘了一个高阶MDP模型(high-order MDP)。在此模型下,离线数据并不满足经典的一阶马尔科夫性,而是展现出高阶马尔科夫性。具体而言,不仅依赖于,还依赖于过去阶的滞后项。为了应用现有的强化学习算法,我们需要将当前的观测和过去阶的滞后项合并,定义为新的状态以满足马尔科夫性质,再将强化学习算法应用于变换后的三元组数据上。这样得到的策略才是最优的。
  3. 右图描绘了一个部分可观测的MDP模型(POMDP)。在此模型中,我们只能观测到一部分的状态或是状态的带误差的测量值。即使我们将观测和过去若干阶的滞后项合并,变换后的数据也可能无法满足马尔科夫性。在强化学习的文献中,已有针对POMDP的场景估计最优策略的算法(Krishnamurthy, 2016)。如果我们已知离线数据源自POMDP,就应使用这些专门的算法来估计最优策略。
图 2:三种模型。图中使用黑色实线表示变量之间的因果关系,而橙色虚线则用来标示最优策略依赖的历史变量。
遗憾的是,在实际应用中,若没有任何先验知识,我们往往无法确切知道哪个模型最能准确地描述一组离线数据。如果我们选择了一个欠拟合的模型(譬如真实模型是一个三阶MDP,但我们错误地将和二阶的滞后项合并作为状态),那么算法估计得到的策略往往是次优的。相反,如果我们选择了一个过拟合的模型,虽然在大样本下能够得到相合的估计,但该估计的方差在小样本下可能由于加入了与最优策略不相关的滞后项而变大。
假设检验因此显得尤为重要,它可以帮助我们识别模型类型,确定模型阶数:
  • 确定模型阶数:如果数据来自于一个高阶MDP模型,假设检验可以帮助我们判断该模型的具体阶数,从而允许我们合并正确的滞后项来确定状态。我们将在接下来的实例分析中展开说明这一点。
  • 识别模型类型:如果数据来自于一个POMDP,假设检验也可以帮助我们识别该模型,进而指导我们使用专门为POMDP设计的算法来估计最优策略。我们将在后续的模拟实验中展示这一检验方法的效果。
实例分析:我们的分析基于公开的糖尿病数据集 (Marling and Bunescu, 2018)。详细数据可通过此链接[7]获取。该数据集包含了6名一型糖尿病患者为期八周的数据(该数据集后续进行了更新,目前已包括12名病人的数据,详情见 Marling and Bunescu (2020)。)。本案例旨在利用强化学习估计得到一个最优的治疗方案以决定每位病人在每个时刻所需的胰岛素注射量,以维持其血糖浓度在稳定范围内。我们首先将八周的数据离散化,按一小时一小时进行切割。因此,对于每位病人,我们都得到超过一千个样本点。为了应用强化学习,我们定义了以下元素:
  • 观测:我们定义观测为一个三维的向量,包括病人前一小时内的平均血糖浓度、摄入的平均卡路里数,以及平均运动强度。这里,血糖浓度是主要关注的指标,而摄入卡路里和运动强度对血糖浓度有显著影响。
  • 行动:行动定义为该小时内病人接受的胰岛素注射量。我们对注射量进行离散化处理,其中0表示不注射胰岛素。
  • 收益:收益由血糖指数 (Rodbard, 2009) 决定,若病人在该小时内的血糖浓度维持在正常水平,则收益为0;若不在正常范围内,则为负数,代表对健康的负面影响。
接着,我们将 Shi et al. (2020) 以及 Zhou et al. (2023)中的假设检验方法(代码可在以下链接中获取:TestMDP[8]和markov_test[9]。)应用于这些观测--行动--收益三元组,来检验其是否来源于一个阶的MDP,其中。我们将对应的值列在表1中。较小的值表明数据与该阶数的MDP模型不符,而较大的值则意味着不能拒绝数据来源于该模型的假设。
表 1:糖尿病数据集在下检验的值。
将显著性水平设成0.05后,我们发现,当时,相应阶数的模型假设被拒绝;而当时,模型假设无法被拒绝。两种检验方法均支持上述结论,表明该数据集极可能来源于一个4阶的MDP模型。换言之,对于这些病患而言,其四小时后的观测与四小时前的观测是条件独立的。
此外,我们发现  Shi et al. (2020)  的检验方法得出的值普遍低于  Zhou et al. (2023)的结果。这是由于它们在估计条件分布函数时采用的不同方法导致(我们将在后续进一步讨论这一点)。根据 Zhou et al.(2023) 在模拟实验中的结果,Shi et al. (2020) 的方法有时未能控制好第一类错误率。因此,Zhou et al. (2023) 的值相对更为可信。
为了阐述马尔科夫性检验对强化学习算法的提升,我们采用了交叉验证的方法:(i)我们将6个病人的数据分成两组,每组三人,一组作为训练集,另一组作为测试集;(ii)在训练集上,我们将强化学习中的Q迭代算法 (FQI, Ernst et al., 2005; Riedmiller, 2005) 应用于合并当前观测和阶滞后项的数据上,以计算在阶MDP模型假设下的最优策略(这里的取值范围为1到10);(iii)在测试集上,我们使用Q评估算法 (FQE,Le et al., 2019)来估计这些策略的长期收益;(iv)对所有的组训练集--测试集组合,我们重复(i)--(iii)的步骤,并将20组的长期收益取平均,汇总在表2中。结果显示,在4阶MDP模型假设下估计得到的策略实现了最大的长期收益。这一发现进一步验证了马尔科夫性检验在高阶MDP模型中的重要性,即其通过确定模型阶数可以显著提高现有强化学习算法的效率。
表 2:糖尿病数据集在阶MDP模型假设下最优策略的长期收益。的取值范围为1到10。
图 3: 老虎问题
数值模拟。我们采用POMDP的经典案例---老虎问题 (Cassandra et al., 1994) 作为模拟环境。具体环境描述如下,详见图3:
  • 状态:游戏开始时,老虎随机地出现在左边或右边的门后。
  • 行动:在每个时间点,我们可以采取以下三种行动:(i)打开左边的门;(ii)打开右边的门;(iii)聆听老虎发出的声音。
  • 观测:我们选择聆听时,将得到一个老虎位置的估计作为观测。然而,聆听的结果并非完全准确,存在一定概率错误地估计老虎的实际位置。
  • 收益:(i)打开门且门后有老虎时,收益为−100(代表重大惩罚);(ii)打开门且门后无老虎时,收益为+10;(iii)选择聆听的收益为-1。
在此模拟环境中,老虎的具体位置是隐藏的状态,我们无法直接获知。只能通过聆听来间接获得老虎位置的估计。此外,无论我们聆听次数如何,都无法完全确定老虎的真实位置。因此该环境并不满足经典的MDP或者高阶MDP的要求,而是对应于一个POMDP。
和实例分析类似,我们将  Shi et al. (2020) 的假设检验方法应用于该环境,以检验其是否符合一个阶的MDP,其中。我们将显著性水平设为0.05,并将500次随机模拟中原假设被拒绝的比例绘制在图4中的左图。由于真实模型是POMDP,理论上不管取多大,原假设都应被拒绝。因此,左图中的比例反映了假设检验的势。这些势随着轨迹数量的增加而增大,且在较大时趋于。这表明该检验方法能有效区分POMDP与(高阶)MDP的差异。
此外,我们还进行了另一项实验,将老虎的真实位置纳入观测信息。此时的环境由于状态完全可观测,符合经典MDP的条件。在这种设置下,无论取多大,原假设都成立。我们同样绘制了500次随机模拟中原假设被拒绝的比例(第一类错误)在图4中的右图,并通过上下两条横线来表示500次模拟的蒙特卡洛误差界。结果表明,绝大多数的比例均位于误差界内,说明该检验方法能有效识别MDP的环境。
图 4:老虎问题在下检验拒绝原假设的比例。


4 方法论:基于双机器/生成学习的马尔科夫性检验和模型选择

检验马尔科夫性的难点:在本节中,我们将展开介绍  Shi et al. (2020) 及 Zhou et al. (2023) 的假设检验方法。在此之前,我们首先概述在强化学习中检验马尔科夫性所面临的主要难点,以及上述方法如何有效应对这些难点。主要的难点来自于高维连续的条件变量。如后续所述,马尔科夫假设本质上是一系列条件独立性假设的交集。在条件变量为连续时,进行条件独立性的检验远比进行边际独立性检验要困难  (Bergsma, 2004)。当这些条件变量还是高维时,相应的检验更是难上加难。然而,在强化学习的应用中,高维连续变量是十分常见的。例如,若我们需要检验一个高阶的MDP,则需将当前观测与之前若干时刻的滞后项合并成状态,作为条件变量。这种情况自然会引入高维条件变量。在糖尿病的案例中,血糖浓度和摄入的卡路里等,都是连续变量。
Shi et al. (2020) 及 Zhou et al. (2023) 利用现有的深度生成学习(deep generative learning)机器学习的算法来应对高维连续的条件变量。以  Zhou et al. (2023)为例,文中的检验方法需要学习两个生成器:一个生成器是 forward generator,它根据当前的观测和行动生成下一时刻的行动;另一个是 backward generator,它根据下一时刻的观测和行动生成当前时刻的观测和行动。Zhou et al. (2023) 通过将这两个生成器结合,构建出一个双稳健的检验统计量,以消除单一生成器带来的偏差,并确保最终的统计量具有良好的渐进性质。下文将具体阐述这些方法。
原假设和备择假设:为简化讨论,我们假设收益是观测,行动及下一个时刻的观测的一个确定性函数。该假设在上一节的实例分析中自动成立。具体来说,在糖尿病案例中,只依赖于时刻的血糖浓度,而该信息已被包含在中。此外,为了确保这一假设自动得到满足,我们可以将纳入中来重新定义观测。基于此假设,我们考虑下述原假设和备择假设:
:对于任意时刻,给定和之前的观测---行动二元组是条件独立的;
:至少存在一个时刻和之前的观测---行动二元组在给定后不是条件独立的。
根据  Shi et al. (2020) 以及 Zhou et al. (2023) 的定理1,在平稳性的假设下,我们的原假设等价于一系列条件独立性假设的交集,其中:
:对于任意时刻以及任意整数,给定是条件独立的。
因此,检验马尔科夫性等价于检验这些条件独立性假设,其中每个假设考察相隔步的观测和之前的观测---行动二元组的条件独立性。
检验统计量:在每个条件独立性假设下,对于任意的,我们有
进一步利用马尔可夫性,上述两个条件期望分别只依赖于,从而可得
(1)式是  Shi et al. (2020) 和 Zhou et al. (2023) 假设检验方法的核心。该等式说明,对于任意的,我们只需估计两个条件期望,然后将这些估计代入(1)式,并用样本均值来近似最左边的期望来构建相应的统计量。在原假设下,对于所有的应接近于0。如果存在某些的组合,其统计量显著地偏离 0,则提供了拒绝原假设的证据,表明观测数据不满足马尔科夫性。基于此,Shi et al. (2020) 和 Zhou et al. (2023) 考虑大量的的组合,并构建最大化检验统计量。如果该检验统计量超过一定的阈值,则拒绝原假设。
接下来,我们围绕(1)式和检验统计量做进一步地讨论:
  • 根据 Shi et al.(2020)和Zhou et al.(2023)的定理2,在原假设下,只需两个条件期望中的任意一个被正确识别,(1)式左侧既为0。这样的双稳健性为假设检验提供了极大的便利。具体而言,只要这些条件期望的收敛速度达到,其中代表样本总量,即可保证检验的相合性。我们不需要它们达到标准的参数收敛率;详见 Shi et al.(2020)的条件(C4)以及  Zhou et al. (2023) 的条件4。
  • 鉴于需要考虑大量的的组合,我们亟需一个能快速计算不同下的条件期望的算法。Shi et al. (2020) 采用了类似分位数随机森林的算法 (Meinshausen and Ridgeway, 2006)来加速计算。其中,森林中每棵树的分支和叶子的划分与 (或 ) 无关,即对于任意的 (或 ),使用的都是同一片森林。最终输出条件期望的计算会根据 (或 )的具体形式有所不同。这样极大地简化了计算过程,因为森林无需随 (或 )的变化而重新学习。详见  Shi et al. (2020)  的5.1节;这里不再赘述。
  • 同样地,Zhou et al. (2023) 采用生成学习的算法来提高计算效率。我们以计算第一个条件期望为例说明。其核心思想是通过学习下的条件分布,从而为任意函数 的条件期望提供估计。具体而言,我们需要设计一个生成器,该生成器接收以及一些随机噪声作为输入,输出,使得输出的分布和下的条件分布非常相似。这时,只需给定和一系列独立同分布的随机噪声,该生成器即可产生一系列在给定下独立同分布的,记为。随后,对任意函数,我们都可用来近似其条件期望。在实验中,Zhou et al. (2023) 使用经典的混合密度网络作为生成器。而Shi et al. (2021) 和 Shi et al. (2023b)考虑一般的条件独立性检验,采用了5---10年前很火的对抗生成网络 (GANs, Goodfellow et al., 2014) 作为生成器。此外,最近流行的扩散模型(diffusion model)或者变换器(transformer)也可作为生成器来使用。
  • 再者,Shi et al. (2020) 和 Zhou et al. (2023) 都将设为特征函数(正弦余弦函数),因它们与分布函数一一对应。此外,我们也可参考  Shi et al. (2021) 的方法,使用神经网络来代替特征函数。
  • 最后,Shi et al. (2020) 和 Zhou et al. (2023) 都采用交叉拟合的方法来构建最后的检验统计量,即:(i)将数据切成若干份,用不同的数据来估计条件期望以及构建其统计量。每个数据组合都可得到一个。(ii)最后将所有的统计量取平均,再取关于的最大值。该方法消除了构建检验统计量的数据和估计条件期望的数据之间的相关性,使得假设检验的相合性证明无需加入关于条件期望估计函数的VC维度条件。此类交叉验证的方法在构建双稳健估计量时经常被应用 (Chernozhukov et al., 2018; Kallus and Uehara, 2022)。
拒绝域:在计算得到统计量 之后,我们需要设定一个阈值来确定拒绝域。在这里,我们采用高维 bootstrap 的方法 (Chernozhukov et al., 2014)来估计这一阈值。虽然Chernozhukov et al. (2014) 要要求数据独立,但他们的方法同样适用于在马尔科夫假设下的时间序列以及MDP,因为在这种情况下,每个统计量 本质上构成一个鞅差序列的和,呈现出与独立加和类似的统计性质;详细讨论可参见  Belloni and Oliveira (2018)。此外,Victor及其合作者对他们的方法有一系列的深入研究和拓展。对此感兴趣的读者可参考子谦在狗熊会上的相关介绍[10]。
具体而言,在原假设下,所有的统计量渐进服从一个多维高斯分布。据此,我们不难推断出依分布收敛于一个若干多维高斯分布变量的极大值。因此,我们首先通过样本协方差来估计这些统计量的协方差矩阵。然后模拟服从具有相同协方差矩阵的高斯分布的随机向量,对其中每个变量取绝对值后再取最大值。通过不断重复这个模拟过程,我们可以得到一系列的 bootstrap 统计量。此外,我们也可以通过用wild bootstrap的方法来构建bootstrap统计量,这样可以避免对高维的协方差矩阵进行Cholesky分解的计算。最后我们将阈值设为这些 bootstrap 统计量的上分位点。如果检验统计量大于该阈值,我们拒绝原假设。该检验的理论性质可参考 Shi et al. (2020) 的定理1以及 Zhou et al. (2023) 的定理5和6。我们这里不再赘述。
相关假设检验方法的探讨和比较:为了深入理解上述基于双机器/生成学习的假设检验方法,接下来,我们将其与现有的条件独立性和马尔科夫性检验的方法进行比较:
  • 基于单回归/生成学习的假设检验:Chen and Hong (2012) 和 Bellot and van der Schaar (2019) 分别提出了条件独立性和马尔可夫性检验的方法。这两个方法的共同点在于它们只学习了单个生成器/回归函数。因此,它们的检验统计量不具有双稳健性,极易受到生成器/回归函数带来的偏差影响。具体而言:
    • Bellot and van der Schaar (2019) 通过对抗生成网络来学习生成器,但该方法是无法控制第一类错误的。除非我们考虑半监督学习的场景,有大量无标签数据可用于精确学习生成器(Berrett et al., 2020)。
    • Chen and Hong (2012) 通过经典的局部多项式回归的来计算我们之前讨论的条件期望。他们的方法可以控制第一类错误。这是由于他们采用了经典的统计非参方法,并进行了undersmoothing以减少估计的偏差。但undersmoothing增大了估计的方差,影响了最终假设检验在有限样本下的效果;详见  Zhou et al. (2023) 的模拟结果。
  • 基于双回归学习的假设检验:Zhang et al. (2019) 以及 Shah and Peters (2020) 提出了基于双回归学习的条件独立性检验。虽然与  Shi et al. (2020) 和 Zhou et al. (2023)  的方法在概念上相似,但他们仅关注条件独立性检验而未涉及马尔科夫检验。并且他们的检验函数仅限于单位函数。这简化了检验过程,因为不需要采用高维 bootstrap确定阈值,但是也因此限制了检验的势;详见 Shi et al. (2021) 以及 Shi et al. (2023b) 的模拟结果。
  • 基于强条件独立性的检验:上述双生成学习的检验方法主要关注弱条件独立性 (Daudin, 1980)。它们无法识别所有的备择假设。实际上,存在某些备择假设,使得(1)式左侧对于所有的都为0。考虑到这一点,我们可以构建强条件独立性的检验统计量来识别所有的备择假设;详见 Shi et al. (2021) 定理5的后续讨论。在实际应用中,尽管弱条件独立性的检验方法无法识别所有的备择假设,但它们在多数实际情况下比强条件独立性的检验有更好的势。
模型选择:最后,我们来谈谈基于双生成学习检验的模型选择。该模型选择的方法和回归分析中的前进法有异曲同工之妙。给定一组离线的数据和一个显著性水平,我们首先检验该数据是否满足马尔科夫性。如果检验没有被拒绝,那我们认为其符合MDP。如果被拒绝,我们继续检验数据是否符合二阶MDP,然后是三阶MDP,依此类推,直到某个阶数的假设不被拒绝。具体检验时,我们将当前的观测与前阶的滞后项合并成状态,然后将双生成学习的检验方法应用在这些状态---行动---收益三元组上。这一过程中,假设阶MDP的假设没有被拒绝,我们认为数据来自于阶MDP模型。反之,如果即使在较高的阶数时检验仍然拒绝原假设,这表明数据可能更符合POMDP的模型。


参考文献

Achiam, J., Adler, S., Agarwal, S., Ahmad, L., Akkaya, I., Aleman, F. L., Almeida, D., Altenschmidt, J., Altman, S., Anadkat, S., et al. (2023), “Gpt-4 technical report,” arXiv preprint arXiv:2303.08774.
Belloni, A. and Oliveira, R. I. (2018), “A high dimensional central limit theorem for martingales, with applications to context tree models,” arXiv preprint arXiv:1809.02741.
Bellot, A. and van der Schaar, M. (2019), “Conditional independence testing using generative adversarial networks,” Advances in neural information processing systems, 32.
Bergsma, W. P. (2004), “Testing conditional independence for continuous random variables,” .
Berrett, T. B., Wang, Y., Barber, R. F., and Samworth, R. J. (2020), “The conditional permutation test for independence while controlling for confounders,” Journal of the Royal Statistical Society Series B: Statistical Methodology, 82, 175–197. Cassandra, A. R., Kaelbling, L.
P., and Littman, M. L. (1994), “Acting optimally in partially observable stochastic domains,” in Aaai, vol. 94, pp. 1023–1028.
Chen, B. and Hong, Y. (2012), “Testing for the Markov property in time series,” Econometric Theory, 28, 130–178.
Chen, E. Y., Song, R., and Jordan, M. I. (2024), “Reinforcement Learning in Latent Heterogeneous Environments,” Journal of the American Statistical Association, accepted.
Chernozhukov, V., Chetverikov, D., Demirer, M., Duflo, E., Hansen, C., Newey, W., and Robins, J. (2018), “Double/debiased machine learning for treatment and structural parameters,” The Econometrics Journal, 21, C1–C68.
Chernozhukov, V., Chetverikov, D., and Kato, K. (2014), “Gaussian approximation of suprema of empirical processes,” The Annals of Statistics, 42, 1564.
Daudin, J. (1980), “Partial association measures and an application to qualitative regression,” Biometrika, 67, 581–590.
Ernst, D., Geurts, P., and Wehenkel, L. (2005), “Tree-based batch mode reinforcement learning,” Journal of Machine Learning Research, 6.
Ertefaie, A. and Strawderman, R. L. (2018), “Constructing dynamic treatment regimes over indefinite time horizons,” Biometrika, 105, 963–977.
Goodfellow, I., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., Courville, A., and Bengio, Y. (2014), “Generative adversarial nets,” Advances in neural information processing systems, 27.
Hu, Y. and Wager, S. (2023), “Off-policy evaluation in partially observed Markov decision processes under sequential ignorability,” The Annals of Statistics, 51, 1561–1585.
Kallus, N. and Uehara, M. (2022), “Efficiently breaking the curse of horizon in off-policy evaluation with double reinforcement learning,” Operations Research, 70, 3282–3302.
Krishnamurthy, V. (2016), Partially observed Markov decision processes, Cambridge university press.
Le, H., Voloshin, C., and Yue, Y. (2019), “Batch policy learning under constraints,” in International Conference on Machine Learning, PMLR, pp. 3703–3712.
Li, G., Shi, L., Chen, Y., Chi, Y., and Wei, Y. (2024), “Settling the sample complexity of model-based offline reinforcement learning,” The Annals of Statistics, 52, 233–260.
Liao, P., Greenewald, K., Klasnja, P., and Murphy, S. (2020), “Personalized heartsteps: A reinforcement learning algorithm for optimizing physical activity,” Proceedings of the ACM on Interactive, Mobile, Wearable and Ubiquitous Technologies, 4, 1–22.
Liao, P., Klasnja, P., and Murphy, S. (2021), “Off-policy estimation of long-term average outcomes with applications to mobile health,” Journal of the American Statistical Association, 116, 382–391.
Liao, P., Qi, Z., Wan, R., Klasnja, P., and Murphy, S. A. (2022), “Batch policy learning in average reward markov decision processes,” Annals of statistics, 50, 3364.
Ljungqvist, L. and Sargent, T. J. (2018), Recursive macroeconomic theory, MIT press.
Luckett, D. J., Laber, E. B., Kahkoska, A. R., Maahs, D. M., Mayer-Davis, E., and Kosorok, M. R. (2020), “Estimating Dynamic Treatment Regimes in Mobile Health Using V-learning,” Journal of the American Statistical Association, 115, 692.
Marling, C. and Bunescu, R. (2020), “The OhioT1DM dataset for blood glucose level prediction: Update 2020,” in CEUR workshop proceedings, NIH Public Access, vol. 2675, p. 71.
Marling, C. and Bunescu, R. C. (2018), “The OhioT1DM dataset for blood glucose level prediction,” in KHD@ IJCAI.
Meinshausen, N. and Ridgeway, G. (2006), “Quantile regression forests.” Journal of machine learning research, 7.
Mnih, V., Kavukcuoglu, K., Silver, D., Rusu, A. A., Veness, J., Bellemare, M. G., Graves, A., Riedmiller, M., Fidjeland, A. K., Ostrovski, G., et al. (2015), “Human-level control through deep reinforcement learning,” nature, 518, 529–533.
Puterman, M. L. (2014), Markov decision processes: discrete stochastic dynamic programming, John Wiley & Sons.
Ramprasad, P., Li, Y., Yang, Z., Wang, Z., Sun, W. W., and Cheng, G. (2023), “Online bootstrap inference for policy evaluation in reinforcement learning,” Journal of the American Statistical Association, 118, 2901– 2914.
Riedmiller, M. (2005), “Neural fitted Q iteration–first experiences with a data efficient neural reinforcement learning method,” in Machine learning: ECML 2005: 16th European conference on machine learning, Porto, Portugal, October 3-7, 2005. proceedings 16, Springer, pp. 317–328.
Rodbard, D. (2009), “Interpretation of continuous glucose monitoring data: glycemic variability and quality of glycemic control,” Diabetes technology & therapeutics, 11, S–55.
Shah, R. D. and Peters, J. (2020), “THE HARDNESS OF CONDITIONAL INDEPENDENCE TESTING AND THE GENERALISED COVARIANCE MEASURE,” The Annals of Statistics, 48, 1514–1538.
Shi, C., Wan, R., Song, R., Lu, W., and Leng, L. (2020), “Does the Markov decision process fit the data: Testing for the Markov property in sequential decision making,” in International Conference on Machine Learning, PMLR, pp. 8807–8817.
Shi, C., Wang, X., Luo, S., Zhu, H., Ye, J., and Song, R. (2023a), “Dynamic causal effects evaluation in a/b testing with a reinforcement learning framework,” Journal of the American Statistical Association, 118, 2059–2071.
Shi, C., Xu, T., Bergsma, W., and Li, L. (2021), “Double generative adversarial networks for conditional independence testing,” Journal of Machine Learning Research, 22, 1–32.
Shi, C., Zhang, S., Lu, W., and Song, R. (2022), “Statistical inference of the value function for reinforcement learning in infinite-horizon settings,” Journal of the Royal Statistical Society Series B: Statistical Methodology, 84, 765–793.
Shi, C., Zhou, Y., and Li, L. (2023b), “Testing directed acyclic graph via structural, supervised and generative adversarial learning,” Journal of the American Statistical Association, 1–14.
Silver, D., Huang, A., Maddison, C. J., Guez, A., Sifre, L., Van Den Driessche, G., Schrittwieser, J., Antonoglou, I., Panneershelvam, V., Lanctot, M., et al. (2016), “Mastering the game of Go with deep neural networks and tree search,” nature, 529, 484–489.
Sutton, R. S. and Barto, A. G. (2018), Reinforcement learning: An introduction, MIT press.
Wang, J., Qi, Z., and Wong, R. K. (2023), “Projected state-action balancing weights for offline reinforcement learning,” The Annals of Statistics, 51, 1639–1665.
Xu, Z., Li, Z., Guan, Q., Zhang, D., Li, Q., Nan, J., Liu, C., Bian, W., and Ye, J. (2018), “Large-scale order dispatch in on-demand ride-hailing platforms: A learning and planning approach,” in Proceedings of the 24th ACM SIGKDD international conference on knowledge discovery & data mining, pp. 905–913.
Yang, W., Zhang, L., and Zhang, Z. (2022), “Toward theoretical understandings of robust markov decision processes: Sample complexity and asymptotics,” The Annals of Statistics, 50, 3223–3248.
Zhang, H., Zhou, S., Guan, J., and Huan, J. (2019), “Measuring conditional independence by independent residuals for causal discovery,” ACM Transactions on Intelligent Systems and Technology (TIST), 10, 1–19.
Zhou, W., Zhu, R., and Qu, A. (2024), “Estimating optimal infinite horizon dynamic treatment regimes via pt-learning,” Journal of the American Statistical Association, 119, 625–638.
Zhou, Y., Shi, C., Li, L., and Yao, Q. (2023), “Testing for the Markov property in time series via deep conditional generative learning,” Journal of the Royal Statistical Society Series B: Statistical Methodology, 85, 1204–1222.

[1]http://incompleteideas.net/book/RLbook2020.pdf
[2]https://rltheorybook.github.io/rltheorybook_AJKS.pdf
[3]https://www.youtube.com/playlist?list=PLqYmG7hTraZDM-OYHWgPebj2MfCFzFObQ
[4]https://www.davidsilver.uk/teaching/
[5]https://github.com/callmespring/RL-short-course
[6]https://mp.weixin.qq.com/s/PJjnuUUVKa69meFagX7BPQ
[7]http://smarthealth.cs.ohio.edu/OhioT1DM-dataset.html
[8]https://github.com/RunzheStat/TestMDP
[9]https://github.com/yunzhe-zhou/markov_test
[10]https://mp.weixin.qq.com/s/7EyI2VeVR7NXDGOGbOI9Iw

狗熊会
狗熊会,统计学第二课堂!传播统计学知识,培养统计学人才,推动统计学在产业中的应用!
 最新文章