中心极限定理
在概率论中,中心极限定理(CLT)建立了一个重要概念,即在许多情况下,对于独立同分布的随机变量来说,标准化样本均值的抽样分布趋近于标准正态分布,即使原始变量本身不服从正态分布。
中心极限定理在概率论中是一个关键概念,因为它揭示了适用于正态分布的概率和统计方法可以应用于涉及其他类型分布的许多问题。
中心极限定理在概率论的发展过程中经历了许多变化。定理的早期版本可以追溯到1811年,但在其现代一般形式中,这个概率论的基本结果直到1920年才明确陈述,从而成为经典和现代概率论之间的桥梁。
中心极限定理如下所述:设是来自总体具有总体均值(平均值)和有限方差的独立观测值的随机样本,是该样本的样本均值(本身也是一个随机变量)。则当时, 其中,服从标准正态分布。(有些绕口,多读几遍)
换句话说,假设获得了大量观测值的“大样本”,每个观测值是以不依赖于其他观测值的方式随机产生的,并计算所观测值的平均值(算术平均值)。如果这个过程被多次执行,得到了一系列观测平均值,中心极限定理表明,如果样本量足够大,则这些平均值的概率分布将近似于正态分布。
中心极限定理有几种变体。在常见形式中,随机变量必须是独立同分布的。这个要求可以放宽;如果符合一定条件,均值收敛到正态分布也适用于不同分布或非独立观测的情况。
中心极限定理
经典中心极限定理
设是具有期望值和有限方差的分布的独立同分布的随机变量序列。我们对样本平均值感兴趣,定义为
根据大数定律,当时,样本平均值几乎肯定收敛于期望值(因此也在概率上收敛)。
经典中心极限定理描述了收敛过程中随机波动的大小和分布形式与确定性数之间的差异。具体而言,随着样本量的增大,样本均值与其极限之间的差乘以因子(即)的分布近似于均值、方差的正态分布。当足够大时,的分布与均值为、方差为的正态分布越来越接近。
该定理的实用之处在于,无论的分布形式如何,的分布都趋向于正态分布。正式地说,该定理可以如下表述:
Lindeberg–Lévy中心极限定理指出,假设是一组独立同分布的随机变量,且具有和当趋近于无穷大时,随机变量在分布上收敛到一个均值为、方差为的正态分布:
对于的情况,分布收敛意味着的累积分布函数逐点收敛于均值为、方差为的正态分布的累积分布函数:对于每个实数
其中是标准正态分布在处的累积分布函数。在的意义下,收敛是一致的,即
其中,表示集合的最小上界(或最大上确界)。
Lyapunov中心极限定理
该定理以俄罗斯数学家Aleksandr Lyapunov命名。在这个中心极限定理的变种中,随机变量必须是独立的,但不一定是同分布的。该定理还要求随机变量具有某个阶数的矩,并且这些矩的增长速度受到下面给出的Lyapunov条件的限制。
Lyapunov中心极限定理 – 假设是一系列独立的随机变量,每个随机变量具有有限的期望和方差,定义
如果满足某个的Lyapunov条件
那么当趋近于无穷大时,的和在分布上收敛到一个标准正态随机变量:
实际上,对于,通常最容易检验Lyapunov条件。
如果随机变量序列满足Lyapunov条件,则它也满足Lindeberg条件。然而,反过来的逆命题并不成立。
Lindeberg中心极限定理
在与上述相同的情境和符号下,Lyapunov条件可以用以下较弱的条件(来自1920年的Lindeberg)替代。
假设对于每个
其中 表示指示函数。然后,我们可以得到标准化和的分布如下:
该和收敛于标准正态分布。
多维中心极限定理
设为一个随机向量,它在空间中具有均值向量和协方差矩阵的随机向量。这些随机向量都是独立同分布的。将这些向量逐分量相加,多维中心极限定理表明当对这些和进行缩放时,结果会收敛到多元正态分布。
设
为一个-向量。在中的加粗表示它是一个随机向量,而不是一个随机(单变量)变量。因此,这些随机向量的和为
此和的平均值为
因此,根据多维中心极限定理,当对该和进行标准化处理后得到的结果收敛于标准正态分布。
多元中心极限定理指出:
协方差 为
收敛速度由以下的 Berry-Esseen 类型结果给出:
定理 - 设 为独立的 -值随机向量,每个向量的均值为零。设 ,并假设 可逆。设 为具有与 相同均值和协方差矩阵的 -维高斯随机向量。对于所有凸集 ,我们有:
其中 是一个普适常数,,其中 表示 上的欧几里得范数。
广义中心极限定理(GCLT)是一系列数学家(Berstein,Lindeberg,Lévy,Feller,Kolmogorov等)在1920年至1937年期间共同努力的成果。在1937年,Paul Lévy首次完整证明了GCLT(Lévy,1937)。1954年翻译的Gnedenko和Kolmogorov的书籍中包含了GCLT的完整英文证明(Gnedenko和Kolmogorov,1954)。
GCLT的陈述如下:
给定一个独立同分布的随机变量序列,记。如果在分布上收敛到某个随机变量,则必须服从稳定分布(stable distribution)。
依赖过程(dependent processes)是独立同分布随机变量序列的一个有用的推广。在依赖过程中,随机变量之间不再是完全独立的,而是具有一定的相关性或依赖性。这种推广在离散时间中的混合随机过程中特别有用。混合随机过程的“混合”意味着相互时间间隔很远的随机变量近似独立。在概率论和遍历论中,已经提出了几种不同的混合方式。其中,α混合(strong mixing)定义了一个依赖序列,使得相关性随着时间间隔的增加而指数级递减,即。
在强混合条件下,中心极限定理的简化表述如下:
定理 - 假设是平稳且α混合的随机变量序列,其中,并且且。记,则当时,极限存在。如果,则以分布收敛到标准正态分布(standard normal distribution)。
实际上,,其中级数绝对收敛。
需要注意的是,假设是不可省略的,因为对于(其中是另一个平稳序列),渐近正态性不成立。
该定理还有一个更强的版本,其中假设被取代,并且。
存在这样的正数确保结论的成立。
性质与证明
经典中心极限定理的证明
可以通过特征函数证明中心极限定理,这与(弱)大数定律的证明类似。
假设是独立同分布的随机变量序列,每个随机变量的均值为,有限方差为。和的均值为,方差为。考虑随机变量
在最后一步,我们定义了新的随机变量,每个随机变量的均值为零,方差为单位方差。的特征函数为
在最后一步,我们用到了所有都是独立同分布的事实。的特征函数,根据Taylor定理,为
其中是某个比更快趋近于零的函数。通过指数函数的极限,的特征函数为
所有更高阶的项在极限时消失。右边等于标准正态分布的特征函数。通过Lévy连续性定理,的分布将在时逼近。因此,样本均值
满足
收敛到正态分布,由此得出了中心极限定理。
收敛性质
中心极限定理仅给出了渐近分布。作为有限观测次数的近似,它仅在靠近正态分布的峰值附近提供合理的近似;它需要大量的观测次数才能延伸到尾部。
中心极限定理中的收敛是均匀的,因为极限累积分布函数是连续的。如果存在有限的第三个中心矩,则收敛速度至少是的阶数(参见Berry-Esseen定理)。斯坦恩方法不仅可用于证明中心极限定理,还可用于对所选度量的收敛速度提供界限。
正态分布的收敛是单调的,这意味着的熵单调增加到正态分布的熵。
中心极限定理特别适用于独立同分布离散随机变量的和。离散随机变量的和仍然是离散随机变量,因此我们面对的是一个离散随机变量序列,其累积概率分布函数收敛于一个对应于连续变量(即正态分布)的累积概率分布函数。这意味着如果我们构建个独立相同离散变量和的实现的直方图,连接直方图上方矩形的中心点形成的分段线性曲线将随着趋近于无穷而收敛于一个高斯曲线;这个关系被称为德莫尔夫-拉普拉斯定理。二项分布的文章详细介绍了中心极限定理在只取两个可能值的简单离散变量的情况下的应用。
常见误解
研究表明,中心极限定理存在几个常见但严重的误解,其中一些出现在广泛使用的教科书中。这些误解包括以下观点:
与大数定律的关系
大数定律以及中心极限定理都是一个普遍问题的部分解:当趋近于无穷时,的极限行为是什么?在数学分析中,渐近级数是应对这类问题最常用的工具之一。
假设我们有的渐近展开式:
将上式两边除以并取极限可得,即展开式中最高阶项的系数,它表示的变化率:
可以简单地说:“的增长约为”。通过将函数与其近似值之间的差异除以展开式中的下一项,可以得到更精细的关于的陈述:
在这里,可以说函数与其近似值之间的差异增长约为。这个思想是通过除以适当的标准化函数并研究结果的极限行为来提供关于原始函数自身极限行为的信息。
在经典概率论中研究独立同分布随机变量的和时,根据大数定律,若每个的均值有界,则。如果此外,每个具有有限方差,则根据中心极限定理:
其中服从分布。这提供了前两个常数的非正式展开式值:
当没有有限的均值或方差时,通过不同的中心化和缩放因子,也可以使得经过位移和缩放后的和收敛:
或者非正式地说,
这种情况下,可能出现的分布称为稳定分布。显然,正态分布是稳定的,但还存在其他稳定分布,例如柯西分布,它们的均值或方差未定义。缩放因子可以按比例进行选择,其中;它也可以乘以的一个缓变函数。
套用于大数定律和中心极限定理之间的定理,对于变换函数的研究将提供一种非平凡的极限行为。
定理的另一种陈述
两个或多个独立随机变量之和的概率密度函数是它们各自概率密度函数的卷积(如果这些概率密度函数存在)。因此,可以将中心极限定理解释为关于概率密度函数在卷积下的性质的陈述:随着概率密度函数的数量增加,当概率密度函数的数量趋于无穷大时,卷积趋于正态密度函数。这些定理所需的假设比上述给出的中心极限定理形式更严格。这类定理通常被称为局部极限定理。Petrov 提出了特定的局部极限定理来处理独立同分布随机变量之和。
由于卷积的特征函数是涉及概率密度函数的特征函数的乘积,因此可以用另一种方式表述中心极限定理:随着概率密度函数的数量增加,涉及概率密度函数的特征函数的乘积趋近于正态密度函数的特征函数,前提是上述条件成立。具体而言,需要对特征函数的参数应用适当的缩放因子。
由于特征函数实质上是一个傅里叶变换,可以用等效的傅里叶变换描述它。
计算方差
设是个随机变量之和。许多中心极限定理给出了一些条件,当趋于无穷大时,的分布趋近于(均值为0,方差为1的正态分布)。在一些情况下,可以找到一个常数和函数,当趋于无穷大时,的分布趋近于。
引理 - 假设是一系列取值为实数且严格平稳的随机变量,对于所有, 且 以及 构造
扩展应用
渐近正态性,即适当的平移和缩放后收敛于正态分布的现象,比上述经典框架独立随机变量(或向量)的和要广泛得多。新的框架不时会显露出来,目前尚无单一的统一框架可用。
凸体
定理 — 存在一个序列 ,满足以下条件。设 ,并且随机变量 具有对数凹函数联合密度 ,对于所有的 ,有 ,以及对于所有 ,有 。那么,随机变量
的分布在总变差距离下与 为 -接近。
这两个 -接近的分布具有密度(实际上,是对数凹密度),因此,它们之间的总变差距离是密度差值的绝对值的积分。总变差收敛比弱收敛更加强大。
对数凹密度的一个重要例子是在给定的凸体内恒定的函数,并且在其外面为零;它对应于凸体上的均匀分布,这解释了术语 "凸体的中心极限定理"。
另一个例子:,其中 且 。如果 ,那么 因式分解为 ,这意味着 是独立的。然而,一般情况下它们是相关的。
条件 确保 的均值为零且不相关;但它们不一定是独立的,甚至不是两两独立的。顺便说一句,两两独立不能替代经典中心极限定理中的独立性。
下面是一个类似于Berry–Esseen的结果。
定理— 假设 满足前述定理的假设,则对于任意给定的 ,我们有
其中, 是一个通用的(绝对)常数。此外,对于每个 ,满足 的条件下:
我们需要注意的是,的分布并不一定服从正态分布(实际上,它可能服从均匀分布)。但根据在球面上均匀分布的性质,对于大多数向量,的分布在总变差距离上接近。
稀疏三角级数
定理(Salem–Zygmund)— 设是在上均匀分布的随机变量,,其中
那么有
在分布上收敛于。
高斯多面体
定理— 设为平面上具有二维标准正态分布的独立随机点。设为这些点的凸包,为的面积。那么
证明:根据收敛的定义,对于任意的,存在,当时有
这证明了在中强收敛于0。同样地,对于任意的,存在,当时有
由于是的子空间,即在中弱收敛于1时,也在中弱收敛于1。因此,对于,有在中强收敛。
根据此定理,我们可以得出结论,存在整数,使得在中强收敛。
当趋向无穷大时,在分布上收敛于。