算术平均数与极大似然估计
人们常用的算术平均数是否对真值的极大似然估计?
需要了解随机误差的概率分布,即概率密度函数。
高斯证明了:如果算术平均数是对真值的极大似然估计,那么随机误差的分布只能是正态分布。
拉普拉斯与高斯的殊途同归
1809年,高斯提出了正态分布的概率密度函数。
拉普拉斯发现该函数也在他的研究中出现过,但在与随机误差无关的问题中。
拉普拉斯研究二项分布,并通过变换得到了类似于高斯的概率密度函数。
中心极限定理
二项分布在大样本情况下可以近似为正态分布(棣莫弗-拉普拉斯中心极限定理)。
该定理说明独立同分布的随机变量之和在样本量足够大时趋向正态分布。
拉普拉斯提出:随机误差可以看作许多微小误差叠加的结果,符合中心极限定理,因此服从正态分布。
中心极限定理的升级版本
2.0版(Lindelberg-Levy中心极限定理)
适用于均值和方差有限的独立同分布随机变量。
随机变量之和在样本量趋于无穷大时服从正态分布。
3.x版
适用于非独立或不同分布的随机变量。
随机变量之和在样本量足够大时仍服从正态分布。
正态分布的应用
例如在人类身高的研究中,各种微小误差叠加导致总体身高的随机误差服从正态分布。
样本的算术平均数是对总体真值的极大似然估计。
正态分布的重要性
中心极限定理是概率论和统计学的核心定理之一。
许多统计学方法(如t检验、方差分析、多元线性回归)都依赖数据的正态性。
了解正态分布有助于理解这些方法的假设以及在假设不满足时的处理方法。
结论
正态分布的形成是基于数学家们对随机误差分布性质的长期探索和研究。
中心极限定理在概率论和统计学中具有重要地位,揭示了许多现象背后的基本规律。
理解正态分布和中心极限定理有助于更好地应用统计学方法和解释数据分析结果。