为什么样本方差的分母是 n-1?

文摘   2024-10-18 09:06   辽宁  

在统计分析中,对总体进行研究往往是不现实的,因为很难获取总体数据,所以通常用样本来估计总体的特征。

例如,用样本均值估计总体的中心位置,样本方差估计总体的分散程度。

为此,需要使用合理的抽样方法,以确保样本具有代表性、独立性和随机性。

样本缺乏代表性会怎样?

来看一个例子。

如果要统计一个夜店顾客的薪资水平,现在已经有9个顾客,平均工资1万美元,此时,马斯克下班后突然来到夜店找乐子,马斯克薪资10亿,这9个人什么都没做,10人的平均薪资一下子就从1万美元暴涨到1亿美元。

在这个例子中,马斯克就是一个干扰数据,因为他的存在,样本的平均值并不能体现真实薪资水平。

那统计学家应该怎么办呢?

在统计上,把马斯克这种干扰数据称为异常值(Outlier)。最简单的办法就是剔除掉它们。

这种方法还经常用在体育赛事裁判打分上,例如,跳水运动中,通常会去掉一个最高分和一个最低分。

样本缺乏独立性会怎样?

再来看一个例子。

人工智能大讲堂
专注人工智能数学原理和应用
 最新文章