在统计分析中,对总体进行研究往往是不现实的,因为很难获取总体数据,所以通常用样本来估计总体的特征。
例如,用样本均值估计总体的中心位置,样本方差估计总体的分散程度。
为此,需要使用合理的抽样方法,以确保样本具有代表性、独立性和随机性。
样本缺乏代表性会怎样?
来看一个例子。
如果要统计一个夜店顾客的薪资水平,现在已经有9个顾客,平均工资1万美元,此时,马斯克下班后突然来到夜店找乐子,马斯克薪资10亿,这9个人什么都没做,10人的平均薪资一下子就从1万美元暴涨到1亿美元。
在这个例子中,马斯克就是一个干扰数据,因为他的存在,样本的平均值并不能体现真实薪资水平。
那统计学家应该怎么办呢?
在统计上,把马斯克这种干扰数据称为异常值(Outlier)。最简单的办法就是剔除掉它们。
这种方法还经常用在体育赛事裁判打分上,例如,跳水运动中,通常会去掉一个最高分和一个最低分。
样本缺乏独立性会怎样?
再来看一个例子。