👆关注“科研代码”,获取更多代码知识
人们普遍认为在车祸中越大的车会越安全。
表 12-1 列出了在汽车碰撞测试中不同车型对头部损伤测量的结果(数据来自数据集 35“汽车碰撞数据”)。
头部损伤是车祸中造成人员死亡和致残的主要原因。
在汽车碰撞测试中,头部损伤结果是根据“头部损伤标准”(Head Injury Criterion,HIC)来衡量的。
HIC 被用来衡量撞击造成头部损伤的可能性。HIC 值越大,在车祸中造成头部损伤的概率就越高。
在介绍统计方法之前,我们应当先探索一下数据。样本统计数据如表 12-2 所示。
参考数据的统计量以及不同车型 HIC 的箱形图。非正式的比较表明,小型车的均值高于其他类型的车。但箱形图中四类车的数据有所重叠,所以差异并不明显。因此,我们需要使用统计方法来判断差异是否显著。
我们可以使用《基础统计学》一书 9-2 节介绍的两个总体均值差的检验方法,但是该检验需要进行两两比较, 而这里的样本来自四个不同的总体。当有来自三个或三个以上总体的样本时,通常使用方差分析 (Analysis of Variance,简称 ANOVA)方法以检验总体均值是否相等。
核心概念:本节将介绍单因素方差分析的方法,用于检验三个或三个以上总体的均值是否相等 (比如 H0:μ1=μ2=μ3)。因为计算量较大,所以我们将着重介绍如何(通过统计软件)解读统计分析的结果。
F 分布
首先回忆 F 分布(见 9-4 节)的如下性质(参见图 12-1):
F 分布不对称。
F 分布的值为非负数。
F 分布的具体形状取决于两个自由度的值。
第 1 部分:单因素方差分析的基本概念
定义
单因素方差分析(ANOVA)用于检验三个或三个以上总体的均值是否相等。单因素方差分析可以用一个因素(或称为因子、处理)对数据进行分类。
“因素”之所以也被称为“处理”,是因为方差分析的早期应用涉及农业实验,在这些实验中, 农田的不同地块使用各种化肥、种子、杀虫剂等进行了处理。
表 12-1 中的单因素(或处理)为汽车类型。该因素有四个不同的分类:小型车、中型车、大 型车和 SUV。
关键要素
单因素方差分析
目标
单因素方差分析:检验三个或三个以上总体的均值是否相等。
条件
1. 总体近似服从正态分布。如果总体的分布与正态分布相差甚远,则可以使用 13-5 节介绍的 Kruskal-Wallis 检验。
2. 各总体的方差相同。只要所有的方差近似相等即可。统计学家乔治·博克斯曾经证明,只 要满足所有的样本量(接近于)相等,最大的方差就不会超过最小方差的 9 倍,且方差分析的统计结果仍然有效。
3. 样本为随机选取的数据。
4. 样本间相互独立(不是配对样本)。
5. 不同样本来自的总体仅有一个因素可用于分类。
检验 H0:μ1=μ2=…=μk
1. 使用统计软件获得分析结果,包括检验统计量和 p 值。
2. 方差分析检验为右侧检验。
3. 根据以下准则做出判断。
p 值≤ α:拒绝原假设,至少有一个总体的均值与其他均值不同。
p 值 > α:不能拒绝原假设。
由于单因素方差分析的计算过程非常烦琐,因此建议读者使用统计软件并且采纳以下学习策略。
1. 如果 p 值较小(比如小于或等于 0.05),那么拒绝均值相等的原假设。如果 p 值较大(比如大于 0.05),那么不能拒绝均值相等的原假设。
2. 通过以下示例理解单因素方差分析。
例 1:车型与头部损伤结果
根据表 12-1 中的数据,检验 4 个样本是否来自均值都相等的总体。(取 α=0.05)
解答:
检查条件:①根据表 12-1 中数据对应的正态分位图,可以判断出 4 个样本来自近似服从正态分布的总体。② 4 个样本的标准差并不相等,但可以认为其差异并不显著。③根据研究设计,可以将样本视为简单随机样本。④样本间相互独立。⑤单因素为车型。所有条件都满足。
原假设和备择假设如下:
H0:μ1=μ2=μ3=μ4
H1:总体均值不全相等
以下为通过各种统计软件所得的方差分析结果。
方差分析结果显示,F=7.6853,对应的 p 值等于 0.000。因此拒绝原假设。
解读:
我们有足够的证据可以拒绝原假设:4 个样本来自均值都相等的总体。虽然根据方差分析的结果不能得出具体哪一个均值与其他均值不同,但通过图表可以看到小型车的均值高于 其他类型的车。因此,在汽车碰撞测试中,小型车的头部损伤结果的值更高。
方差分析中p 值与检验统计量的关联:检验统计量越大,对应的 p 值越小,因此方差分析检验为右侧检验。图 12-2 展示了 p 值与 F 检验统计量的关联。假设各总体的方差都相同,记作 σ2 ,那 么 F 检验统计量为以下两个σ2 估计值之比:①组间变异量(基于样本均值的方差);②组内变异量(基于样本的方差)。
为什么使用 0.05 的显著性水平?
1925 年,罗纳德·费希尔(R. A. Fisher)出版了一本介绍方差分析方法的书。在该书中,他需要一个包含分子自由度和分母自由度的临界值表,如同表 A-5。因为该表使用两个不同的自由度,所以,如果包含许多不同的临界值,那么该表会非常冗长。于是,费希尔在该表中只使用了 0.05。在后来的版本中,他还加入了 0.01 的显著性水平。
单因素方差分析的检验统计量:
F 检验统计量的分子度量样本均值间的差异,而其分母中的方差估计值仅取决于样本的方差, 不会受到样本均值间差异的影响。因此,若样本均值非常接近,则 F 检验统计量较小,p 值较大。反之,若样本均值间差异显著,则 F 检验统计量较大,p 值较小。
为什么不对样本两两比较?举例来说,如果对表 12-1 中的数据进行两两比较,那么可以进行如下 6 个假设检验:
这里的问题在于:假设对于每一次检验都使用 0.05 的显著性水平,那么实际的总体置信水平可以低至 0.956 =0.735。一般而言,如果增加显著性检验的次数,那么就增加了偶发显著性的风险, 而不是真实的显著性。换句话说,就是增加了犯第一类错误的风险(明明没有差异,但我们认为其中一次检验有差异)。而方差分析方法通过仅使用一次检验来帮助我们避免该风险。
注意:如果需要检验三个或三个以上总体的均值是否相等,则使用方差分析(同时使用 两个样本的多重检验可能会对显著性水平产生极大的影响)。
具有相同样本量 n 的 F 检验统计量的计算
表 12-3 有助于我们理解方差分析方法。该表中的数据集 A 和数据集 B 基本完全相同,除了两个数据集中所有样本 1 的差值为 10。假设两个数据集的样本量相同且都等于 4,那么 F 检验统计量的计算如表 12-3 所示。
步骤 1:求组间变异量 / 方差
组间变异量的计算公式是
步骤 2:求组内变异量 / 方差
组内变异量可由合并方差 来估计,而合并方差其实就是样本方差的均值。举例来说,表 12-3 中数据集 A 的样本方差分别为 3.0, 2.0, 2.0,因此其合并方差为 =(3.0+2.0+2.0)/3=2.3333。
步骤 3:计算检验统计量
F 检验统计量计算如下:
求临界值
假设有 k 个样本,每个样本的样本量都为 n,则其对应的分子自由度为
对于表 12-3 中的数据集 A,k=3,n=4,所以有
F 检验中的均值效应:为了充分理解方差分析方法的原理,考虑表 12-3 中的数据,并注意以下要点。
在数据集 A 中,样本 1 的值各加 10(即成为数据集 B 中样本 1 的值),可使 F 检验统计量(从 0.1428 变为 51.5721)和 p 值(从不显著的 0.8688 变为显著的 0.0000118)有显著改变。
数据集 A 的三个均值(5.5, 6.0, 6.0)非常接近,而数据集 B 的三个均值(15.5, 6.0, 6.0)则不接近。
两个数据集的样本方差都相等。
数据集 B 的组间变异量(120.3332)远大于数据集 A 的组间变异量(0.3332),说明数据集 B 的样本均值间有很大差异。
两个数据集的组内变异量相等(都为 2.3333)。这是因为样本值各加上一个常数不会影响组内变异量。也就是说,该例中 F 检验统计量和 p 值的改变仅受到
的影响。这个发现揭示了单因素方差分析的一个重要特征:
虽然 F 检验统计量为总体方差
具有不同样本量的 F 检验统计量的计算
当样本量不同时,虽然计算量较大,但是其基本原理和样本量相同的情况一致。此处我们可以使用统计软件,因此就不展开讨论了。需要注意的是,在样本量不同的情况下,我们需要考虑不同的权重。但检验统计量和对其的解读都与之前的相同。
实验设计
在单因素方差分析中,即使得出均值间差异显著的结论,我们也不能绝对肯定该差异可由这个因素所解释。它可能是由其他一些未知因素的变化造成的。减少外部因素影响的一种方法是采用完全随机设计,在该设计中,每个样本值属于不同组的概率相同。例如,受试者通过一种等同于抽签的随机选取方式被分配至三个实验组中的任意一个。减少外部因素影响的另一种方法是使用严格控制的设计,在该设计中,我们需要精挑细选每个样本值,以使其他所有因素没有改变的可能。一般来说,好的实验结果都需要精心设计实验并且贯彻始终。
显著的均值效应
本节前面已经讲到,我们不能通过方差分析得出具体哪一个均值与其他均值不同的结论。我们可以通过偏理论或偏经验的方法来确定是否存在与其他均值有显著差异的均值。以下为两种偏经验的方法:
构建箱形图,并检查各样本是否有重叠,从而确定是否有一个或多个样本的箱形图与其他 的箱形图有明显不同。
为每个不同的样本构建其样本均值的置信区间,然后比较这些置信区间,从而确定是否有一个或多个置信区间与其他的置信区间不重叠。
在偏理论的方法中,一类检验被称为全距检验(或称为极差检验),该类检验用于判断所有 均值的一个子集是否与其他的均值有显著差异;另一类检验被称为多重比较检验,即两两均值进 行比较,但这类检验会做出一些调整,以克服显著性水平随着检验次数的增加而增加的问题。对于在这两类检验中哪一类是最佳检验并没有达成共识,但一些比较常见的检验有:Duncan 新多重 极差检验(Duncan’s new multiple range test)、SNK 法(Student-Newman-Keuls method)、图基法(Tukey method)、谢弗法(Scheffé method)、Dunnett 检验、最小显著差异检验(Least Significant Difference Test,LSD 检验)和邦费罗尼校正(Bonferroni Correction)。这里我们介绍邦费罗尼校正。
邦费罗尼多重比较检验
步骤 1:将所有样本两两配对,进行独立总体均值差的 t 检验,但需要做出如下步骤中的调整。
步骤 2:对于每个 t 检验,使用如下检验统计量:
其中,MSe(Mean of Squares Due to Error,误差均方 / 组内均方)为方差
步骤 3:通过以下步骤调整所得的 p 值或临界值,使得整体显著性水平不会增加。
p 值:df=N-k,其中 k 为样本的个数,N 为所有 k 个样本中样本值的个数。查询表 A-3 或使用统计软件求得 p 值后,在 p 值的基础上乘以同时进行的检验次数,其结果为调整后 p 值〔举例来说, 如果有三个样本,对应有三种不同的配对方式(检验次数),则在原 p 值的基础上乘以 3〕。
临界值:在原 α 的基础上除以同时进行的检验次数,其结果为调整后 α〔举例来说,如果有三个样本,对应有三种不同的配对方式(检验次数),则调整后的显著性水平为 α/3〕。
可以发现,如果需要拒绝原假设,那么调整后的检验会要求均值间的差异更大。邦费罗尼校正 的步骤 3 正是弥补了多重检验的不足。
译者注:设
例 2:邦费罗尼校正
根据“例 1”的数据,使用邦费罗尼校正判断哪一个均值与其他均值显著不同。(取 α=0.05)
解答:
本例需要进行多重检验,以下为 6 个原假设:
以
将以上所得值代入检验统计量的公式中,可得:
df=N-k=48-4=44,可得对应的 p 值为 0.000476。调整后 p 值为 0.000476·6=0.003(舍入后)。因此拒绝原假设:样本 1 与样本 2 的均值有显著差异。
类似地,可以重复剩余的 5 个检验的计算过程。下图为 SPSS 的邦费罗尼校正结果。在该结果中,1、2、3、4 分别对应于小型车、中型车、大型车和 SUV。结果的第一行对应于 上述样本 1 和样本 2 的 t 检验结果,其中最后一列“Sig.”即为 p 值。可以发现,小型车的 均值和大型车以及 SUV 的均值也显著不同。
解读:
尽管通过方差分析可以得出至少有一个均值与其他均值显著不同的结论,但邦费罗尼校正明确表明,小型车HIC的均值与其他三个均值显著不同,而其他三个样本的均值都没有显著差异。
以上内容摘自《基础统计学(第14版)(双色)》一书!
↑限时五折优惠↑
限时五折优惠,快快抢购吧!
如果喜欢本文 欢迎 在看丨留言丨分享至朋友圈 三连