在车祸中越大的车越安全吗？单因素方差分析

文摘 2024-07-23 09:00 荷兰

👆关注“科研代码”，获取更多代码知识

人们普遍认为在车祸中越大的车会越安全。

表 12-1 列出了在汽车碰撞测试中不同车型对头部损伤测量的结果（数据来自数据集 35“汽车碰撞数据”）。

头部损伤是车祸中造成人员死亡和致残的主要原因。

在汽车碰撞测试中，头部损伤结果是根据“头部损伤标准”（Head Injury Criterion，HIC）来衡量的。

HIC 被用来衡量撞击造成头部损伤的可能性。HIC 值越大，在车祸中造成头部损伤的概率就越高。

在介绍统计方法之前，我们应当先探索一下数据。样本统计数据如表 12-2 所示。

参考数据的统计量以及不同车型 HIC 的箱形图。非正式的比较表明，小型车的均值高于其他类型的车。但箱形图中四类车的数据有所重叠，所以差异并不明显。因此，我们需要使用统计方法来判断差异是否显著。

我们可以使用《基础统计学》一书 9-2 节介绍的两个总体均值差的检验方法，但是该检验需要进行两两比较，而这里的样本来自四个不同的总体。当有来自三个或三个以上总体的样本时，通常使用方差分析（Analysis of Variance，简称 ANOVA）方法以检验总体均值是否相等。

核心概念：本节将介绍单因素方差分析的方法，用于检验三个或三个以上总体的均值是否相等（比如 H0：μ1=μ2=μ3）。因为计算量较大，所以我们将着重介绍如何（通过统计软件）解读统计分析的结果。

F 分布

首先回忆 F 分布（见 9-4 节）的如下性质（参见图 12-1）：

F 分布不对称。
F 分布的值为非负数。
F 分布的具体形状取决于两个自由度的值。

第 1 部分：单因素方差分析的基本概念

定义

单因素方差分析（ANOVA）用于检验三个或三个以上总体的均值是否相等。单因素方差分析可以用一个因素（或称为因子、处理）对数据进行分类。

“因素”之所以也被称为“处理”，是因为方差分析的早期应用涉及农业实验，在这些实验中，农田的不同地块使用各种化肥、种子、杀虫剂等进行了处理。

表 12-1 中的单因素（或处理）为汽车类型。该因素有四个不同的分类：小型车、中型车、大型车和 SUV。

关键要素

单因素方差分析

目标

单因素方差分析：检验三个或三个以上总体的均值是否相等。

条件

1. 总体近似服从正态分布。如果总体的分布与正态分布相差甚远，则可以使用 13-5 节介绍的 Kruskal-Wallis 检验。

2. 各总体的方差相同。只要所有的方差近似相等即可。统计学家乔治·博克斯曾经证明，只要满足所有的样本量（接近于）相等，最大的方差就不会超过最小方差的 9 倍，且方差分析的统计结果仍然有效。

3. 样本为随机选取的数据。

4. 样本间相互独立（不是配对样本）。

5. 不同样本来自的总体仅有一个因素可用于分类。

检验 H0：μ1=μ2=…=μk

1. 使用统计软件获得分析结果，包括检验统计量和 p 值。

2. 方差分析检验为右侧检验。

3. 根据以下准则做出判断。

p 值≤ α：拒绝原假设，至少有一个总体的均值与其他均值不同。
p 值 > α：不能拒绝原假设。

由于单因素方差分析的计算过程非常烦琐，因此建议读者使用统计软件并且采纳以下学习策略。

1. 如果 p 值较小（比如小于或等于 0.05），那么拒绝均值相等的原假设。如果 p 值较大（比如大于 0.05），那么不能拒绝均值相等的原假设。

2. 通过以下示例理解单因素方差分析。

例 1：车型与头部损伤结果

根据表 12-1 中的数据，检验 4 个样本是否来自均值都相等的总体。（取 α=0.05）

解答：

检查条件：①根据表 12-1 中数据对应的正态分位图，可以判断出 4 个样本来自近似服从正态分布的总体。② 4 个样本的标准差并不相等，但可以认为其差异并不显著。③根据研究设计，可以将样本视为简单随机样本。④样本间相互独立。⑤单因素为车型。所有条件都满足。

原假设和备择假设如下：

H0：μ1=μ2=μ3=μ4

H1：总体均值不全相等

以下为通过各种统计软件所得的方差分析结果。

方差分析结果显示，F=7.6853，对应的 p 值等于 0.000。因此拒绝原假设。

解读：

我们有足够的证据可以拒绝原假设：4 个样本来自均值都相等的总体。虽然根据方差分析的结果不能得出具体哪一个均值与其他均值不同，但通过图表可以看到小型车的均值高于其他类型的车。因此，在汽车碰撞测试中，小型车的头部损伤结果的值更高。

注意：在“例 1”中，根据方差分析的结果仅能拒绝总体均值不全相等的假设，但不能得出具体哪一个均值与其他均值不同的结论（本节第 2 部分会介绍一些可用于判断特定的均值与其他均值不同的方法）。

方差分析中p 值与检验统计量的关联：检验统计量越大，对应的 p 值越小，因此方差分析检验为右侧检验。图 12-2 展示了 p 值与 F 检验统计量的关联。假设各总体的方差都相同，记作 σ2 ，那么 F 检验统计量为以下两个σ2 估计值之比：①组间变异量（基于样本均值的方差）；②组内变异量（基于样本的方差）。

为什么使用 0.05 的显著性水平？

1925 年，罗纳德·费希尔（R. A. Fisher）出版了一本介绍方差分析方法的书。在该书中，他需要一个包含分子自由度和分母自由度的临界值表，如同表 A-5。因为该表使用两个不同的自由度，所以，如果包含许多不同的临界值，那么该表会非常冗长。于是，费希尔在该表中只使用了 0.05。在后来的版本中，他还加入了 0.01 的显著性水平。

著名的统计历史学家史蒂芬·史蒂格勒（Stephen Stigler）在《机会》（Chance）期刊上写道：0.05 的显著性水平是一个随意选取的数字。但即便如此，选择 0.05 也可以实现以下重要目标。① 0.05 的显著性水平对应的样本量不会偏大且合理。②所选择的 0.05 足够大，使我们有合理的概率判断出重要的结果（即统计功效）。③所选择的 0.05 不会小到迫使我们错过重要的结果（即第二类错误）。

单因素方差分析的检验统计量：

$F=\frac{\text { 组间变异量 }}{\text { 组内变异量 }}$

F 检验统计量的分子度量样本均值间的差异，而其分母中的方差估计值仅取决于样本的方差，不会受到样本均值间差异的影响。因此，若样本均值非常接近，则 F 检验统计量较小，p 值较大。反之，若样本均值间差异显著，则 F 检验统计量较大，p 值较小。

为什么不对样本两两比较？举例来说，如果对表 12-1 中的数据进行两两比较，那么可以进行如下 6 个假设检验：

$\begin{array}{lll} H_0: \mu_1=\mu_2 & H_0: \mu_1=\mu_3 & H_0: \mu_1=\mu_4 \\ H_0: \mu_2=\mu_3 & H_0: \mu_2=\mu_4 & H_0: \mu_3=\mu_4 \end{array}$

这里的问题在于：假设对于每一次检验都使用 0.05 的显著性水平，那么实际的总体置信水平可以低至 0.95⁶ =0.735。一般而言，如果增加显著性检验的次数，那么就增加了偶发显著性的风险，而不是真实的显著性。换句话说，就是增加了犯第一类错误的风险（明明没有差异，但我们认为其中一次检验有差异）。而方差分析方法通过仅使用一次检验来帮助我们避免该风险。

注意：如果需要检验三个或三个以上总体的均值是否相等，则使用方差分析（同时使用两个样本的多重检验可能会对显著性水平产生极大的影响）。

第 2 部分：单因素方差分析的进阶

具有相同样本量 n 的 F 检验统计量的计算

表 12-3 有助于我们理解方差分析方法。该表中的数据集 A 和数据集 B 基本完全相同，除了两个数据集中所有样本 1 的差值为 10。假设两个数据集的样本量相同且都等于 4，那么 F 检验统计量的计算如表 12-3 所示。

步骤 1：求组间变异量 / 方差

组间变异量的计算公式是 $n s_{\bar{x}}^2$ ，其中 n 为每组样本的样本量， $s_{\bar{x}}^2$ 为样本均值的方差，即把所有的样本均值视为一组数据，并计算其方差（根据中心极限定理，有 $\sigma_{\bar{x}}=\sigma / \sqrt{n}$ ，反过来则有 $\sigma=\sqrt{n} \cdot \sigma_{\bar{x}}$ ，即用来估计 σ）。举例来说，表 12-3 中数据集 A 的三个样本均值分别为 5.5, 6.0, 6.0，其方差为 s =0.0833，因此代入组间变异量的公式中，可得组间变异量为 ns =4 (0.0833) =0.3332。

步骤 2：求组内变异量 / 方差

组内变异量可由合并方差来估计，而合并方差其实就是样本方差的均值。举例来说，表 12-3 中数据集 A 的样本方差分别为 3.0, 2.0, 2.0，因此其合并方差为 =(3.0+2.0+2.0)/3=2.3333。

步骤 3：计算检验统计量

F 检验统计量计算如下：

$F=\frac{\text { 组间变异量 }}{\text { 组内变异量 }}=\frac{n s_x^2}{s_p^2}=\frac{0.3332}{2.3333}=0.1428$

求临界值

假设有 k 个样本，每个样本的样本量都为 n，则其对应的分子自由度为 $df_1=k-1$ ，分母自由度为 $df_2=k(n-1)$ 。

对于表 12-3 中的数据集 A，k=3，n=4，所以有 $df_1=2$ ， $df_2=9$ 。查询表 A-5，可得临界值为 4.2565。因为方差分析检验为右侧检验，检验统计量没有落在临界域内，因此不能拒绝样本均值都相等的原假设。

F 检验中的均值效应：为了充分理解方差分析方法的原理，考虑表 12-3 中的数据，并注意以下要点。

在数据集 A 中，样本 1 的值各加 10（即成为数据集 B 中样本 1 的值），可使 F 检验统计量（从 0.1428 变为 51.5721）和 p 值（从不显著的 0.8688 变为显著的 0.0000118）有显著改变。
数据集 A 的三个均值（5.5, 6.0, 6.0）非常接近，而数据集 B 的三个均值（15.5, 6.0, 6.0）则不接近。
两个数据集的样本方差都相等。
数据集 B 的组间变异量（120.3332）远大于数据集 A 的组间变异量（0.3332），说明数据集 B 的样本均值间有很大差异。
两个数据集的组内变异量相等（都为 2.3333）。这是因为样本值各加上一个常数不会影响组内变异量。也就是说，该例中 F 检验统计量和 p 值的改变仅受到 $\bar{x}_1$ 的影响。这个发现揭示了单因素方差分析的一个重要特征：

虽然 F 检验统计量为总体方差 $σ^2$ 的两个估计值的比值，但是F 检验统计量对样本均值更为敏感。

具有不同样本量的 F 检验统计量的计算

当样本量不同时，虽然计算量较大，但是其基本原理和样本量相同的情况一致。此处我们可以使用统计软件，因此就不展开讨论了。需要注意的是，在样本量不同的情况下，我们需要考虑不同的权重。但检验统计量和对其的解读都与之前的相同。

实验设计

在单因素方差分析中，即使得出均值间差异显著的结论，我们也不能绝对肯定该差异可由这个因素所解释。它可能是由其他一些未知因素的变化造成的。减少外部因素影响的一种方法是采用完全随机设计，在该设计中，每个样本值属于不同组的概率相同。例如，受试者通过一种等同于抽签的随机选取方式被分配至三个实验组中的任意一个。减少外部因素影响的另一种方法是使用严格控制的设计，在该设计中，我们需要精挑细选每个样本值，以使其他所有因素没有改变的可能。一般来说，好的实验结果都需要精心设计实验并且贯彻始终。

显著的均值效应

本节前面已经讲到，我们不能通过方差分析得出具体哪一个均值与其他均值不同的结论。我们可以通过偏理论或偏经验的方法来确定是否存在与其他均值有显著差异的均值。以下为两种偏经验的方法：

构建箱形图，并检查各样本是否有重叠，从而确定是否有一个或多个样本的箱形图与其他的箱形图有明显不同。
为每个不同的样本构建其样本均值的置信区间，然后比较这些置信区间，从而确定是否有一个或多个置信区间与其他的置信区间不重叠。

在偏理论的方法中，一类检验被称为全距检验（或称为极差检验），该类检验用于判断所有均值的一个子集是否与其他的均值有显著差异；另一类检验被称为多重比较检验，即两两均值进行比较，但这类检验会做出一些调整，以克服显著性水平随着检验次数的增加而增加的问题。对于在这两类检验中哪一类是最佳检验并没有达成共识，但一些比较常见的检验有：Duncan 新多重极差检验（Duncan’s new multiple range test）、SNK 法（Student-Newman-Keuls method）、图基法（Tukey method）、谢弗法（Scheffé method）、Dunnett 检验、最小显著差异检验（Least Significant Difference Test，LSD 检验）和邦费罗尼校正（Bonferroni Correction）。这里我们介绍邦费罗尼校正。

邦费罗尼多重比较检验

步骤 1：将所有样本两两配对，进行独立总体均值差的 t 检验，但需要做出如下步骤中的调整。

步骤 2：对于每个 t 检验，使用如下检验统计量：

$t=\frac{\bar{x}_1-\bar{x}_2}{\sqrt{\mathrm{MS}_{\mathrm{e}} \cdot\left(\frac{1}{n_1}+\frac{1}{n_2}\right)}}$

其中，MSe（Mean of Squares Due to Error，误差均方 / 组内均方）为方差 $σ^2$ 的估计值，一般可通过统计软件求得 1 。

步骤 3：通过以下步骤调整所得的 p 值或临界值，使得整体显著性水平不会增加。

p 值：df=N-k，其中 k 为样本的个数，N 为所有 k 个样本中样本值的个数。查询表 A-3 或使用统计软件求得 p 值后，在 p 值的基础上乘以同时进行的检验次数，其结果为调整后 p 值〔举例来说，如果有三个样本，对应有三种不同的配对方式（检验次数），则在原 p 值的基础上乘以 3〕。

临界值：在原 α 的基础上除以同时进行的检验次数，其结果为调整后 α〔举例来说，如果有三个样本，对应有三种不同的配对方式（检验次数），则调整后的显著性水平为 α/3〕。

可以发现，如果需要拒绝原假设，那么调整后的检验会要求均值间的差异更大。邦费罗尼校正的步骤 3 正是弥补了多重检验的不足。

译者注：设 $y_{i j}$ 为第 $i$ 个样本的第 $j$ 个样本值， $\bar{y}_i$ 为第 $i$ 个样本的均值， $k$ 为样本的个数， $N$ 为所有 $k$ 个样本中样本值的个数，则误差均方的计算公式为 $\sum_i \sum\left(y_{i j}-\bar{y}_i\right)^2 /(N-k)$ 。

例 2：邦费罗尼校正

根据“例 1”的数据，使用邦费罗尼校正判断哪一个均值与其他均值显著不同。（取 α=0.05）

解答：

本例需要进行多重检验，以下为 6 个原假设：

以 $H_0: μ_1=μ_2$ 为例，可得 $n_1=n_2=12$ ， $\bar{x}_1=290.0$ ， $\bar{x}_2=180.75$ 。根据“例 1”中使用统计软件所得的方差分析结果，可以得到 MSe=5026.337121。

将以上所得值代入检验统计量的公式中，可得：

df=N-k=48-4=44，可得对应的 p 值为 0.000476。调整后 p 值为 0.000476·6=0.003（舍入后）。因此拒绝原假设：样本 1 与样本 2 的均值有显著差异。

类似地，可以重复剩余的 5 个检验的计算过程。下图为 SPSS 的邦费罗尼校正结果。在该结果中，1、2、3、4 分别对应于小型车、中型车、大型车和 SUV。结果的第一行对应于上述样本 1 和样本 2 的 t 检验结果，其中最后一列“Sig.”即为 p 值。可以发现，小型车的均值和大型车以及 SUV 的均值也显著不同。

解读：

尽管通过方差分析可以得出至少有一个均值与其他均值显著不同的结论，但邦费罗尼校正明确表明，小型车HIC的均值与其他三个均值显著不同，而其他三个样本的均值都没有显著差异。

以上内容摘自《基础统计学（第14版）（双色）》一书！

↑限时五折优惠↑

限时五折优惠，快快抢购吧！



如果喜欢本文
欢迎 在看丨留言丨分享至朋友圈 三连

http://mp.weixin.qq.com/s?__biz=MzI2MTkxOTgzMQ==&mid=2247486760&idx=1&sn=0b562657ba76653ff5130a6afec947fa

科研代码

专注R和Python的数据分析。

最新文章

文氏图还是韦恩图？糟糕的翻译，但R和Python代码可以！

医学生：我就爱用R怎么了？

审稿人：我只用星星标注显著性差异！

宣布了！博士、教授们！

审稿人：你的PCA没分开啊，分辨率也太低了！

审稿人：学会线性回归，学会用AI发论文。

条形图代码：你用了，论文就接收了！

永久激活GPT4.0！有效期至2296年，我上车了！！

恰恰相反，R和Python都比SPSS好用！

学会了，R配色！

羽哥，我总是免费给女神做显著性分析，这样做对吗？

小羽的书屋：我学数据分析用过的那些书

审稿人: 相关性那么高，是因为你的异常值吧。

用个人网站代替简历，你不知道的找工作捷径（R+github+hugo）

36岁程序员：老板最喜欢用聚类分析啊，你得学会啊！

为什么总感觉用R的人比用Python的多？

资深审稿人向我道歉，请求不要再用PCA分析数据了

审稿人：你看看机器学习和深度学习相结合都应用在哪里？

从Rstudio转向Pycharm，真香！

审稿人：你为什么不用PyTorch包做机器学习?

科研代码：我喜欢Rstudio，我怕它凉了！

审稿人：贝叶斯统计建模, 正在大量发表！

三行代码调用你想要的数据集，请直接拿去！

学R代码，看这两本教程就够了

数据新生：随便搞搞分析，有必要知道Pipeline吗？

成立了！博士们！

审稿人：我沉迷PLSDA分类，再也不用线性分析

资深HR: 我们其实很少招聘只会R语言的毕业生

审稿人：最好用的模型评价不就是准确率嘛?

恭喜各位天命人！资助45681项！24年国自然结果公布！专业评审直播解读，连麦答疑！

审稿人：我看够套路写的文章了，尤其是PCA搭配分类模型

黑神话悟空：如来如果会写代码？判别分析就很简单

太香了，用GPT-4o做科研，免费帐号GPT4.0，我上车了！！

最快完成数据分析发论文，还是得用SPSS

审稿人：最适合新手发论文的判别模型，不用修改稿！

藏不住了！大牛帮选刊投稿后，被拒的5篇SCI全中了！

科研代码：国内对开放获取的偏见该放下了！

我说Scikit-learn是最简单的机器学习库，谁赞成？谁反对？

永久激活GPT4.0！有效期至2296年，我上车了！！

PCA降维：维度其实是一个很难理解的概念

审稿人竟然说SVM只能用来二元分类？绷不住了

学R不好找工作？我们公众号也有自己的知识星球了

审稿人：别让本科生写论文了，他们甚至没做数据预处理！

文末赠书|AI for Science：AI+生命科学的落地应用

学R代码，看这两本教程就够了

新扎师妹：最烦用API调用数据了，一堆乱码！

经验之谈：做科学公众号，一年三万粉丝，收获是学会挨骂

宣布了！博士们！

资深博导：学生问为什么训练集要三七分？我懵了！

轰动科研代码界 | 创世界首列，运用此技术连发多篇顶刊， GPT-4o科研论文与算法，太强了！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉