ANOVA方差分析没你想得那么难!

文摘   2025-01-14 20:13   江苏  
很多朋友第一次接触ANOVA应该是进行MSA学习的时候,除了AIAIG测量系统分析中介绍的控制图法的分析方法之外,还有一种分析方式就是ANOVA分析方法,并且ANOVA分析方法的额外的优势就是除了可以提供人员、设备的变差分析结果之外,还能够提供人员与产品之间的交互作用的方差分类与总体变差的占比,为优化测量系统变差提供额外的输入和分析思路。
当然,在6西格玛项目分析阶段,我们还会接触到另外一种分析需求,就是多个样本的均值是否一致的假设检验,不同于单样本与目标值的一致性检验,也不同于双样本均值一致性检验,有些涉及到多个样本均值一致性检验的时候,t检验就没那么好用,这个时候就要用到ANOVA分析方法。
比如说:组织的一个原材料有三家供应商,如何评价,我们的这个三家供应商提供的原材料的长度均值处于同一个水平呢?
或者说,公司内部关于一个型号的产品有4条生产线,如何判断这4条生产线生产出来的产品的均值是否处于同一水平呢?
以上问题正适用于我们今天介绍的分析方法。
基础概念介绍
在正式介绍ANOVA之前,我们先介绍一些关于方差分析的基础概念:
ANOVA:Analysis of Variance的缩写,它由R.A. Fisher发明,主要用于比较两个及两个以上样本均值的差异‌;
因子:对目标输出有影响的输入或者因素称为因子。如焊接强度受到电压、电流的影响,那么电压、电流就称为焊接强度的因子;上述的产线也可以称作一个因子;
水平:相较于因子而言,在实验中因子所处的状态。例如焊接实验中电压分别设置50V、100V等,不同的状态代表因子不同的水平。上述的4条产线就可以称作因子“产线”的4个不同的水平;
试验条件(也可以称作处理):特定的因子所处的特定的水平叫做一个处理,或者说叫做一个试验条件;
响应:一个实验条件下获得的试验结果称作一个响应。如特定的50V,10A,5Ω条件下得到的焊接强度的结果称作为一个相应。
单因子方差分析模型分析
假设一个实验中所考察的因子只有一个A,那么这就是单因子实验问题。
假设A有r个水平,在每一个水平条件下进行m次重复试验,其结果用yi1,yi2......yim(i=1,2,3...r)表示。
记第i水平下的数据和为Ti,均值为yi,总的均值为ybar,此时共有r*m个数据,如下表:
在进行正式的统计数据分析之前,我们需要进行三个假设:
1. 在任意Ai水平下,实验室据是来自于正态分布N~(μi,σi^2);i=1,2,...,r;
2. 不同水平下的各个数据分布的标准差相等;
3. 各个数据yij相互独立。
在以上三个假设的前提下,我们就可以将各个总体均值是否相等的问题归结为一个假设检验的问题:
原假设H0:μ1=μ2=...=μr;
备择假设H1:μ1、μ2...μr不全相等。
当H0不真时,表示不同水平下响应的均值有显著差异,此时称因子A显著,否则称因子A不显著。
方差分析的基本思想:
好了,接下来就是今天我们分享内容的核心:
在不同水平(r个水平)因子A的多次重复此(m次)实验之后,我们一共可以获得n=r*m个数据,理论上,我们可以获得n个不完全一致的数据,只要数据存在不一致,那就一定存在波动,我们将n个数据存在的波动成为总体波动,用SST表示,SST也称作总体离差平方和:
看上去是不是和方差σ^2的计算公式有点类似?
其实原理类似,都是用来描述数据波动的程度。
那么总体的数据波动有哪些来源呢?
对于单因子方差分析来说,总体的数据波动无外乎有两个来源,一个是不同水平下的因子A带来的波动,以及排除因子A的不同水平下数据或者系统的自然变异,自然变异是不可避免的
我们将因为不同因子A水平下引起的波动成为组间离差平方和:
因为每一个因子水平下都进行了m次实验,所以这里乘以m;
我们将系统自然变差称作SSe,也称作随机误差:
可以知道,SST=SSA+SSe。
从上述各个离差平方和的公式可以知道,数据的个数越多,离差平方和也就会越大,水平数越多,该和也就会越大。所以为了进行比较,还需要引入自由度的概念,记作df(degree of freedom);
关于自由度我们不再过多描述,只需要记住:自由度指的是相互独立数据的个数。
总的离差平方和的自由度dtT=n-1;
因子A的离差平方和的自由度dfA=r-1;
SSe的自由度为:n-r;
dfT=dfA+dfe
我们将因子的离差平方和和误差的离差平方和与相应的自由度之比称为因子或误差的均方和,分别记为MSA和MSe;
其中,MSA=SSA/dfA,MSe=SSe/dfe。
据此,我们可以得到F统计量:F=MSA/MSe。
F统计量来自于统计学中的F分布,是我们最常用的统计学概念之一,这里不进行详细介绍,后面我们会专门针对F分布的内容进行分享。
H0成立时,表示μ1,μ2...μr之间不存在明显的差异,即MSA与MSe之间的差异较小,即认为因子A不显著,也就是说因子A并没有造成总体产生较大的变异。而当F值较大时,说明MSA比MSe大得多,则可以认为因子A是显著的。
依照假设检验的知识,统计量F是服从自由度为dfA,dfe的F分布。当F>F1-α(dfA,dfe)时,认为因子A是显著的,即各个因子A水平下的均值不全相等;F<F1-α(dfA,dfe)时,认为因子A不显著。
如果大家对假设检验的概念比较陌生,可以先参阅我之前分享的关于假设检验的有关文章:
5分钟带你了解假设检验
单因子方差分析的实例:
假设组织的3条产线生产同一个型号的产品,组织想要知道这3条产线生产出来的产品的长度L的均值是否一致,经过数据收集得到如下结果:
利用Minitab软件,操作如下(使用软件之前,需要将表格从二维表转换成一维表):
选择单因子之后,可以得到ANOVA分析结果如下:
P-Value=0.571,大于0.05,说明原假设H0:μ1=μ2=...=μr成立,即说明因子A(产线)不显著,也就是说各条产线生产出来的产品的长度均值一致。
还有一个分析方式:
基于α为0.05,自由度为(2,12)的F值进过查表可得为:19.41,通过计算我们的F值为0.59,小于19.41,说明F值落在拒绝域之内,即无法拒绝原假设。

关注,不迷路!

如果喜欢,欢迎点赞转发给你身边觉得需要的人!

质量不止你我,质量有你有我!

更多精彩内容,欢迎翻阅更多文章!


闲说质量
分享硬核质量知识,发展更多质量人才
 最新文章