这一篇帮你搞定数据正态分布(分析)

文摘   2024-11-12 10:53   湖南  
正态分布检验是进行连续型数据比如T检验、方差分析、相关分析以及线性回归等比较分析的前提,均要求数据服从正态分布或近似分布。数据正态分析主要有非参数检验法、偏度和峰度判断法、图形法三种检验方法。

1.非参数检验法

进行正态性检验是一种非参数检验方法,其原假设是“样本所来自的总体与正态分布无显著性差异”,只有当P>0.05时才能够接受原假设,从而认为数据符合正态分布的特征。一般常见的正态性检验包括柯尔莫戈洛夫-斯米诺夫检验(K-S检验)夏皮-威尔克检验(S-W检验),其中K-S检验适用于大样本量数据(SPSS规定样本量>5000),而S-W检验适用于小样本量数据(SPSS规定样本量<5000)。当正态性检验结果的P<0.05时,通常认为数据不符合正态分布。

从上表可知,训练自觉性的正态性检验结果的统计量为0.956P值为0.000并不满足数据呈现正态分布的条件(P>0.05,故初步判断该数据可能呈现非正态。但是研究者认为,S-WK-S检验结果受到样本量的影响较大,当样本量较少的时候,检验结果不够敏感,即使数据分布有一定的偏离也不一定能检验出来[103];而当样本量较大的时候,检验结果又会太过敏感,只要数据稍微有一点偏离,P值就会<0.05,检验结果倾向于拒绝原假设,认为数据不服从正态分布。

这说明,如果样本量足够多,即使检验结果P>0.05,数据来自的总体也可能是服从正态分布的。因此,可能就要图形法、偏度和峰度法进一步判断数据是否呈现正态分布:

2.峰度和偏度判断法

峰度(K)是用于判定数据分布的陡缓程度;偏度(S)主要用于判定数据的对称性,整体数据偏左还是偏右k0S0时,说明数据是服从正态分布的。实际上,数据很难能满足S≈0K≈0,因此,可采用K系数与S系数来检验,检验公式如下:

如表5.17所示,偏度(S)系数计算结果为-1.03,峰度(K)系数计算结果为1.52,由以上结果可知,偏度系数和峰度系数的绝对值满足小于1.96的正态分布条件,因此可以认为该组样本数据符合正态分布。

3.图形法

图形法主要通过直方图、Q-Q图、P-P来判断数据的正态分布情况:

(1)直方图

样本数据呈现正态分布的直方图形状一般为“倒钟型”,即数据样本量呈现“中间多、两边少、左右对称”的特征,如上图所示,训练自觉性的样本量呈现形状并不能很好的贴合正态分布曲线,故认为训练自觉性的正态直方图并不能反映其数据分布的正态性;

(2)正态Q-Q

Q-Q图反映了变量的实际分布与理论正态分布的符合程度,可以用来考察数据是否服从某种分布类型。若数据服从正态分布,则数据点应与理论直线基本重合。如图所示,训练自觉性一部分位点偏离了直线,说明该连续数据并不能很好地服从正态分布。

(3)P-P

P-P图反映了变量的实际累积概率与理论累积概率的符合程度,可以用来考察数据是否服从某种分布类型。如图5.8所示,训练自觉性一部分位点偏离了直线,说明该连续数据并不能很好地服从正态分布。

综上,非参数检验法、偏度和峰度判断法、图形法三种检验方法可以帮助我们综合判断数据是否服从正态分布。若不服从正态分布,则需要只能进行非参数分析。

下篇推文分享以上方法的具体实操步骤,喜欢就点个关注吧

不会水论文
主打:体育学,学术论文写作,结构方程模型(CB-SEM, PLS-SEM,中介,调节),fsQCA, Meta分析;SCI/SSCI论文发表;学术吗喽。
 最新文章