从不会到不怕——你真的懂p值吗?

文摘   2024-12-20 05:37   德国  

p值到底是个啥?

随便翻开一本统计学课本,我们会看到这样的定义:

p值是在假定原假设为真时,得到与样本相同或者更极端的结果的概率

它是基于特定假设实际样本进行统计推断的一个工具

某种意义上说,p值体现了如果原假设成立,一个人看到样本时的奇怪程度

p值越小,我们获得的样本在原假设成立的前提下越不可能出现;而当p值小到一定程度时,我们不得不认定,我们的前提是错误的,因为可能性这么小的事件实在是太难发生了

p值不是什么?

✓p值不是原假设为真的概率,也不是备选假设为假的概率

对于任何一个假设,它为真的概率都是固定的

然而,我们已经知道p值是根据具体的样本数据计算得出的,同样的实验重复做几次,每次得到不同的样本,p值也自然会有区别

因此,p值不可能是原假设为真或备选假设为假的概率

p值只描述样本与原假设的相悖程度,原假设的真与假是我们以此为根据做出的一个判断

p值并不能描述原假设和备选假设本身为真的概率

►根据我们的样本计算得出的p值小于0.05,意味着我们得到了「显著」的结果。某些文章在得出这个结论之后会说「我们可以在95%的置信度下获得同样的结果」。这种说法是错误的。

►实验重复获得相同结果的概率,等同于我们所说的实验结果的「重现性」,是由实验设计的合理性和执行的严格性决定的。用实验结果计算得出的p值描述的是数据与某种假设的关系,而不可能告诉我们同样的数据会不会再次出现。

✓p值并不能代表你所发现的效应(或差异)的大小

统计显著性,不等于实际显著性

科学研究的目的是为了指导实践,因此对研究结果的解读不能止于统计显著性,而应放在具体的实际情境下进行综合考虑。

p值只能反映数据和假设之间的关系,并不能反映数据的效应大小

在科学文献中,当我们报告统计测试的结果时,不能仅仅给出p值,还需要给出相应的效应大小(取决于具体的测试,比如均值的差、回归系数、OR值等)及其置信区间,这样才能使读者更全面、准确地评估研究发现的意义。

✓效应量

效应量是对一个研究结果的大小(magnitude)进行量化的指标,它能够反映一个实际效应(effect)的大小。常用的效应量指标有均值差、标准化均值差、相关系数等

效应量的计算基于样本数据,可以帮助我们了解结果的实际意义和实际效应的强度。例如,在一项研究中,我们得到了两个治疗组的均值差异,这个差异是否足够大,能否在临床上产生实际意义,需要结合效应量来考虑

✓可信区间

可信区间是对一个参数进行估计的范围,通常以95%可信区间(95% CI)表示。它表示在多次重复实验中,有95%的可能性这个区间会包含真实的参数值

与p值不同,可信区间能够提供关于参数估计的不确定性的信息。一个较窄的可信区间表示估计值的精度较高,而较宽的可信区间则表示估计值的不确定性较大

例如,在一项研究中,我们得到了一个治疗效果的估计值,并计算出其95%可信区间。如果这个可信区间不包含0,那么我们可以认为治疗效果在统计学上是显著的

✓p值不是α值

►p值在许多统计学文献中都被描述成「显著性水平」,有时候被记作α,但两者的确切含义是不同的

α值是进行假设检验时,研究者提前设定的一个显著性水平,用来决定拒绝原假设的标准。α值是事先确定的,而p值则是根据样本数据计算得到的

一般地,α值定得越高,统计分析的「显著性」越容易实现,因此在进行显著性检验时α值的设定应该与实际问题相结合

为什么是0.05?

这个问题有一个很无趣的答案:这是费希尔老爷子随口一说的

费希尔的随口一说之中似乎也包含了某种神奇的直觉

有学者提出,对于过去近百年中生物医学和社会科学(运用统计学方法最普遍的学科)研究中常见的效应大小和样本量而言,0.05这个界限恰好在任何实验都做不出显著性结果和假阳性发现满天飞之间找到了一点微妙的平衡;当然,科学研究在不断地发展,当代的许多新领域(如基因组学)中的海量数据和测试已经对0.05这条金标准作出了挑战,统计学家也发展出了新的对策

另外,0.05的存在也是「前计算机时代」的一个历史遗留产品。九十年代以前,计算机和统计软件还没有被广泛使用,人们进行统计学分析时,往往需要借助统计学表格,把根据样本算出的统计量与表格中的临界值进行比较。由于篇幅所限,表格自然不能列出所有的p值,因此当时的人们都倾向于报告p<0.05的结果。随着统计软件的流行,如今获得精确的p值已不是难事,人们也不再采用这样模糊的表述了。但是0.05这个门槛儿却成为了一种文化,被科学界保留了下来

参考资料: 

  1. 1.    Reinhart, Alex. "Statistics done wrong." (2014).

  2. 2.    Nuzzo, R. (2014). Statistical errors. Nature, 506(7487), 150-152.

  3. 3.    Anonymous. “Why P=0.05?” http://www.jerrydallal.com/lhsp/p05.htm

Dr Leo
ENT医生的科研分享
 最新文章