三种区间估计——频率派的置信区间,贝叶斯派的信念区间,Fisher的信任区间

百科   2025-01-17 13:21   广东  


置信区间信念区间的误解可能是统计学学习中最令人深恶痛绝的问题了,很多著名统计学教授也会犯低级错误。用英国作家Authur Koestle的话来说就是,思想史充满了荒谬的真相和肥沃的错误。


如果你深入地理解了频率派和贝叶斯派之间观点的分歧【可参见《统计推断三叉戟——频率派,贝叶斯派和Fisher派(极大似然)》】,便会理解,在区间估计的问题上,两个派别的观点也是截然不同的。


  • 对于频率派来说,区间是变动的,而参数是固定的。这个估计区间被称作置信区间(Confidence Interval)。


  • 对于贝叶斯派来说,区间是固定的,而参数是变动的。这个估计区间被称作信念区间(Credible Interval)。


对于频繁使用的置信区间概念而言,既然参数是固定的,真正变动的是区间,那么我们绝对不能说固定的参数落在一个随机区间的概率是多少,因为固定变量是不能用概率描述的。因此,以下的说法必定是错误的。


  • 总体参数有95%的可能性落在该区间内。


  • 有95%的参数在该区间内,有5%的参数不在该区间内。


正确的理解应该是重复抽样包含固定参数的频率。


  • 如果我们计算置信区间,那么在100 次计算中应该有95个置信区间会把参数包括进去。


可以看到,频率派无时无刻都摆脱不了重复抽样的魔咒,一旦离开了频率解释的庇护,大多数概念都将土崩瓦解。《医学统计学》中对置信区间的定义更加严谨:如果重复100次样本含量相同的抽样,每个样本均按同一方法构建95%的置信区间,则理论上有95个可信区间包含总体均数,还有5个可信区间未包含总体均数。

当然,如果你非要依照“错误理解”来解释置信区间,也不是不允许的,只不过这是另外一个概念,被称作捕获百分比(Capture Percentage,CP),即95%的置信区间“捕获”真实值的百分比。实际上,95%的置信区间对应的捕获百分比大约为84.3%,远远低于95%。


实际上,你所坚持的“错误理解”本质上应该属于贝叶斯派的信念区间。信念区间的观点比频率派的观点直接多了:随机的参数落在一个固定区间的概率是多少。这恰好是置信区间最常被误解的方式。


例如,在医学检查或化验单上,通常就给定了一个固定的参考范围,你可以依据医学检测数值结果对号入座来了解自己的身体情况是否出现了异常。尽管贝叶斯观点因其主观先验和计算难度深受诟病,但它却易于理解,更加接近人类思考的方式,毕竟很多东西不能重复实验,而且世界上又没有什么事情是完全客观的。


历史上,Neyman主导的频率主义的置信区间毫无争议地占据了统治地位。但也因为人们常常忽视重复抽样的前提条件,所以置信区间被广泛地误用。虽然贝叶斯派对区间估计的解读更加正确和直观,但却在20世纪上半叶遭遇了两方面势力的打压:一方面是Neyman主导的频率主义;另一方面是来自Fisher的无情批判。Fisher如此敌视贝叶斯派,以至于称其为“谬误的垃圾”。


Fisher是一个富有争议的人物,他在批判贝叶斯思想的同时,也与经典频率派的Neyman不睦。尽管经典统计的主要理论,如抽样理论、假设检验、估计、实验设计等主要是由这两个人互相补充和完善的,但Fisher却表现出了更加强烈的独立性,尤其是在后期,这两个人之间存在强烈的对立,不光针对科学问题,在生活中两个人也彼此厌恶。

实际上,差不多在Neyman发表置信区间理论的同时,Fisher也提出了另一种求区间估计的方法,该方法在原则上可用于任何统计推断问题。这个方法就是Fisher 提出的信任区间(Trust Interval)。信任区间不仅是一个方法,而且代表了对待统计问题的一种根本不同的观点,带有一些极大似然估计的味道。对任何实数t有



Fisher 赋予上面的公式这样一个意义:把样本X看作一个已知的数,把参数θ看作随机变量,按照这个公式给出的θ的分布就是θ的信任分布。按照Fisher的意思,在抽样得到样本X之前,θ是一个未知数。我们对θ一无所知,就我们对它的了解而言,它什么值都可以取,取什么值的可能性有多大也没人知道。但通过抽样得到X后,通过样本X所提供的信息,我们就对取值的可能性有了新的看法。


通过样本X所提供的信息改变我们对θ一无所知的状态这个思路非常接近似然性的理解方式:借助X的信息,以一个概率分布(而不是θ本身)的形式总结对θ的新认识。这里明确地将θ的分布(而不是θ本身)当作研究对象。


在Neyman的理论中,θ虽然是一个未知但非随机的常数,但却谈不上什么分布。Nayman针对置信区间所做的计算和推理,都被传统的频率框架限制死了。


Fisher对Neyman观点进行的去频率化(剔除频率解释)及似然化(从x对θ进行认知)改造,使得Fisher的信任推断变得与众不同。Fisher采用“信任”一词是经过深思熟虑的,因为信任推断剔除了频率解释,还增加了对某个事物主观信任程度的表达。这似乎是Fisher再一次享用“贝叶斯煎蛋”。


早期人们认为Fisher的信任区间和Neyman的置信区间是一样的,但后来的发展证明了,两者是不同的方法,不仅方法的解释不同,就连具体的计算结果也不同。


实际上,信任区间是在置信区间中纳入了极大似然的思想并引入了主观性,正如我们在《统计推断三叉戟——频率派,贝叶斯派和Fisher派(极大似然)》中讨论的,Fisher 吸取了频率派和贝叶斯派的灵活性,在水平和垂直两个方向上同时做出推断。


当频率派和贝叶斯派交锋时,我们也不要忘记,特立独行的Fisher在早期与两派都有过激烈对抗。因此,怎么能缺少第三种区间估计的观点呢?尽管Neyman主导的频率主义的置信区间在物理学、工程学、生物学、医学、社会科学、心理学等研究文献中毫无争议地占据了主导地位,但我们也看到,贝叶斯和Fisher的思想也发展壮大起来。至此,我们有了以下三种不同的观点:


  • 频率观点下的置信区间。置信区间是经典区间估计的概念,它的应用进一步引申出了效应量、Meta分析等概念。


  • 贝叶斯观点下的信念区间。信念区间用于锁定最有可能的参数,它的逻辑非常接近人类思考问题的方式,也是置信区间通常被误解的方式。


  • Fisher观点下的信任区间。信任区间是Fisher的去频率化改造,并增加了主观信任程度的表达,它的应用还有待进一步探索。


本文内容来自徐鸿鹄《统计信仰:驾驭无序世界的元认知》,做了适当修改和整理,以供学习参考。

尚万只老虎
究中西文化,通数理人文,成一家之言。