贝叶斯与频数派的根本区别是什么?

文摘   2024-07-29 07:30   浙江  

作为一个从应用研究转向方法研究的研究者,我会认识更多的应用研究者(我这里说的applied research是相对方法学研究而言的),所以也比较容易知道一些应用研究界比较火的方法学相关概念,诸如网络分析,贝叶斯,近年来的热度都在不断上升。
其实这些东西火都是有迹可循的:它们都是给原来的主流分析框架提供一种备选方案。比如网络分析是对潜变量分析无法解决问题的一种补充,而贝叶斯是对大多数频数派统计方法无法解决问题的一种补充。它们就像富二代,直接继承了原有框架的流量和热度。
但也正因如此,很多学者错误地把它们当作门槛很低,即插即用的方法。我自己是做过网络分析的方法研究的,人们对网络分析理解的不充分自不必说。而对于贝叶斯流派的统计方法,我也十分怀疑到底有多少使用者可以明明白白地讲清楚它与传统频数派统计方法的根本不同。在这里,我们不妨做一个小实验,如果你是贝叶斯的使用者,欢迎先下滑到评论区说出你的答案,然后我们再来比对一下你我的见解差异。需要提前说明的是,这个问题并没有唯一解,我们只求更深刻的理解。

我个人的积累和了解告诉我,频数派和贝叶斯的根本不同在于:它们对概率的定义和理解是不一样的
频数派(frequentist)的概率定义顾名思义,是基于frequency的。频数派理论最重要的元素是“重采样”(resampling),基于这种假想的重采样,我们可以形成抽样分布,标准误,进一步形成置信区间,以及p值。p值就是概率,而这种概率的意思很明了,它无非是说在X次重采样下,有多少比例/多少次会发生与结论相悖的情况。
简单来说,频数派的理论先通过重采样形成了一系列重复事件,对于特定事件结果的概率,我们将其定义为该结果频次占总事件数量的比例
贝叶斯则不然,贝叶斯将某事件结果的概率定义为我们对这一结果的确信程度,用英文说就是belief或者certainty。比如我们日常所说的,我觉得明天有50%的概率会下雨,这里的50%就不是一个频数派的概念,我们说50%的时候脑子里肯定没有对明天的天气进行重采样在大致估计下雨的频次占比,50%是我们对明天下雨的一种确信程度,确信程度越高,我们对自己的论断把握越大。
基于此定义,贝叶斯理论中衍生出了有关于总体参数的先验分布,对于一个如下的先验分布,我们实际上就是认为,我们更有把握说总体参数落在中间这一块区域,越靠近中心把握越大


很多人可能对频数派和贝叶斯的区别抱有不同的看法,一种很流行的看法是,大家觉得频数派假设总体参数是某个固定值(fixed constant),而贝叶斯不作此假设。这其实是一种错误的看法,贝叶斯同样也假设了总体参数是某个固定值,这样才能有对总体参数等于不同值时的确信程度。
再比如,有的人会把频数派和贝叶斯的不同理解为方法流程上的不同,这种理解就不免显得肤浅而缺乏意义了。
其实在理解了频数派和贝叶斯对概率的不同定义方式以后,我们就很容易辨别哪些情境在理论上适合使用贝叶斯的方法,那些情境适合使用频数派的方法。比如前面提到的,我要预测明天是否下雨,频数派的理论框架就不是那么适合,因为明天下不下雨这个事件,上下五千年只有一次,和重采样的理论框架是格格不入的。再比如我要预测美国总统大选,我们用重采样的框架去处理它也同样不太合适。


以上就是有关贝叶斯与频数派区别的全部内容,如果你觉得以上内容有帮助,欢迎点一下在看,并关注本公众号接收更多干货内容!另外,我正在撰写系统性统计学讲义,也欢迎有经济能力的读者购买支持!



PsychoStatisticia
一个统计学研究者的个人天地
 最新文章