正统的频率派将概率视为一种物理现象,他们只承认抽样概率的存在,而不承认先验概率的存在,因此他们乐于解答诸如“在将一枚正反面完全对称的硬币投掷10次的情况下,10次都是正面向上的概率有多大”这类投掷硬币的问题。
如果把参数θ定义为硬币或图钉正反面的对称程度,将样本x定义为投掷硬币或图钉观察到的结果,就可以给出如下的表达。
• 参数θ=原因。
• 样本x=结果。
从原因到结果,是概率的观点。如果定义了参数θ,就确定了样本的分布,也就确定了得到种种结果x的概率大小。用条件概率的数学形式表达就是P(x|θ),意为利用估计参数θ,计算变量×的概率。P表示Probability,这是一个数值问题。
从结果到原因,是似然的观点。如果有样本x作为结果,那么参数θ最可能的取值是什么?用条件概率的数学形式表达就是L(θ|x),意为利用变量x,估计参数θ的取值。L表示Likelihood,这是一个极值问题。
似然观点正好是传统概率观点的逆过程。概率观点是从参数θ指向事件x发生的概率的,而似然观点正相反,是从已知发生的事件x指向我们希望知道的参数θ的。
等等,这里好像有什么不对!
似然求解的真正思路好像是这样的:如果定义了样本x,那么当参数θ取各种不同的值(原因)时,得到这个结果x的可能性有多大?也就是求利用参数θ,计算变量x的概率。按照这样的逻辑,用条件概率的数学形式表达应该写成L(x|θ),而不是L(θ|x)。
到底是哪里出了问题呢?哪个表达式才是正确的呢?
L(θ|x)这个表达式成功地引起了我们的兴趣,它似曾相识。没错,这种条件概率表达式源自贝叶斯公式。在贝叶斯派看来,在讨论一个统计问题时,必须考虑参数θ的先验分布,获得样本x的目的就是对参数θ的先验分布进行调整。
极大似然估计L(θ|x)和贝叶斯估计P(θ|x)有着同样的条件概率表达式,但在这里它们的意思却并不一样。贝叶斯的观点是,观察到样本x之后,对参数θ的情况有了新的了解,并给出新的估计。渐渐地,谜团散去,似乎一切都开始清晰了起来。
• 极大似然和频率思想的计算观点是一致的,即通过θ来计算x。
• 极大似然和贝叶斯派的解题目标是一致的,即通过x来估计θ。
由此可见,极大似然是θ⇒x⇒θ的过程,其本质是根据很多不同的θ计算不同的x,并找到与观察到的x最接近的情况,从而反过来锁定θ。但是数学上的处理却不用如此烦琐,仅需求解连续的似然函数(以θ作为参数)来取代离散的多次求解和筛选。
极大似然成为一座桥梁,吸取了频率派和贝叶斯派的优秀观点和方法,在两派之间做了很好的折中,我们不妨用其创立者的名字称之为“Fisher派”。
由此可见,频率派和贝叶斯派对世界的本质认知不同。
•频率派认为世界是确定的,有一个源头的本体,这个本体的真值θ是不变的,我们的目标就是找到这个真值(点估计)或真值所在的范围(区间估计)。
•贝叶斯派认为世界是不确定的,人们对世界先有一个预判,即θ的分布,然后通过观测数据对这个预判进行调整,目标是找到最优的描述这个世界的概率分布。
两派在分析的观点上存在巨大的分歧。
• 频率派关注的是θ自身,因此θ被看作一个常数。
•贝叶斯派关注的是θ的分布,因此θ被看作一个随机变量。
频率派会说,完成某项日常工作,平均需要一个星期,平均完成工作的时间是一个常数;贝叶斯派会说,根据以前的工作经验和目前掌握的工作材料,我断定完成这项工作有90%的可能性需要一个星期,有10%的可能性会超过一个星期,完成工作的时间是一个分布,而不是某个固定的值。因此,频率派无法理解“牛顿在1679年4月7日被一颗苹果砸中的概率是 0.34”这样的命题,因为牛顿似乎只被苹果砸中过一次,而不是反复被砸中,这只代表说话人对命题真伪的一种信心程度。
如果将参数θ和样本x放到直角坐标系中,就可以通过几何直觉观测到两派推断方法之间的差异。
•频率派按水平方向推断:优先确定方法,固定θ,变化x。
•贝叶斯派按垂直方向推断:优先确定先验,固定x,变化θ。
“Fisher派”的极大似然估计兼具两个派别的灵活性,θ⇒x⇒θ意味着它可以在水平和垂直两个方向上同时做出推断。
的确,极大似然估计的掌门人Fisher一生视贝叶斯派为敌人,极大似然估计作为遵循频率观点(研究θ本身而非θ的分布)的经典点估计方法,能在不改变频率观点的前提下达到贝叶斯派的目标。著名的贝叶斯派理论家L.J. Savage评价Fisher:他在不打破“贝叶斯蛋” 的情况下享受了“贝叶斯煎蛋”。
然而,进入21世纪来到计算机时代,我们又遇到了全新的挑战:在大量的问题中,θ和x通常都是高维度的,甚至是超高维度的,计算机时代的统计推断必须兼容并包,结合多种不同的科学哲学观点才能生存下去。正是如此,当代统计学家Efron和Hastie评论道,“哲学箭袋中有两支强有力的弓箭,当统计学家去狩猎时,如果要面对1000个参数和100万个数据点,那么他没有必要只带其中一支弓箭去。”
本文内容主要来自徐鸿鹄《统计信仰:驾驭无序世界的元认知》,做了一些修改和整理,以供学习参考。