极大似然估计(MLE)vs. 最大后验估计(MAP)

百科   2025-01-14 21:21   广东  

极大似然估计(maximum likelihood estimation,MLE)是继承频率派衣钵的迷人的方法,用作点估计。与此对应,贝叶斯派中的点估计也不会缺席,它就是最大后验估计(maximum a posteriori estimation,MAP)。


之所以产生最大后验估计这种方法,是因为对于贝叶斯方法来说,后验分布的计算通常比较棘手,往往诉诸一种折中的方法以简化问题:找到使得后验概率最大的值,对参数θ进行估计。用来求解最大后验概率的似然函数已经存在了,正是贝叶斯公式。

贝叶斯公式


与极大似然估计类似,最大后验估计的目标是找到这个后验概率取到最大值时所对应的θ。由于贝叶斯方法比频率方法多考虑了先验信息,因此在数学表达上,最大后验估计与极大似然估计相比也多出了一项与θ的先验概率有关的惩罚项,这一点至关重要。如果最大后验估计的先验信息是均匀分布的,那么最大后验估计在形式上将与极大似然估计等价。从这个角度来看,极大似然估计只是最大后验估计的一个特例


还有另一个角度,即不将极大似然估计看作最大后验估计的一个特例,而把它们都看作同一家族的成员——广义上的极大似然估计。广义上的极大似然估计结合了贝叶斯方法的特点,可以只考察θ的先验信息并将其作为一个极端,也可以只考察样本x的信息并将其作为另一个极端。当θ的先验信息和样本x的信息都具备时,所采用的贝叶斯估计就是这两个极端的加权平均。不论如何,极大似然估计和最大后验估计在形式上只差一个惩罚项,这代表:


  • 如果样本量足够大,那么最大后验概率和极大似然估计的结果将趋于一致。

  • 如果样本量为零,那么最大后验概率就只由先验概率决定。


就像购物网站的新注册用户,在没有历史购买记录可遵循的情况下,系统只能单纯基于全网热门内容为其推荐产品。而对于一个经常购物的用户来说,其海量的消费记录已经刻画出了用户的购买倾向性,系统在为其推荐产品时是否参考全网热门内容的意义已经不大了。

至此,可以给出这样的结论:


一,极大似然估计(MLE)免除了经验带来的风险,是经验风险最小化(empirical risk minimization,ERM)的选择。按照经验风险最小化求最优模型就是求解最优化问题:

其中L(Y, f(X))是f(X)关于训练集的损失函数(loss function)或代价函数(cost function)。


二,最大后验估计(MAP)兼顾历史经验和动态的信息,是结构风险最小化(structural risk mninimization,SRM)的选择。结构风险最小化是为了防止过拟合而提出来的策略,等价于正则化(regularization)。结构风险在经验风险基础上加上一个正则化项(regularizer)惩罚项(penalty term)以表示模型复杂度。结构风险小需要经验风险与模型复杂度同时小。因此,在结构风险最小化策略下,求最优模型就是求解最优化问题:

其中,第1项是经验风险,第2项是正则化项,λ≥0为调整两者之间关系的系数。


最大后验估计虽然包含源自贝叶斯方法的先验概念,但却并不像贝叶斯方法一样关注θ的分布,而像频率派一样探求θ的最佳点估计值,这就又回到了频率观点。由此可见,频率观点和贝叶斯观点在最大后验估计中可谓你中有我我中有你。


这带来了一个逻辑上的矛盾。在贝叶斯世界里,先验分布在调整后变成了后验分布,它们都是分布。但引入频率观点,最大后验估计的θ是一个确定的、未知的点估计值,而不是一个分布,一个点估计值(而不是分布)的后验分布该如何理解呢?


为了化解概念危机,统计学家不得不跳出频率观点给出解释。考虑工厂里的废品率p,我们可以这样想,根据以前对p的了解(先验分布),以及现在观察的结果(样本x),我们推断未知的p有90%的可能性小于或等于0.01,有5%的可能性在0.01到0.03之间,有5%的可能性大于或等于0.03。本质上p还是一个分布,但却不得不用类似区间估计的方法来表达。


这不是一个令人信服的答案,在频率派看来,以“一个确定的未知值小于或等于1的可能性是90%”这样的句式呈现的观点,就算是爱因斯坦在世也没办法将其设计成一个重复实验下可以验证的命题。

估计的问题悬而未决,另有一个有趣的问题是关于检验的:检验在贝叶斯世界里是如何进行的呢?


支持频率观点,尤其是N-P理论的人,可能会在贝叶斯世界里感到不适。他们会提出这样的疑问:如何直接使用整个后验分布进行假设检验呢?换句话说,如何在综合θ的先验信息和样本x的信息的情况下,找到θ落在原假设H0内的可能性和落在对立假设H1内的可能性呢?


在贝叶斯派看来,这个问题似乎有点可笑。为什么不直接干脆一点呢:

  • 如果θ落在H0内的可能性大于落在H1内的可能性,则接受原假设。

  • 如果θ落在H0内的可能性小于落在H1内的可能性,则否定原假设。

  • 如果θ落在H0内的可能性近似等于落在 HI1 内的可能性,则不适合给出结论。


频率派对这个答案可能会觉得无比震惊:第一类错误和第二类错误的差异去哪了?N-P理论中用于检验的显著性水平又去哪了?


贝叶斯派略显不屑。


后验分布的意义已经非常明确:通过贝叶斯公式,可以很容易地回答θ在当前位置取值的概率是多少或落在某个区间之外的概率是多少这类的问题。后验分布的意义比弯弯绕绕的所谓的p值的意义要直观得多。既然这样,为什么要照搬一个频率世界里本来就不好用的东西呢?


蒙特卡罗方法是指利用随机抽样来解决问题的任何技术方法。从不同的分布中随机抽样,每个样本都是根据其在分布中的概率来选择的,这样高概率区域中的样本将更频繁地出现。对于不同的假设,只要运行蒙特卡罗模拟,并通过比较确认哪个假设的表现更好,大部分工作就完成了。


表达不同假设似然比的贝叶斯因子是一个公式,通过将一个假设与另一个假设进行比较来检验其合理性。检验结果告诉我们,一个假设成立的可能性是另一个假设的几倍。


的确,相较经典统计,贝叶斯假设检验不需要去寻求统计量,也不需要确定抽样分布,为什么要效仿频率派的思考方式舍近求远呢?依靠贝叶斯方法的强大力量,我们不仅可以利用概率来比较两个不同的想法,如果知道我们先前对一种假设与另一种假设的概率的信念,那么我们还可以准确地计算出需要多少证据来说服我们改变自己的信念。更神奇的是,我们通过观察说服每个人所需证据的数量,还能利用后验概率为他们先前的信念赋值。


这意味着什么呢?意味着下次你与亲戚在餐桌上争论时,你应该问他们:“提出什么新证据才能改变你的想法?”如果他们对此没有答案,那么你最好不要试图用更多的证据来捍卫你的观点,因为这只会增加你的亲戚对他们的信念的确定性。


当两个假设同样能很好地解释证据时,每个假设的先验优势比较重要。因此,提出更多的证据对说服对方改变信念的作用并不大,新的证据不会使任何一种假设比另一种假设更有优势。与其争论证据本身,不如思考如何改变对方先前的信念。


由此可见,后验概率远不止是检验想法的一种方法,它为我们提供了一个在不确定性下思考的推理框架。甚至能够帮助你赢得餐桌上的家庭争论。


写到这里,我想你已经理解了,不论是贝叶斯估计问题还是其检验问题,都是“拿来主义”拾取“后验”的成果,点估计如此,假设检验亦如此。想必区间估计也是如此吧,这就是有关θ的后验置信度的区间估计的内容了。


本文内容主要来自徐鸿鹄《统计信仰:驾驭无序世界的元认知》和李航《机器学习方法》,做了一些修改和整理,以供学习参考。


推荐书籍

《机器学习方法》

作者:李航


李航,字节跳动科技有限公司人工智能实验室总监, IEEE会士、ACL会士、ACM杰出科学家、CCF杰出会员。研究方向包括信息检索、自然语言处理、统计机器学习及数据挖掘。


本书全面系统地介绍了机器学习的主要方法,共分三篇。第一篇介绍监督学习的主要方法,包括感知机、k近邻法、朴素贝叶斯法、决策树、逻辑斯谛回归与最大熵模型、支持向量机、Boosting、EM算法、隐马尔可夫模型、条件随机场等;第二篇介绍无监督学习的主要方法,包括聚类、奇异值分解、主成分分析、潜在语义分析、概率潜在语义分析、马尔可夫链蒙特卡罗法、潜在狄利克雷分配、PageRank算法等。第三篇介绍深度学习的主要方法,包括前馈神经网络、卷积神经网络、循环神经网络、序列到序列模型、预训练语言模型、生成对抗网络等。书中每章介绍一两种机器学习方法,详细叙述各个方法的模型、策略和算法。从具体例子入手,由浅入深,帮助读者直观地理解基本思路,同时从理论角度出发,给出严格的数学推导,严谨详实,让读者更好地掌握基本原理和概念。目的是使读者能学会和使用这些机器学习的基本技术。为满足读者进一步学习的需要,书中还对各个方法的要点进行了总结,给出了一些习题,并列出了主要参考文献。

尚万只老虎
究中西文化,通数理人文,成一家之言。