贝叶斯与最大似然估计的联系

文摘   2024-09-02 08:00   荷兰  

前阵子粉丝群有人提问:贝叶斯后验分布(Posterior Distribution)与最大似然估计中的似然分布(Likelihood Distribution)的联系是什么


今天我们来找个例子聊聊这二者的联系,我不是贝叶斯的专业研究者,主要聊聊我在课上与作业中学到的东西。

我们先来看Bayes rule的基本公式:


公式右边的分母是个常数,在概率论中我们把它叫作Normalized constant,它的作用是保证左边的后验概率分布曲线下面积始终为1。也正因为分母是个常数,恒定不变,所以在实际的分析中,我们仅仅需要关注于可变的分子部分(因为这部分可变,所以它才是真正影响后验分布的部分),分母的计算可以留给计算机:


这个公式不再是等式关系,而是∝(成比例)。我们可以看到,式子左边是后验分布,式子右边呢?它实际上就是似然乘以先验分布(Prior Distribution):


不信的话,我们可以回忆一下似然的公式:


我们知道,先验分布是某种先于经验的belief,它不受具体数据影响。而式子中的似然则不同,它以实际观察到的数据为条件。也就是说,似然携带了数据的信息,或者说某种经验。整个式子的过程,实际上就是似然携带着某种经验,给予式子中的先验Belief(相乘),然后得到一个更新后的beliefUpdated belief

所以,想象我们现在有大量的数据,这时,似然携带的有关数据的信息就会很大。而与这股巨大的信息流相比,先验belief就显得微不足道了!我们可以把这个过程想象成式子右边的似然占据了压倒性的优势,“抹杀”掉了我们对某参数抱有的先验belief,所以最后的后验分布中的信息,将完全由似然所带来的信息作为主导

这也是为什么,在大样本的情况下(数据的信息量大),贝叶斯估计的参数值会与最大似然估计的参数值趋同,并且,贝叶斯估计的后验分布会与似然分布“趋同”。这里的“趋同”我打了引号,我会在下面的例子中说明原因。


现在有X1X2... , Xn为一组独立同分布的随机变量,且服从概率为p的伯努利分布,也就是:


我们需要通过X1X2... , Xn这组数据来估计p的大小,假如我们使用贝叶斯估计,选取均匀分布作为先验分布:


我们可以把先验分布改写成下式(这其实是Beta Prior的改写方法,为精简叙述,下式省略了一些东西):


具体为何要这样改写等会儿大家就明白了!我们最终可以计算出关于p的后验分布:


这个后验分布的均值/期望值就是我们需要寻找的,对于p的贝叶斯估计值,这个分布的均值我们不具体推了,直接给出结果:


接下来我们看看如果用最大似然估计得到的估计值是多少——就是样本均值,不熟悉的读者可以自学最大似然估计然后自己计算推导一下:


在做贝叶斯的过程中,先验分布的均值也是可以计算的,我们也不再推导,直接给出:


在本例中,α和β都为1,但是为了保证例子的普适性,我们仍旧写作α和β。

在以上信息的加持下,我们可以看到,贝叶斯的后验估计值,实际上就是先验分布的均值与最大似然估计值的加权平均


显然,两个加权值ωprior+ωdata=1当样本量增大时,ωprior会趋近于0,也就是我们说的先验belief被“抹杀”的过程;同时,ωdata随着n的增大会趋近于1,也就是我们说的似然带来的信息占据压倒性优势,最大似然估计值主导贝叶斯后验估计值的过程


本例并不适合作为观察后验分布与似然分布“趋同”的例子,我用我们课后作业画的另一个图来向大家说明:


大家可以看到,在小样本的情况下,后验分布与似然分布并不相同,而是处于先验分布与似然分布之间;在大样本的情况下,后验分布与似然分布重合。我们实际上可以将其视作一个似然分布将后验分布从原先的先验分布抽离,拉向自己的过程。我之前之所以将“趋同”加上引号,是因为上图原来是长这样的:


似然分布的值在大样本下由于太小,干脆显示不出来了!这是由于似然分布并非概率密度分布,其曲线下面积不需要一定为1。为了观察它与后验分布的相似程度,我们必须把它的scale与后验分布同一,也就有了上述的第一幅图。


如上,就是关于本文的所有内容。粉丝群的读者如果对本文探讨的内容感兴趣,可以在群内向我索要代码,我可以上传到粉丝群链接!如果这篇文章对你有帮助,也欢迎关注本公众号,点赞+在看支持一下我!

PsychoStatisticia
一个统计学研究者的个人天地
 最新文章