本文将介绍如何将贝叶斯推断的基本原理应用于估计高斯分布的参数(期望和方差)问题,有关贝叶斯定理的基本知识请阅读本公众号上期文章:万物皆可“贝叶斯”——Bayes' Theorem-贝叶斯定理
“本文公式较多较长,如需精读可使用浏览器阅读
”
前言
高斯分布的概率密度函数为:
贝叶斯定理写为:
Case1:均值未知,方差已知
假设用于进行推断的观察样本是一个向量
其元素是 个独立同分布的从高斯分布中抽取的样本。
在本节中,我们假设分布的均值 是未知的,而其方差 是已知的。
在下一节中,也将 视为未知。
似然函数
设样本的概率密度函数是高斯分布形式:
使用符号来强调概率密度函数依赖于未知参数。
由于样本相互独立,那么似然函数为:
先验
设先验同样为高斯分布,先验分布的概率密度函数写为
即先验服从均值为、方差为 的高斯分布。
先验用于表达在抽样前,认为未知参数最有可能等于并且远离的值的概率为方差 。
后验
已知先验、似然函数,那么现在可以通过贝叶斯定理完成对后验的推断。
首先给出结论:
其中:
证明:
根据贝叶斯定理,联合分布写为
上式中:
设样本的均值为
所以对于中的第一项有
应用样本均值的性质:
继续计算:
代入中:
定义:
最终写为:
再将视线转回到最初的计算中:
其中:
值得注意的是只与有关,与无关。
是概率密度函数,与未知的参数(这里视为自变量,在贝叶斯理论中,未知参数有其自身概率)和样本有关(其中中含样本信息)。根据上述函数形式,可认为是均值为,方差为 的高斯分布的概率密度函数。
根据贝叶斯定理:
将上述推导和贝叶斯定理中的各项“对号入座”
因此,后验分布是期望为、方差为的高斯分布。下一步需要确定是什么。
证毕
“观察后验的期望和方差:
后验期望由样本均值和先验期望组成,而且二者为线性关系。样本均值所赋予的权重随着样本数量的增大而增加,而先验均值所赋予的权重不变。因此,当样本数量变大时,样本均值将得到越来越多的权重。在极限情况下,所有的权重都来源于样本信息,先验则不再拥有权重,也就是所谓的“贝叶斯淹没”。
上述结果最先由英国统计学家林德利于1965年证明,同时也证明了贝叶斯主观推断的合理性。
”
先验预测分布.
“对应于上一期文章中的证据.
”
为完善上述证明,这里确定是什么,首先给出结论:
其中是的全1向量,是单位阵
证明:
由上述证明已知
定义
所以上式重写为:
为研究,定义,那么重写为:
“此处根据:
与
继续推导
”
“此处根据:
因此:
继续推导
”
对系数项进行处理:
“根据矩阵行列式引理:
上式最终写为:
”
综上所述:
证毕
因此,的先验预测分布是多元高斯分布,其均值为,协方差矩阵为,在这个分布下,一个抽样的的先验均值为,方差为,并且与其他抽样的协方差都等于。这个协方差是正的,因为抽样的尽管在给定的条件下是独立的,但它们都共享相同的随机均值参数。
后验预测分布
假设从与之前提取出的样本相同的高斯分布中独立地抽取了个新观测。
向量
的后验预测分布为
其中,是的单位矩阵,是列的全1向量。
因此,的多元高斯分布均值为(其中是木的后验均值),协方差矩阵为(其中 是的后验方差)。
证明:
这个推导的过程与先验预测分布的推导几乎完全相同。
将后验分布作为新的先验分布。似然函数与相同,因为在给定的条件下,与是独立的。
因此,我们可以进行如下操作
并通过遵循推导的相同过程来推导出。主要的区别是需要用后验均值来替换先验均值,并用后验方差 来替换先验方差 。
“关于先验分布、先验预测分布、后验分布、后验预测分布
先验分布(Prior Distribution)和先验预测分布(Prior Predictive Distribution)之间存在一些关键的区别。
先验分布是在观测任何数据之前根据经验或领域知识设定的关于参数的概率分布。它代表了我们对参数的初始认知或信念,提供了参数的先验不确定性信息。
而先验预测分布是在观测任何数据之前,根据先验分布和模型设定生成未来观测数据的概率分布。它结合了先验分布和模型的不确定性,在未观测数据的情况下,提供了对未来观测数据的概率预测(实际上就是上一期文章中所认为的“证据”)。
简而言之,先验分布关注的是参数的不确定性,而先验预测分布关注的是对未来观测数据的概率预测。先验分布用于表达我们在观测数据之前对参数的认知,而先验预测分布用于模拟未来观测数据的概率分布。它们在贝叶斯推断中起着重要的作用,帮助我们在有限数据的情况下做出合理的统计推断和决策。
后验预测分布(Posterior Predictive Distribution)和后验分布(Posterior Distribution)之间有一些关键的区别。
后验分布是根据贝叶斯定理计算得到的,它是在观测到数据后,更新了先验分布过程中的参数估计值。后验分布给出了参数的不确定性,并提供了对参数的更准确估计。
而后验预测分布是在给定观测数据和先验分布的情况下,对未来观测数据的概率分布进行推断。它结合了参数估计和观测数据的不确定性,在给定已观测数据的条件下,提供了对未来观测数据的概率预测。
”
Case2:均值与方差均未知
推导过程较为复杂,具体推导过程可参考电子书《INTRODUCTION TO BAYESIAN STATISTICS》第17章:Bayesian Inference for Normal with Unknown Mean and Variance.
请关注本公众号并回复“高斯分布的贝叶斯推断”免费获取电子书全文
本文部分推导参考了上世纪英国统计学家林德利和Marco Taboga(www.statlect.com/about/#author)的相关工作