考虑下面这个连续概率分布的概率密度函数,它表示的是从A点到B点可能花费的时间。
这是一个连续随机变量t取值区间为[1,5]的均匀分布,其概率密度函数可以表示成下面形式。
那么,问题来了!
Q)他从A点到达B点花费3分钟的概率P(T=3)是多少?
哇哦!上述答案都是错的,正确答案是:0。
有的人可能会立马抗议,并表示为什么在掷色子中每个点的概率就是1/6呢?
因为掷色子实验结果是离散的,离散随机变量的概率分布称为概率质量函数(PMF),PMF中的每个值代表的就是概率。
而连续随机变量的概率分布称为概率密度函数(PDF),PDF中每个点对应的值不是概率,而是概率密度,也就是在该点附近取值的相对可能性。
是不是有点绕?不过没关系,只要知道它不是概率就行了,后面我们讲似然的时候还会提到。
对于概率密度函数,我们只能通过积分来计算某个区间的概率。
例如,一个人从A点到达B点花费2到4分钟的概率。
扩展阅读
似然vs概率
首先让我们先来看一下概率和似然的区别。
先来看下剑桥词典给出的解释。
● Probability: the level of possibility of something happening or being true.
● Likelihood: the chance that something will happen.
这两个概念非常容易被混淆,在字典中似然被解释成概率的代名词。
然而,在统计学中,似然和概率却有着非常大的区别。
概率通常用于预测一个事件发生的可能性。
例如,掷色子出现偶数的概率,机器学习模型预测输入是猫的概率。
在计算概率时,模型的参数是已知的,并且是可信的。
例如,我们计算抛硬币正反面的概率时,通常会假设并且相信硬币是无偏的。
相反,似然用于解释已经发生的事件。
与概率不同(参数已知,且可信),似然是在已知观测数据下,帮助我们判定参数是否可靠。
例如,我们将在2D数据上拟合一条直线,参数是斜率m和截距c。
在此,似然被定义为数据点为某些特定参数值提供的支持。
当m=2,c=1时,观测数据的似然是多少?
当m=3,c=2时,观测数据的似然是多少?
最大似然估计(MLE)
上面的定义就被应用到了最大似然估计(MLE)中。
MLE用于根据已知的观测数据来估计模型的参数。其核心思想是,通过寻找使观测数据最有可能(即似然最大)的参数值。
举个例子。
线性回归模型的参数有多种求解方法,例如,最小二乘法(OLS),梯度下降法。
今天我们应用概率方法,用最大似然估计(MLE)来求解模型的参数。
定义模型
假设误差项服从正太分布:
也就是说y服从正太分布:
y的概率密度函数为:
2.构造似然函数
根据独立同分布假设,整个数据集的似然函数就是各个数据点在PDF中对应概率密度的乘积:
带入f:
3.取对数似然
根据对数函数的性质,可以将上述似然函数转换为对数似然函数:
进一步简化:
4.最大化似然函数
对数似然函数对参数导数,并令导数为零,得到参数的最大似然估计值: