对连续概率分布的一个常见误解

文摘   2024-10-17 09:08   辽宁  

考虑下面这个连续概率分布的概率密度函数,它表示的是从A点到B点可能花费的时间。

这是一个连续随机变量t取值区间为[1,5]的均匀分布,其概率密度函数可以表示成下面形式。

那么,问题来了!

Q)他从A点到达B点花费3分钟的概率P(T=3)是多少?

哇哦!上述答案都是错的,正确答案是:0。

有的人可能会立马抗议,并表示为什么在掷色子中每个点的概率就是1/6呢?

因为掷色子实验结果是离散的,离散随机变量的概率分布称为概率质量函数(PMF),PMF中的每个值代表的就是概率。

而连续随机变量的概率分布称为概率密度函数(PDF),PDF中每个点对应的值不是概率,而是概率密度,也就是在该点附近取值的相对可能性。

是不是有点绕?不过没关系,只要知道它不是概率就行了,后面我们讲似然的时候还会提到。

对于概率密度函数,我们只能通过积分来计算某个区间的概率。

例如,一个人从A点到达B点花费2到4分钟的概率。


扩展阅读

似然vs概率

首先让我们先来看一下概率和似然的区别。

先来看下剑桥词典给出的解释。

● Probability: the level of possibility of something happening or being true.

● Likelihood: the chance that something will happen.

这两个概念非常容易被混淆,在字典中似然被解释成概率的代名词。

然而,在统计学中,似然和概率却有着非常大的区别。

概率通常用于预测一个事件发生的可能性。

例如,掷色子出现偶数的概率,机器学习模型预测输入是猫的概率。

在计算概率时,模型的参数是已知的,并且是可信的。

例如,我们计算抛硬币正反面的概率时,通常会假设并且相信硬币是无偏的。

相反,似然用于解释已经发生的事件。

与概率不同(参数已知,且可信),似然是在已知观测数据下,帮助我们判定参数是否可靠。

例如,我们将在2D数据上拟合一条直线,参数是斜率m和截距c。

在此,似然被定义为数据点为某些特定参数值提供的支持。

当m=2,c=1时,观测数据的似然是多少?

当m=3c=2时,观测数据的似然是多少?

最大似然估计(MLE)

上面的定义就被应用到了最大似然估计(MLE)中。

MLE用于根据已知的观测数据来估计模型的参数。其核心思想是,通过寻找使观测数据最有可能(即似然最大)的参数值。

举个例子。

线性回归模型的参数有多种求解方法例如,最小二乘法(OLS),梯度下降法。

今天我们应用概率方法,用最大似然估计(MLE)来求解模型的参数

  1. 定义模型

β0

假设误差项服从正太分布:

也就是说y服从正太分布:

y的概率密度函数为:

2.构造似然函数

根据独立同分布假设,整个数据集的似然函数就是各个数据点在PDF中对应概率密度的乘积:

带入f:

3.取对数似然

根据对数函数的性质,可以将上述似然函数转换为对数似然函数:

进一步简化:

4.最大化似然函数

对数似然函数对参数导数,并令导数为零,得到参数的最大似然估计值:


人工智能大讲堂
专注人工智能数学原理和应用
 最新文章