万物皆可“贝叶斯”
贝叶斯定理理解
讨论在给定另一个事件B的情况下事件A的条件概率:,例如:
在给定原子编号为Z的情况下,原子中存在N个中子的概率 在你是一位职业篮球运动员的情况下,求你的身高的分布 在你实际上患有COVID19的情况下,测试结果为阴性的概率
贝叶斯定理允许我们从的关系反转到。它还可以被视为将我们对的先验概率更新为在观察到后的后验概率。
贝叶斯定理表述为:
在贝叶斯背景下,上述例子可以重新表示为
在一个原子有N个中子的情况下,它具有原子编号Z的概率 在你的身高为h的情况下,成为一名职业篮球运动员的概率 在测试结果为阴性情况下,实际患有COVID19的概率
贝叶斯定理的推导过程非常简单,如下图所示:
而重点需要理解的是贝叶斯定理背后的内涵:
1.我们从对某个参数的先验知识(通常并非很精确)开始:
2.我们通常有一个可以生成证据的模型(现实世界就是一个“生成证据的模型”,例如抛硬币得到的正反面次数就是证据):
3.我们从模型中观察到新的证据:
4.然后根据我们的先验知识和证据更新我们对的认知:
5.但我们不能总是假设模型产生准确的证据!也许有一次它提供了一些异常的证据(或者证据中含有噪声),甚至是错误的证据。为了弥补这一点,并确保我们不完全丢弃先验知识,我们将新的证据与依赖于我们先验知识的似然相结合。
应用示例
天气预测
假设四月份你想去海滩,当今天(四月份的某天)你醒来时发现天空多云。那么今天下雨的可能性有多大?
列出贝叶斯公式:
为了回答这个问题,我们需要通过查阅历史资料了解多云和降雨的以下三个方面信息:
所有下雨天中多云的比例是多少?
P(多云|下雨) = 48%
四月份有多少天是多云的?
P(多云) = 43%
四月份平均多久下一次雨?
假设平均每30天下雨3天,即P(下雨) = 3/30= 10%
将数据代入贝叶斯公式计算:
所以今天下雨的概率为11.2%
药物测试
假设某个检测人们是否使用大麻的测试的敏感度为90%,即真阳性率(TPR)= 0.90。即对于使用大麻的人,有90%的真阳性结果(正确识别药物使用)。
该测试还具有80%的特异性,即真阴性率(TNR)= 0.80。即该测试可以正确识别80%的非使用者未使用,但也会产生20%的假阳性,或者假阳性率(FPR)= 0.20,用于非使用者。
假设使用率为0.05,即5%的人使用大麻,那么对于一个随机测试为阳性的人来说,他真正是一个使用大麻的人的概率是多少?
测试的阳性预测值(PPV)是测试结果为阳性的人中实际阳性的比例,可以根据样本计算为
PPV = 真阳性 / 测试为阳性
如果已知敏感性、特异性和患病率,可以使用贝叶斯定理计算PPV。设表示“在测试为阳性的情况下某人是大麻用户的概率”,这就是PPV的含义。我们可以写成:
事实上,是全概率公式的直接应用。在这种情况下,它表示某人测试为阳性的概率是用户测试为阳性的概率乘以成为用户的概率,再加上非用户测试为阳性的概率乘以成为非用户的概率。这是正确的,因为用户和非用户这两个分类构成了测试药物的人群的一个划分。结合条件概率的定义,得到上述陈述。
换句话说,即使某人测试为阳性,他们是大麻用户的概率只有19%——这是因为在这个群体中,只有5%的人是用户,大多数阳性结果来自剩下的95%的假阳性结果。
如果有1,000人经过测试:
其中950人是非用户,其中190人是假阳性(0.20 × 950) 其中50人是用户,其中45人是真阳性(0.90 × 50)
这1,000人中有235个阳性测试结果,其中只有45个是真正的毒品用户,约占19%。参见图1,其中用频率箱图进行了说明,并注意真阳性的粉色区域与假阳性的蓝色区域相比是多么小。
改变敏感性或特异性
通过提高敏感性至100%,同时特异性保持在80%,对于测试为阳性的人而言真正是大麻用户的概率仅从19%上升至21%;但是,如果敏感性保持在90%,特异性增加到95%,该概率将上升至49%。
癌症发病率
即使胰腺癌患者中有100%出现某个症状,当有人出现相同症状时,并不意味着这个人有100%的可能为胰腺癌。假设胰腺癌的发病率是1/100,000,而全球范围内有10/99,999名健康人出现相同症状,那么在有症状的情况下患有胰腺癌的概率只有9.1%,其他90.9%可能是“假阳性”(即错误地被诊断为癌症)。
根据发病率,以下表格列出了每100,000人的相应数据。
然后可以用这些数据来计算在有症状的情况下患癌症的概率:
缺陷品率
一家工厂生产商品使用三台机器:A、B和C,它们分别占总产量的20%、30%和50%。由机器A生产的商品中,5%存在缺陷;同样,机器B的商品中有3%存在缺陷,机器C的商品中有1%存在缺陷。如果随机选择一个商品有缺陷,那么它是由机器C生产的概率是多少?
再次,通过将条件应用于假设的情况下,可以在不使用公式的情况下得出答案。例如,如果该工厂生产1,000件商品,其中由A机器生产的有200件,由B机器生产的有300件,由C机器生产的有500件。A机器将生产5% × 200 = 10件有缺陷的商品,B机器将生产3% × 300 = 9件有缺陷的商品,C机器将生产1% × 500 = 5件有缺陷的商品,总共24件商品有缺陷。因此,随机选择的有缺陷的商品由C机器生产的概率是5/24(约为20.83%)。
这个问题也可以用贝叶斯定理来解决:设Xi表示随机选择的商品由第i台机器生产(对于i = A,B,C)。设Y表示随机选择的商品有缺陷的事件。那么,我们已知以下信息:
如果商品是由第一台机器生产的,那么它有缺陷的概率是0.05;也就是说,P(Y | X_A) = 0.05。总体而言,我们有
回答初始问题前,我们首先需要找到P(Y)。可以按照以下方式计算:
所以,总产出中有2.4%是有缺陷的。
已知Y已发生,我们想要计算条件概率P(X_C|Y)。根据贝叶斯定理,可以得到:
给定物品有缺陷的情况下,它是由C机器制造的概率为5/24。尽管C机器生产了总产出的一半,但它只生产了很小比例的有缺陷物品。因此,所选物品有缺陷的知识使得我们将先验概率P(X_C) = 1/2替换为较小的后验概率P(X_C | Y) = 5/24。
下期将介绍如何将贝叶斯推断的基本原理应用于估计高斯分布的参数(期望和方差)问题,敬请关注!