万物皆可“贝叶斯”——Bayes' Theorem-贝叶斯定理

学术 2023-11-09 21:49 黑龙江

万物皆可“贝叶斯”

当你在黄昏的小区散步，突然看到草丛中有一个毛茸茸的东西在动。接近夜晚，光线不好，你凭借直觉判断，这大概率是那只你经常碰到的狸花猫。你继续观察，看到了它小而尖的耳朵，你加深了这就是那只花狸的信念。这时它条纹相间的尾巴露出并卷曲着晃动，你几乎可以肯定它就是那只猫了。最后这个毛茸茸的身影一闪而过，消失在灌木丛中。你回到家告诉家人：“我刚才很可能又碰到了前两天的那只大花狸！”

一个典型的贝叶斯主义者可能会告诉你，这个平常到不能再平常的观察和推测，反映了你了不起的大脑刚刚进行过一次复杂的贝叶斯计算：你从自己的直觉出发，基于依次出现的视觉信息，做出了一次对特定现象出现的原因的判断。

本期内容将介绍贝叶斯定理的基本概念与理解，下期将给出应用贝叶斯定理完成更复杂的数学推断：介绍如何将贝叶斯推断的基本原理应用于估计高斯分布的参数（期望和方差）问题，敬请关注！

贝叶斯定理理解

讨论在给定另一个事件B的情况下事件A的条件概率：，例如：

在给定原子编号为Z的情况下，原子中存在N个中子的概率
在你是一位职业篮球运动员的情况下，求你的身高的分布
在你实际上患有COVID19的情况下，测试结果为阴性的概率

贝叶斯定理允许我们从的关系反转到。它还可以被视为将我们对的先验概率更新为在观察到后的后验概率。

贝叶斯定理表述为：

在贝叶斯背景下，上述例子可以重新表示为

在一个原子有N个中子的情况下，它具有原子编号Z的概率
在你的身高为h的情况下，成为一名职业篮球运动员的概率
在测试结果为阴性情况下，实际患有COVID19的概率

贝叶斯定理的推导过程非常简单，如下图所示：

而重点需要理解的是贝叶斯定理背后的内涵：

1.我们从对某个参数的先验知识（通常并非很精确）开始：

2.我们通常有一个可以生成证据的模型（现实世界就是一个“生成证据的模型”，例如抛硬币得到的正反面次数就是证据）：

3.我们从模型中观察到新的证据：

4.然后根据我们的先验知识和证据更新我们对的认知：

5.但我们不能总是假设模型产生准确的证据！也许有一次它提供了一些异常的证据（或者证据中含有噪声），甚至是错误的证据。为了弥补这一点，并确保我们不完全丢弃先验知识，我们将新的证据与依赖于我们先验知识的似然相结合。

应用示例

天气预测

假设四月份你想去海滩，当今天（四月份的某天）你醒来时发现天空多云。那么今天下雨的可能性有多大？

列出贝叶斯公式：

为了回答这个问题，我们需要通过查阅历史资料了解多云和降雨的以下三个方面信息：

所有下雨天中多云的比例是多少？

P(多云|下雨) = 48%

四月份有多少天是多云的？

P(多云) = 43%

四月份平均多久下一次雨？

假设平均每30天下雨3天，即P(下雨) = 3/30= 10%

将数据代入贝叶斯公式计算：

所以今天下雨的概率为11.2%

药物测试

假设某个检测人们是否使用大麻的测试的敏感度为90%，即真阳性率（TPR）= 0.90。即对于使用大麻的人，有90%的真阳性结果（正确识别药物使用）。

该测试还具有80%的特异性，即真阴性率（TNR）= 0.80。即该测试可以正确识别80%的非使用者未使用，但也会产生20%的假阳性，或者假阳性率（FPR）= 0.20，用于非使用者。

假设使用率为0.05，即5%的人使用大麻，那么对于一个随机测试为阳性的人来说，他真正是一个使用大麻的人的概率是多少？

测试的阳性预测值（PPV）是测试结果为阳性的人中实际阳性的比例，可以根据样本计算为

PPV = 真阳性 / 测试为阳性

如果已知敏感性、特异性和患病率，可以使用贝叶斯定理计算PPV。设表示“在测试为阳性的情况下某人是大麻用户的概率”，这就是PPV的含义。我们可以写成：

事实上，是全概率公式的直接应用。在这种情况下，它表示某人测试为阳性的概率是用户测试为阳性的概率乘以成为用户的概率，再加上非用户测试为阳性的概率乘以成为非用户的概率。这是正确的，因为用户和非用户这两个分类构成了测试药物的人群的一个划分。结合条件概率的定义，得到上述陈述。

换句话说，即使某人测试为阳性，他们是大麻用户的概率只有19%——这是因为在这个群体中，只有5%的人是用户，大多数阳性结果来自剩下的95%的假阳性结果。

如果有1,000人经过测试：

其中950人是非用户，其中190人是假阳性（0.20 × 950）其中50人是用户，其中45人是真阳性（0.90 × 50）

这1,000人中有235个阳性测试结果，其中只有45个是真正的毒品用户，约占19%。参见图1，其中用频率箱图进行了说明，并注意真阳性的粉色区域与假阳性的蓝色区域相比是多么小。

改变敏感性或特异性

通过提高敏感性至100%，同时特异性保持在80%，对于测试为阳性的人而言真正是大麻用户的概率仅从19%上升至21%；但是，如果敏感性保持在90%，特异性增加到95%，该概率将上升至49%。

癌症发病率

即使胰腺癌患者中有100%出现某个症状，当有人出现相同症状时，并不意味着这个人有100%的可能为胰腺癌。假设胰腺癌的发病率是1/100,000，而全球范围内有10/99,999名健康人出现相同症状，那么在有症状的情况下患有胰腺癌的概率只有9.1%，其他90.9%可能是“假阳性”（即错误地被诊断为癌症）。

根据发病率，以下表格列出了每100,000人的相应数据。

然后可以用这些数据来计算在有症状的情况下患癌症的概率：

缺陷品率

一家工厂生产商品使用三台机器：A、B和C，它们分别占总产量的20%、30%和50%。由机器A生产的商品中，5%存在缺陷；同样，机器B的商品中有3%存在缺陷，机器C的商品中有1%存在缺陷。如果随机选择一个商品有缺陷，那么它是由机器C生产的概率是多少？

再次，通过将条件应用于假设的情况下，可以在不使用公式的情况下得出答案。例如，如果该工厂生产1,000件商品，其中由A机器生产的有200件，由B机器生产的有300件，由C机器生产的有500件。A机器将生产5% × 200 = 10件有缺陷的商品，B机器将生产3% × 300 = 9件有缺陷的商品，C机器将生产1% × 500 = 5件有缺陷的商品，总共24件商品有缺陷。因此，随机选择的有缺陷的商品由C机器生产的概率是5/24（约为20.83%）。

这个问题也可以用贝叶斯定理来解决：设Xi表示随机选择的商品由第i台机器生产（对于i = A，B，C）。设Y表示随机选择的商品有缺陷的事件。那么，我们已知以下信息：

如果商品是由第一台机器生产的，那么它有缺陷的概率是0.05；也就是说，P(Y | X_A) = 0.05。总体而言，我们有

回答初始问题前，我们首先需要找到P(Y)。可以按照以下方式计算：

所以，总产出中有2.4%是有缺陷的。

已知Y已发生，我们想要计算条件概率P(X_C|Y)。根据贝叶斯定理，可以得到：

给定物品有缺陷的情况下，它是由C机器制造的概率为5/24。尽管C机器生产了总产出的一半，但它只生产了很小比例的有缺陷物品。因此，所选物品有缺陷的知识使得我们将先验概率P(X_C) = 1/2替换为较小的后验概率P(X_C | Y) = 5/24。

下期将介绍如何将贝叶斯推断的基本原理应用于估计高斯分布的参数（期望和方差）问题，敬请关注！

参考文献：

[1]http://1https//www.chi2innovations.com/blog/beginners-guide-to-bayes-theorem-and-bayesian-statistics/

[2]https://theoryandpractice.org/stats-ds-book/bayes_theorem.html

[3]http://1https//benjaminwhiteside.com/2020/10/25/bayes-theorem/

[4]https://en.wikipedia.org/wiki/Bayes_theorem

[5]经济观察网：万物皆可“贝叶斯”：不确定性时代的知识哲学

控我所思VS制之以衡

专注于控制理论、控制工程、数学、运筹、算法等方面的经验积累与分享

最新文章

决策分析新武器：深度解析Dempster-Shafer(DST)证据理论

DS证据理论的Python实现源代码

基于非线性增强比例导引的导弹-目标交战仿真软件（含MATLAB源码）

太震撼！美国民兵Ⅲ型核导弹制导系统和计算机内部欣赏

控制系统的校正方法(3)：案例分析(附资源)

“筷子夹火箭”首次成功！SpaceX星舰第五次试飞！

关于在科研活动中规范使用人工智能技术的诚信提醒

控制系统的校正方法(2)：补偿方法

控制系统的校正方法系列(1)：PI控制与PID控制

滑模观测器

《线性代数的艺术》：仅12页涵盖线性代数全部重要要点，全文分享，值得收藏！

重磅，2023年度国家科学技术奖励名单揭晓（全名单）

《天际回响：中继卫星轨道确定》（含美国中继卫星系统(TDRSS)系统仿真代码）

嫦娥五号月球轨道交会导引策略设计

控制系统的“脆弱”与“坚韧”:灵敏度的双刃剑

限时删！太牛了！最强大模型：ChatGPT-4，强烈建议大家学一学…

浅析最大似然估计：用数据说话

火箭全程模拟软件（含源码）

我国组建军事航天部队：安全进出、开放利用、危机管控、综合治理、和平利用

预设性能控制——性能函数

预设性能控制（含视觉仿真代码）

稳定性与状态矩阵特征值

彪马PUMA优化器（含MATLAB代码）

Sora物理悖谬的几何解释

小白必看：控制系统的基本分析框架（视频讲解）

红包封面奉上，祝愿大家龙年龙行龘龘前程朤朤生活䲜䲜！

遗传算法详解（含代码实现）

一张数学地图带你尽览数学分支

从贝叶斯的角度理解卡尔曼滤波器

不会求解Cost Function？如何进行非线性优化？试试『高斯牛顿解法』！

泛函术语辨析：欧几里得空间、希尔伯特空间、巴纳赫空间、赋值范数空间、内积空间

我们如何快速用上官方Gemini Pro？3分钟帮你搞定！

概率与统计基础知识简明速查手册，建议收藏！

[视频]矩阵谱分解、奇异值分解的可视化理解

2023年工程院、科学院院士增选当选院士名单公布！祝贺！

万物皆可“贝叶斯”——高斯分布的贝叶斯推断

中心极限定理的理解

万物皆可“贝叶斯”——Bayes' Theorem-贝叶斯定理

高斯过程回归（Gaussian Process Regression）——具体理解

高斯过程回归（Gaussian Process Regression）——数学基础

四旋翼无人机的物理模型及控制方法

粒子群算法的快速理解(含MATLAB实现)

对Lipschitz连续的理解

[分享]傅里叶级数,傅里叶变换,离散时间傅里叶变换,离散傅里叶变换,快速傅里叶变换,拉普拉斯变,Z变换之间的关系

论文辅导 | 科研新手，如何搞定第一篇SCI/SSCI论文？

[工具分享]final2x:再模糊的图片放到今天也能变成4K(含资源、安装与使用教程)

583位/655位，中国科学院/中国工程院院士有效候选人名单公布！

指导“深度学习+控制理论”做到1+1>2的方法论

一文读懂策略梯度算法：REINFORCE、Actor-Critic、A2C

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉