1.6 深度学习-处理多个随机变量

文摘   2024-11-16 14:38   上海  

1.6.处理多个随机变量

在实际情况中,我们常常需要同时处理多个随机变量。比如,在医学领域,疾病和症状的关系就可以看作是多个随机变量之间的关系。假设我们有两个随机变量 A 和 B,分别表示“流感”和“咳嗽”的发生情况。它们之间的关系可能是相互独立的,也可能是相关的。

联合概率和条件概率

首先,我们需要理解联合概率条件概率

  1. 联合概率:表示两个事件同时发生的概率。例如,A 和 B 同时发生的概率,记作:
    P(A, B) = P(A ∩ B)

  2. 条件概率:表示在已知某个事件发生的情况下,另一个事件发生的概率。例如,在事件 A 已经发生的条件下,事件 B 发生的概率记作:
    P(B | A) = P(A ∩ B) / P(A)

    这个公式告诉我们,条件概率是通过联合概率和边际概率的比值来计算的。

贝叶斯定理

贝叶斯定理提供了一种更新概率估计的方法。假设我们有事件 A 和 B,贝叶斯定理告诉我们如何在观察到事件 B 发生之后,更新事件 A 发生的概率。其公式为:
P(A | B) = P(B | A) P(A) / P(B)

其中:

  • P(A | B) 是在事件 B 发生的条件下事件 A 发生的概率,

  • P(B | A) 是在事件 A 发生的条件下事件 B 发生的概率,

  • P(A) 是事件 A 的先验概率,

  • P(B) 是事件 B 的边际概率。

贝叶斯定理的一个典型应用是医学诊断,比如在检测疾病时,即使测试非常准确,我们也需要考虑疾病的先验概率(比如疾病的发病率)。这有助于我们更准确地计算在给定测试结果后,患者实际患病的概率。

边际化

边际化是通过对某个变量的所有可能取值求和(或积分),来得到另一个变量的边际分布。例如,假设我们有联合概率分布 P(A, B),我们可以通过边际化得到 A 或 B 的边际概率。边际概率表示单个变量的发生概率,而不考虑其他变量的值。具体来说,A 的边际概率是:
P(A) = Σ B P(A, B)

即通过对 B 的所有可能取值求和,得到 A 的边际概率。

独立性

两个事件 A 和 B 是独立的,当且仅当它们的联合概率等于它们单独发生的概率的乘积:
P(A, B) = P(A) * P(B)

也就是说,A 的发生不会影响 B 的发生,反之亦然。

应用实例:疾病诊断

假设我们有一个疾病检测的例子,疾病的真实发生率为 0.1%(即先验概率 P(D) = 0.001),测试的准确度很高,假阳性率为 1%,即 P(Test Positive | Healthy) = 0.01,而真阳性率为 100%,即 P(Test Positive | Sick) = 1。

根据贝叶斯定理,给定测试为阳性,我们可以计算患者实际上是否患病的概率。假设测试结果是阳性,我们希望计算 P(Sick | Test Positive)。

使用贝叶斯定理:
P(Sick | Test Positive) = P(Test Positive | Sick) * P(Sick) / P(Test Positive)

首先,我们需要计算 P(Test Positive),即测试结果为阳性的总概率:
P(Test Positive) = P(Test Positive | Sick) * P(Sick) + P(Test Positive | Healthy) * P(Healthy)

代入已知值:
P(Test Positive) = 1 * 0.001 + 0.01 * 0.999 = 0.01099

然后代入贝叶斯定理:
P(Sick | Test Positive) = 1 * 0.001 / 0.01099 ≈ 0.091

这意味着,尽管测试结果为阳性,患者实际上患病的概率大约是 9.1%。这个结果表明,即使测试很准确,考虑到疾病的稀有性,测试阳性并不意味着一定患病。

1.6.3 期望和方差

为了概括随机变量的关键特征,我们通常会使用期望方差这两个概念。它们分别衡量了一个随机变量的平均值和波动程度。

期望值

期望(或平均值)是随机变量的加权平均值。对于离散随机变量 X,它的期望值计算方式是:

E[X] = Σ (x * P(X = x))

其中,x 表示随机变量 X 的取值,P(X = x) 表示 x 的概率。

如果我们考虑一个函数 f(x),且该函数的输入来自于随机变量 X(其分布为 P),那么函数 f(x) 的期望值则为:

Ex∼P[f(x)] = Σ (f(x) * P(x))

这两个公式表示的是期望的基本概念,其中第一式是单纯的随机变量的期望,第二式则是函数的期望。

方差

方差是度量随机变量 X 与其期望值之间偏差的大小。对于随机变量 X,方差的定义为:

Var[X] = E[(X - E[X])²] = E[X²] - (E[X])²

方差表示的是随机变量在不同试验中偏离期望值的程度。方差的平方根称为标准差,它能更直观地表示这种偏离。

如果我们对一个函数 f(x) 求方差,表示该函数值偏离其期望值的程度,则计算方式为:

Var[f(x)] = E[(f(x) - E[f(x)])²]

这也表示了如何量化函数值偏离其期望的程度。


1.6.4 小结

  • 我们可以通过对概率分布进行采样,来理解随机变量的行为。

  • 通过联合分布、条件分布、贝叶斯定理、边际化以及独立性假设,我们可以对多个随机变量之间的关系进行分析。

  • 期望和方差提供了概率分布的重要特征,并且可以有效地量化随机变量的行为。


1.6.5 练习

  1. 实验分析:我们进行了 m = 500 组实验,每组抽取 n = 10 个样本。通过改变 m 和 n 的值,观察并分析实验结果。

  • 你可以通过增加实验次数(m)和样本数量(n)来进一步分析如何减少结果的波动,并了解样本量对实验精度的影响。

  • 概率事件的联合与交集计算:给定两个事件 A 和 B,分别具有概率 P(A) 和 P(B),你需要计算 P(A ∪ B) 和 P(A ∩ B) 的上下限。

    • 提示:使用友元图来帮助理解这两种情况如何变化。友元图是一种有助于展示事件之间关系的可视化工具。

  • 联合概率的简化:假设我们有一系列随机变量,如 A、B 和 C,其中 B 只依赖于 A,C 只依赖于 B。你能简化联合概率 P(A, B, C) 吗?

    • 提示:这是一个马尔可夫链问题,马尔可夫链的特点是后续状态仅依赖于当前状态,简化联合概率时,可以利用这一特性。

  • 测试结果的优化:在第 1.6.2 节中,假设第一个测试更准确,为什么不运行第一个测试两次,而是同时进行第一个和第二个测试?

    • 讨论:同时进行两个测试,能够最大程度地减少误诊的可能性。虽然第一个测试更准确,但第二个测试的存在可以增加诊断的可靠性,尤其是在一个测试可能存在误差的情况下。



    智能空间机器人
    好好学,一天进步一点点,关键是坚持。
     最新文章