对真实的世界建模-概率论(分布&计算)

乐活   2024-10-05 09:36   江苏  

前段时间觉得概率论不可理喻,再拿起的时候已经少了些许晦涩之感。(我们的自然语言不明确,概率论是离真实建模最近的学科,所以觉得难学,是因为我们逐渐走向精确)

将自然语言中的限定词转化为数学公式,是将模糊的语言描述转化为精确的数学模型的过程。这在概率论中尤为重要,因为概率论的核心就是对不确定性事件进行量化分析。

对于更复杂的事件,我们可以结合多个限定词,并使用概率的加法定理和乘法定理来计算。

  • 多个事件的联合发生:

    • 且: 表示两个事件同时发生,用乘法定理。例如,A和B同时发生,表示为P(A∩B)。

    • 或: 表示两个事件至少发生一个,用加法定理。例如,A或B发生,表示为P(A∪B)。这个符号就像袁华的鱼叉一样,一次下去至少插一条鱼。

  • 条件概率:

    • 表示在事件B发生的前提下,事件A发生的概率,记为P(A|B)。

  • 加法定理: 用于计算互斥事件的并事件的概率。例如,计算“至少出现一次正面”的概率,可以将“出现一次正面”、“出现两次正面”等互斥事件的概率相加。

  • 乘法定理: 用于计算独立事件的交事件的概率。例如,计算“连续两次抛硬币都出现正面”的概率,可以将两次抛硬币出现正面的概率相乘。

  • 互斥事件: 如果两个事件不能同时发生,则它们是互斥事件。对于互斥事件,可以使用加法定理直接相加概率。

  • 独立事件: 如果两个事件的发生互不影响,则它们是独立事件。对于独立事件,可以使用乘法定理直接相乘概率。

这里再写一次,互斥,不可以同时发生,就是加起来,互不影响。

值得注意的是加法和乘法定理之间的边界,一般来说,乘法更强,因为是一个时间分好多步,每一步的个数都乘起来。

概率论中充斥着大量的的像:至多,至少,都不是,不多于一个,不多于2个,恰好,没有,只有。是不是经常可以看到?会翻译吗?其实就是写一个不等式关系出来。

最多,最少都是都是范围,最多其实是有限的,比如最多吃三个,最少其实就是放飞自我了,最少90分,就是说这个是一个线。

有感觉了吗?

  • 至少2次且至多4次正面: P(2 ≤ A ≤ 4)

  • 不是正面也不是反面: P(A' ∩ B'),其中A'表示非A事件,B'表示非B事件。

  • 第一次正面出现在第三次投掷: P(AA'A)

两个至就是一个范围,不是也不是,然后看能不能同时发生,用且运算。


我下面总结了基本上全部会用到的意思:

  • 至多: 表示事件发生的次数不超过某个数。例如,“至多出现2次正面”表示出现2次或少于2次正面。

  • 至少: 表示事件发生的次数不少于某个数。例如,“至少出现1次正面”表示出现1次或多于1次正面。

  • 都不是: 表示多个事件都不发生。例如,“都不是红色球”表示抽出的球既不是红色,也不是其他指定的颜色。

  • 不多于: 与“至多”同义,表示不超过某个数。

  • 恰好: 表示事件发生的次数严格等于某个数。例如,“恰好出现3次正面”表示只出现3次正面,不多不少。

  • 没有: 表示事件不发生。

  • 只有: 表示只发生某一特定事件,不发生其他事件。

  • 最多:与“至多”同义。

  • 最少:与“至少”同义。

  • 不超过:与“至多”同义。

  • 不少于:与“至少”同义。

  • 仅仅:与“只有”同义,强调只发生某一事件。

  • 全部:表示所有事件都发生。

  • 部分:表示部分事件发生。

看这个题

看第六个!!!ABC是什么?是乘法,互斥。后面是反面思考,不多于两个,那就是大于两个,建模就是两个两个的组合,然后排除掉。

第七个也是不多于两个,那就是大于两个,也就是三个,取反,就出结果了。

不多于,不多于2快,比两块低就行:不多于意思是小于或等于,是一种判断方式,用来表示不等式左侧的值小于等于不等式右侧的值,符号为“≤”。

看6,前面就是三个都没有发生,正确,看后三个,都是一个发生,属于等于的范畴。

  • 不多于: ≤ (小于等于)

  • 多于: > (大于)


看7

  • 某个事件最多发生两次。

  • 或者说,这个事件发生的次数小于等于2。

  • 换句话说,这个事件可能发生0次、1次或2次,但不可能发生3次或更多次。


这些都很简单了

第一个的反面是,都是正品,所以会更快

AB是什么?

也就是同时发生,因为是互斥,那就是乘起来,经常的简写

那你是要知道这个性质的,第一个题就好算了

和的计算

这个就是练习,平时可能用不到

这个是古典概型,就是等可能的

这个是概率的现代定义,最后这个就是讲的独立性,同时交为空,也就是可以加起来。

俩俩互斥就是交事件,性质1就是上面的公理3,2是常见的处理技巧,使用了全事件的性质,A属于B,那就是B大,在后面的学习中也是一样的。以可以推出了大小关系,在数轴上面很明显。性质4也是简化计算的。

条件概率,在离散里面你会发现=P(A),上下约去一个B

把上面的公式改个形式就是乘法定理,特别的,也说明了,在独立事件的时候,值是多少,和我上面说的是一样的。

独立一定是互相独立,就是单独的一个对所有都是独立的

精彩的论述

我们喜欢的是独立事件,因为好算

  • 独立事件强调的是事件之间的不相关性,一个事件的发生不会影响另一个事件发生的概率。

  • 互斥事件强调的是事件之间的排斥性,两个事件不能同时发生。

全概率公式

这个完备事件组其实挺装逼的词汇,要学会。

它指的是一个随机试验的所有可能结果所构成的事件集合,满足以下两个条件:

  1. 互斥性: 集合中的任意两个事件都不会同时发生,即它们是互斥的。

  2. 完备性: 集合中所有事件的并集构成了样本空间,也就是说,试验的任何结果都必然属于集合中的某个事件。


形象地说,完备事件组就像是一个盒子里的所有彩球,每次试验只能抽出一个球,而且每个球都有被抽中的可能,但不可能同时抽中两个球。

全概率公式是概率论中一个非常重要的公式,它将一个复杂事件的概率分解为多个简单事件的概率之和。通俗来说,就是把一个事情发生的概率,拆分成它可能发生的所有情况的概率之和。

假设事件B可以由n个互斥的事件A1,A2,...,An构成,即事件B的发生一定伴随着其中一个事件A1,A2,...,An的发生。

那么,事件B发生的概率P(B)可以用下面的公式计算:

P(B) = P(B|A1)P(A1) + P(B|A2)P(A2) + ... + P(B|An)P(An)
  • P(B):事件B发生的概率。

  • P(B|Ai):在事件Ai发生的条件下,事件B发生的概率(条件概率)。

  • P(Ai):事件Ai发生的概率。


事件B发生的概率等于在事件A1发生的情况下B发生的概率乘以A1发生的概率,加上在事件A2发生的情况下B发生的概率乘以A2发生的概率,依次类推,最后将所有这些情况的概率相加。

假设一个工厂有三个车间生产同一种产品,第一车间生产的产品占总产量的40%,第二车间生产的产品占总产量的35%,第三车间生产的产品占总产量的25%。

已知第一车间产品的次品率为2%,第二车间产品的次品率为3%,第三车间产品的次品率为1%。现在随机抽取一个产品,求抽到次品的概率。

设事件B表示抽到次品,事件A1、A2、A3分别表示从第一、二、三车间抽取的产品。根据全概率公式,我们可以计算:

P(B) = P(B|A1)P(A1) + P(B|A2)P(A2) + P(B|A3)P(A3)    = 2% * 40% + 3% * 35% + 1% * 25%    = 0.02 * 0.4 + 0.03 * 0.35 + 0.01 * 0.25    = 0.0215

活爹!

逆概率公式,也就是我们常说的贝叶斯公式,是概率论中一个非常重要的定理。它描述了在已知某个事件B发生的情况下,事件A发生的概率。换句话说,贝叶斯公式可以帮助我们根据已有的信息来更新对事件发生的概率的估计。

P(A|B) = (P(B|A) * P(A)) / P(B)
  • P(A|B):在事件B发生的条件下,事件A发生的概率(后验概率)。就是我们想知道的东西。在B发生的情况下,A发生的概率。

  • P(B|A):在事件A发生的条件下,事件B发生的概率(似然概率)。

  • P(A):事件A发生的先验概率。

  • P(B):事件B发生的概率。


假设我们有一个装有3个球的盒子,其中2个红球,1个白球。我们随机抽取一个球,记为事件A。如果抽到的是红球,我们记为事件B。

  • P(A=红) = 2/3 (先验概率:抽到红球的概率)

  • P(B|A=红) = 1 (如果抽到的是红球,那么事件B一定发生)

  • P(B|A=白) = 0 (如果抽到的是白球,那么事件B一定不发生)

现在,我们已经抽出了一个球,并且这个球是红色的(事件B发生)。那么,我们重新计算抽到的是第一个红球的概率(事件A1):

P(A1|B) = (P(B|A1) * P(A1)) / P(B)

其中,P(B) 可以通过全概率公式(就是分母,上面的公式)计算得到:

P(B) = P(B|A1) * P(A1) + P(B|A2) * P(A2)
  • 确定事件

    • 明确要分析的事件A和B。

    • A通常是我们要推断的事件(如:某个疾病、某个分类)。

    • B是观测到的证据(如:症状、特征)。

  • 确定先验概率P(A)

    • 根据历史数据、专家经验或其他先验知识,对事件A发生的概率进行初始估计。

    • 如果没有先验信息,可以假设一个均匀分布。

  • 确定似然概率P(B|A)

    • 计算在事件A发生的情况下,观测到证据B的概率。

    • 这通常需要建立一个概率模型,描述事件A和B之间的关系。

  • 计算后验概率P(A|B)

    • 利用贝叶斯公式,根据先验概率和似然概率计算后验概率。

    • 后验概率就是我们根据新证据更新后的对事件A发生概率的置信度。

收尾就这样的

其实本质上还是条件概率

在概率论中,伯努利试验是指一个随机实验,其结果只有两种可能:成功或失败。每次试验都是独立的,且成功的概率保持不变。例如,抛硬币就是一个典型的伯努利试验。
伯努利分布 描述了n次独立的伯努利试验中成功的次数X的概率分布。其概率质量函数为:
P(X=k) = C(n, k) * p^k * (1-p)^(n-k)

  • n 是试验次数

  • k 是成功的次数

  • p 是每次试验成功的概率

  • C(n, k) 是组合数,表示从n个元素中选择k个元素的组合数


这个概率质量函数是???就是这个名字pmf。是离散随机变量在各特定取值上的概率。有时它也被称为离散密度函数。

一般我们不说质量函数,就说离散的

伯努利分布,二项式分布,几何分布,Poisson分布,这些都是离散的分布。一个两个。

离散的有,正态分布和均匀分布。

概率质量函数和概率密度函数的一个不同之处在于:概率质量函数是对离散随机变量定义的,本身代表该值的概率;概率密度函数本身不是概率,只有对连续随机变量的概率密度函数必须在某一个区间内被积分后才能产生出概率。

再看密度函数。

“有史以来”最好的随机变量解读统计学-随机变量  看吧,就是把概率取值引入数学分析的一个东西。本身其实蕴含了一种对应关系进去,随机变量在教材上面都是大写的X,Y。

是从样本空间的子集到实数的映射,将事件转换成一个数值。根据样本空间中的元素不同(即不同的实验结果),随机变量的值也将随机产生。可以说,随机变量是“数值化”的实验结果。

概率密度函数,是一个描述这个随机变量的输出值,在某个确定的取值点附近的可能性的函数。

而随机变量的取值落在某个区域之内的概率则为概率密度函数在这个区域上的积分。当概率密度函数存在的时候,累积分布函数是概率密度函数的积分。概率密度函数一般以小写标记。

这段一定要学明白啊!随机变量是我们研究的全体。概率密度就是全体事件里面发生一个子事件的概率大小。可以抛开概率,就是一个密度函数。还是抽象,那就把函数也去掉。也就是密度:

就是这样的一坨吧

如果我们想知道一个区间发生的概率,也就是把一段一段的密度加起来。连续的世界就是积分-也叫累积(加了好多)分布(在一个区间有多少,在哪里)函数。

分布的感觉

大写就是累计分布函数,积分积的是概率密度

小于是概率密度函数,肯定是大于0的,全积分是一定发生。然后分布函数和发生的概率之间是定积分的关系。

应该说的很细了。

此时总结一下,我们学了什么?我们知道了什么是学术上的概率定义,其性质在解题和应用过程中频繁出现。

其次我们学了基本的建模方式,就是加法和乘法,关键点在是不是互斥。引入了随机事件,提高了研究的视角,我们不在关注单一事件的概率,而是开始考虑区间的概率。还学了如何把文字语言给建模成概率语言。为了丰富建模的方式,我们还使用了事件的关系运算(包含,相等,并,差,积,互斥    |   交换,结合,分配,德摩根我也不用)。其次也肯定了古典概型的地位,那就是最简单的等概率模型,顺带的把几何概型也进行了引入,我这里没有写,教材是有的,长度,面积,体积。

后面我们还引入了乘法,其实条件概率就是乘法的化身。

通过条件概率,使事情之间的连续更加的紧密,也完成事件之间的互动

独立的引入,在联动和计算之间增加了些许便利

后面视角转到事件本身,引入了事件组,我们突然可以穷尽所有的结果。也给出来了计算公式。

而后再深入到了贝叶斯公式,让概率的计算动态起来,可以通过新的观察来修正我们的结果,也为人类对未知抽象事情上拥有的强大的建模结果。

事件独立实验千千万万,那能不能有共性呢?给出来了伯努利公式。伯努利试验是指一个随机实验,其结果只有两种可能:成功或失败。每次试验都是独立的,且成功的概率保持不变。简单而深刻。

排列是什么?组合是什么? 我也要为理论的大厦加入这篇文章,组合和排列。其实也不是那么重要,重要的是顺序重要吗?别在错误的时间遇到对的人,也别在对的时间没有了顺序。事实上,也可以算两次,在乎次序怎么样?不在乎又怎么样?

说了这么多,不如一图胜千言,我们要的只是纷杂世界里面一个确定的值而已。

这里有很多题,都做一遍。

留一个考研题,面积和不等式之间的碰撞

这个的建模方式真好,彼此之间的时间来建模

来看全概率和贝叶斯的算法

这个是全概率事件

这个就是贝叶斯的算法,已知一个信息来确认我们的推断

这个题应该教材上面也有,非常的经典

随机变量开始,上面其实已经开始了这段,但是分布还没有开始建模。这段就更加的重要了。开车。

一维随机变量X,主要这里记住的是图,一定是右连续的

离散的简单,就是加。

连续的里面,首先是概率密度函数>0,全区间积分是=1,然后是定积分。给累积分布函数求导就是概率密度函数,累积分布函数也叫分布函数。

二维就是一个面,跟个手电筒一样的,照亮一片面积

二维的其实就是全加起来,合理。连续的是重积分,转换成累次积分,接着求偏导这些都是一样的。

这个东西也有一个好名字,联合概率密度:

联合概率密度函数(Joint Probability Density Function,简称联合密度函数)是用来描述多个连续型随机变量在某个区域内取值的概率的函数。它可以看作是单个随机变量概率密度函数的概念向多维空间的推广。
形象地说,如果把每个随机变量看作是一个维度,那么联合概率密度函数就在这个多维空间中描述了一个“概率山峰”。山峰越高,表示在这个点上多个随机变量同时取到对应值的概率越大。

我们都有了完整的概率,为什么还要边缘的?

  • 简化问题: 当我们关注的只是部分变量的分布时,边缘分布可以帮助我们忽略其他变量的影响,从而简化问题。

  • 数据降维: 在高维数据分析中,边缘分布可以将高维数据降维到低维,便于可视化和分析。

  • 模型构建: 在构建统计模型时,边缘分布可以作为先验分布或似然函数的一部分。

  • 特征工程: 在机器学习中,边缘分布可以用于特征工程,提取出对预测目标有用的特征。

计算的时候还是两个,看连续的时候有边缘分布密度和分布函数两个东西

要得到X的边缘分布,我们只需将联合概率密度函数f(x,y)对y进行积分。Y的边缘概率密度函数f_Y(y)的计算方式类似。

比较

假设我们有两个随机变量:身高和体重。

  • 联合分布: 描述身高和体重同时取到特定值(例如,身高170cm,体重60kg)的概率。

  • 边缘分布:

    • 身高的边缘分布:描述人群中不同身高出现的概率。

    • 体重的边缘分布:描述人群中不同体重出现的概率。


  1. 联合分布 提供了关于多个变量之间关系的更完整信息,但计算和分析可能更复杂。

  2. 边缘分布 从联合分布中提取出单个变量的信息,简化了分析,但丢失了变量之间的关系。

注意的是,对X是对y的积分

图示

同样的二维也有条件概率

这里在连续的时候,下面的取值有些不一样,解答一下。(解答不了)

如果两个变量是互相独立的,那如此甚好。

我们在有了这些变量之间的关系,但是还是算起来有限制,那我们就有随机变量函数的分布。

这个也是一类题

我们给出了几种常见的函数关系:

其实卷积公式也是从这里诞生

第一个加减,主要是使用了变量代换

当有一堆变量(不是同分布),有两个函数,max和min,因为min是函数轴左边,所以就使用1-,变成了反面。

如果是同分布的话,那就是下面的。

我们一直说分布分布,是什么?就是从海量的数据和实验里面抽象出的几种常见的随机变量符合的规律。

现实世界充满了随机事件,概率分布提供了一种数学工具,让我们能够定量地描述这些事件发生的可能性。

我们有三种方式描述它们:

  • 概率质量函数 (PMF): 对于离散型随机变量,用PMF表示随机变量取各个值的概率。

  • 概率密度函数 (PDF): 对于连续型随机变量,用PDF表示随机变量取值落在某个区间内的概率密度。

  • 累积分布函数 (CDF): 对于任意随机变量,CDF表示随机变量取值小于等于某个值的概率。

前面两个我都说了,就是概率函数,一积分,求和就是分布函数了。

这是伯努利分布的一些数据,除了我画住的,都学过啦

这些就是离散和连续的分类

可以使用的场景是这些

离散型分布用概率质量图表示,每个柱子的高度表示对应值的概率;连续型分布用概率密度曲线表示,曲线下的面积表示对应区间内的概率。

这样的是质量图

离散随机变量-伯努利分布,0-1分布,二项分布区别,先看这三个:

(n重)伯努利分布(Bernoulli distribution)

  • 定义: 描述单次试验中只有两种可能结果(成功或失败)的概率分布。

  • 特点:

    • 随机变量X只能取0或1两个值。

    • 成功概率为p,失败概率为1-p。

    • 试验结果相互独立。

    • 应用场景: 抛硬币一次、产品合格与否。

二项分布(Binomial distribution)

  • 定义: 描述n次独立的伯努利试验中成功的次数X的概率分布。

  • 特点:

    • 每次试验的结果只有两种可能。

    • 每次试验的成功概率p保持不变。

    • 试验之间相互独立。

    • 随机变量X可以取0, 1, 2, ..., n中的任意一个值。

    • 应用场景: n次抛硬币中出现正面的次数、一批产品中的合格品数量

  1. 伯努利分布是二项分布的特例: 当n=1时,二项分布就退化为伯努利分布。也就是说,伯努利分布描述的是单次试验,而二项分布描述的是n次独立同分布的伯努利试验。

  2. 0-1分布与伯努利分布等价: 它们是同一个概念的不同称呼。

  3. 当只关心一次试验的结果时,使用伯努利分布。

  4. 当关心多次独立同分布试验中成功的次数时,使用二项分布。

总之,伯努利分布是二项分布的基础,二项分布是对伯努利分布的推广。

就是这样

泊松分布是一种离散概率分布,常用于描述在 单位时间单位空间 内随机事件发生的 次数。例如:

  • 一小时内到达银行的顾客人数

  • 一平方米织物上的疵点数

  • 一本书中印刷错误的个数

    泊松分布的特点

  • 随机事件: 事件发生是随机的,不受其他事件的影响。

  • 独立性: 每个事件发生的概率是恒定的,且事件之间相互独立。

  • 稀有性: 在很小的时间或空间间隔内,事件发生的概率很小。

  • 均值与方差相等: 泊松分布的期望和方差都等于参数λ。

和其它分布的联系:

  • 泊松分布与二项分布的关系: 当二项分布的试验次数n很大,成功的概率p很小,且乘积np=λ保持不变时,二项分布可以近似看作泊松分布。

  • 泊松分布与指数分布的关系: 泊松分布描述的是单位时间内事件发生的次数,而指数分布描述的是两次事件发生之间的时间间隔。它们是互为对偶的分布。

再次对比

  • 试验次数: 伯努利分布只考虑一次试验,二项分布考虑n次试验,而泊松分布关注的是单位时间或空间内事件发生的总次数。

  • 事件发生概率: 伯努利分布和二项分布的每次试验成功概率是固定的,而泊松分布中的事件发生概率是随着时间或空间的变化而变化的,但平均发生率是恒定的。

  • 适用范围: 伯努利分布和二项分布适用于离散的试验,而泊松分布适用于连续的事件发生过程。


这里有个点,什么叫(多次)独立同分布?

简单来说就是多次重复进行的、每次试验结果相互独立且概率分布相同的试验

  • 抛硬币: 连续抛一枚硬币多次,每次抛硬币的结果(正面或反面)是独立的,且每次出现正面的概率都相同。

  • 掷骰子: 连续掷一个骰子多次,每次掷骰子的结果(1-6点)是独立的,且每次掷出任意一点的概率都相同。

  • 抽样检查产品: 从一批产品中随机抽取多个样品进行检查,假设产品合格率不变,则每次抽取的结果是独立的,且每次抽到合格品的概率都相同。

以上实验都是符合我说的实验。

与概率分布的关系:

  • 伯努利分布: 描述单次试验中只有两种可能结果的概率分布。

  • 二项分布: 描述n次独立同分布的伯努利试验中成功的次数的概率分布。


二项分布就是对多次独立同分布的伯努利试验的数学描述。

还差连续的,那就是均匀分布是正态分布了。

我们先明确有两个,就是一维的和二维的

正态分布,也称为高斯分布,是一种非常常见的连续型概率分布。它的概率密度曲线呈钟形,左右对称,因此也被称为钟形曲线。在自然界和社会科学中,许多现象都服从或近似服从正态分布。

正态分布图像的特点:

就是这样的,这是标准的

当正态分布的均值为0,标准差为1时,称为标准正态分布。标准正态分布的概率密度函数记为φ(z),其分布函数记为Φ(z)。通过标准化,任何正态分布都可以转化为标准正态分布。

  • 钟形曲线: 概率密度曲线呈对称的钟形。

  • 均值、中位数、众数相等: 曲线的最高点对应于分布的均值,也是中位数和众数。

  • 标准差: 反映数据的分散程度,标准差越大,曲线越扁平。


这里说说什么是标准差:

  • 标准差 是用来衡量一组数据离散程度的统计量。它表示数据点距离平均值的平均距离。

  • 标准差越大,数据分布越分散;标准差越小,数据分布越集中。


我们可能数据不是标准部分的,可以通过几何变换到标准正态分布,对原始数据进行了一个平移和缩放的操作:

  • 平移: 减去均值μ,将分布的中心移到原点。

  • 缩放: 除以标准差σ,将分布的形状调整为标准正态分布的形状。


就是下面这个小符号

为什么要除以标准差?

通过除以标准差,我们将不同尺度的数据转化为同一个尺度,使得不同数据集的比较有意义。

直接比较好吧,标准的反而才是特例

正态分布常见到还有一个:中心极限定理,它告诉我们:无论总体分布是什么样的,只要样本量足够大,样本均值的分布就会趋近于正态分布。这就是为什么正态分布在统计学中如此重要的原因。

这么多的统计量,我这里总结一下

总结的又简单了不少

我们可视化的时候就是按照这些统计量在操作:

  • 描述数据中心趋势: 如果数据分布对称且没有异常值,可以使用平均数;如果数据存在极端值,可以使用中位数。

  • 描述数据分散程度: 方差和标准差是常用的指标,变异系数可以比较不同单位的数据的分散程度。

  • 描述数据分布形状: 偏度和峰度可以描述数据的对称性和尖锐程度。


评价数据的,趋势,分散程度,和形状。

一篇是写不完数理统计的,一口也吃不成胖子。数字特征和两个极限定理放在下面。

云深之无迹
纵是相见,亦如不见,潇湘泪雨,执念何苦。
 最新文章