泊松分布是1837年泊松在他所著的关于概率论在诉讼、刑事审讯等方面应用的书中提出的。虽然这个分布却在更早些时候由贝努里家族的一个人描述过,但是后来人们还是以泊松来命名这个分布,类似的情况在科学家非常多。直到1898年由Ladislaus Bortkiewicz提出了一个实际应用的例子。当时他得到一个任务,调查1875到1894年的20年间普鲁士军队十四个军团部中偶然被马伤踢而致死的士兵数量。这 20×14= 280个(团年)纪录,按死亡人数来分,则如下表的左二栏所示
在280个团年记录中,死亡的人数共有196,因此致死率为α=196/280=0.7(人/团年)。因为单位是1团年,所以λ=α×1=0.7,我们就以此λ为泊松分布中的常数。理想中每团每年死亡人数x要遵循泊松分布p(x;0.7)。表中右栏就是根据这样的泊松分布,把280团年该有x人死亡的团年数列出。可以看到,右边两列的数据相当吻合。
下面来看看泊松分布是怎么定义的。
考察一个变量是否服从泊松分布,需要满足以下条件:
X是在一个区间(时间、空间、长度、面积、部件、整机等等)内发生特定事件的次数,可以取值为0,1,2,…;
一个事件的发生不影响其它事件的发生,即事件独立发生;
事件的发生率是相同的,不能有些区间内发生率高一些而另一些区间低一些;
两个事件不能在同一个时刻发生;
一个区间内一个事件发生的概率与区间的大小成比例。
满足以上条件,则X就是泊松随机变量,其分布就是泊松分布。
泊松分布的概率分布为
其中:λ>0是常数,是区间事件发生率的均值。
泊松分布是一种描述和分析稀有事件的概率分布。要观察到这类事件,样本含量n必须很大。比如一个产品存在瑕疵的数量,广深高速每天出现交通事故的数量,放射性物质在单位时间内的放射次数,一匹布中疵点的数量等等,等等。
举个例子说明泊松分布的一个应用
问题:已知某家小杂货店,平均每周售出2个水果罐头。请问该店水果罐头的最佳库存量是多少?
假定不存在季节因素,可以近似认为,这个问题满足以下三个条件:
(1)顾客购买水果罐头是小概率事件。
(2)购买水果罐头的顾客是独立的,不会互相影响。
(3)顾客购买水果罐头的概率是稳定的。
在统计学上,只要某类事件满足上面三个条件,它就服从"泊松分布"。
根据公式,计算得到每周销量的分布:
从上表可见,如果存货4个罐头,95%的概率不会缺货(平均每19周发生一次);如果存货5个罐头,98%的概率不会缺货(平均59周发生一次)。
泊松分布有一个很好的性质,即如果把大区间分成若干个小区间,或者若干个小区间合并成1个大区间,则随机变量仍然服从泊松分布,其均值就变成为λ/k或λ×k,其中k为分解或合并的区间数量。比如交警部门在研究广深高速上车辆事故次数时,发现每天的事故次数太少了,经常是0次、1次,偶尔有2次,这样就可以考虑以周为单位来统计,如果仍嫌少,则可以考虑以月为单位。这样就可以把数据放大到利于分析。
泊松分布通常也用于二项分布的近似计算。当n很大,而p很小时,在没有计算机时,二项分布的计算是非常麻烦的,而用泊松分布来近似计算可以降低大量的计算量。近似时,λ=np,下表就是在n=100,p=0.02时,二项分布和泊松分布计算结果的对比,可以看出,两者差异很小。一般来讲,n≥100,np≤10近似效果较好。
x | 二项分布 | 泊松分布 |
0 | 0.13262 | 0.13534 |
1 | 0.27065 | 0.27067 |
2 | 0.27341 | 0.27067 |
3 | 0.18228 | 0.18045 |
4 | 0.09021 | 0.09022 |
5 | 0.03535 | 0.03609 |
6 | 0.01142 | 0.01203 |
7 | 0.00313 | 0.00344 |
8 | 0.00074 | 0.00086 |
≥9 | 0.00019 | 0.00024 |
在六西格玛中,我们用二项分布来分析合格率,用泊松分布来分析缺陷率,如DPU、DPMO。合格率是0~1之间的数字,而缺陷率却可以大于1,也就是说一个产品中可以有若干个缺陷,这应该很容易理解。
需要注意的是,有缺陷的产品不一定不合格,不合格的产品可能包括不止1个缺陷。这在六西格玛课堂上老师都应该反复强调过。
当λ≥20时,泊松分布可以用正态分布来近似,当λ≥50,泊松分布基本上就等于正态分布了。此时
由此可见,当离散数据的值足够大时,可以当成连续数据来分析。
来自志言质语2022 言质有锂