数据分析必会知识点2:大数定律和中心极限定律

文摘 2024-06-28 09:04 新疆

本公众号集结了多位一线数据分析者的经验和案例，可以通过传送门标签进入阅读：

入门数据分析思维

进阶数据分析思维

进阶技能

职场经验

接下来将会分为几篇给大家介绍下数据分析必懂的一些统计学知识点，大家可以根据这几篇文章来补充自己的统计学知识。

第1篇链接：数据分析必会知识点1：概率与统计基础

本篇是第2篇，来介绍大数定律和中心极限定律。

大数定律和中心极限定理都是概率论中非常重要的定理。大数定律描述了随机事件的均值在长期内的稳定性；而中心极限定理则说明了大量随机变量的均值在适当标准化后将趋于正态分布。这两个定理为我们提供了理解和分析随机现象的有力工具。

一、大数定理

大数定律是概率论中描述大量重复实验结果的定律。它并不是经验规律，而是在一些附加条件上经过严格证明的定理。通俗来说，大数定律意味着当样本数量足够大时，样本均值将趋近于真实均值。换句话说，随着试验次数的增加，某一事件发生的频率会趋于一个稳定值。

这个定理在概率论和统计学中非常重要，因为它“保证”了随机事件的均值具有长期稳定性。例如，当我们不断地抛硬币时，正面或反面向上的次数会接近一半，这就是大数定律的一个实例。

大数定律有两种主要形式：弱大数定律和强大数定律。其中，弱大数定律描述了随着试验次数的增加，频率趋近于概率的现象；而强大数定律则进一步说明了频率几乎肯定收敛于概率。

弱大数定律说明了样本均值以很大的概率趋近于总体均值，而强大数定律则进一步指出样本均值几乎确定地趋近于总体均值。

1.1 马尔科夫不等式（Markov's Inequality）

马尔科夫不等式（Markov's Inequality）是概率论中的一个基本工具，它为非负随机变量的概率分布提供了一个宽泛但有用的上界。

定义与表述

【应用与实例】

马尔科夫不等式在概率论和统计学中有广泛应用，例如在金融风险管理中估计投资损失的概率，或在网络流量分析中估计节点流量超过阈值的概率。
实例：假设X是代表收入，E[X]是平均收入。根据马尔科夫不等式，收入超过3倍平均收入的人不超过总人数的1/3。

与其他不等式的关联

切比雪夫不等式：切比雪夫不等式可以视为马尔科夫不等式的一个特例，它使用变异数来限制随机变量偏离其期望值的概率。

其他集中不等式：在概率论中，还有其他集中不等式，如坎泰利不等式、霍夫丁不等式等，它们与马尔科夫不等式共同构成了评估随机变量偏离程度的重要工具集。

注意事项与局限性

非负随机变量：马尔科夫不等式仅适用于非负随机变量。
界的宽泛性：虽然马尔科夫不等式提供了一个上界，但这个界通常比较宽泛，不一定能紧密地反映实际情况。

综上所述，马尔科夫不等式是一个在概率论中广泛应用的工具，它为评估随机事件发生的概率提供了有用的上界，尽管这个界可能不是非常精确。

1.2 切比雪夫不等式（Chebyshev's Inequality）

切比雪夫不等式（Chebyshev's Inequality）是概率论中的一个重要不等式，用于描述随机变量的取值与其数学期望（均值）之间的关系。

定义

解释

概率估计：切比雪夫不等式允许我们在不知道随机变量X的具体分布的情况下，对其取值范围进行概率估计。
标准差与范围：不等式中的ε可以理解为与数学期望的偏离程度，即标准差（或标准差的多倍）的数值。当ε增大时，概率上界减小，意味着随机变量X的取值更可能集中在数学期望附近。

应用与实例

数据分析：在数据分析中，切比雪夫不等式可以帮助我们了解数据集的分布情况，特别是在数据分布未知或难以获取的情况下。
质量控制：在质量控制领域，切比雪夫不等式可以用于估计产品质量的波动范围，从而指导生产过程的控制。
金融分析：在金融领域，切比雪夫不等式可以用于估计资产价格的波动范围，帮助投资者制定风险管理策略。
切比雪夫不等式给出了一个具体的量化描述：在所有数据中，至少有1 - 1/m²的数据位于平均数±m个标准差范围内，其中m为大于1的任意正数。例如，至少有3/4（或75%）的数据位于平均数2个标准差范围内，至少有8/9（或88.9%）的数据位于平均数3个标准差范围内。

注意事项

应用切比雪夫不等式时，需要确保随机变量X的数学期望E(X)和方差D(X)存在且有限。
切比雪夫不等式给出的是一个概率上界，实际概率可能低于这个上界。
切比雪夫不等式并不要求随机变量X服从特定的分布，因此具有较广泛的适用性。

1.3 弱大数定理（Weak Law of Large Numbers）

弱大数定理（Weak Law of Large Numbers）描述了在大量独立同分布的随机变量中，样本均值如何随着样本量的增加而趋近于总体均值。

其表述如下：

随机变量序列： X₁, X₂, X₃...是一系列随机变量，它们彼此独立，且每一个随机变量的分布都相同（即独立同分布）。

样本均值：M_n是这n个随机变量的均值，它是通过对n个随机变量进行求和然后除以n得到的。

弱大数定理的含义：定理表明，对于任意小的正数，当样本量n趋近于无穷大时，样本均值与总体均值μ之间的差的绝对值大于的概率会趋近于 0。换句话说，随着样本量的增加，样本均值将越来越接近总体均值。

大数定理是概率论中的一个基础定理，对于统计学中的许多应用都非常重要，比如抽样调查、假设检验等。弱大数定理和中心极限定理一起，为现代统计学的发展奠定了基础。

【实例与理解】样本量足够大的情况下，规律才会必然显现！！！！
比如有一个骰子，这个骰子是正常的，均匀的，那么投掷到每一个面的概率都是1/6

点数	1	2	3	4	5	6
概率	1/6	1/6	1/6	1/6	1/6	1/6

小故事：小数定理——巴西队的礼物

这曾是世界杯历史上最著名的魔咒之一，其规律是，只要巴西称雄，下一届的冠军就将是主办大赛的东道主，除非巴西队自己将礼物收回。1962年，巴西夺冠，4年后英格兰本土称雄；1970年巴西三夺金杯，1974年东道主西德捧杯；1994年巴西夺冠，1998年东道主法国夺冠；2006年这一魔咒被破解：在德国，巴西队和东道主德国都没能夺冠

如果统计数据较少，那么事件就表现为各种极端行为，而这些情况都是偶然情况，与其期望无关！！

2. 中心极限定理 (Central Limit Theorem)

定义

中心极限定理（CLT）描述了一个概率分布序列如何收敛到正态分布（通常称为高斯分布或钟形曲线）。具体来说，如果从一个总体中抽取大量随机样本，并且每个样本都包含许多独立同分布的观测值，那么这些样本的均值（或和）的分布将趋近于正态分布，无论原始总体分布的形状如何。

简单来说，当样本量足够大时，样本均值的分布将逐渐接近正态分布。

公式

历史与发展

中心极限定理的起源可以追溯到18世纪，最初是由法国数学家德莫佛尔在研究二项分布时发现的。随后，该定理得到了拉普拉斯、高斯、泊松等数学家的进一步发展和完善。中心极限定理在概率论和统计学中占据了极其重要的地位，为许多统计推断方法提供了理论基础。

应用领域

1. 估计总体参数：利用样本均值估计总体均值时，根据中心极限定理，当样本量足够大时，样本均值的分布将趋近于正态分布，因此可以利用正态分布的性质进行推断。
2. 构建置信区间：基于中心极限定理，我们可以根据样本数据构建总体参数的置信区间，以评估估计的可靠性。
3. 假设检验：在假设检验中，我们通常需要比较样本统计量与某个假设下的总体参数。中心极限定理可以帮助我们确定这些统计量的分布，从而进行假设检验。
4. 质量控制：在生产过程中，我们可以利用中心极限定理评估产品的质量稳定性，以及确定合理的抽样方案。

【模拟】

假如X服从均匀分布，我们进行多次抽样后，X的均值服从正态分布，下图分别是进行1次、2次、3次、5次和32次抽样之后，均值的分布

如下图所示，N多种分布在一定条件下都会朝正态分布的方向演进~

-END-

领资料

数据禅心是一个数据分析职业者联盟，分享交流工作经验和心得，关注公号有免费资料畅领（领取方法：点击“阅读原文”）。

数据分析+数据产品经理->能力模型和测评；

战略工具箱+思维模型->助力顶层思维设计；

数据分析+统计学+因果推断 ->提升分析技能功底；

Python+机器学习 ->进阶分析技能开挂；

数据分析成长路径 ->知晓路在哪里；

1on1陪跑

数据禅心还是一个职友互帮互助的组织，超十年工作经验的数据分析师/科学家/数据产品经理/总监作为“陪伴教练”，为陷入迷茫的各位职场人答疑解惑，帮助各位走出泥潭，实现个人成长，甚至迎来职业跃迁。如果你有任何职场上的问题，欢迎来找我们沟通。每个来沟通的职场人都会赠送半小时的咨询~抓住机会来撩吧（文末扫二维码“意向搜集”）~

我想转行到数分，不知道学什么？

我不知道我未来的职业规划是什么？

总是在基层，我还有机会晋升么？

我想跳槽，但不知道要不要跳？

我简历不太行，没有信心？

我没啥项目经验，怎么包装？

我总觉得自己价值发挥不出来，怎么办？

...

请扫码填写报名意向：

体系化学习

数据禅心我们几位数据分析师，结合自己在职场中的成长经验，将数据分析经验整理成了两个训练营，一个是入门训练营，适合-1~3年数分，以及转行/小白；一个是进阶训练营，适合3年左右需要提升的数据人。具体课程可以扫码，或点击“原文链接”查看：

数据分析师能力模型&测评

另外，组织也新发布了《数据分析师能力模型&测评》，大家可以点击下方传送门，了解能力模型，并且做免费测评~优秀的数据分析师都需要什么能力？

如果对你有用，点个“喜欢”再走吧~

http://mp.weixin.qq.com/s?__biz=MzIyMDg4MjM5Nw==&mid=2247486860&idx=1&sn=4c133b563d1fa5b9362bed13152cb05a

数据禅心DataZen

人人都是数据分析师；从思维到技能，在这里你能系统学习到数据分析知识；从面试到加薪，在这里你能获得来自互联网大厂的加持。关注我们，陪你一起升职加薪！