本公众号集结了多位一线数据分析者的经验和案例,可以通过传送门标签进入阅读: 接下来将会分为几篇给大家介绍下数据分析必懂的一些统计学知识点,大家可以根据这几篇文章来补充自己的统计学知识。
第1篇链接: 数据分析必会知识点1:概率与统计基础
第2篇链接: 数据分析必会知识点2:大数定律和中心极限定律
第3篇链接: 数据分析必会知识点3:估计
第4篇链接: 数据分析必会知识点4:最全的相关系数在这里了
本篇是第5篇,来介绍统计的最核心知识点:正态分布和相关的分布。
在概率论和统计学中,三大分布通常指F分布、卡方(χ²)分布和t分布,这三大分布都与正态分布有很大的关联,而且不同场景下需要用到不同的检验公式。如小样本是否有均值差异,用t分布来检验;大样本是否有均值差异,则用Z分布;样本方差是否有差异,用F分布来检验。 正态分布是这三大分布的基础, 我们首先来看看正态分布。 1. 正态分布(Normal Distribution) 正态分布(Normal Distribution),也被称为常态分布或高斯分布(Gaussian Distribution),是统计学和概率论中一种非常重要的连续概率分布。正态分布概念最初由法国数学家棣莫弗(Abraham de Moivre)于1733年提出,后由德国数学家高斯(C.F. Gauss)在研究测量误差时进一步阐述,并因此得名高斯分布。高斯的工作极大地推动了正态分布的应用和发展,使其在数学、物理、工程及社会科学等多个领域都发挥了重要作用。
示例:人类身高、智力测试分数、环境因素(如温度、降雨量)等通常服从或近似服从正态分布。 3.无限接近x轴:正态曲线在 𝑥=μ 两旁延伸时无限接近x轴,但永不与x轴相交。 4.σ决定幅度:当μ一定时,曲线形状由σ的大小来决定。σ越大,曲线越“矮胖”,表示总体分布比较离散;σ越小,曲线越“瘦高”,表示总体分布比较集中。 5.标准正态分布:当μ=0, σ=1时的正态分布是标准正态分布。 主要介绍下标准正态分布的应用。标准正态分布也称Z分布 ,是连续随机变量概率分布的一种重要形式, 标准正态分布(Z分布)在统计学和概率论中有着广泛的应用。例如: 1.在假设检验中,我们经常需要计算Z统计量来判断样本均值与总体均值之间是否存在显著差异;和接下来要介绍的t统计量相比,更适用于大样本量场景下; 2.在质量控制中,Z分数(即标准化后的数据点)可以用于识别异常值; 3.在金融领域,标准正态分布也被用于风险管理和资产定价等方面。
多元正态分布(Multivariate Normal Distribution),也称为多变量高斯分布,是单变量正态分布(高斯分布)在多维空间中的推广。它在统计分析、机器学习、模式识别等多个领域有着广泛的应用。以下是关于多元正态分布的详细介绍: 多元正态分布是多维随机变量的分布,其概率密度函数呈现出一个类似钟形曲面的形状。若一个n维随机向量 𝑋=[𝑋₁,𝑋₂,…,𝑋ₙ] 服从多元正态分布,则它满足以下特性: 均值向量(Mean Vector):μ=(μ₁,μ₂,...,μₙ) ,表示每个随机变量的期望值。 协方差矩阵(Covariance Matrix):Σ=[σ𝑖𝑗] , σ𝑖𝑗 表示第i个和第j个随机变量之间的协方差。Σ必须是对称的和半正定的。 期望向量:多元正态分布的期望向量是 μ=(μ₁,μ₂,...,μₙ) 。 协方差矩阵:多元正态分布的协方差矩阵是 Σ=[σ𝑖𝑗] 。 方差向量:𝑣𝑎𝑟=(𝑣𝑎𝑟₁,𝑣𝑎𝑟₂,...,𝑣𝑎𝑟ₙ) ,其中 𝑣𝑎𝑟ᵢ 表示第i个随机变量的方差。 对称性:对于n个随机变量 𝑋₁,𝑋₂,...,𝑋ₙ 及其期望向量μ和协方差矩阵Σ,存在变换矩阵A,使得 𝐴𝑋=𝑦 有解时, 𝐸(𝑋)=μ 和 𝑣𝑎𝑟(𝑋)=Σ 。 共轭性:如果 𝑋₁,𝑋₂,...,𝑋ₙ 是一组多元正态分布随机变量,则任意一组 𝑋₁𝑋₂...,𝑋ₙ 也是多元正态分布随机变量,且具有相同的期望向量 μ 和协方差矩阵 Σ 。
定义:t分布是统计学中常用的一个分布,主要用于估计样本均值的准确性。在小样本且总体标准差未知的情况下,t分布特别有用。T分布最早由威廉·戈塞(William Sealey Gosset)于1908年提出,当时他在都柏林的健力士酿酒厂工作。由于不能以他本人的名义发表,所以论文使用了“学生”(Student)这一笔名。后来,罗纳德·费雪(Ronald Fisher)将此分布称为“学生T分布”并推广了其应用。
示例: 假设我们有一个来自正态分布的样本,但不知道总体的标准差。我们可以使用样本均值和样本标准差来计算t统计量,然后根据t分布来估计样本均值的准确性。 1. 形状:t分布的形状与正态分布类似,但尾部更为厚重。其形态变化与自由度 𝑑𝑓 大小有关。自由度df越小,t分布曲线越平坦,曲线中间越低,曲线双侧尾部翘得越高;自由度 𝑑𝑓 越大, 𝑡 分布曲线越接近正态分布曲线。 2. 参数:t分布有两个主要参数:一是自由度 𝑑𝑓 ,它决定了 𝑡 分布的形状;二是随机变量 𝑡 ,它表示具体的观测值。 3. 概率密度函数:t分布的概率密度函数为 𝑓(𝑡) ,其中 𝑓(𝑡) 的表达式包含伽马函数 Γ(𝑎) 和自由度 𝑑𝑓 。具体表达式可以参考数学统计专业书籍或在线资源。 4. 期望与方差:t分布的期望 𝐸(𝑡) 为0,方差 𝐷(𝑡) 为 𝑣/(𝑣−2) (其中v表示自由度)。注意,当自由度小于2时,方差无定义。 应用
t分布在统计学中有广泛的应用,主要包括以下几个方面:
1. 假设检验:t分布可以用来进行单样本或双样本假设检验,例如检验两组样本的均值差异是否显著。 2. 区间估计:t分布可以用来估计总体的均值或标准差,例如构建置信区间来估计总体的均值。 3. 回归分析:在回归分析中,t分布可以用来计算回归系数的置信区间。 3. 卡方(χ²)分布(Chi-Squared Distribution) 卡方分布(Chi-Squared Distribution)是统计学中常用的一种连续概率分布,主要用于描述随机变量的平方和的分布。 定义: 卡方分布通常与正态分布变量的平方和有关,常用于检验统计假设。
1. 期望与方差:卡方分布的期望 𝐸(𝑋)=𝑁 ,方差 𝐷(𝑋)=2𝑁 。这意味着,随着自由度的增加,卡方分布的均值和方差都会增加。 2. 可加性:如果 𝑋1 ∼𝜒2 (𝑁1 ) 和 𝑋2 ∼𝜒2 (𝑁2 ) 是两个独立的卡方分布随机变量,那么 𝑋1 +𝑋2 ∼𝜒2 (𝑁1 +𝑁2 ) 。 3. 形状:卡方分布的形状取决于自由度 𝑁 。当 𝑁 较小时,分布呈正偏态;随着 𝑁 的增大,分布逐渐趋于对称,当 𝑁 非常大时,卡方分布趋近于正态分布。 应用
卡方分布在统计学中有广泛的应用,主要包括:
1. 假设检验:卡方检验是一种常用的假设检验方法,用于检验样本数据是否符合某种理论分布,或者检验两个或多个样本分布是否存在显著差异。 2. 独立性检验:在列联表分析中,卡方检验可以用来检验两个分类变量是否独立 。 3. 拟合优度检验:卡方检验还可以用来检验一个样本是否来自某个特定的总体分布,或者检验一组观察值是否符合某个理论模型。 4. F检验(F-test) F检验是一种在统计学中广泛使用的假设检验方法,主要用于比较两组或多组数据的方差 ,或者用于检验某个统计模型是否适合描述一组数据。F检验通常用于分析使用了超过一个参数的统计模型,以判断该模型中的全部或一部分参数是否适合用来估计母体。F检验的名称来源于其统计量F的分布,该分布由美国数学家兼统计学家George W. Snedecor命名,以纪念英国统计学家兼生物学家罗纳德·费雪(Ronald Aylmer Fisher)。
F检验的计算公式涉及多个步骤,包括计算组间平方和 𝑆𝑆𝑏𝑒𝑡𝑤𝑒𝑒𝑛 、组内平方和 𝑆𝑆𝑤𝑖𝑡ℎ𝑖𝑛 、均方组间 𝑀𝑆𝑏𝑒𝑡𝑤𝑒𝑒𝑛 和均方组内 𝑀𝑆𝑤𝑖𝑡ℎ𝑖𝑛 ,最终计算出F统计量。具体公式如下:
5. 显著性判断:根据计算出的F统计量和自由度(dfbetween和dfwithin),查找F分布表以确定显著性水平。如果计算得到的F统计量大于临界值,则可以拒绝原假设,认为样本均值之间存在显著差异;否则,无法拒绝原假设,认为各组样本均值之间没有显著差异。
应用
F检验的应用广泛,包括但不限于以下几种情况:
1. **方差分析(ANOVA)**:用于比较不同组之间的均值是否存在显著差异。 2. **回归模型检验**:检验多元线性回归模型中被解释变量与解释变量之间线性关系在总体上是否显著。 3. **多重比较**:用于比较多于两组的样本均值之间的差异,方法包括Tukey's HSD、Bonferroni校正等。
注意事项
1. 正态性假设:F检验的前提是样本来自正态分布的总体,且方差齐性成立。如果样本不满足这些假设,应采用非参数检验方法。 2. 稳健性:F检验对于数据的正态性非常敏感,因此当数据不满足正态分布或方差齐性的假设时,其稳健性会受到影响。在检验方差齐性时,Levene检验、Bartlett检验或Brown–Forsythe检验的稳健性通常优于F检验。 3. 适用场合:F检验通常用于比较不同来源的数据的方差,或者检验某个统计模型是否适合描述一组数据。在实际应用中,需要根据具体的研究问题和数据类型选择合适的F检验方法。 -END-
数据禅心是一个数据分析职业者联盟,分享交流工作经验和心得,关注公号有免费资料畅领(领取方法:扫二维码“小鹅通店铺”,或点击“阅读原文”)。 数据分析+统计学+因果推断 ->提升分析技能功底; 数据禅心还是一个职友互帮互助的组织,超十年工作经验的数据分析师/科学家/数据产品经理/总监作为“陪伴教练”,为陷入迷茫的各位职场人答疑解惑,帮助各位走出泥潭,实现个人成长,甚至迎来职业跃迁。如果你有任何职场上的问题,欢迎来找我们沟通。每个来沟通的职场人都会赠送半小时的咨询 ~抓住机会来撩吧(扫二维码“意向搜集”)~ 数据禅心我们几位数据分析师,结合自己在职场中的成长经验,将数据分析经验整理成了两个训练营,一个是入门训练营,适合-1~3年数分,以及转行/小白;一个是进阶训练营,适合3年左右需要提升的数据人。具体课程可以扫码进店铺 查看: 推荐一本非常适合想要入门数据分析思维的书,《数据分析实战 方法、工具与可视化》,用50+实践案例和260张图表,生动易懂的告诉你数据分析思维工具和分析武器。掌握分析思维,每个岗位都需要~优惠购买途径请复制链接到浏览器打开: https://detail.tmall.com/item.htm?id=698337891446&spm=a21dvs.23580594.0.0.52de3d0dn8ldqB