总结：「统计学」知识大梳理···（附相关材料下载）

科技 2024-10-18 15:00 天津

▲木木自由/数据分析·领地，一起学习数据分析，持续更新数据分析学习路径相关资料~更多产品、运营与数据分析、数据治理、数据资产干货以及经验分享（精彩数据观点、学习资料、数据课程分享、读书会、分享会等你一起来乘风破浪~）

木木自由·数据分析·领地

统计学在数据分析中用于验证假设、进行推断、建立模型以及解释和解读数据。这些应用帮助分析师从数据中提取洞察力，从而做出更好的决策。统计学提供了数据分析的基本理论和方法。它包括概率论、数理统计学、抽样调查、设计实验等方面，这些都是数据分析不可或缺的工具。

来源：PMCAFF

作者：大山里人

前言

道德经云：”道生一，一生二，二生三，三生万物“。学习知识亦是如此，一个概念衍生出两个概念，两个概念演化出更小的子概念，接着衍生出整个知识体系。

笔者结合自己对统计学和概率论知识的理解写了这篇文章，有以下几个目标

目标一：构建出可以让人理解的知识架构，让读者对这个知识体系一览无余
目标二：尽l量阐述每个知识在数据分析工作中的使用场景及边界条件
目标三：为读者搭建从“理论”到“实践"的桥梁

概述

你的“对象” 是谁？

此对象非彼“对象”，我们学习“概率和统计学”目的在于应用到对于“对象”的研究中，笔者将我们要研究的“对象”按照维度分为了两大类。

一维：就是当前摆在我们面前的“一组”，“一批”，哪怕是“一坨”数据。这里我们会用到统计学的知识去研究这类对象。

二维：就是研究某个“事件”，笔者认为事件是依托于“时间轴”存在的，过去是否发生，现在是可能会出现几种情况，每种情况未来发生的可能性有多大？这类问题是属于概率论的范畴。

因此，我们在做数据分析的研究前，先弄清我们研究的对象属于哪类范畴，然后在按着这个分支检索自己该用到的知识或方法来解决问题。

分析就像在给 “爱人” 画肖像

从外观的角度描述一个姑娘，一般是面容怎么样？身段怎么样？两个维度去描述。就像画一幅肖像画，我们的研究“对象”在描述性分析中也是通过两个维度去来描述即，“集中趋势---代表值”，“分散和程度”。

看到这几个概念是不是就很熟悉了？笔者认为一个描述性的分析就是从这两个维度来说清楚你要研究的对象是什么样子？至于从哪些特征开始说呢？就是常用的概念“均值”，“方差”之类的。下面我们进入正题，笔者将详细阐述整个知识架构。

对“数据”的描述性分析

数据分析中最常规的情况，比如你手上有一组，一批或者一坨数据，数据分析的过程就是通过“描述”从这些数据中获取的信息，通常可以从两个维度去描述：

1. 集中趋势量度：为这批数据找到它们的“代表”

均值（μ）

均值的局限性：

均值是最常用的平均数之一，但是它的局限性在于“若用均值描述的数据中存在异常值的情况，会产生偏差” ；例如下面一组数据就不太适合用均值来代表

这5个人的年龄均值是：31.2岁

很显然，在这组数据中，大部分人的年龄是10几岁的青少年，但是E的年龄是100岁为异常值，用均值来描述他们的年龄是31.2岁，很显然用均值作为描述这组数据是不合适的，那么我们该如何准确的表征这组数据呢？？？

中位数：

中位数，又称中点数，中值。是按顺序排列的一组数据中居于中间位置的数。

中位数的局限

回到上一个例子，若用中位数来表征这组数据的平均年龄，就变得更加合理，中位数15。

那么我们在看一下下面一组数据，中位数的表现又如何？

中位数：45

这组数据的中位数为：45，但是中位数45并不能代表这组数据。

因为这组数据分为两批，两批的差异很大。那么如何处理这类数据呢？接下来介绍第三位平均数。

众数：

众数是样本观测值在频数分布表中频数最多的那一组的组中值。

平均数可以表征一批数据的典型值，但是仅凭平均数还不能给我们提供足够的信息，平均数无法表征一组数据的分散程度。

2. 分散性与变异性的量度

（全距，迷你距，四分位数，标准差，标准分）

全距=max-min

全距也叫“极差”极差。它是一组数据中最大值与最小值之差。可以用于度量数据的分散程度。

全距的局限性

全距虽然求解方便快捷，但是它的局限性在于“若数据中存在异常值的情况，会产生偏差。为了摆脱异常值带来的干扰，比如我们看一下下面的两组数据。只是增加了一个异常值，两组数据的全距产生了巨大的差异。

四分位数

所有观测值从小到大排序后四等分，处于三个分割点位置的数值就是四分位数：Q1，Q2和Q3。

Q1：第一四分位数 (Q1)，又称“较小四分位数”，等于该样本中所有数值由小到大排列后第25%的数字。

Q2：第二四分位数 (Q2)，又称“中位数”，等于该样本中所有数值由小到大排列后第50%的数字。

Q3：第三四分位数 (Q3)，又称“较大四分位数”，等于该样本中所有数值由小到大排列后第75%的数字。

迷你距 也叫“四分位距”

迷你距。它是一组数据中较小四分位数与较大四分位数之差。

即：迷你距= 上四分位数 - 下四分位数

迷你距可以反映中间50%的数据，如果出现了极大或极小的异常值，将会被排除在中心数据50%以外。因此使用迷你距可以剔除数据中异常值。

全距，四分位距，箱形图可以表征一组数据极大和极小值之间的差值跨度，一定程度上反应了数据的分散程度，但是却无法精准的告诉我们，这些数值具体出现的频率，那么我们该如何表征呢？

我们度量每批数据中数值的“变异”程度时，可以通过观察每个数据与均值的距离来确定，各个数值与均值距离越小，变异性越小数据越集中，距离越大数据约分散，变异性越大。方差和标准差就是这么一对儿用于表征数据变异程度的概念。

方差：

方差是度量数据分散性的一种方法，是数值与均值的距离的平方数的平均值。

标准差：

标准差为方差的开方。

通过方差和标准差我们现在可以表征一组数据的数值的变异程度。那么对于拥有不同均值和不同标准差的多个数据集我们如何比较呢？

标准分——表征了距离均值的标准差的个数

标准分为我们提供了解决方法，当比较均值和标准差各不相同的数据集时，我们可以把这些数值视为来自同一个标准的数据集，然后进行比较。标准分将把每一个数据集转化为通用的分布形态，进行比较。

标准分还有个重要的作用，它可以把正态分布变为标准正态分布，后文会有介绍。

第一部分小结：

1. 描述一批数据，通过集中趋势分析，找出其“代表值” ；通过分散和变异性的描述，查看这批数据的分散程度。

2. 集中趋势参数：均值，中位数，众数

3. 分散性和变异性参数 : 全距，四分位距，方差，标准差，标准分

关于“事件”的研究分析概率论

1. 一个事件的情况

为了让读者更好理解，笔者概率论中最核心的概念以及概念之间彼此的关系绘制成了下图，那么接下来笔者开始“讲故事”了。

事件：有概率可言的一件事情，一个事情可能会发生很多结果，结果和结果之间要完全穷尽，相互独立。

概率：每一种结果发生的可能性。所有结果的可能性相加等于1，也就是必然！！！

概率分布：我们把事件和事件所对应的概率组织起来，就是这个事件的概率分布。

概率分布可以是图象，也可以是表格。如下图1和表2都可以算是概率分布

期望：表征了综合考虑事情的各种结果和结果对应的概率后这个事情的综合影响值。（一个事件的期望，就是代表这个事件的“代表值”，类似于统计里面的均值）

方差：表征了事件不同结果之间的差异或分散程度。

2. 细说分布

理想很丰满，现实很骨感。真实的生活中别说去算一个事件的期望，即使把这个事件的概率分布能够表述完整，每个事件对应的概率值得出来就已经是一件了不起的事情了。

因此，为了能更快更准确的求解出事件的概率分布，当某些事件，满足某些特定的条件，那么我们可以直接根据这些条件，来套用一些固定的公式，来求解这些事件的分布，期望以及方差。

“离散型”数据和“连续性”数据差异

在我们展开分布的知识之前，先补充一个预备知识，什么是离散数据，什么是连续数据，它们二者之间有什么差异？

离散数据： 一个粒儿，一个粒儿的数据就是离散型数据。

连续数据： 一个串儿，一个串儿的数据就是连续型数据。

好啦，开个玩笑！！！别打我，下面分享干货！！！

其实上述描述并没有错误，离散型和连续型数据是一对相对概念，同样的数据既可能是离散型数据，又可能是连续型数据。判别一个数据是连续还是离散最本质的因素在于，一个数据组中数据总体的量级和数据粒度之间的差异。差异越大越趋近于连续型数据，差异越小越趋近于离散型数据。

举个例子:

人这个单位，对于一个家庭来说，就离散型数据，一个家庭可能有 3个人，4个人，5个人....等等。

对于一个国家来说，就是连续型数据，我们的国家有14亿人口，那么以个人为单位在这个量级的数据群体里就是连续型数据。

清楚了离散型和连续型数据的差异，我们接下来一块科普这几种常用的特殊分布。

离散型分布

离散数据的概率分布，就是离散分布。这三类离散型的分布，在“0-1事件”中可以采用，就是一个事只有成功和失败两种状态。

连续型分布

连续型分布本质上就是求连续的一个数据段概率分布。

正态分布

f（x）----是该关于事件X的概率密度函数

μ --- 均值

σ^2 ---方差

σ ---标准差

绿色区域的面积 ---该区间段的概率

正态分布概率的求法

step1 --- 确定分布和范围，求出均值和方差

step2 --- 利用标准分将正态分布转化为标准正态分布（还记得第一部分的标准分吗？）

step3 ---查表找概率

离散型分布 → 正态分布（离散分布转化为正态分布）

精彩的地方在这里，笔者已经阐述了连续型数据和离散型数据是一对相对的概念，那么这就意味着在某种“边界”条件下，离散型分布和连续型分布之间是可以相互转化的。进而简化概率分布的计算。这里笔者不在偷懒直接上皂片了（编公式快吐了！！！！）

3. 多个事件的情况：“概率树”和“贝叶斯定理”

多个事件就要探讨事件和事件之间的关系

对立事件：如果一个事件，A’包含所有A不包含的可能性，那么我们称A’和A是互为对立事件

穷尽事件：如何A和B为穷尽事件，那么A和B的并集为1

互斥事件：如何A和B为互斥事件，那么A和B没有任何交集

独立事件：如果A件事的结果不会影响B事件结果的概率分布那么A和B互为独立事件。

例子：10个球，我随机抽一个，放回去还是10个球，第二次随机抽,还是10选1，那么第一次和第二次抽球的事件就是独立的。

相关事件：如果A件事的结果会影响B事件结果的概率分布那么A和B互为独立事件。

例子：10个球，我随机抽一个，不放回去还是10个球，第二次随机抽是9选1，那么第一次和第二次抽球的事件就是相关的。

条件概率（条件概率，概率树，贝叶斯公式）

条件概率代表：已知B事件发生的条件下，A事件发生的概率

概率树 --- 一种描述条件概率的图形工具。

假设有个甜品店，顾客买甜甜圈的概率是3/4 ；不买甜甜圈直接买咖啡的概率是1/3 ；同时买咖啡和甜甜圈概率是9/20。

从图中我们可以发现以下两个信息:

1. 顾客买不买甜甜圈可以影响喝不喝咖啡的概率，所以事件甜甜圈与事件咖啡是一组相关事件

2. 概率树每个层级分支的概率和都是1

贝叶斯公式 ----提供了一种计算逆条件概率的方法

贝叶斯公式用于以下场景，当我们知道A发生的前提下B发生的概率，我们可以用贝叶斯公式来推算出B发生条件下A发生的概率。

第二部分小结

1. 事件，概率，概率分布之间的关系

2. 期望，方差的意义

3. 连续型数据和离散型数据之间的区别和联系

4. 几何分布，二项分布，泊松分布，正态分布，标准正态分布

5. 离散分布和正态分布可以转化

6. 多个事件之间的关系，相关事件和独立事件，条件概率和贝叶斯公式

关于“小样本”预测“大总体”

现实生活中，总体的数量如果过于庞大我们无法获取总体中每个数据的数值，进行对总体的特征提取进而完成分析工作。那么接下来就用到了本章节的知识。

1. 抽取样本

总体：你研究的所有事件的集合

样本：总体中选取相对较小的集合，用于做出关于总体本身的结论

偏倚：样本不能代表目标总体，说明该样本存在偏倚

简单随机抽样： 随机抽取单位形成样本。

分成抽样： 总体分成几组或者几层，对每一层执行简单随机抽样

系统抽样：选取一个参数K，每到第K个抽样单位，抽样一次。

2. 预测总体（点估计预测，区间估计预测）

点估计量--- 一个总参数的点估计量就是可用于估计总体参数数值的某个函数或算式。

场景1：样本无偏的情况下，已知样本，预测总体的均值，方差。

（1）样本的均值 = 总体的估算均值（总体均值的点估计量） ≈ 总体实际均值（误差是否可接受）

（2）总体方差估计总体方差

场景2：已知总体，研究抽取样本的概率分布

比例抽样分布：考虑从同一个总体中取得所有大小为n的可能样本，由这些样本的比例形成一个分布，这就是“比例抽样分布”。样本的比例就是随机变量。

举个栗子：已知所有的糖球（总体）中红色糖球比例为0.25。从总体中随机抽n个糖球，我们可以求用比例抽样分布求出这n个糖球中对应红球各种可能比例的概率。

样本均值分布：考虑同一个总体中所有大小为n的可能样本，然后用这个样本的均值形成分布，该分布就是“样本均值分布” ，样本的均值就是随机变量。

中心极限定理：如果从一个非正态总体X中抽出一个样本，且样本极大（至少大于30），则图片.png的分布近似正态分布。

区间估计量--- 点估计量是利用一个样本对总体进行估计，区间估计是利用样本组成的一段区间对样本进行估计。

举个栗子：今天下午3点下雨；今天下午3点到4点下雨。如果我们的目的是为了尽可能预测正确，你会使用那句话术？

如何求置信区间？（这里笔者讲一下思路，不画图码公式了，读者有兴趣可以查阅一下教材）

求置信区间简便公式（直接上皂片）

关于C值参数：置信水平 90% C=1.64 ， 95% C=1.96 ， 99% C=2.58

待补充知识一（t分布）

我们之前的区间预测有个前提，就是利用了中心极限定理，当样本量足够大的时候（通常大于30），均值抽样分布近似于正态分布。若样本量不够大呢？这是同样的思路，只是样本均值分布将近似于另一种分布处理更加准确，那就是t分布。这里笔者直接放张图，不做拓展了。

待补充知识二（卡方分布）----注意待补充不代表不重要，是笔者水平有限，目前还不能用简单的语言概述其中的精髓。

卡方分布的定义

若n个相互独立的随机变量ξ、ξ、……、ξn ，均服从标准正态分布，则这n个服从标准正态分布的随机变量的平方和构成一新的随机变量，其分布规律称为卡方分布。

卡方分布的应用场景

用途1：用于检验拟合优度。也就是检验一组给定的数据与指定分布的吻合程度；
用途2：检验两个变量的独立性。通过卡方分布可以检查变量之间是否存在某种关联:

3. 验证结果（假设检验）

假设检验是一种方法用于验证结果是否真实可靠。具体操作分为六个步骤。

两类错误---即使我们进行了“假设检验”依然无法保证决策是百分百正确的，会出现两类错误

第一类错误：拒绝了一个正确的假设，错杀了一个好人
第二类错误：接收了一个错误的假设，放过了一个坏人

第三部分小结：

1. 无偏抽样

2. 点估计量预测（已知样本预测总体，已知总体预测样本）

3. 区间估计量预测（求置信区间）

4. 假设检验

相关与回归(y=ax+b)

这里介绍的相关和回归是关于二维双变量的最简单最实用的线性回归，非线性回归这里不暂不做拓展。

散点图：显示出二变量数据的模式

相关性：变量之间的数学关系。

线性相关性：两个变量之间呈现的直线相关关系。

最佳拟合直线：与数据点拟合程度最高的线。（即每个因变量的值与实际值的误差平方和最小）

误差平方和SSE：

线性回归法：求最佳拟合直线的方法（y=ax+b），就是求参数a和b

斜率a公式：

b公式：

相关系数r：表征描述的数据与最佳拟合线偏离的距离。（r=-1完全负相关，r=1完全正相关，r=0不相关）

r公式：

结束语：

笔者这里梳理了统计与概率学最基础的概念知识，尽量阐述清楚这些概念知识之间关联的关系，以及应用的场景。底层概念是上层应用的基础，当今浮躁的“机器学习”，“神经网络”，“AI自适应”这些高大上的关键字满天飞。笔者认为踏踏实实的把“基础”打扎实，才是向上发展的唯一途径。

文│来源于网络整理，【数据分析·领地】星球一起学习数据相关资料~

- END -

附1：统计学学习指导书(236页完整版)

···

（进星球查看完整版）

附2：统计学相关书籍

·····

获取全套资料，请在公号后台回复“8”，加入数据分析·领地知识星球，或扫描下方文末二维码进入星球下载。

「完」

（点击阅读原文进数据分析星球，领取统计学相关资料、数据指标搭建、案例、方案、方法相关资料等相关分析资料~）

完

#数据分析相关课程# 从零开始学数据分析25讲

#数据分析相关课程# 数据分析思维与实战23讲

···

#数据分析入门级别资料# 数据分析基础分享讲解（1-6）（附数据分析报告）

·····

····

立即扫码

扫码加入星友群

即可各种数据分析思维、工具、课程、书籍、项目、运营、产品相关结构化体系资料~

内容持续更新，期待你来

在后续也会在【数据分析·领地】中，组织读书会，分享会等专项活动，读书会主要学习技术类的书籍领读，分享会主要以数据分析思维分享，案例复盘分享等~

部分图片来源于网络，使用图片、文字等均不作为商业用途使用，如有侵权，请联系删除~

http://mp.weixin.qq.com/s?__biz=MzIzMDgwODcyNA==&mid=2247576610&idx=1&sn=0959eaa7a614fd742d83c4adccbb395d

木木自由

《数据分析手记：72个数据分析问题精解》作者，这是运营对数据的漫谈理想之地，这有数据对运营的收藏之所，这为产品对运营的思索之位，明确学习方向、开拓视野、相互交流！

AI大模型·白皮书 | 2024年汽车产业AIGC技术应用白皮书-中国一汽-54页

财务分析之费用分析指南：分析内容、分析方法、评估模型、费用分析表模板···（附相关资料下载）

AI大模型·白皮书 | 大模型应用之文心一言使用手册（84页）+天津大学：2024年大模型轻量化技术研究报告125页

数据治理体系：如何保证数据质量？数据质量提升“五步曲”、规划方案、企业级数据模型构建策略···（附相关资料下载）

AI大模型·白皮书 | 快意大模型及短视频场景应用（PPT 可编辑）

商业分析之战略分析指南：分析目标、分析内容、分析模型工具、经典框架体系···（附相关资料下载）

AI大模型·白皮书 | 2024年生成式AI写作指南报告V1.060页+2024大模型发展要素洞察报告：语料、算力、电力研究

经营分析之毛利率分析指南：分析维度、分析思维、分析方法···（附相关资料下载）

AI大模型·白皮书 | 中文大模型基准测评2024年10月报告-2024年度中文大模型阶段性进展评估-80页

AI大模型·白皮书 | Graph+AI：大模型浪潮下的图计算白皮书（2024年）-蚂蚁集团&之江实验室-159页

经济下行，数据分析师还有前途吗？字节70w年薪大神这么说

AI大模型·白皮书 | 2024年中国人工智能系列白皮书-体育人工智能121页

非结构化数据治理解决方案···（附相关资料下载）

AI大模型·白皮书 | 亚马逊云&德勤：生成式AI赋能零售电商行业白皮书2024

电商数据分析指标体系详解···（附相关资料下载）

顶级商业分析模型工具：框架、案例、应用···（附相关资料下载）

AI大模型·白皮书 | 2024中国生成式人工智能应用与实践展望-中国联通研究院-70页

行业分析到底应该怎么做：基本思路、框架、应用案例、五力分析、战略分析···（附相关资料下载）

AI大模型·白皮书 | 大模型技术深度赋能保险行业白皮书（2024）151页（多份AI+保险报告）

数据资产盘点及治理路径与方法（附相关资料下载）

AI大模型·白皮书 | 人工智能赋能课程建设的逻辑与路径（附大模型时代的AI教育：思考与实践相关材料下载）

财务分析 | 26个主要财务指标及参考标准值（附财务指标解析、体系建立、分析思路···相关资料下载）

数据架构顶层规划：定义、关系、方法与案例（附相关资料下载）

AI大模型·白皮书 | 2024中国“大模型+智能客服”最佳实践案例TOP10（附大模型+客服多份报告下载）

数据资产建设方案PPT（目录带图）···（附相关材料下载）

AI大模型·白皮书 | 2024创业邦AIGC创新应用洞察报告（PPT 可编辑）（附ChatGPT学习资料（视频+课件+代码）

数据标签 VS 数据指标：相关概念、区别、应用···（附相关材料下载）

AI大模型·白皮书 | 脉脉：2024大模型人才报告（PPT 可编辑）（附大模型应用开发动手做AI Agent下载）

数据标签体系构建方法···（附相关材料下载）

AI大模型·白皮书 | 2024人工智能技术在内容创作和营销领域的应用及影响分析报告-42页（PPT 可编辑）

用户画像系统主数据管理项目的规划方案···（附相关材料下载）

AI大模型·白皮书 | 2024大模型应用实践报告：战略一致性，企业成功落地大模型的隐藏秘钥+

10万字、近20家企业BI智能分析决策合集

AI大模型·白皮书 | 2024年全球人工智能现状全景报告（英译中）-212页+2024年生成人工智能时代的治理报告

数据资产目录构建方法与应用（附相关材料下载）

AI大模型·白皮书 | AI面试实践手册（2024）-牛客-39页

数据治理知识地图···（附案例+方案+资料相关材料下载）

AI大模型·白皮书 | 2024年生成式AI赋能零售电商行业解决方案白皮书-69页

总结：「统计学」知识大梳理···（附相关材料下载）

AI大模型·白皮书 | 2024面向人工智能的数据治理（DG4AI）实践指南（1.0）-大数据技术标准推进委员会-49页

用户分层：基本概念、如何构建分层体系、常见分层方法以及思路···（附相关材料下载）

AI大模型·白皮书 | 北大国发院&智联招聘：AI大模型对我国劳动力市场潜在影响研究报告（2024）

财务分析的关键点？怎么做？搞懂财务分析基本思路和方法！（附相关材料下载）

AI大模型·白皮书 | 2024人工智能中文大模型使用手册+2024人工智能国外大模型使用手册-东华大学图书馆-51页

通知个事儿：《大厂数分生存指南》完结！

AI大模型·白皮书 | 《大模型理论与实践》+YonGPT用友企业服务大模型白皮书（2024）

指标体系定义及建设步骤（附相关材料下载）

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

总结：「统计学」知识大梳理···（附相关材料下载）

附1：统计学学习指导书(236页 完整版)

···

附2：统计学相关书籍

附1：统计学学习指导书(236页完整版)