统计学！！！8项数据分析师必学知识点！（附赠统计学大礼包）

教育 2024-11-08 16:01 黑龙江

来源：简书/作者：肖彬AI

数据分析师，无疑是数据时代最耀眼的职业之一，统计学，又是数据分析师必备的基础知识。今天，给大家列了一份数据分析师常用的统计学知识清单，对大家有帮助的话请点赞+在看+分享三连下！

知识点汇总：

集中趋势(Central Tendency)
变异性(Variability)
归一化(Standardizing)
正态分布(Normal Distributions)
抽样分布(Sampling Distributions)
估计(Estimation)
假设检验(Hypothesis testing)
T检验(T-test)

集中趋势（Central Tendency）

1. 众数

出现频率最高的数。

2. 中位数

把样本值排序，分布在最中间的值
样本总数为奇数时，中位数为第(n+1)/2个值
样本总数为偶数时，中位数是第n/2个，第(n/2)+1个值的平均数

3. 平均数

所有数的总和除以样本数量。

小结：现在大家接触最多的概念应该是平均数，但有时候，平均数会因为某些极值(Outlier)的出现收到很大影响。

举个小例子，你们班有20人，大家收入差不多，19人都是5000左右，但是有1个同学创业成功了，年入1个亿，这时候统计你们班同学收入的“平均数”就是500万了，这也很好的解释了，每年各地的平均收入数据出炉，小伙伴们直呼给祖国拖后腿了，那是因为大家收入被平均了，此时，“中位数”更能合理的反映真实的情况。

变异性（Variability）

1. 四分位数

上面说到了“中位数”，把样本分成了2部分，再找个这2部分各自的“中位数”，也就把样本分为了4个部分，其中1/4处的值记为Q1，2/4处的值记为Q2，3/4处的值记为Q3

2. 四分位距 IQR=Q3-Q1

四分位数

3. 异常值（Outlier）

小于Q1-1.5(IQR)或者大于Q3+1.5(IQR);对于异常值，我们在处理时需要剔除。

4. 方差(Variance)

方差variance

5. 平方偏差(Standard Deviation)

方差的算术平方根

6. 贝塞尔矫正：修正样本方差

问：为什么要用贝塞尔矫正？

实际在计算方差时，分母要用n-1，而不是样本数量n，原因如下

贝塞尔矫正

归一化（Standardizing）

1. 标准分数(Z-score)

一个给定分数距离平均数多少个标准差？

标准分数是一种可以看出某分数在分布中相对位置的方法。

标准分数能够真实的反映一个分数距离平均数的相对标准距离。

归一化standardizing

正态分布（Normal Distributions）

1. 定义

随机变量X服从一个数学期望为μ，方差为σ⊃2;的正态分布，记为N(μ,σ⊃2;)

随机取一个样本，有68.3%的概率位于距离均值μ有1个标准差σ内

有95.4%的概率位于距离均值μ有2个标准差σ内

有99.7%的概率位于距离均值μ有3个标准差σ内

正态分布normal distribution

抽样分布（Sampling Distributions）

1. 中心极限定理(Central Limit Theorem)

设从均值为μ，方差为σ⊃2;的任意一个总体中抽取样本量为n的样本，当n充分大时，样本均值的抽样分布近似服从均值为μ、方差为σ⊃2;/n的正态分布

2. 抽样分布(Sampling Distributions)

设总体共有N个元素，从中随机抽取一个容量为n的样本，在重置抽样时，共有N·n种抽法，即可以组成N·n不同的样本，在不重复抽样时，共有N·n个可能的样本。每一个样本都可以计算出一个均值，这些所有可能的抽样均值形成的分布就是样本均值的分布。

但现实中不可能将所有的样本都抽取出来，因此，样本均值的概率分布实际上是一种理论分布。数理统计学的相关定理已经证明：在重置抽样时，样本均值的方差为总体方差的1/n

例子：48盆MM豆，计算出每盆有几个蓝色的MM豆，48个数据构成了总体样本。然后随机选择五盆，计算五盆中含有蓝色MM豆的平均数，然后反复进行了50次。这就是n为5的样本均值抽样。

抽样分布sampling distributions

估计（Estimation）

1. 误差界限(Margin of error)

误差界限margin of error

2. 置信度(Confidence level)

We are some % sure the true population parameter falls within a specific range

我们有百分之多少确信总体中的值落在一个特定范围内；一般情况下，取95%的置信度就可以。

3. 置信区间(Confidence Interval)

置信区间

假设检验（Hypothesis testing）

假设检验hypothesis testing

1. 问题：什么是显著性水平？

显著性水平是估计总体参数落在某一区间内，可能犯错误的概率，也就是Type I Error

A Type II Error is when you fail to reject the null when it is actually false.

假设检验-零假设和对立假设

假设检验-案例：鸡

2. 如何选择备选检验和零假设

一个研究者想证明自己的研究结论是正确的，备择假设的方向就要与想要证明其正确性的方向一致；同时将研究者想收集证据证明其不正确的假设作为原假设H0

T检验（T-test）

1. 主要用于样本含量较小（例如n<30），总体标准差σ未知的正态分布

流程如下：

t检验

是用t分布理论来推论差异发生的概率，从而比较两个平均数的差异是否显著；一般检验水准α取0.05即可；计算检验统计量的方法根据样本形式不同。

2. 独立样本T检验

现在要分析男生和女生的身高是否相同两者的主要区别在于数据的来源和要分析的问题。

t检验

问题：为什么T检验查表时候要n-1?样本均值替代总体均值损失了一个自由度

3. 配对样本t检验

分析人的早晨和晚上的身高是否不同，于是找来一拨人测他们早上和晚上的身高，这里每个人就有两个值，这里出现了配对

t检验-配对样本

样本误差（Standard Error）

t检验-样本误差

t检验-样本误差2

4. Pooled variance 合并方差

当样本平均数不一样，但实际上认为他们的方差是一样的时候，需要合并方差不要被公式吓到，他的本质是两个样本方差加权平均。

t检验-合并方差1

t检验-合并方差2

5. Cohen’s d

效应量(effect size):提示组间真正的差异占统计学差异的比例，值越大，组间差异越可靠。

t检验-cohen's d

t检验-cohen's d2

END

本文为转载分享&推荐阅读，若侵权请联系后台删除

爱数据福利大放送

今天，小编为大家准备了统计学精选学习礼包，包含17张统计学高清思维导图以及2021年精选统计学资料大全。

扫描下方二维码

回复【1216】领取吧

导图概览

http://mp.weixin.qq.com/s?__biz=MjM5MTI3MzUwMA==&mid=2650173571&idx=2&sn=1e139d135f785ced824767423d6b8215

爱数据LoveData

国内领先数据分析社区，专注数据分析知识分享及求职辅导。爱数据作为一线数据厂商（帆软、观远、永洪等）培训合作伙伴，曾联合阿里、美团、滴滴等一线公司开展数据领域专题分享会。积累10年+行业经验，链接千人数据分析高端人脉，累计服务15w+用户。

最新文章

没Offer？就是「项目问题」！给你解决！

实操案例讲解！手把手教你搭建RFM客户价值分析模型（附实战代码）

数据分析5大软件「优势PK」：Python、Excel、R、SAS、SPSS你最爱哪个？

搞定统计学必知：P值、T检验、卡方检验、假设检验……

一文看懂：搭建活动分析体系

数据分析·就业实战班，0基础高薪入职必备！

学数据分析要懂哪些统计学知识？这份思维导图请收好！

知乎上40个有趣回复，很精辟！

3个面试常见的SQL数据分析题（含数据和代码）

数据分析·就业实战班，0基础高薪入职必备！

一文搞懂用户画像，数据分析师必看

统计学！！！8项数据分析师必学知识点！（附赠统计学大礼包）

入职数据分析解决方案！

8步教你最有效的<数据分析方法>

数据分析·就业实战班·入职必备！

数据运营入门，只需掌握这四个数据分析方法

如何撰写一份优秀的数据分析报告？记住这些关键点！

如何学习数据分析？7步快速搞定！

2000字实录！微博商业分析面经整理！收藏起来！

年底优质「数据分析报告」写作指南，这些错误千万不要犯！

小白入职数据分析攻略，你的所有问题都能解决！

拼多多已上岸面经分享|24个岗位面试题及答案解析

36个顶级数据分析方法与模型，高效分析必备！

收藏：20张数据分析学习思维导图大全，有了它学习思路超清晰！

1.8W岗位不如1.5W？选公司需谨慎，尤其是数据分析师！

【大厂面试】100道华为数据分析面试题（附答案）！

手把手教你数据分析方法论和业务实战——用户画像篇

全网最高性价比的「数据分析」课程，0基础→进阶！

数据分析必备——漏斗分析模型

详解数据分析的 9 个经典问题

【行业前沿】数据岗位有哪些？你不知道的职业机会和发展空间

万字总结，行业分析到底应该怎么做！

面试没有项目怎么办？？？？↘

人人都必须学会的 Excel 三大技能

干货| 这篇电商数据分析案例一定要看！

48道数据分析师高频面试题

数据分析·就业实战班，0基础高薪入职必备！

判断客户价值，用好这3个数据分析模型就足够了！

Excel常用电子表格公式大全！【汇总篇】

Python实现「数据可视化」的3大步骤，保姆级讲解！

4000字详解，数据标签体系构建方法

Excel数据分析的4大神技！高效处理数据！

万字长文——数据分析深度理解，全是方法论及经验，不看真的就亏了！

分享一个完整的数据分析流程

数据分析面试：常见问题回答战略

掌握这20个 SQL 优化方法，你就无敌了！

Python可视化利器：8个流行工具包，总有一款适合你！

一份优秀的数据分析报告，8步就能搞定！

微博商业分析师JD拆解，还有这些隐藏要求？

这10个统计学问题数据分析师可一定要知道！（附资源）

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉