8个必知必会的统计学基础概念，让你的数据分析更“精准”！

教育 2024-11-18 16:35 黑龙江

统计学是数据分析的基石。学了统计学，你会发现很多时候的分析并不靠谱。

比如，很多人都喜欢用平均数去分析一个事物的结果，但是这往往是粗糙的，不准确的。如果学了统计学，那么我们就能以更多更科学的角度看待数据。

为了让大家更容易学习掌握统计学的基础知识，小编整理了数据分析工作中最常见的一些统计学基础知识，尽量用简单白话的形式去解释，这样无论是在面试中还是以后的工作中，都能把统计学的知识用起来！

大部分的数据分析，都会用到统计方面的以下知识，可以重点学习：

基本的统计量：均值、中位数、众数、方差、标准差、百分位数等
概率分布：几何分布、二项分布、泊松分布、正态分布等
总体和样本：了解基本概念，抽样的概念
置信区间与假设检验：如何进行验证分析
相关性与回归分析：一般数据分析的基本模型

通过基本的统计量，你可以进行更多元化的可视化，以实现更加精细化的数据分析。这个时候也需要你去了解更多的Excel函数来实现基本的计算，或者Python、R里面一些对应的可视化方法。

有了总体和样本的概念，你就知道在面对大规模数据的时候，怎样去进行抽样分析。

你也可以应用假设检验的方法，对一些感性的假设做出更加精确地检验。

利用回归分析的方法，你可以对未来的一些数据、缺失的数据做基本的预测。

本文算是一个知识点汇总，不做细致展开，让大家了解统计学有哪几大块，每一类分别用于什么样的分析场景。

目录：

集中趋势
变异性
归一化
正态分布
抽样分布
估计
假设检验
T检验

集中趋势

1.众数

出现频率最高的数

2.中位数

把样本值排序，分布在最中间的值；
样本总数为奇数时，中位数为第(n+1)/2个值；
样本总数为偶数时，中位数是第n/2个，第(n/2)+1个值的平均数。

3.平均数

所有数的总和除以样本数量；
现在大家接触最多的概念应该是平均数，但有时候，平均数会因为某些极值的出现收到很大影响。举个小例子，你们班有20人，大家收入差不多，19人都是5000左右，但是有1个同学创业成功了，年入1个亿，这时候统计你们班同学收入的“平均数”就是500万了，这也很好的解释了，每年各地的平均收入数据出炉，小伙伴们直呼给祖国拖后腿了，那是因为大家收入被平均了，此时，“中位数”更能合理的反映真实的情况。

变异性

1.四分位数

上面说到了“中位数”，把样本分成了2部分，再找个这2部分各自的“中位数”，也就把样本分为了4个部分，其中1/4处的值记为Q1，2/4处的值记为Q2，3/4处的值记为Q3。

2.四分位距 IQR=Q3-Q1

3.异常值

小于Q1-1.5（IQR）或者大于Q3+1.5（IQR）；
对于异常值，我们在数据处理的环节就要剔除。

4.方差

5.平方偏差

方差的算术平方根

6.贝塞尔矫正：修正样本方差

实际在计算方差时，分母要用n-1，而不是样本数量n。原因在于，比如在高斯分布中，我们抽取一部分的样本，用样本的方差表示满足高斯分布的大样本数据集的方差。由于样本主要是落在x=u中心值附近，那么样本如果用如下公式算方差，那么预测方差一定小于大数据集的方差（因为高斯分布的边沿抽取的数据也很少）。为了能弥补这方面的缺陷，那么我们把公式的n改为n-1，以此来提高方差的数值，这种方法叫贝塞尔矫正系数。

归一化

1.标准分数

一个给定分数距离平均数多少个标准差？
标准分数是一种可以看出某分数在分布中相对位置的方法。
标准分数能够真实的反映一个分数距离平均数的相对标准距离。

正态分布

1.定义

随机变量X服从一个数学期望为μ，方差为σ⊃2;的正态分布，记为N(μ,σ⊃2;)

随机取一个样本，有68.3%的概率位于距离均值μ有1个标准差σ内；

有95.4%的概率位于距离均值μ有2个标准差σ内；

有99.7%的概率位于距离均值μ有3个标准差σ内。

抽样分布

1.中心极限定理

设从均值为μ，方差为σ⊃2;的任意一个总体中抽取样本量为n的样本，当n充分大时，样本均值的抽样分布近似服从均值为μ、方差为σ⊃2;/n的正态分布。

2.抽样分布

设总体共有N个元素，从中随机抽取一个容量为n的样本，在重置抽样时，共有N·n种抽法，即可以组成N·n不同的样本，在不重复抽样时，共有N·n个可能的样本。每一个样本都可以计算出一个均值，这些所有可能的抽样均值形成的分布就是样本均值的分布。但现实中不可能将所有的样本都抽取出来，因此，样本均值的概率分布实际上是一种理论分布。数理统计学的相关定理已经证明：在重置抽样时，样本均值的方差为总体方差的1/n。

举个例子：

48盆MM豆，计算出每盆有几个蓝色的MM豆，48个数据构成了总体样本。然后随机选择五盆，计算五盆中含有蓝色MM豆的平均数，然后反复进行了50次。这就是n为5的样本均值抽样。

估计

1. 误差界限

2. 置信度

我们有百分之多少确信总体中的值落在一个特定范围内；

一般情况下，取95%的置信度就可以。

3. 置信区间

假设检验

1.问题：什么是显著性水平？

显著性水平是估计总体参数落在某一区间内，可能犯错误的概率。

2. 如何选择备选检验和零假设？

一个研究者想证明自己的研究结论是正确的，备择假设的方向就要与想要证明其正确性的方向一致；
同时将研究者想收集证据证明其不正确的假设作为原假设H0。

T检验

1. 主要用于样本含量较小（例如n<30），总体标准差σ未知的正态分布。

流程如下：

是用t分布理论来推论差异发生的概率，从而比较两个平均数的差异是否显著；
一般检验水准α取0.05即可；
计算检验统计量的方法根据样本形式不同。

2. 独立样本T检验：

现在要分析男生和女生的身高是否相同两者的主要区别在于数据的来源和要分析的问题。

问题：为什么T检验查表时候要n-1?

样本均值替代总体均值损失了一个自由度

3. 配对样本t检验

分析人的早晨和晚上的身高是否不同，于是找来一拨人测他们早上和晚上的身高，这里每个人就有两个值，这里出现了配对。

样本误差（Standard Error）

4. 合并方差

当样本平均数不一样，但实际上认为他们的方差是一样的时候，需要合并方差。

不要被公式吓到，他的本质是两个样本方差加权平均。

-END-

爱数据福利大放送

今天，小编为大家准备了统计学精选学习礼包，包含17张统计学高清思维导图以及2023年精选统计学资料大全。

扫描下方二维码

回复【1216】领取吧

导图概览

小伙伴们，快来关注我们领取新人福利吧！

长按关注【爱数据LoveData】

即可领取新人见面礼

👆点击关注｜分享好友｜设为星标⭐

往期精彩

1.这10个Excel功能，SQL也能实现！(附面试原题)

2.数据分析师有点小儿科？商业分析才是战场上的王者？

3.30个数据可视化小技巧！建议收藏！

4.Python的网络爬虫技术在豆瓣电影中的应用：抓取、清洗及可视化分析9种最常用数据分析方法！

5.Excel技巧大揭秘：5个令你进阶的必备玩法！

http://mp.weixin.qq.com/s?__biz=MjM5MTI3MzUwMA==&mid=2650173634&idx=2&sn=d77ab1d785180c8db8fb007b1f19acb6

爱数据LoveData

国内领先数据分析社区，专注数据分析知识分享及求职辅导。爱数据作为一线数据厂商（帆软、观远、永洪等）培训合作伙伴，曾联合阿里、美团、滴滴等一线公司开展数据领域专题分享会。积累10年+行业经验，链接千人数据分析高端人脉，累计服务15w+用户。

最新文章

AI替代数据分析师的话？数分25年的出路......

8个必知必会的统计学基础概念，让你的数据分析更“精准”！

数据分析·就业实战班，0基础高薪入职必备！

假简历-找到高薪岗的必杀技！

10种数据分析必备的统计学方法，附重点应用场景！

数据分析·就业实战班，0基础高薪入职必备！

年薪50W+的数据分析师需要具备的5大能力！

高薪！数据分析「技能学习」必备指南

【正态分布】数据分析师必备！

【AARRR模型】数据分析师必备

数据分析·就业实战班，0基础高薪入职必备！

没Offer？就是「项目问题」！给你解决！

实操案例讲解！手把手教你搭建RFM客户价值分析模型（附实战代码）

数据分析5大软件「优势PK」：Python、Excel、R、SAS、SPSS你最爱哪个？

搞定统计学必知：P值、T检验、卡方检验、假设检验……

一文看懂：搭建活动分析体系

数据分析·就业实战班，0基础高薪入职必备！

学数据分析要懂哪些统计学知识？这份思维导图请收好！

知乎上40个有趣回复，很精辟！

3个面试常见的SQL数据分析题（含数据和代码）

数据分析·就业实战班，0基础高薪入职必备！

一文搞懂用户画像，数据分析师必看

统计学！！！8项数据分析师必学知识点！（附赠统计学大礼包）

入职数据分析解决方案！

8步教你最有效的<数据分析方法>

数据分析·就业实战班·入职必备！

数据运营入门，只需掌握这四个数据分析方法

如何撰写一份优秀的数据分析报告？记住这些关键点！

如何学习数据分析？7步快速搞定！

2000字实录！微博商业分析面经整理！收藏起来！

年底优质「数据分析报告」写作指南，这些错误千万不要犯！

小白入职数据分析攻略，你的所有问题都能解决！

拼多多已上岸面经分享|24个岗位面试题及答案解析

36个顶级数据分析方法与模型，高效分析必备！

收藏：20张数据分析学习思维导图大全，有了它学习思路超清晰！

1.8W岗位不如1.5W？选公司需谨慎，尤其是数据分析师！

【大厂面试】100道华为数据分析面试题（附答案）！

手把手教你数据分析方法论和业务实战——用户画像篇

全网最高性价比的「数据分析」课程，0基础→进阶！

数据分析必备——漏斗分析模型

详解数据分析的 9 个经典问题

【行业前沿】数据岗位有哪些？你不知道的职业机会和发展空间

万字总结，行业分析到底应该怎么做！

面试没有项目怎么办？？？？↘

人人都必须学会的 Excel 三大技能

干货| 这篇电商数据分析案例一定要看！

48道数据分析师高频面试题

数据分析·就业实战班，0基础高薪入职必备！

判断客户价值，用好这3个数据分析模型就足够了！

Excel常用电子表格公式大全！【汇总篇】

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉