统计学必知！「标准差&方差」之间不得不说的关系

学术 2024-11-03 20:05 内蒙古

标准差(Standard deviation)

简单来说，标准差是一组数值自平均值分散程度的一种测量观念。一个较大的标准差，代表大部分的数值和其平均值之间差异较大，一个较小的标准差，代表这些数值较接近平均值。

例如：
两组数的集合 {0， 5， 9， 14} 和 {5， 6， 8， 9} 其平均值都是7，但第二个集合具有较小的标准差

标准差公式：

公式描述：公式中数值为X1,X2,X3,……XN（皆为实数），其平均值（算数平均值）μ，标准差为σ

标准差可以当作不确定性的一种测量。在物理科学中，做重复性测量时，测量数值集合的标准差代表这些测量的精确度。当要决定测量值是否符合预测值，测量值的标准差占有决定性重要角色。如果测量平均值与预测值相差太远(同时与标准差数值做比较)，则认为测量值与预测值互相矛盾。这很容易理解，因为如果测量值都落在一定数值范围之外，可以合理推论预测值是否正确。

标准差应用于投资上，可作为量度回报稳定性的指标。标准差数值越大，代表回报远离过去平均数值，回报较不稳定故风险越高。相反，标准差数值越小，代表回报较为稳定，风险亦较小。

例如：
A，B两组各有6位学生参加同一次语文测验，A组的分数为95，85，75，65，55，45　　
B组的分数为73，72，71，69，68，67

这两组的平均数都是70，但A组的标准差为17.078分，B组的标准差为2.160分，说明A组学生之间的差距要比B组学生之间的差距大得多

方差(variance)

两人的5次测验成绩如下：
A：50，100，100，60，50　　-->Average(A) = 72
B：73，70，75，72，70　　 -->Average(B) = 72

平均成绩相同，但A不稳定，对平均值偏大

方差描述随机变量对于数学期望的偏离程度

方差公式：

公式描述：公式中x为平均数，n为这组数据个数，x1,x2,x3……xn为这组数据具体数值。

可以看到方差是标准差的平方

除了期望，方差(variance)是另一个常见的分布描述量。如果说期望表示的是分布的中心位置，那么方差就是分布的离散程度。方差越大，说明随机变量取值越离散。

比如射箭时，一个优秀的选手能保持自己的弓箭集中于目标点附近，而一个经验不足的选手，他弓箭的落点会更容易散落许多地方。

上面的靶上有两套落点。尽管两套落点的平均中心位置都在原点 (即期望相同），但两套落点的离散程度明显有区别。蓝色的点离散程度更小。

数学上，我们用方差来代表一组数据或者某个概率分布的离散程度。可见，方差是独立于期望的另一个对分布的度量。两个分布，完全可能有相同的期望，而方差不同，正如我们上面的箭靶。

对于一个随机变量XX来说，它的方差为：Var(X)=E[(X−μ)2]Var(X)=E[(X−μ)2]

其中，μμ表示XX的期望值，即μ=E(X)μ=E(X)

我们可以代入期望的数学表达形式。

比如连续随机变量：Var(X)=E[(X−μ)2]=∫+∞−∞(x−μ)2f(x)dxVar(X)=E[(X−μ)2]=∫−∞+∞(x−μ)2f(x)dx

方差概念背后的逻辑很简单：一个取值与期望值的“距离”用两者差的平方表示。该平方值表示取值与分布中心的偏差程度，平方的最小取值为0，当取值与期望值相同时，此时不离散，平方为0，即“距离”最小；当随机变量偏离期望值时，平方增大。由于取值是随机的，不同取值的概率不同，我们根据概率对该平方进行加权平均，也就获得整体的离散程度——方差。

方差的平方根称为标准差(standard deviation，简写std)。我们常用σσ表示标准差。σ=Var(X)−−−−−−√σ=Var(X)

标准差也表示分布的离散程度。

正态分布的方差

根据上面的定义，可以算出正态分布：

E(X)=1σ2π−−√∫+∞−∞xe−(x−μ)2/2σ2dxE(X)=1σ2π∫−∞+∞xe−(x−μ)2/2σ2dx的

方差为：Var(X)=σ2Var(X)=σ2

正态分布的标准差正等于正态分布中的参数σσ。这正是我们使用字母σσ来表示标准差的原因！

可以预期到，正态分布的σσ越大，分布离散越大，正如我们从下面的分布曲线中看到的：

当方差小时，曲线下的面积更加集中于期望值0附近。当方差大时，随机变量更加离散。此时分布曲线的“尾部”很厚，即使在取值很偏离0时，比如x=4x=4时，依然有很大的概率可以取到。

代码如下:

# By Vamei

from scipy.stats import normimport numpy as npimport matplotlib.pyplot as plt

# Note the difference in "scale"， which is stdrv1 = norm(loc=0， scale = 1)rv2 = norm(loc=0， scale = 2)

x = np.linspace(-5， 5， 200)

plt.fill_between(x， rv1.pdf(x)， y2=0.0， color="coral")plt.fill_between(x， rv2.pdf(x)， y2=0.0， color="green"， alpha = 0.5)

plt.plot(x， rv1.pdf(x)， color="red"， label="N(0，1)")plt.plot(x， rv2.pdf(x)， color="blue"， label="N(0，2)")

plt.legend()plt.grid(True)

plt.xlim([-5， 5])plt.ylim([-0.0， 0.5])

plt.title("normal distribution")plt.xlabel("RV")plt.ylabel("f(x)")
plt.show()

指数分布的方差

指数分布的表达式为：f(x)={λe−λx0ififx≥0x<0f(x)={λe−λxifx≥00ifx<0

它的方差为：Var(X)=1λ2Var(X)=1λ2

如下图所示：

Chebyshev不等式

我们一直在强调，标准差(和方差)表示分布的离散程度。标准差越大，随机变量取值偏离平均值的可能性越大。如何定量的说明这一点呢？我们可以计算一个随机变量与期望偏离超过某个量的可能性。比如偏离超过2个标准差的可能性。即P(|X−μ|>2σ)P(|X−μ|>2σ)

这个概率依赖于分布本身的类型。比如正态分布N(0，1)N(0，1)，这一概率即为x大于2，或者x小于-2的部分对应的曲线下面积：

实际上，无论μμ和σσ如何取值，对于正态分布来说，偏离期望超过两个标准差的概率都相同，约等于0.0455 (可以根据正态分布的表达式计算)。随机变量的取值有约95.545%的可能性落在正负两个标准差的区间内，即从-2到2。如果我们放大区间，比如正负三个标准差，这一概率超过99%。我们可以相当有把握的说，随机变量会落正负三个标准差之内。上面的论述并不依赖于标准差的具体值。这里可以看到标准差所衡量的“离散”的真正含义：如果取相同概率的极端值区间，比如上面的0.0455，标准差越大，该极端值区间距离中心值越远。

然而，上面的计算和表述依赖于分布的类型（正态分布）。如何将相似的方差含义套用在其它随机变量身上呢？

Chebyshev不等式让我们摆脱了对分布类型的依赖。它的叙述如下：

对于任意随机变量X，如果它的期望为μμ，方差为σ2σ2，那么对于任意t>0t>0，P(|X−μ|>t)≤σ2tP(|X−μ|>t)≤σ2t
无论X是什么分布，上述不等式成立。我们让t=2σt=2σ，那么P(|X−μ|>2σ)≤0.25P(|X−μ|>2σ)≤0.25

也就是说，X的取值超过两个正负标准差的可能性最多为25%。换句话说，随机变量至少有75%的概率落在正负两个标准差的范围内。（显然这是最“坏”的情况下。正态分布显然不是”最坏“的）

绘图代码如下：

from scipy.stats import normimport numpy as npimport matplotlib.pyplot as plt

# Note the difference in "scale"， which is stdrv1 = norm(loc=0， scale = 1)

x1 = np.linspace(-5， -1， 100)x2 = np.linspace(1， 5， 100)x = np.linspace(-5， 5， 200)plt.fill_between(x1， rv1.pdf(x1)， y2=0.0， color="coral")plt.fill_between(x2， rv1.pdf(x2)， y2=0.0， color="coral")plt.plot(x， rv1.pdf(x)， color="black"， linewidth=2.0， label="N(0，1)")

plt.legend()plt.grid(True)

plt.xlim([-5， 5])plt.ylim([-0.0， 0.5])

plt.title("normal distribution")plt.xlabel("RV")plt.ylabel("f(x)")
plt.show()

MAD绝对中位值

中位数：统计学名词，是指将统计总体中的各个变量值按大小顺序排列起来形成一个数列，处于变量数列中间位置的变量值就称为中位数。

MAD：就是先求出给定数据的中位数(注意并非均值)然后原数列的每个值与这个中位数求出绝对差，然后新数列的中位值就是MAD

例如：
数据A：8，5，9，6，3，2，4，9　　2，3，4，5，6，8，9
中位数 = 5
A - 5 = 3，0，4，1，2，3，1，4　　0，1，1，2，3，3，4
MAD = 2

总结

我们引入了一个新的分布描述量：方差-->它用于表示分布的离散程度：

标准差为方差的平方根
方差越大，“极端区间”偏离中心越远

编辑 /范瑞强

审核 / 范瑞强

复核 / 范瑞强

点击下方

关注我们

http://mp.weixin.qq.com/s?__biz=MjM5NzEyMzg4MA==&mid=2649512246&idx=7&sn=cbd920b9f43d96bc65cd600f058431b9

数学中国

数学中国 (数学建模)-最专业的数学理论研究、建模实践平台.

最新文章

2024年第十三届”认证杯“数学中国数学建模国际赛（小美赛）参赛邀请函红头文件

2024年第十三届”认证杯“数学中国数学建模国际赛（小美赛）开始招募志愿者啦！里面有各种福利，快来报名！

2024数学中国“认证杯”小美赛赛前公益课预热公告

评奖学金时，如何用认证杯五一杯华中杯二等奖，击败某某杯特等奖

《FPCMM》12月征稿主题：数学建模与智能计算

初窥数学建模

举报信长达 500 页！知名学者被同事集体举报，结果来了；高校无预警倒闭，失业教师抗议

2024年第十三届”认证杯“数学中国数学建模国际赛（小美赛）参赛邀请函红头文件

2024年第十三届”认证杯“数学中国数学建模国际赛（小美赛）开始招募志愿者啦！里面有各种福利，快来报名！

2024数学中国“认证杯”小美赛赛前公益课预热公告

评奖学金时，如何用认证杯五一杯华中杯二等奖，击败某某杯特等奖

《FPCMM》12月征稿主题：数学建模与智能计算

2024年第十三届”认证杯“数学中国数学建模国际赛（小美赛）参赛邀请函红头文件

2024年第十三届”认证杯“数学中国数学建模国际赛（小美赛）开始招募志愿者啦！里面有各种福利，快来报名！

2024数学中国“认证杯”小美赛赛前公益课预热公告

评奖学金时，如何用认证杯五一杯华中杯二等奖，击败某某杯特等奖

《FPCMM》12月征稿主题：数学建模与智能计算

漫谈数学与数学人

数学的算法代码如何实现：神奇的斐波那契数列(Fibonacci sequence)

2024年第十三届”认证杯“数学中国数学建模国际赛（小美赛）参赛邀请函红头文件

2024年第十三届”认证杯“数学中国数学建模国际赛（小美赛）开始招募志愿者啦！里面有各种福利，快来报名！

3段视频告诉你，公益化的数学中国“小美赛”与商业化的竞赛有什么不同

2024数学中国“认证杯”小美赛赛前公益课预热公告

评奖学金时，如何用认证杯五一杯华中杯二等奖，击败某某杯特等奖

【科研干货】统计方法在论文中的正确打开方式

概率调查和非概率调查：权数的构建与调整

2024年第十三届”认证杯“数学中国数学建模国际赛（小美赛）参赛邀请函红头文件

3段视频告诉你，公益化的数学中国“小美赛”与商业化的竞赛有什么不同

2024数学中国“认证杯”小美赛赛前公益课预热公告

评奖学金时，如何用认证杯五一杯华中杯二等奖，击败某某杯特等奖

杨振宁谈科研：博士博后，该做大题目，还是小题目？

Monte Carlo方法解决强化学习问题

2024年第十三届”认证杯“数学中国数学建模国际赛（小美赛）参赛邀请函红头文件

3段视频告诉你，公益化的数学中国“小美赛”与商业化的竞赛有什么不同

2024数学中国“认证杯”小美赛赛前公益课预热公告

评奖学金时，如何用认证杯五一杯华中杯二等奖，击败某某杯特等奖

2025年全国大学生数学建模竞赛征题通知暨命题研讨会预通知

Python中进行特征重要性分析的9个常用方法

2024年第十三届”认证杯“数学中国数学建模国际赛（小美赛）参赛邀请函红头文件

评奖学金时，如何用认证杯五一杯华中杯二等奖，击败某某杯特等奖

200元报名费贵吗？我们有过倪光南院士的认可，也曾与美赛组委会主席深入访谈。

“华为杯”第二十一届中国研究生数学建模竞赛评审公告

为什么要做特征的归一化/标准化

图像特征提取与匹配技术

200元报名费贵吗？我们有过倪光南院士的认可，也曾与美赛组委会主席深入访谈。

2024年第十三届”认证杯“数学中国数学建模国际赛（小美赛）参赛邀请函红头文件

《FPCMM》12月征稿主题：数学建模与智能计算

开幕！展示！

算法岗平时需要自己写cuda吗？

200元报名费贵吗？我们有过倪光南院士的认可，也曾与美赛组委会主席深入访谈。

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉