来源:博客园
作者:Climber
例如: 两组数的集合 {0, 5, 9, 14} 和 {5, 6, 8, 9} 其平均值都是7,但第二个集合具有较小的标准差
标准差公式:
公式描述:公式中数值为X1,X2,X3,……XN(皆为实数),其平均值(算数平均值)μ,标准差为σ
标准差应用于投资上,可作为量度回报稳定性的指标。标准差数值越大,代表回报远离过去平均数值,回报较不稳定故风险越高。相反,标准差数值越小,代表回报较为稳定,风险亦较小。
两人的5次测验成绩如下: A:50,100,100,60,50 -->Average(A) = 72 B:73,70,75,72,70 -->Average(B) = 72 平均成绩相同,但A不稳定,对平均值偏大
方差公式:
公式描述:公式中x为平均数,n为这组数据个数,x1,x2,x3……xn为这组数据具体数值。
除了期望,方差(variance)是另一个常见的分布描述量。如果说期望表示的是分布的中心位置,那么方差就是分布的离散程度。方差越大,说明随机变量取值越离散。
比如射箭时,一个优秀的选手能保持自己的弓箭集中于目标点附近,而一个经验不足的选手,他弓箭的落点会更容易散落许多地方。
数学上,我们用方差来代表一组数据或者某个概率分布的离散程度。可见,方差是独立于期望的另一个对分布的度量。两个分布,完全可能有相同的期望,而方差不同,正如我们上面的箭靶。
比如连续随机变量:Var(X)=E[(X−μ)2]=∫+∞−∞(x−μ)2f(x)dxVar(X)=E[(X−μ)2]=∫−∞+∞(x−μ)2f(x)dx
方差的平方根称为标准差(standard deviation, 简写std)。我们常用σσ表示标准差。σ=Var(X)−−−−−−√σ=Var(X)
可以预期到,正态分布的σσ越大,分布离散越大,正如我们从下面的分布曲线中看到的:
代码如下:
# By Vamei
from scipy.stats import normimport numpy as npimport matplotlib.pyplot as plt
# Note the difference in "scale", which is stdrv1 = norm(loc=0, scale = 1)rv2 = norm(loc=0, scale = 2)
x = np.linspace(-5, 5, 200)
plt.fill_between(x, rv1.pdf(x), y2=0.0, color="coral")plt.fill_between(x, rv2.pdf(x), y2=0.0, color="green", alpha = 0.5)
plt.plot(x, rv1.pdf(x), color="red", label="N(0,1)")plt.plot(x, rv2.pdf(x), color="blue", label="N(0,2)")
plt.legend()plt.grid(True)
plt.xlim([-5, 5])plt.ylim([-0.0, 0.5])
plt.title("normal distribution")plt.xlabel("RV")plt.ylabel("f(x)")
plt.show()
这个概率依赖于分布本身的类型。比如正态分布N(0,1)N(0,1),这一概率即为x大于2,或者x小于-2的部分对应的曲线下面积:
Chebyshev不等式让我们摆脱了对分布类型的依赖。它的叙述如下:
对于任意随机变量X,如果它的期望为μμ,方差为σ2σ2,那么对于任意t>0t>0,P(|X−μ|>t)≤σ2tP(|X−μ|>t)≤σ2t 无论X是什么分布,上述不等式成立。我们让t=2σt=2σ,那么P(|X−μ|>2σ)≤0.25P(|X−μ|>2σ)≤0.25
也就是说,X的取值超过两个正负标准差的可能性最多为25%。换句话说,随机变量至少有75%的概率落在正负两个标准差的范围内。(显然这是最“坏”的情况下。正态分布显然不是”最坏“的)
绘图代码如下:
from scipy.stats import normimport numpy as npimport matplotlib.pyplot as plt
# Note the difference in "scale", which is stdrv1 = norm(loc=0, scale = 1)
x1 = np.linspace(-5, -1, 100)x2 = np.linspace(1, 5, 100)x = np.linspace(-5, 5, 200)plt.fill_between(x1, rv1.pdf(x1), y2=0.0, color="coral")plt.fill_between(x2, rv1.pdf(x2), y2=0.0, color="coral")plt.plot(x, rv1.pdf(x), color="black", linewidth=2.0, label="N(0,1)")
plt.legend()plt.grid(True)
plt.xlim([-5, 5])plt.ylim([-0.0, 0.5])
plt.title("normal distribution")plt.xlabel("RV")plt.ylabel("f(x)")
plt.show()
例如: 数据A:8,5,9,6,3,2,4,9 2,3,4,5,6,8,9 中位数 = 5 A - 5 = 3,0,4,1,2,3,1,4 0,1,1,2,3,3,4 MAD = 2
标准差为方差的平方根 方差越大,“极端区间”偏离中心越远
经管学苑
快来,点在看啦