本公众号集结了多位一线数据分析者的经验和案例,可以通过传送门标签进入阅读:
入门数据分析思维
接下来将会分为几篇给大家介绍下数据分析必懂的一些统计学知识点,大家可以根据这几篇文章来补充自己的统计学知识。
第1篇链接:数据分析必会知识点1:概率与统计基础
第2篇链接:数据分析必会知识点2:大数定律和中心极限定律
本篇是第3篇,来介绍统计的一大核心知识点:估计。
1.点估计
点估计是通过样本数据来估计总体参数的值。在统计学中,常用的点估计方法有最大似然估计和矩估计。
1.1.矩估计法(Moment Estimation)
矩估计法(Moment Estimation)是一种基于样本矩来估计总体矩的参数估计方法。在统计学和概率论中,矩估计法常用于估计未知参数的值。常用的矩有原点矩和中心矩两种。
1.1 .1 原点矩(Raw Moments or Moments about the Origin)
原点矩是关于随机变量的原点(零点)的矩,直接反映了数据本身的分布特征,而不考虑均值的位置。
【应用与理解】
均值就是一阶原点矩
1.1.2 中心矩 (Central Moments)
中心矩是关于随机变量的期望值(均值)为中心的矩,反映了数据相对于其均值的分布特征。
1.1.3.矩估计法的原理
下面是一个简单的 Python 代码示例,用于计算均匀分布的矩估计:
import numpy as np
def uniform_moment_estimation(x):
n = len(x)
x_bar = np.mean(x)
s2 = np.var(x, ddof=1) # ddof=1 for sample variance
# Check if sample variance is zero
if s2 == 0:
a_hat = b_hat = x_bar
else:
a_hat = x_bar - np.sqrt(3 * s2)
b_hat = x_bar + np.sqrt(3 * s2)
return a_hat, b_hat
# Example usage
data = np.random.uniform(low=1, high=5, size=100) # Generate some sample data
a_hat, b_hat = uniform_moment_estimation(data)
print(f"Estimated lower bound a: {a_hat}")
print(f"Estimated upper bound b: {b_hat}")
1.1.4 矩估计法的性质
矩估计法具有一些优良性质:
然而,矩估计法也存在一些局限性,例如:
对于某些分布,如柯西分布,总体矩可能不存在,此时矩估计法不适用。
矩估计法主要适用于大样本情况,在小样本情况下可能表现不佳。
1.2.最大似然估计(Maximum likelihood estimator)
最大似然估计(Maximum Likelihood Estimation, MLE)是一种在统计学中广泛使用的参数估计方法。其核心思想是通过最大化观测数据出现的概率(即似然函数)来估计未知参数。
公式表示
应用
* 最大似然估计在统计学和机器学习中有着广泛的应用,特别是在处理大量数据时表现出色。
* 例如,在二项分布、正态分布、泊松分布等概率模型中,都可以使用最大似然估计来估计参数。
1.3.贝叶斯估计(Bayesian Estimator)
贝叶斯估计(Bayesian Estimator)是一种基于贝叶斯定理的统计推断方法,用于根据新的证据和先前的先验概率来计算未知参数的后验概率。
定义与原理
贝叶斯估计是一种利用贝叶斯定理,结合新的证据和先前的先验概率,来计算未知参数的后验概率的方法。
原理:贝叶斯估计基于三个主要概念:先验概率、似然函数和后验概率。
先验概率:在获得新的数据或证据之前,对未知参数的估计。它反映了在观察之前对参数的信念或知识。
似然函数:给定参数值下,观察到数据的概率。它描述了数据与参数之间的关系。
后验概率:在获得新的数据或证据后,对未知参数的重新估计。它综合了先验概率和似然函数的信息。
贝叶斯定理
贝叶斯定理用于计算后验概率,其公式如下:
2.区间估计
区间估计(Interval Estimation)是在统计学中用于估计总体参数(如均值、比例、方差等)的一种方法,它通过样本数据来提供一个总体参数可能取值的区间范围,这个区间通常被称为置信区间。区间估计不仅给出了一个具体的点估计值,还给出了这个估计值的不确定性范围。
置信区间:区间估计中的置信区间是指在某一置信水平下,总体参数值可能落入的区间范围。例如,一个95%的置信区间意味着我们有95%的把握认为总体参数值落在这个区间内。
置信水平:置信水平是事先确定的一个概率,用于表示我们对置信区间的信任程度。常见的置信水平有90%、95%和99%等。
2.1 区间估计的公式(以总体均值的区间估计为例)
情况1:大样本(n>=30),总体方差已知,此时,总体均值的置信区间为:
情况2:大样本(n>=30),总体方差未知
此时,通常使用t分布来构造置信区间,因为当样本量较大且总体方差未知时,样本均值的抽样分布近似于t分布。总体均值的置信区间为: