数据分析必会知识点3:估计

文摘   2024-07-02 09:05   广东  

本公众号集结了多位一线数据分析者的经验和案例,可以通过传送门标签进入阅读:

入门数据分析思维

进阶数据分析思维
进阶技能
职场经验
AI

接下来将会分为几篇给大家介绍下数据分析必懂的一些统计学知识点,大家可以根据这几篇文章来补充自己的统计学知识。

第1篇链接:数据分析必会知识点1:概率与统计基础

第2篇链接:数据分析必会知识点2:大数定律和中心极限定律

本篇是第3篇,来介绍统计的一大核心知识点:估计。

点估计与区间估计是统计学中用于推断总体参数的重要方法。下面我将分别详细介绍这两种方法,并用LaTeX公式进行说明,同时举一些例子来帮助理解。


1.点估计

点估计是通过样本数据来估计总体参数的值。在统计学中,常用的点估计方法有最大似然估计和矩估计。

1.1.矩估计法(Moment Estimation)

矩估计法(Moment Estimation)是一种基于样本矩来估计总体矩的参数估计方法。在统计学和概率论中,矩估计法常用于估计未知参数的值。常用的矩有原点矩和中心矩两种。

1.1 .1 原点矩(Raw Moments or Moments about the Origin)

原点矩是关于随机变量的原点(零点)的矩,直接反映了数据本身的分布特征,而不考虑均值的位置。

【应用与理解】

均值就是一阶原点矩

1.1.2 中心矩 (Central Moments)

中心矩是关于随机变量的期望值(均值)为中心的矩,反映了数据相对于其均值的分布特征。

1.1.3.矩估计法的原理

下面是一个简单的 Python 代码示例,用于计算均匀分布的矩估计:

import numpy as np

def uniform_moment_estimation(x):
n = len(x)
x_bar = np.mean(x)
s2 = np.var(x, ddof=1) # ddof=1 for sample variance

# Check if sample variance is zero
if s2 == 0:
a_hat = b_hat = x_bar
else:
a_hat = x_bar - np.sqrt(3 * s2)
b_hat = x_bar + np.sqrt(3 * s2)

return a_hat, b_hat

# Example usage
data = np.random.uniform(low=1, high=5, size=100) # Generate some sample data
a_hat, b_hat = uniform_moment_estimation(data)
print(f"Estimated lower bound a: {a_hat}")
print(f"Estimated upper bound b: {b_hat}")


1.1.4 矩估计法的性质

矩估计法具有一些优良性质:

然而,矩估计法也存在一些局限性,例如:

对于某些分布,如柯西分布,总体矩可能不存在,此时矩估计法不适用。
矩估计法主要适用于大样本情况,在小样本情况下可能表现不佳。

1.2.最大似然估计(Maximum likelihood estimator)

最大似然估计(Maximum Likelihood Estimation, MLE)是一种在统计学中广泛使用的参数估计方法。其核心思想是通过最大化观测数据出现的概率(即似然函数)来估计未知参数。

  • 公式表示

  • 应用

* 最大似然估计在统计学和机器学习中有着广泛的应用,特别是在处理大量数据时表现出色。
* 例如,在二项分布、正态分布、泊松分布等概率模型中,都可以使用最大似然估计来估计参数。

1.3.贝叶斯估计(Bayesian Estimator)

贝叶斯估计(Bayesian Estimator)是一种基于贝叶斯定理的统计推断方法,用于根据新的证据和先前的先验概率来计算未知参数的后验概率。

定义与原理

贝叶斯估计是一种利用贝叶斯定理,结合新的证据和先前的先验概率,来计算未知参数的后验概率的方法。

原理:贝叶斯估计基于三个主要概念:先验概率、似然函数和后验概率。

先验概率:在获得新的数据或证据之前,对未知参数的估计。它反映了在观察之前对参数的信念或知识。
似然函数:给定参数值下,观察到数据的概率。它描述了数据与参数之间的关系。
后验概率:在获得新的数据或证据后,对未知参数的重新估计。它综合了先验概率和似然函数的信息。

贝叶斯定理

贝叶斯定理用于计算后验概率,其公式如下:

2.区间估计

区间估计(Interval Estimation)是在统计学中用于估计总体参数(如均值、比例、方差等)的一种方法,它通过样本数据来提供一个总体参数可能取值的区间范围,这个区间通常被称为置信区间。区间估计不仅给出了一个具体的点估计值,还给出了这个估计值的不确定性范围。

置信区间:区间估计中的置信区间是指在某一置信水平下,总体参数值可能落入的区间范围。例如,一个95%的置信区间意味着我们有95%的把握认为总体参数值落在这个区间内。

置信水平:置信水平是事先确定的一个概率,用于表示我们对置信区间的信任程度。常见的置信水平有90%、95%和99%等。

2.1 区间估计的公式(以总体均值的区间估计为例)

  • 情况1:大样本(n>=30,总体方差已知,此时,总体均值的置信区间为:

  • 情况2:大样本(n>=30),总体方差未知

此时,通常使用t分布来构造置信区间,因为当样本量较大且总体方差未知时,样本均值的抽样分布近似于t分布。总体均值的置信区间为:

【应用与实例】
应用1:样本推断总体的时候,用区间来表示比用一个均值来的更精确些。比如在市场调研行业,用户对某个产品的购买频次调研结果,更适合用区间值来表示。
应用2:对用户行为做预测时,可以借用区间估计的上下限数值,以其作为阈值,分别设定不同的运营手段。比如预计用户月平均购买3次,通过标准差、样本量等数据,计算得到在95%置信区间下为[2.5, 3.5]次/月。那么对于上个月频次小于2.5、大于3.5的用户分别做针对性的刺激手段,以达到提升和稳定购买频次的效果。
-END-
领资料
数据禅心是一个数据分析职业者联盟,分享交流工作经验和心得,关注公号有免费资料畅领(领取方法:点击“阅读原文”)。
数据分析+数据产品经理->能力模型和测评;
战略工具箱+思维模型->助力顶层思维设计;
数据分析+统计学+因果推断 ->提升分析技能功底;
Python+机器学习 ->进阶分析技能开挂;
数据分析成长路径 ->知晓路在哪里;
1on1陪跑
数据禅心还是一个职友互帮互助的组织,超十年工作经验的数据分析师/科学家/数据产品经理/总监作为“陪伴教练”,为陷入迷茫的各位职场人答疑解惑,帮助各位走出泥潭,实现个人成长,甚至迎来职业跃迁。如果你有任何职场上的问题,欢迎来找我们沟通。每个来沟通的职场人都会赠送半小时的咨询~抓住机会来撩吧(文末扫二维码“意向搜集”)~
我想转行到数分,不知道学什么?
我不知道我未来的职业规划是什么?
总是在基层,我还有机会晋升么?
我想跳槽,但不知道要不要跳?
我简历不太行,没有信心?
我没啥项目经验,怎么包装?
我总觉得自己价值发挥不出来,怎么办?
...

请扫码填写报名意向:

体系化学习
数据禅心我们几位数据分析师,结合自己在职场中的成长经验,将数据分析经验整理成了两个训练营,一个是入门训练营,适合-1~3年数分,以及转行/小白;一个是进阶训练营,适合3年左右需要提升的数据人。具体课程可以扫码,或点击“原文链接”查看:
数据分析师能力模型&测评
另外,组织也新发布了《数据分析师能力模型&测评》,大家可以点击下方传送门,了解能力模型,并且做免费测评~优秀的数据分析师都需要什么能力?
如果对你有用,点个“喜欢”再走吧~

数据禅心DataZen
人人都是数据分析师;从思维到技能,在这里你能系统学习到数据分析知识;从面试到加薪,在这里你能获得来自互联网大厂的加持。 关注我们,陪你一起升职加薪!