「干货」统计学常犯错误TOP榜,避坑防雷指南!

科技   2025-01-14 08:52   北京  

来源:知乎 良好研究方法 作者:求知鸟  pythonic生物人

预计阅读时间:8min


1、变量之间关系可以分为哪两类?

函数关系:反映事物之间某种确定性关系。

相关关系:体现变量之间存在某种依存关系,但二者并不是一一对应的,反映了事物间不完全确定关系。


2、为什么要对相关系数进行显著性检验?

实际上完全没有关系的变量,在利用样本数据进行计算时也可能得到一个较大的相关系数值(尤其是时间序列数值)。

当样本量从100减少到40后,相关系数大概率会上升,但上升到多少,这个就不能保证了,取决于剔除数据原则,还有这组数据真的可能不存在相关性。

  • 改变两列数据的顺序,不会对相关系数和散点图(拟合的函数曲线)造成影响。

  • 对两列数据进行归一化处理,标准化处理,不会影响相关系数。

  • 计算的相关系数是线性相关系数,只能反映两者是否具备线性关系。

  • 相关系数高是线性模型拟合程度高的前提。

  • 相关系数反映两个变量之间的相关性,多个变量之间的相关性可以通过复相关系数来衡量。


3、多重共线性与统计假设检验的关系?

多重共线性与统计假设没有直接关联,但是对于解释多元回归的结果非常重要。相关系数反应两个变量之间的相关性,回归系数是假设其他变量不变,自变量变化一个单位,对因变量的影响,而存在多重共线性(变量之间相关系数很大),就会导致解释困难。

例如:y~x1+x2,x1与x2存在多重共线性,当x1变化一个单位,x2不变,对y的影响,而x1与x2高度相关,就会失去解释的意义。

  • 一元回归不存在多重共线性的问题。

  • 多元线性回归要摒弃多重共线性的影响。

  • 要先对所有的变量进行相关系数分析,初步判定是否存在多重共线性


4、什么样的模型才是一个好模型?

在测试集表现与预测集相当,说明模型没有过度拟合;在训练集上表现完美,在测试集上一塌糊涂,模型鲁棒性较差。

一个好的模型,只描述规律性的东西(抓住事务的主要特征),存在随机误差是好事,在预测时,就有了「容错空间」,预测误差可能减小!


5、如何理解假设检验显著性水平?

显著性水平通过小概率准则来理解,在假设检验时先确定一个小概率标准,用α表示,凡出现概率小于显著性水平的事件称小概率事件。



6、中心极限定律与大数定理的关系?

大数定理:正态分布的「左膀」,随着样本数的增加,样本的平均值可以估计总体平均值。

中心极限定理:正态分布的「右臂」具有稳定性,大数定理说明大量重复实验的平均结果,具有稳定解决了变量均值的收敛性问题,中心极限定理说明随机变量之和逐渐服从某一分布,解决了分布收敛性问题。


7、方差的价值?

方差能最大程度的反映原始数据信息,如下图:

反映了一组数据相对于平均数的波动程度,相比于,其平方项更放大了波动,且差的平方在数学公式推导上有大用。


8、使用最小二乘法条件是什么?

  • 自变量之间不能存在完全共线性。

  • 总体方程误差项服从均值为0的正态分布(大数定理)。

  • 误差项的方差不受自变量影响且为固定值(同方差性)。


9、最大似然估计与最小二乘法区别?

最小二乘法是基于几何意义上距离最小;最大似然估计是基于概率意义上出现的概率最大。

最小二乘法:对数据分布无要求。

最大似然估计:需要知道概率密度函数。


10、关于H0与H1的应用?

H0:原假设(零假设)零是相关系数为0,说明两个变量无关系。

H1:备择假设


如何设置原假设:

  • H0与H1是完备事件组,相互对立,有且只有一个成立。

  • 在确立假设时,先确定备设H1,然后再确定H0,且保证“=”总在H0上。

  • 原H0一般是需要反驳的,而H1是需要支持的。

  • 假设检验只提供原假设不利证据。


即使「假设」设置严密,检验方法「精确」,假设检验始终是建立在一定概率基础上的,所以我们常会犯两类错误:

第一类:原H0是真,却拒绝原假设,犯第一类错误。

第二类:原H0是假,却不拒绝原假设,犯第二类错误。

通常只能犯两种错误中的一种,且α增加,β减少。

通常,α类错误是可控的,先设法降低第一类错误概率 。


11、什么是双尾检验、单尾检验?

双尾检验当H0采用等号,而H1采用不等号。

单尾检验:当H0是有方向性的。


12、P值是什么?

  • 当原假设为真时,比所得到的样本观察,结果更极端的结果会出现的概率。

  • 如果P值很小,我们拒绝原假设的理由越充分。

  • P的意义不表示两组差别大小,P反映两组差别有无统计学意义。

  • 显著性检验只是统计结论,判断差别还需要专业知识。


13、T检验与U检验的差异?

U检验当样本容量n够大,样本观察值符合正态分布。

T检验当样本容量n较小,若观测值符合正态分布。


14、方差分析是什么?

主要用于两样本及以上样本间的比较,又被称为F检验,变异数分析。

基本思想:通过分析研究不同来源的变异对总体变异的贡献大小,从而确定可控因素对研究结果影响力的大小。

总变异可以被分解为组间变异与组内变异

组间变异:由于不同实验处理而造成的各组之间的变异。

组内变异:组内各被适变量的差异范围所呈现的变异。


以上就是本期的内容分享。如果需要小火龙一对一的指导,可以戳下方内容!


1、实战进阶书籍《数据分析实践:专业知识和职场技巧》,侧重案例实操。

目标群体:需要系统学习数据分析全流程,通过更多案例实现落地的同学。

详细介绍:《数据分析实践:专业知识和职场技巧》

2、将11年工作经验沉淀成「数据分析方法论图谱」,侧重场景与方法。

目标群体:需要快速进阶,近期在准备面试的同学。

详细介绍数据分析方法论图谱


3、「简历修改、面试辅导、职业咨询」,助同学们成功上岸。

目标群体:准备找工作、正在找工作的同学。

详细介绍简历修改及面试辅导




往期推荐


「干货」数据分析实战经验资料汇总!

「干货」数据分析常用的10种统计学方法,附上重点应用场景

「干货」数据分析必备的Excel函数汇总『Excel系列1』

「干货」数据分析必备的Excel常用10大应用技巧『Excel系列2』

「干货」SQL常用函数及避坑点汇总『Hive系列1』

「干货」Hive常用10大应用技巧『Hive系列2』

「干货」Hive运行原理详解,附带详解图『Hive系列3』

「干货」Hive调优的六板斧『Hive系列4』

「干货」遇到『因果推断』问题,还可以这样解决

「干货」因果推断在腾讯游戏中的应用

「干货」快手双边市场的复杂实验设计问题

「干货」腾讯欧拉数据治理平台思考与实践

「干货」抖音集团数据指标体系分析与增长实践

「干货」降低分析难度,指标中台核心能力建设实践!

「干货」淘宝直播APP用户增长实践

「干货」标签体系在58的实战应用

「干货」用户行为路径数据分析与挖掘

「干货」如何将知识图谱与AIGC结合?京东是这么做的

「干货」快手推荐系统精排模型实践!

「干货」数据治理原来可以这样做,附上真实企业案例!



持续追更哦



点个

你最好看

小火龙说数据
《数据分析实践:专业知识和职场技巧》畅销书作者。互联网大厂数据科学家,原创数据分析优质内容及经验分享。
 最新文章