搞定统计学必知：P值、T检验、卡方检验、假设检验……

教育 2024-11-12 16:01 黑龙江

文末领取《漫画统计学》

P值的统计学意义是什么

结果的统计学意义是结果真实程度（能够代表总体）的一种估计方法。专业上，p值为结果可信程度的一个递减指标，p值越大，我们越不能认为样本中变量的关联是总体中各变量关联的可靠指标。

p值是将观察结果认为有效即具有总体代表性的犯错概率。如p=0.05提示样本中变量关联有5%的可能是由于偶然性造成的。即假设总体中任意变量间均无关联。

我们重复类似实验，会发现约20个实验中有一个实验，我们所研究的变量关联将等于或强于我们的实验结果。（这并不是说如果变量间存在关联，我们可得到5%或95%次数的相同结果，当总体中的变量存在关联，重复研究和发现关联的可能性与设计的统计学效力有关。）

在许多研究领域，0.05的p值通常被认为是可接受错误的边界水平。

t检验的使用场景

t检验适用于两个变量均数间的差异检验，多于两个变量间的均数比较要用方差分析。

无论哪种类型的t检验，都必须在满足特定的前提条件下: 正态性和方差齐性，应用才是合理的。这是因为必须在这样的前提下所计算出的t统计量才服从t分布，而t检验正是以t分布作为其理论依据的检验方法。

t检验是目前医学研究中使用频率最高，医学论文中最常见到的处理定量资料的假设检验方法。

如何判定结果具有真实的显著性

在最后结论中判断什么样的显著性水平具有统计学意义，不可避免地带有武断性。换句话说，认为结果无效而被拒绝接受的水平的选择具有武断性。

实践中，最后的决定通常依赖于数据集比较和分析过程中结果是先验性还是仅仅为均数之间的两两比较，依赖于总体数据集里结论一致的支持性证据的数量，依赖于以往该研究领域的惯例。

通常，许多的科学领域中产生P值的结果≤0.05被认为是统计学意义的边界线，但是这显著性水平还包含了相当高的犯错可能性。结果 0.05≥P>0.01被认为是具有统计学意义，而0.01≥P≥0.001被认为具有高度统计学意义。但要注意这种分类仅仅是研究基础上非正规的判断常规。

假设检验的内涵及步骤

在假设检验中，由于随机性我们可能在决策上犯两类错误，一类是假设正确，但我们拒绝了假设，这类错误是“弃真”错误，被称为第一类错误；一类是假设不正确，但我们没拒绝假设，这类错误是“取伪”错误，被称为第二类错误。

一般来说，在样本确定的情况下，任何决策无法同时避免两类错误的发生，即在避免第一类错误发生几率的同时，会增大第二类错误发生的几率；或者在避免第二类错误发生几率的同时，会增大第一类错误发生的几率。人们往往根据需要选择对哪类错误进行控制，以减少发生这类错误的几率。大多数情况下，人们会控制第一类错误发生的概率。

发生第一类错误的概率被称作显著性水平，一般用α表示，在进行假设检验时，是通过事先给定显著性水平α的值而来控制第一类错误发生的概率。

在这个前提下，假设检验按下列步骤进行：

确定假设
进行抽样，得到一定的数据
根据假设条件下，构造检验统计量，并根据抽样得到的数据计算检验统计量在这次抽样中的具体值
依据所构造的检验统计量的抽样分布，和给定的显著性水平，确定拒绝域及其临界值
比较这次抽样中检验统计量的值与临界值的大小，如果检验统计量的值在拒绝域内，则拒绝假设

到这一步，假设检验已经基本完成，但是由于检验是利用事先给定显著性水平的方法来控制犯错概率的，所以对于两个数据比较相近的假设检验，我们无法知道哪一个假设更容易犯错，即我们通过这种方法只能知道根据这次抽样而犯第一类错误的最大概率（即给定的显著性水平），而无法知道具体在多大概率水平上犯错。

计算P值有效的解决了这个问题，P值其实就是按照抽样分布计算的一个概率值，这个值是根据检验统计量计算出来的。通过直接比较P值与给定的显著性水平α的大小就可以知道是否拒绝假设，显然这就代替了比较检验统计量的值与临界值的大小的方法。

而且通过这种方法，我们还可以知道在p值小于α的情况下犯第一类错误的实际概率是多少，p＝0.03<α=0.05，那么拒绝假设，这一决策可能犯错的概率是0.03。需要指出的是，如果P>α，那么假设不被拒绝，在这种情况下，第一类错误并不会发生。

卡方检验的结果

值是越大越好，还是越小越好？

与其它检验一样，所计算出的统计量越大，在分布中越接近分布的尾端，所对应的概率值越小。如果试验设计合理、数据正确，显著或不显著都是客观反映。没有什么好与不好。

在比较两组数据的率是否相同时

二项分布和卡方检验有什么不同？

卡方分布主要用于多组多类的比较，是检验研究对象总数与某一类别组的观察频数和期望频数之间是否存在显著差异，要求每格中频数不小于5，如果小于5则合并相邻组。

二项分布则没有这个要求。如果分类中只有两类还是采用二项检验为好。如果是2*2表格可以用fisher精确检验，在小样本下效果更好。

如何比较两组数据之间的差异性

设计类型是完全随机设计两组数据比较，不知道数据是否是连续性变量？

比较方法：如果数据是连续性数据，且两组数据分别服从正态分布和方差齐性检验，则可以采用t检验，如果不服从以上条件可以采用其他检验。

想知道两组数据是否有明显差异？不知道这个明显差异是什么意思？是问差别有无统计学意义（即差别的概率有多大）还是两总体均数差值在哪个范围波动？如果是前者则可以用第2步可以得到P值，如果是后者，则是用均数差值的置信区间来完成的。

END

爱数据今日福利

《漫画统计学》PDF版免费领

让枯燥的知识简单易懂更加有趣

公众号后台

回复【1028】即可领取

关注我们，设为星标

行业动态早知道

干货知识天天有

点击头像看直播

http://mp.weixin.qq.com/s?__biz=MjM5MTI3MzUwMA==&mid=2650173602&idx=2&sn=fb57851f709dd02c72acf45a70a5c168

爱数据LoveData

国内领先数据分析社区，专注数据分析知识分享及求职辅导。爱数据作为一线数据厂商（帆软、观远、永洪等）培训合作伙伴，曾联合阿里、美团、滴滴等一线公司开展数据领域专题分享会。积累10年+行业经验，链接千人数据分析高端人脉，累计服务15w+用户。

最新文章

没Offer？就是「项目问题」！给你解决！

实操案例讲解！手把手教你搭建RFM客户价值分析模型（附实战代码）

数据分析5大软件「优势PK」：Python、Excel、R、SAS、SPSS你最爱哪个？

搞定统计学必知：P值、T检验、卡方检验、假设检验……

一文看懂：搭建活动分析体系

数据分析·就业实战班，0基础高薪入职必备！

学数据分析要懂哪些统计学知识？这份思维导图请收好！

知乎上40个有趣回复，很精辟！

3个面试常见的SQL数据分析题（含数据和代码）

数据分析·就业实战班，0基础高薪入职必备！

一文搞懂用户画像，数据分析师必看

统计学！！！8项数据分析师必学知识点！（附赠统计学大礼包）

入职数据分析解决方案！

8步教你最有效的<数据分析方法>

数据分析·就业实战班·入职必备！

数据运营入门，只需掌握这四个数据分析方法

如何撰写一份优秀的数据分析报告？记住这些关键点！

如何学习数据分析？7步快速搞定！

2000字实录！微博商业分析面经整理！收藏起来！

年底优质「数据分析报告」写作指南，这些错误千万不要犯！

小白入职数据分析攻略，你的所有问题都能解决！

拼多多已上岸面经分享|24个岗位面试题及答案解析

36个顶级数据分析方法与模型，高效分析必备！

收藏：20张数据分析学习思维导图大全，有了它学习思路超清晰！

1.8W岗位不如1.5W？选公司需谨慎，尤其是数据分析师！

【大厂面试】100道华为数据分析面试题（附答案）！

手把手教你数据分析方法论和业务实战——用户画像篇

全网最高性价比的「数据分析」课程，0基础→进阶！

数据分析必备——漏斗分析模型

详解数据分析的 9 个经典问题

【行业前沿】数据岗位有哪些？你不知道的职业机会和发展空间

万字总结，行业分析到底应该怎么做！

面试没有项目怎么办？？？？↘

人人都必须学会的 Excel 三大技能

干货| 这篇电商数据分析案例一定要看！

48道数据分析师高频面试题

数据分析·就业实战班，0基础高薪入职必备！

判断客户价值，用好这3个数据分析模型就足够了！

Excel常用电子表格公式大全！【汇总篇】

Python实现「数据可视化」的3大步骤，保姆级讲解！

4000字详解，数据标签体系构建方法

Excel数据分析的4大神技！高效处理数据！

万字长文——数据分析深度理解，全是方法论及经验，不看真的就亏了！

分享一个完整的数据分析流程

数据分析面试：常见问题回答战略

掌握这20个 SQL 优化方法，你就无敌了！

Python可视化利器：8个流行工具包，总有一款适合你！

一份优秀的数据分析报告，8步就能搞定！

微博商业分析师JD拆解，还有这些隐藏要求？

这10个统计学问题数据分析师可一定要知道！（附资源）

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉