相关性分析的6种方法,不止卡方检验和线性相关系数!

2025-01-18 08:05   湖北  
点击上方蓝字关注我们

从事质量行业的朋友一定经常需要对数据进行分析,这也是一项最基础的技能。那么你知道几种数据相关性分析的方法呢?

做数据分析时,为了提炼观点,相关性分析是必不可少,而且尤为重要的一个环节。但是,对于不同类型的数据,相关性分析的方法都各不相同。本文,主要按照不同的数据类型,来对各种相关性分析方法进行梳理总结。

相关性分析是指对两个或多个具备相关性的变量元素进行分析,相关性不等于因果性。

一、离散与离散变量之间的相关性

1、卡方检验

卡方检验是一种用途很广的计数资料的假设检验方法。它属于非参数检验的范畴,主要是比较两个及两个以上样本率( 构成比)以及两个分类变量的关联性分析。其根本思想就是在于比较理论频数和实际频数的吻合程度或拟合优度问题。

它在分类资料统计推断中的应用,包括:两个率或两个构成比比较的卡方检验;多个率或多个构成比比较的卡方检验以及分类资料的相关分析等。

(1)假设,多个变量之间不相关

(2)根据假设计算得出每种情况的理论值,根据理论值与实际值的差别,计算得到卡方值 及 自由度

df=(C-1)(R-1)

(3)查卡方表,求p值

卡方值越大,P值越小,变量相关的可能性越大,当P<=0.05,否定原假设,认为变量相关。

2、信息增益和信息增益率

在介绍信息增益之前,先来介绍两个基础概念,信息熵和条件熵。

信息熵,就是一个随机变量的不确定性程度。

条件熵,就是在一个条件下,随机变量的不确定性。

(1)信息增益:熵 - 条件熵

在一个条件下,信息不确定性减少的程度。

Gain(Y,X)=H(Y)-H(Y|X)

信息增益越大,表示引入条件X之后,不纯度减少得越多。信息增益越大,则两个变量之间的相关性越大。

(2)信息增益率

假设,某个变量存在大量的不同值,例如ID,引入ID后,每个子节点的不纯度都为0,则信息增益减少程度达到最大。所以,当不同变量的取值数量差别很大时,引入取值多的变量,信息增益更大。因此,使用信息增益率,考虑到分支个数的影响。

Gain_ratio=(H(Y)-H(Y|X))/H(Y|X)

二、连续与连续变量之间的相关性

1、协方差

协方差,表达了两个随机变量的协同变化关系。如果两个变量不相关,则协方差为0。

Cov(X,Y)=E{[X-E(X)],[Y-E(Y)]}

当 cov(X, Y)>0时,表明 X与Y 正相关;

当 cov(X, Y)<0时,表明X与Y负相关;

当 cov(X, Y)=0时,表明X与Y不相关。

协方差只能对两组数据进行相关性分析,当有两组以上数据时就需要使用协方差矩阵。

协方差通过数字衡量变量间的相关性,正值表示正相关,负值表示负相关。但无法对相关的密切程度进行度量。当我们面对多个变量时,无法通过协方差来说明那两组数据的相关性最高。要衡量和对比相关性的密切程度,就需要使用下一个方法:相关系数。

2、线性相关系数

也叫Pearson相关系数, 主要衡量两个变量线性相关的程度。

r=cov(X,Y)/(D(X)D(Y))

相关系数是用协方差除以两个随机变量的标准差。相关系数的大小在-1和1之间变化。再也不会出现因为计量单位变化,而数值暴涨的情况了。

线性相关系数必须建立在因变量与自变量是线性的关系基础上,否则线性相关系数是无意义的。

三、连续与离散变量之间的相关性

1、连续变量离散化

将连续变量离散化,然后,使用离散与离散变量相关性分析的方法来分析相关性。

2、箱形图

使用画箱形图的方法,看离散变量取不同值,连续变量的均值与方差及取值分布情况。

如果,离散变量取不同值,对应的连续变量的箱形图差别不大,则说明,离散变量取不同值对连续变量的影响不大,相关性不高;反之,相关性高。

感谢您的阅读与支持!

文章和图片部分来源于等网络,如有侵权请联系删除。谢谢!





延伸阅读

干货|超详细的新版FMEA教材应用教材

A3报告怎么写?1分钟教你做出标准A3报告!

一份漂亮的PDCA培训教材!

1.5W字,通用汽车BIQS审核最全清单!

一份中英文EHS教材

看懂的,未来都是质量经理&质量总监!

绝对的干货!测量系统分析教材!

干货!一汽大众新零件质量开发计划培训教材

OEE、MTBF与MTTR你搞懂了吗?

500强公司质量面试题,看看你有这个实力吗?

这套APQP培训PPT 非常值得一看!

干货 | VDA6.5产品审核手册!

IATF 16949认证审核全攻略,供参考!

干货 | 8D/ 5WHY培训教材

VDA6.3:2016 过程审核讲义

学点真本事,过程能力指数Cp与Cpk计算原理详解

质量工具大全,一份资料就够了!

一份有深度的FTA教材!

福特公司PPAP-生产件批准程序

五大工具的关系?一张图就明了!

一份简练的PPAP培训教材

IATF16949质量管理体系过程图大全,仅供参考!

PDCA循环工作方法培训

3分钟,15张图让你了解15个主机厂特殊特性符号!

CPK,CMK和不合格率解析,终于说清楚了

一个PPT整理了全套质量管理工具及方法!

【爆赞】一汽大众是如何做现场精益的?

纯干货:Cp、Cpk、Pp、Ppk的全解(完整版)

一文搞懂14项形位公差 - 真给力!

一位资深质量经理总结的供应商现场审核,讲透了!

零部件老大,BOSCH怎么玩“均衡生产”

拜见大佬!汽车零部件最牛的公司都在这了!

德国大陆集团的 8D 团队导向问题解决方法 - 给力

高端制造与质量提升
传播质量管理知识、智能制造知识,及时播报行业动态和热点。为中国制造2025助力,为早日实现中国梦添砖加瓦!做你可依赖的高质量的制造业学习平台!
 最新文章