本公众号集结了多位一线数据分析者的经验和案例,可以通过传送门标签进入阅读:
入门数据分析思维
接下来将会分为几篇给大家介绍下数据分析必懂的一些统计学知识点,大家可以根据这几篇文章来补充自己的统计学知识。
第1篇链接:数据分析必会知识点1:概率与统计基础
第2篇链接:数据分析必会知识点2:大数定律和中心极限定律
第3篇链接:数据分析必会知识点3:估计
本篇是第4篇,来介绍统计的最常用知识点:相关。
相关性是工作中常见的使用工具,但可千万别抓起来皮尔逊相关就用,因为皮尔逊相关是有特定使用场景的。以下给大家介绍10种用于不同数据状况的相关系数,以及相关不等于因果的4个例子。
1. 10个相关系数介绍
相关系数用来表示变量之间的相关性,我们通常了解的相关系数是皮尔森相关系数,但是其实还有很多其他的指标也能表示变量之间的相关性。我们在这里梳理了10个相关系数,他们分别用于不同的场景,详见下表:
相关系数 | X变量形式 | Y变量形式 | 备注 |
---|---|---|---|
皮尔森相关系数 | 连续变量 | 连续变量 | 衡量两个变量之间线性关系的强度和方向 |
Spearman秩相关系数 | 次序变量 | 次序变量 | 秩相关系数,考察顺序与顺序的关系 |
Kendall秩相关系数 | 次序变量 | 次序变量 | Kendall秩相关系数 |
Kappa一致性系数 | 类别变量 | 类别变量 | 类别结构是否一致 |
二系列相关 | 二分变量 | 连续变量 | |
相关系数 | 二分变量 | 二分变量 | |
列联表相关 | 二分变量 | 二分变量 | |
四份相关 | 二分变量 | 二分变量 | |
净相关 | 连续变量 | 连续变量 | 去除与二变量皆有关的重要影响因素,可以求得纯粹二变量间的关系 |
相关比 | 连续变量 | 连续变量 | 用于发现非线性先关关系 |
1.1 皮尔森相关系数(Pearson correlation coefficient)
皮尔森相关系数(Pearson correlation coefficient),也称为皮尔森积矩相关系数(Pearson product-moment correlation coefficient),是一种线性相关系数,用于衡量两个变量之间线性关系的强度和方向。
定义与性质
定义:皮尔森相关系数是一种统计量,用于反映两个变量X和Y之间的线性相关程度。皮尔森相关系数的取值介于-1到1之间。其中,正值表示正相关(即一个变量增大时,另一个变量也倾向于增大),负值表示负相关(即一个变量增大时,另一个变量倾向于减小),而0表示无线性相关性。
绝对值的意义:皮尔森相关系数的绝对值越大,表示两个变量之间的线性关系越强。
皮尔森相关系数的公式为:
性质
* 当r>0时,表示两个变量正相关。
* 当r<0时,表示两个变量负相关。
* 当r=0时,表示两个变量之间无线性关系,但可能存在其他形式的关系(如曲线关系)。
注意事项
* 皮尔森相关系数衡量的是线性关系,对于非线性关系可能无法准确反映。
* 皮尔森相关系数并不表示因果关系,仅表示两个变量之间的相关性。
* 在计算皮尔森相关系数时,要求两个变量的标准差都不能为0。
秩相关系数
秩相关系数主要分为Spearman秩相关系数和Kendall秩相关系数,它们都是用于衡量两个变量之间等级相关程度的统计量。以下是关于这两种秩相关系数的详细介绍:
1.2. Spearman秩相关系数(Spearman's rank-order correlation coefficient)
定义
Spearman秩相关系数(Spearman's rank-order correlation coefficient),又称为秩次相关系数或等级相关系数,是用于评估两个变量之间单调关系强度和方向的统计量。Spearman秩相关系数不需要变量数据呈正态分布,因此在数据不满足正态分布假设时,它是一个很好的选择。
公式:
Spearman秩相关系数的计算公式如下:
性质
* 取值范围:-1到1之间。1表示完全的正相关,-1表示完全的负相关,0表示无相关。
* 正相关:当Spearman秩相关系数为正时,表示随着一个变量的增加,另一个变量也倾向于增加。
* 负相关:当Spearman秩相关系数为负时,表示随着一个变量的增加,另一个变量倾向于减少。
* 无相关:当Spearman秩相关系数为0时,表示两个变量之间没有明显的增减趋势。
1.3. Kendall秩相关系数
定义
Kendall秩相关系数(Kendall's tau correlation coefficient),又称为肯德尔和谐系数,用于测量两个随机变量之间的一致性。与Spearman秩相关系数类似,Kendall秩相关系数也适用于非正态分布的数据,并且关注的是变量之间的排序关系而非具体的数值。
公式
Kendall秩相关系数的计算公式相对复杂,通常涉及对变量排序后的符号检验或秩次差的计数。在此,我们提供一个简化的概念性公式:
性质
* 取值范围:-1到1之间。1表示完全一致,-1表示完全不一致,0表示随机排序。
* 一致性:当Kendall秩相关系数为正时,表示两个变量的排序趋势一致。
* 不一致性:当Kendall秩相关系数为负时,表示两个变量的排序趋势相反。
* 随机性:当Kendall秩相关系数为0时,表示两个变量的排序是随机的,没有明显的一致性趋势。
1.4 Kappa一致性系数(Kappa Coefficient of Agreement)
Kappa一致性系数(Kappa Coefficient of Agreement)是用于评估两个或多个观察者(或系统)对相同样本进行分类或评估时的一致性程度的统计量。它最初由Cohen在1960年提出,广泛应用于各种领域,如医学诊断、心理评估、机器学习分类任务等。
定义
Kappa一致性系数是一个在0到1之间的值,用于量化两个或多个观察者之间的一致性程度。当Kappa值为1时,表示完全一致;当Kappa值为0时,表示一致性仅是随机发生的;而当Kappa值为负时,表示一致性比随机猜测还差,但这种情况在实际应用中较为罕见。
公式
Kappa一致性系数的计算公式为:
解释与评估
* 当Kappa值接近1时,表示观察者之间的一致性非常高。
* 当Kappa值在0.8到0.99之间时,通常认为一致性良好。
* 当Kappa值在0.6到0.79之间时,一致性被认为是可以接受的。
* 当Kappa值小于0.6时,一致性可能较低,需要进一步分析或改进。
加权Kappa系数
对于有序分类变量或具有不同重要性的类别,可以使用加权Kappa系数(Weighted Kappa Coefficient)进行评估。加权Kappa系数考虑了不同类别之间的相对重要性或距离,从而提供更准确的一致性度量。
注意事项
* 在使用Kappa一致性系数时,需要确保样本量足够大,以避免由于样本量过小而导致的偏差。
* Kappa一致性系数仅适用于分类数据,对于连续变量或有序变量可能需要使用其他方法。
* 当类别数量较多或类别分布不平衡时,Kappa一致性系数的解释和评估可能需要更加谨慎。
1.5 二系列相关(Biserial Correlation)
二系列相关(Biserial Correlation)是一种特殊的相关系数,用于测量一个二分变量(如成功/失败、是/否等)与一个连续变量之间的关联程度。这种统计方法在处理具有二元结果(如通过/未通过考试)和连续评分(如考试分数)的数据时特别有用。
定义
二系列相关测量的是二分变量(通常为0和1)与连续变量之间的线性关系。当二分变量为1时,连续变量通常表示一个“成功”或“积极”的结果,而当二分变量为0时,则表示一个“失败”或“消极”的结果。
公式
二系列相关的公式通常表示为:
解释
二系列相关系数的取值范围在-1到1之间。正值表示正相关,即二分变量为1时连续变量的值倾向于更高;负值表示负相关,即二分变量为1时连续变量的值倾向于更低。接近0的值表示几乎没有关联。
注意事项
* 在使用二系列相关时,需要确保二分变量和连续变量之间存在潜在的线性关系。
* 样本量的大小可能会影响二系列相关的准确性,因此在大样本中通常更可靠。
* 在解释二系列相关时,需要注意其只能提供关联性的信息,而不能证明因果关系。
1.6 Phi相关系数(Phi Coefficient)
Phi系数(Phi Coefficient)是列联相关系数的一种,专门用于分析两个二元分类变量之间的关联程度。以下是关于Phi系数的详细解释:
定义:
- 当两个相关变量分布都是真正的二分变量,并且在两个分布中间都各有一个真正缺口时,可以使用Phi系数来解决此类点分布问题。
- 它适用于两个二元变量同时取两个值的情况,例如性别(男/女)、婚姻状态(已婚/未婚)等。
公式:
取值范围:
- Phi系数的值介于-1到1之间。
- 正值表示正相关,即两个变量倾向于同时出现或同时不出现。
- 负值表示负相关,即一个变量出现时,另一个变量倾向于不出现。
- 0表示两个变量之间没有相关性。
注意事项:
- 虽然Phi系数在许多情况下都能提供有价值的信息,但它也存在一些局限性。
- 例如,当样本量较小时,其估计的精确性可能会受到影响。
- 对于非二分变量或非对称分布的数据,Phi系数可能不是最佳选择。
1.7 列联相关系数(Contingency Coefficient;C)
列联相关系数(Contingency Coefficient;C),也称为列联相关系数或接触系数,用于描述两列数据中至少有一列是多分类资料时变量之间的相互关系。
列联相关系数C的公式通常可以表示为:
其中,
(O) 是观察频数,即实际频数。
(E) 是期望频数,通常根据两个变量的边缘分布计算得出。
这个公式用于量化观察值与期望值之间的差异,进而评估变量之间的相关性。
请注意,这些公式通常用于大样本量的情况,并且在分组数目r和c都较大(如r≥5,c≥5)时,计算的列联相关系数C与积差相关系数r会很接近。
1.8 四分相关(tetrachoric correlation)[1]
四分相关(tetrachoric correlation),适用于计算两个变量都是连续变量,且每一个变量的变化方向都被人为地分为两种类型的测量数据之间的相关。
两列变量都是连续型数据,且总体分布为正态,并认为的将变量分成2类,如将某一变量划分为“A”与“非A”,“B”与“非B”。
通常,计算四分相关的资料可以整理成四(方)格表,四格表是由每个因素的两项分类做成的2×2表,譬如:
a, b, c, d为各项的实计数。计算四格相关系数最常用的方法是皮尔逊余弦法(近似计算法),其计算公从式为:
式中a、b、c、d的意义如上表所示,T为圆周率。
1.9 净相关(Partial Correlation)
净相关(Partial Correlation)也称为偏相关,是一种在统计学中用于测量两个变量之间直接关联性的方法,这种关联性是在排除了一个或多个其他变量的影响后得出的。
净相关用于研究两个变量之间的线性关系,但会考虑并排除第三个或多个变量的影响。这有助于我们更准确地理解两个变量之间的直接关联,而不是受到其他潜在影响因素的干扰。
公式
净相关的计算公式如下:
变量3在这里被视为一个干扰变量,通过计算净相关,我们可以排除它对变量1和变量2之间关系的影响。
1.10 相关比(Correlation Ratio)
Correlation Ratio(相关比)是一个统计量,用于量化两个变量之间非线性关系的强度。当两个变量之间的关系不是简单的直线关系,而是呈现为某种曲线形状时,可以使用相关比来评估它们之间的关联程度。
* 相关比的计算公式通常涉及对数据的分组和方差的计算。具体来说,如果我们将其中一个变量当作分类变量,另一变量的观测值被分到不同的组(类)内,可以列成双向次数分布表。然后,像进行方差分析一样,算出组间平方和与总平方和,两者之比的平方根即为两变量的相关比。
性质
取值范围:相关比的取值范围在0到1之间(0≤η≤1)。
2. 相关性:相关比的数值越大,表示两变量间的非直线相关愈密切。
3. 与相关系数的关系:相关比必大于或至少等于由同一资料所计算的相关系数的绝对值,即η≥|r|。
2. 相关不等于因果
相关性描述的是两个或多个变量之间的统计关系,即当一个变量发生变化时,另一个变量也随之发生变化的趋势。
因果性则描述的是一个事件(即“因”)和第二个事件(即“果”)之间的作用关系,其中后一事件被认为是前一事件的结果。因果关系总是有方向的,原因必定在前,结果只能在后,并且因果并不是基于巧合的。
虽然相关性可以为我们提供变量之间可能存在的某种联系的信息,但它不能证明这种联系具有因果性质。在分析数据时,我们需要谨慎区分相关性和因果性,避免错误地将相关性解释为因果关系。
比如下图中,同样的相关系数,可能在图像和数据表述上都不一样
有一些常见的误把相关当因果的案例如下:
1. 吃巧克力更多的国家,更容易获得诺贝尔奖
2. 溺亡人数和尼古拉斯凯奇的电影上映数正相关[2]
3. 米国在科学、太空、技术上的花费和上吊窒息而死的人数正相关
4. 人均消费鸡肉数量和美国原油的进口正相关
-END-