刘博:在探索性统计分析当中,会用到哪些参数?

文摘   2024-11-16 08:01   广东  

Hello,大家好,又到了周末统计课的时间了。

在上一篇文章当中,我和你谈到了探索性统计分析和确认性统计分析,不知道你是否有注意,我当时有提到,可以使用像均值、中位数、标准差这样的参数来描述数据分布的情况。

这就是我今天想和你探讨的问题,了解一下这些参数是什么,以及它们真正展示了哪些信息。

当你需要描述性的去呈现数据的时候,单一变量的分布可以包括以下参数:散点参数,像均值中位数模式;离散参数,像极差四分位数方差标准差;如果为了定义分布的形状,你还可以定义偏度峰度

让我们一个个来了解下。

首先,是散点参数,它有时也被称为中心趋势参数,主要是用来描述数据集中的单个变量的典型值或集中趋势的统计量,像均值、中位数和模式就都属于散点参数。

均值是一个必须计算的参数,它是指数据集中所有数值的总和除以数值的数量。做为数据集的平均值,均值对异常值敏感。

中位数则是将将数据集从小到大排序后位于中间位置的数值。如果数据集有奇数个数值,中位数就是中间的那个数;如果有偶数个数值,中位数通常是中间两个数的平均值。中位数对异常值不敏感。

最后,是模式,就是数据集中出现次数最多的数值。一个数据集可以有一个模式(单峰),多个模式(多峰),或者没有模式(无峰)。

通过这三个参数,你对数据的平均情况有了比较清晰的印象,但还是不知道数据是如何分布的。

那么,为了更好的了解数据分布的情况,就需要离散参数出马了。

离散参数是统计学中用来描述数据分布的离散程度或分散程度的统计量。这些参数帮助我们了解数据点之间的差异有多大,以及数据是如何在某个范围内分布的。

在这里,时常用到的参数就有极差、四分位数、方差和标准差。

极差,就是数据范围内最大值与最小值之间的差,如果用公式表示的话,就是:极差 = 最大值 - 最小值。

它是最简单直观的离散程度度量,但只考虑了数据的两个极端值,没有考虑中间的数据分布情况。

第二个,就是四分位数,它将数据集分为四等份的三个点,分别是第一四分位数(Q1,25%分位数)、第二四分位数(Q2,中位数,50%分位数)和第三四分位数(Q3,75%分位数)。

通过四分位数,你可以了解数据的分布情况,特别是数据的中间50%是如何分布的,特别注意一点,在目前的离群值排除算法当中,就是使用四分位数来计算的。

第三个,就是你非常熟悉的方差了,它是各数据与其均值差的平方的平均值。

方差衡量了数据点相对于均值的离散程度,方差越大,也就说明数据的分散程度越高。

最后一个,是标准差,也就是方差的平方根。

和方差一样,标准差也描述了数据点围绕均值的离散程度,但和方差不同的地方在于,标准差和你收集的临床数据具有相同的单位,这样就更容易解释和理解。

有了这些信息之后,你对数据的离散情况就有了一定程度的了解,但是,你依然不太清楚数据是怎么分布的,这个时候,就要通过查看形状参数来解决这个问题啦。

形状参数包含两类,偏度和峰度。

偏度,就是指数据分布的不对称性,它描述了数据分布的尾部延伸方向,所以很多非正态分布的数型,都被成为偏态分布。

如果偏度为正值,就说明整个分布向左侧偏倚,分布曲线的右尾更长,所以它往往会被称为右偏或者右尾;那如果偏度为负值,那就是向右偏倚,分布曲线的左尾更长,所以也被成为左偏或者左尾。

有一点需要注意,如果整个数据分布是呈偏态分布的话,这个时候使用中位数来描述数据会比使用平均值更好。

最后一个参数,就是峰度,它描述了数据集的分布状态与正态分布的相似程度

如果我们对一个样本测量很多次,就会发现,它们每次的测量结果都不一样,这也就是说,每次测量出现的结果,都是存在一个出现的概率,这一点可以用曲线来进行表示。

因此,如果峰度值为零,这也就是说,数据分布的形状等于正态分布,但如果峰度值小于零,则意味着分布显示的极端值比正常值少,曲线在极端值处似乎会显得更平缓。相反,如果峰度值大于零,则意味着曲线的尾部更明显,因此极端值也比正常分布多。

关注我,降低产品上市认知门槛。

*个人观点,仅供参考。




品牌推广 培训合作 | 商业咨询 | 资料商店 | 转载开白

请在公众号后台回复  合作 

诊断科学
诊断科学,产品和合规咨询顾问,打造了《IVD上市课》等系列课程,曾为多家国内外诊断公司提供战略咨询服务,提倡“从概念到市场”的理念,为诊断厂家提供产品和合规规划的参考方向,一起更早看到未来。使命:降低产品上市认知门槛。
 最新文章