刚刚进入病案统计行业的时候,接触了平均住院日、均次费用的比较,前后两年的比较,科室之间的比较,医疗组之间的比较,横向、纵向、环比、同比,各种比较天天都在做,但是从来没有做过t检验、方差分析或者卡方检验的假设检验。
如比较2018年和2019年全院的平均住院天数(这里先不考虑住院天数是否符合正态分布的问题),2018年是6.51天,2019年是6.32天,一般在报告里就说2019年的平均住院日比2018年下降0.19天。刚开始,我感到很纳闷,这就能说下降了吗?是不是因为随机误差导致的?为什么不需要做假设检验或者估计其可信区间?
这个问题困扰了我许久,后来看到全院每年出院病人达10万+,那是否是因为样本量已经很大了,可以直接这么说?但是下面细分到科室,医疗组的数据的比较时候也是这样说的,并没有做任何假设检验或者估计其可信区间。这样合理吗?
后来我打开了统计学课本,突然想到,这不就是“总体”和“样本”的概念吗?
总体和样本是统计学中非常基本也是非常重要的概念。后面统计学中统计推断和假设检验都是基于此。
总体是考察对象的全体。
样本是观测或调查的一部分个体。
所以按照这个概念,对于全院(全科室/医疗组)一年或者一个月的平均住院天数,2018年或2019年全院(全科室/医疗组)收治的病人其实就是一个总体,每一个病人的住院天数就是总体的数据,根据这个数据就可以直接得到总体参数,并且直接比较总体参数的大小,就不需要做假设检验或者估计其可信区间。
然而总体和样本是相对的,上述一家医院的所有病人的集合可以作为一个总体,但是换一种情况,如果是想比较2019年浙江省和江苏省住院病人的平均住院天数的差别,抽样正好分别抽中了浙江省和江苏省某一家医院的病人(此处先不管是怎么抽样的,假定这两家医院的住院病人可以分别代表两个省全省的住院病人情况),那么这种情况下,2019年浙江省的所有住院病人集合就是总体,而抽到的这家医院的所有住院病人的集合就是这个总体里的一个样本;同样的2019年江苏省的所有住院病人集合就是总体,而江苏省抽到的这家医院的所有住院病人的集合就是这个总体中的一个样本。这个时候,用抽取到的样本去推断总体,就需要计算可信区间(统计学上一般为95%的可信区间),或者用样本参数进行比较时就需要进行假设检验。
这是从日常工作中结合统计学的概念扯一扯,是个人观点,欢迎留言探讨。
扫描二维码 | 关注我