文献阅读
直奔主题,本篇共计了介绍了四个统计学方法,可用于设定中间体质量标准,其本质都是利用了统计区间的概念。
教科书方法:均值±3标准差
这是一个教科书的方法,最为经典,也是比较容易接受的。尽管星辰君很难理解,但的确如此。从原理上讲,该方法只是一个使用样本统计量做的点估计,然后利用了简单的正态分布原理。
星辰君疑虑的是,如果样本数据,因为抽样原因出现偏差,岂不是会与真实的总体相差太远?也就是如何控制抽样误差呢?
尽管疑虑,但是该方法还是最终还是被广泛应用和接受。需要提醒的一点是,大家千万不要将该方法误认为置信区间哦!
替代方法1:多预测区间
如果只是计算单值的95%预测区间,作者认为区间过宽,所以建议使用多预测区间,即通过样本数据来计算包含未来m个值的95%的预测区间。作者的举例中,m为5。
多预测区间的计算公式如下:
从原理上讲,该区间似乎要比单值的95%预测区间更加合理,但是对于m的取值,则是需要深入思考的,因此可操作性上有所担忧。
替代方法2:t分布+卡方分布共同确定系数
与经典的方法1原理类似,也是采用均值±k标准差,只不过方法1中k=3。在方法3中,k则是通过卡方分布和t分布共同来确定。
对于抽样分布,均值的抽样分布服从t分布,标准差的抽样分布则服从卡方分布,因此可以通过两个分布共同决定一个较为合理的系数k,这里就直接给出公式:
替代方法3:容差区间
容差区间本质上是计算了一个包含未来一定总体的置信区间,比如计算包含未来99%的总体的95%置信区间。
这里也是继续使用了均值±k标准差,只是k的决定则是由其特定的方法,计算公式比较复杂,不再展开。幸运的是,现在很多软件可自动帮助计算容差区间。
容差区间是读一些审评报告时,监管机构会推荐的方法。
四种方法的比较
10个观测值(81,66,93,84,84,84,97,95,92,88),分别使用四种方法计算其区间。其中替代方法1计算的是包含未来5个值的95%预测区间;替代方法2选择95%的卡方分布(单侧)上限和95%t分布(双侧);替代方法3计算的是包含未来95%的总体的95%置信区间。
综合来看,教科书方法和替代方法3的区间比较接近,替代方法2和替代方法3的区间要更宽一些。当然,方法无好坏,只是那个结果更具有实际意义。结合监管机构的看法,似乎教科书方法和替代方法3,确实更适合使用。
星辰视界系统学习内容
星辰纯视界小程序平台