【浙中大郑老师撰写的”统计杂谈“系列文章】
现在对医学研究缺失数据填补的问题,很多人都有了一定的思考,有缺失,还是要填补,无论是临床试验、调查研究,无论是前瞻性还是回顾性。
但我们都知道缺失数据填补不能随便填,一个变量,过高比例的缺失,填回去也没有价值。
如果这个变量的信息缺失比例高于多少,就不适合填补呢?10%、20%、30%???
这个星期,非常有意思,我看到了几篇文章,居然有 多种种写法,分别真的就是10、20、30%,甚至还有50%。
我们先简单看看原文是怎么描述的:
√文章一:剔除缺失数据超过10%的指标
√文章二:缺失数据超过20%的变量被排除
√文章三:仅分析缺失比例小于30%的协变量
更有甚者,样本中缺失值超过 50% 的特征被舍弃。
我认为的合适处理方法
缺失值的存在不可避免,不同研究团队对此的处理略有不同。但是,如何正确处理缺失值至今没有标准,老郑今天就简单说一下自己的看法,主要谈谈假设,数据是随机缺失的机制下。
习惯上是说20%以内的缺失现象,可以填补,但这个事情又得分几种情况。
(1)如果是开展因果推断研究,分析原因变量与结局变量的因果关联性,则我觉得过高的缺失是不合适的,20%以内合适。
如果你是采用传统机械填补缺失,比如均值法、中位数法、末次或者基线随访转结法,则20%都高了,我认为10%以内才行。 如果是利用数据间关联性填补的策略,比如多重填补法,则20%以内或者附近,都可以。
(2)如果是开展构建预测模型的研究,无论是线性法还是非线性的机器学习方法,则对于缺失现象的容忍度要高,因为它追求的不再是因果推断,而是构建一个具有内、外一致性的预测模型。
其实,如果你的模型能够有外部一致性,哪怕你建模的数据是全部是模拟产生的,直接造的,都行。 所以缺失比例取决于你能否用合适的方法进行填补,并获得可靠的模型。
我认为,预测模型,缺失比例在30%的以内变量都可以保留,都可以填补,建议进行外部验证,如果没有,就拿完整病例数据作为外部验证分析。
当然,你全部模拟产生、或者缺失比例过高而填补的数据,容易失真。这样是通不过验证性分析这关了。
个人观点,仅供参考。
关于郑老师团队及公众号
大型医学统计服务公众号平台,专注于医学生、医护工作者学术研究统计支持,我们是你们统计助理
我们开展对临床预测模型、机器学习、医学免费数据库NHANES、GBD数据库、孟德尔随机化方法、MIMIC一对一R语言指导开展统计分析(一年内不限时间,周末、晚上均统计师一对一指导)。
①指导学习R语言基本技巧
②全程指导课程学习
③课程R语言代码运行bug修复
④支持学员一篇SCI论文的数据分析