2024-2025 课程介绍
可预开发票,郑老师团队2024-25年科研统计课程预告,含机器学习、轨迹模型等。11.30-12.1 R语言构建机器模型课程开启
如果你需要全文,请公众号后台回复关键词“pdf”。如果您在统计分析过程中遇到难题,郑老师的统计团队可以提供帮助!详情可咨询助教,微信号:aq566665
传统缺失值插补方法各有优缺
虽然这些传统技术在某些情况下提供了有价值的解决方案,但它们受到固有的限制,可能会影响输入数据的准确性或方法本身的适用性。
优点是很简单,用给定变量的观测数据的均值或众数替换缺失值。 然而,这种方法忽视了这种归因中固有的不确定性,往往会产生有偏见或不现实的结果。
MICE以其灵活性而闻名,经常被用作多重插补方法。 然而,MICE和其他多重归算技术在高维环境下面临挑战,特别是涉及变量之间的相互作用和非线性关系。在这种情况下,为缺失数据的每个变量指定条件模型的复杂性大大增加,使得插补过程既复杂又需要计算,可能会损害MICE的准确性和效率。
kNN插补因其稳定性和有效性而被广泛使用 但其计算复杂性和对参数设置(如邻居数量、距离度量的选择和插值顺序)的敏感性存在明显的局限性,限制了其在现实环境中的实际适用性。
值得注意的是,MissForest(MF)是一种基于随机森林(RF)的迭代插补算法,它与传统的插补方法不同:
既不假设正态性,也不要求建模参数规范。
此外,它能有效处理混合数据类型;
并且能够捕捉非线性关系,对于非线性关系的数据具有较好的适应性;
对异常值具有一定的稳定性,在处理含有异常值的数据时表现良好,不易受到异常值的影响。
可以理解为,这是一种适用于机器学习的“逐步回归法“,逐步回归是根据P值来,而递归特征消除根据特征(变量)贡献,如Shapley值。
提出新的填补方法——递归特征消除-随机森林
如果你需要全文,请公众号后台回复关键词“pdf”。如果您在统计分析过程中遇到难题,郑老师的统计团队可以提供帮助!详情可咨询助教,微信号:aq566665
本研究使用包含数值型和混合数据类型的10个医疗数据集,对提出的RFE-MF方法与四种传统的插补方法(mean/mode imputation,MICE, kNN, MF)的性能进行比较分析。
首先使用MCAR机制模拟10个完整的数据集,包括5种缺失率:10%、20%、30%、40%和50%。
对于每个缺失率,重复模拟10次,生成不完整数据集。
然后,采用mean/mode、kNN、MICE、MF和RFE-MF五种填补方法对缺失值进行填补。
使用两个指标评估填补质量:数值变量的归一化均方根误差(NRMSE)和分类变量的错误分类条目比例(PFC)。
为了比较每种填补方法与RFE-MF的性能,利用模拟测试的10次重复的结果进行配对样本t检验。
无论变量类型如何,RFE-MF始终优于原始MF
在数值数据集中,配对t检验结果显示,RFE-MF在四个数据集(Mehmet Diabetes、Prostate Cancer、 Lower Back Pain Symptoms, and Liver Disorders)中始终显示出最低的平均值,p值均< 0.001(除了前列腺癌数据集中RFE-MF和MF之间的差异,没有统计学意义)。
相反,在Parkinson Disease Detection数据集中,与RFE-MF相比,MF产生了更好的结果,p值为0.030,表明具有统计学上的显著差异。
如果您有统计分析方面的困难,联系郑老师团队,一对一解决!详情可咨询助教,微信号:aq566665
关于郑老师团队及公众号
大型医学统计公众号平台,专注于医学生、医护工作者学术研究统计支持,我们是你们统计助理
2025年将新增R、python机器学习与预测模型、全球老年人纵向健康数据库挖掘、轨迹增长模型课程等。
详情联系助教小董咨询(微信号aq566665)