缺失数据填补新方法：递归特征消除+随机森林，也许更优！

健康 2024-11-18 07:49 浙江

2024-2025 课程介绍

可预开发票，郑老师团队2024-25年科研统计课程预告，含机器学习、轨迹模型等。11.30-12.1 R语言构建机器模型课程开启

数据集中的缺失值对数据分析带来了重大挑战，特别是在数据准确性对患者诊断和治疗至关重要的医疗领域。尽管MissForest（MF）在填补研究中被证明是有效的，递归特征消除（RFE）在特征选择中被证明是有效的，但通过RFE集成来增强MF的潜力仍未被探索。

11月8日，我们看到在期刊《BMC Medical Research Methodology》（医学三区，IF=3.9）发表了题为“A novel MissForest-based missing values imputation approach with recursive feature elimination in medical applications”的研究论文，这篇文章通过结合随机森林和递归特征消除，性能超过了传统的MICE，即使用默认方法的MICE。

结果表明，新的填补方法——递归特征消除-随机森林（recursive feature elimination-MissForest, RFE-MF）有望成为医疗数据集的有效插补方法，为解决医疗应用中缺失数据的挑战提供了一种新的方法。

如果你需要全文，请公众号后台回复关键词“pdf”。如果您在统计分析过程中遇到难题，郑老师的统计团队可以提供帮助！详情可咨询助教，微信号：aq566665

缺失数据，定义为在给定的观测值中没有记录变量的数据点。这个普遍存在的问题跨越了各个领域。在医学研究中，数据缺失带来了重大挑战，可能影响后续的统计分析和预测模型。这些挑战具有广泛影响，影响临床决策过程，并最终影响患者医疗质量。医学研究中的数据缺失问题迫切需要科学的方法来解决。

传统缺失值插补方法各有优缺

目前，许多学者开发并实施了各种缺失值估算（MVI）技术，旨在用衍生估计值取代缺失值，从而保持数据集的完整性和实用性。在医学领域，传统的几种方法被广泛应用，包括均值/众数插补法、k近邻（kNN）、链式方程多重插补（MICE）。

虽然这些传统技术在某些情况下提供了有价值的解决方案，但它们受到固有的限制，可能会影响输入数据的准确性或方法本身的适用性。

均值/众数插补法:

优点是很简单，用给定变量的观测数据的均值或众数替换缺失值。
然而，这种方法忽视了这种归因中固有的不确定性，往往会产生有偏见或不现实的结果。

链式方程多重插补（MICE）:

MICE以其灵活性而闻名，经常被用作多重插补方法。
然而，MICE和其他多重归算技术在高维环境下面临挑战，特别是涉及变量之间的相互作用和非线性关系。在这种情况下，为缺失数据的每个变量指定条件模型的复杂性大大增加，使得插补过程既复杂又需要计算，可能会损害MICE的准确性和效率。

k近邻（kNN）：

kNN插补因其稳定性和有效性而被广泛使用
但其计算复杂性和对参数设置（如邻居数量、距离度量的选择和插值顺序）的敏感性存在明显的局限性，限制了其在现实环境中的实际适用性。

为了应对这些挑战，基于树的估算方法已经成为有希望的替代方法。

值得注意的是，MissForest（MF）是一种基于随机森林（RF）的迭代插补算法，它与传统的插补方法不同：

既不假设正态性，也不要求建模参数规范。
此外，它能有效处理混合数据类型；
并且能够捕捉非线性关系，对于非线性关系的数据具有较好的适应性；
对异常值具有一定的稳定性，在处理含有异常值的数据时表现良好，不易受到异常值的影响。

因此，相对于传统的归算方法，MF具有较好的性能，在缺失值估算技术研究领域受到越来越多的关注。此外，一些研究已经证明了MF在医学领域的有希望的功效。

然而，MF虽然能有效填补缺失数据，但缺乏内在的特征选择，而特征选择对降维和提高模型可解释性至关重要，特别是在高维医学数据集上。

特征选择通过识别相关特征并删除不相关或冗余的特征来降低模型的复杂度。递归特征消除（RFE）方法是一种非常有效的特征选择方法，根据特征对模型性能的影响，迭代地删除最不重要的特征，优化特征子集以获得更好的分类精度。

可以理解为，这是一种适用于机器学习的“逐步回归法“，逐步回归是根据P值来，而递归特征消除根据特征（变量）贡献，如Shapley值。

近年来，大量研究表明，对观测数据进行特征选择，过滤掉非代表性特征，可以显著提高补全过程的效率，因为某些被认为不具代表性的缺失特征可能不是有效补全所必需的。

提出新的填补方法——递归特征消除-随机森林

虽然MF在缺失值估算技术研究中得到了广泛的认可，证明了其在各种应用中的有效性，但进一步优化和充分挖掘其潜力的努力仍然有限。

RFE是一种完善的特征选择方法，以降低维数和提高计算效率而闻名。然而，它的使用主要局限于预处理作用，旨在增强预测模型，而不是直接改进插补方法。

因此，如何将RFE特征选择和MF插补技术结合起来，同时改进这两项任务，目前还存在很大的研究空白。

为了解决这个问题，提出了一种新的填补方法——递归特征消除-随机森林（recursive feature elimination-MissForest, RFE-MF），这是一种将MF与RFE相结合的新方法，以减轻不相关特征的影响并提高插补质量。

文中提供了RFE-MF算法，包括六个步骤：

(1)初始输入；(2)迭代输入；(3)特征选择；(4)模型拟合；(5)收敛；(6)输出最终输入数据集

详细算法诸位可以看看原文！

本研究使用包含数值型和混合数据类型的10个医疗数据集，对提出的RFE-MF方法与四种传统的插补方法（mean/mode imputation，MICE, kNN, MF）的性能进行比较分析。

首先使用MCAR机制模拟10个完整的数据集，包括5种缺失率：10%、20%、30%、40%和50%。
对于每个缺失率，重复模拟10次，生成不完整数据集。
然后，采用mean/mode、kNN、MICE、MF和RFE-MF五种填补方法对缺失值进行填补。
使用两个指标评估填补质量：数值变量的归一化均方根误差（NRMSE）和分类变量的错误分类条目比例（PFC）。
为了比较每种填补方法与RFE-MF的性能，利用模拟测试的10次重复的结果进行配对样本t检验。

无论变量类型如何，RFE-MF始终优于原始MF

在数值数据集中，配对t检验结果显示，RFE-MF在四个数据集（Mehmet Diabetes、Prostate Cancer、 Lower Back Pain Symptoms, and Liver Disorders）中始终显示出最低的平均值，p值均< 0.001（除了前列腺癌数据集中RFE-MF和MF之间的差异，没有统计学意义）。

相反，在Parkinson Disease Detection数据集中，与RFE-MF相比，MF产生了更好的结果，p值为0.030，表明具有统计学上的显著差异。

在混合型数据集中，NRMSE的配对t检验结果显示，RFE-MF在Pre-processed Stroke, Early-Stage Diabetes Risk Prediction, Indian Liver Patient Records, and Contraceptive Method Choice四个数据集上表现最佳，结果具有统计学意义。

然而，在Early-Stage Diabetes Risk Prediction数据集中，RFE-MF和MF之间的差异没有统计学意义。在Heart Failure Prediction数据集中，均值/众数插补法表现最好，RFE-MF略落后。

在PFC的配对t检验中也观察到类似的趋势，其中RFE-MF在大多数数据集中表现最佳。然而，在Heart Failure Prediction和Indian Liver Patient Records数据集中，均值/众数插补法优于RFE-MF。

综上所述，与四种经典的插补方法（mean/mode, kNN，MICE和MF）相比，RFE-MF在大多数数据集上表现出优越的性能。值得注意的是，无论变量类型（数值或分类）如何，RFE-MF始终优于原始MF。均值/众数插值在不同的场景中表现出一致的性能。相反，kNN插补的有效性会随着缺失数据率的变化而波动。

这些发现证实了RFE-MF优于其他四种经典的插补方法，证明了其对医疗数据集的适用性以及实际应用的潜力。此外，强调了在选择填补技术时考虑数据类型和缺失率的重要性，因为这些因素会显著影响不同方法的性能。

如果您有统计分析方面的困难，联系郑老师团队，一对一解决！详情可咨询助教，微信号：aq566665

关于郑老师团队及公众号

大型医学统计公众号平台，专注于医学生、医护工作者学术研究统计支持，我们是你们统计助理

郑老师团队开设的医学统计培训课程，各类发文需求都可以满足：

GBD数据库挖掘、NHANES数据库挖掘、孟德尔随机化方法

真实世界临床研究、临床预测模型、孟德尔随机化方法

临床试验设计与数据分析、重复测量资料分析、R语言

量表与中介数据分析、Meta分析、

2025年将新增R、python机器学习与预测模型、全球老年人纵向健康数据库挖掘、轨迹增长模型课程等。

郑老师统计课程详情介绍

（目前购买统计课程还可参与发表SCI注明我们平台退课程费用的活动，详情扫描下方二维码添加助教微信咨询详情）

详情联系助教小董咨询（微信号aq566665）

http://mp.weixin.qq.com/s?__biz=MzAwOTYyMDY3OQ==&mid=2650447892&idx=1&sn=250540c24e46184b2e231099860eb5ae

医学论文与统计分析

本号为高校统计学老师所设，介绍医学论文进展与统计学方法，SPSS分析方法、真实世界研究、R语言与数据挖掘。关注后，发送关键词“33”到公众号就可以获取常见的统计软件比如Spss，sas，PASS（绝对无毒）等

最新文章

缺失数据填补新方法：递归特征消除+随机森林，也许更优！

IF=96.2！交大院士团队发文NEJM，强化血压干预可降低糖尿病患者21%心血管风险

年底大课！零基础入门的“机器学习”预测模型，欢迎报名

《柳叶刀》为何发表中国学者中医药研究阴性结果的文章？

SHAP可视化方法，临床预测模型解释新框架！

可预开发票，郑老师团队25年统计新课预告，发表文章后退款

Lancet重磅！首次刊登中草药临床研究，中国学者喜提咖位，还是个阴性结果

挑战半天搞定一篇NHANES！10分钟教你解决数据清洗大难题！

北大学子发表JAMA论文：中国医学生感知受虐率高达84.5%

可预开发票，郑老师团队25年统计新课预告，发表文章后退款

SHAP法可解释性机器学习介绍：理论与方法

不少文章这个样本量计算公式都写错了，你注意到了吗？

IF=63.1，共病研究登顶JAMA正刊，谁说NHANES免费数据库发不了好文章？

零基础入门的“机器学习”预测模型，我们的机器学习培训课程来了

机器学习+SHAP建模，预测模型就是好文章？求你们了，别玩偏了

机器学习入门（4）| 一般线性模型

JAMA子刊：三组比较先别用倾向得分匹配，考虑用重叠加权

可预开发票，郑老师团队25年统计新课预告，总计17门课

审稿人：仅仅报告P值是不够的，请提供主要结局的效应量

开课啦！新一期公开免费课“30天学会SPSS与R语言”，欢迎报名

可预开发票，郑老师团队25年统计新课预告，机器学习课程马上来了

Lancet子刊：中国学者用9种机器学习算法构建可解释性临床预测模型

2025年我们将提供统计服务！医院临床/护理数据分析，可预开发票

BMJ：临床预测模型，超长分步指南！

可预开发票，郑老师团队25年统计新课预告，机器学习课程马上来了

又一个免费数据库！川大华西朱彩蓉团队用20种癌症数据+趋势性分析，拿下JAMA子刊

可预开发票，郑老师团队2024-25年科研统计课程预告，共17门课

时代变了，“SHAP” 取代“列线图”，成为预测模型文章标题的重点

可预开发票，郑老师团队2024-25年科研统计课程预告，共17门课

新一代“神药”？JAMA文章显示，减肥药"司美格鲁肽"，或可降低67%老年痴呆风险

可预开发票，郑老师团队2024-25年科研统计课程预告，含机器学习、轨迹模型等

IF=8.5！仅以常规体检数据，厦大学者用5种机器学习方法构建了心血管预测模型

可预开发票，郑老师团队2024-25年科研统计课程预告，含机器学习、轨迹模型等

SPSS 30.0新版来了，这次有什么新功能？

IF=93.6！复旦大学邵志敏教授团队发文医学顶刊BMJ杂志

半天搞定NHANES一篇SCI论文的利器来了！自动下载、自动加权、快速出图表

大数据：首篇论文发表10年后，半数学者退圈。你还会坚持吗？

孟德尔随机化课程，入门到高级，郑老师团队主讲，一个月搞定，快速发表论文，立即可学！

IF=22.5！中医临床研究发文JAMA子刊，针灸治疗椎间盘突出症疼痛效果明显

选对工具很重要！师姐花了1天写代码，我3分钟完成倾向得分匹配分析

真实世界临床研究怎么做统计分析可以发SCI呢？看郑老师主讲的这门课程就够了

IF=63.1！一周之内，中山大学连发JAMA、BMJ 2篇顶刊文章

NHANES医学数据库挖掘R语言实操，欢迎报名，一天搞定，就在周日

浙大学者结合血浆蛋白质组学等，开发结直肠癌发病预测模型，发文Nature子刊，来看看过程与统计方法

值得收藏！机器学习法常用的分析方法

就在本周末，2024年NHANES医学数据库挖掘直播课，欢迎报名，发文后退款

IF=93.6！中山大学发文顶刊BMJ杂志

NHANES新数据，欢迎参加郑老师团队第2期NHANES 挖掘1对1指导班！

开课啦！新一期公益免费课“30天学会SPSS与R语言”，欢迎报名，有问必答

南方医科大学学者开展巢式病例对照研究发文JAMA子刊，这种设计思路可借鉴一下

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉