Med-MIMIC,持续分享MIMIC临床生信文献与思路解读,捕捉当下热点思路,感兴趣的老师可以点点关注~需要定制化分析的老师欢迎扫码联系~
文章标题:A joint learning method for incomplete and imbalanced data in electronic health record based on generative adversarial networks
中文标题:一种基于生成对抗网络的电子健康记录中不完备和不平衡数据的联合学习方法
发表期刊:Comput Biol Med .
发表时间:2024年1月
影响因子:7/Q1
电子健康记录 (EHR) 在临床预测中提出了数据不完整和不平衡的挑战。以前的研究分别用两步法解决了这两个问题,这导致了预测任务的性能下降。在本文中,我们提出了一个统一的框架来同时解决 EHR 中数据不完整和不平衡的挑战。基于该框架,我们开发了一个名为缺失值插补和不平衡学习生成对抗网络 (MVIIL-GAN) 的模型。
思路
我们使用 MVIIL-GAN 对 高缺失率数据的插补过程和 EHR 数据的条件生成过程进行联合学习。联合学习是通过引入两个判别器来实现的,以在样本级和变量级区分假数据和生成的数据。MVIIL-GAN 将缺失值插补和数据生成集成在一个步骤中,提高了参数优化的一致性和预测任务的性能。我们使用公共数据集 MIMIC-IV 评估我们的框架,其中包含高缺失率数据和不平衡数据。
数据集
在这项研究中,我们从 MIMIC-IV 中提取了电子健康记录 (EHR)。为了构建我们的样本,我们选择了被诊断患有心肌病的患者。我们通过可视化和量化评估了数据集中存在的缺失值的分布。如图 4(a) 所示,我们通过聚合同质特征并按类别划分数据来可视化数据集中缺失值的分布。总体而言,提取的 EHR 中的大多数缺失值属于实验室检测和 ICU 事件监测。随后,我们建立了一个相关热图测量零性相关性,用于挑选变量对之间的数据完整性关系,如图 4(b) 所示。
结果分析
1. 实现细节
我们使用 64 个批量大小的训练 MVIIL-GAN,我们使用 RMSprop 来训练 MVIIL-GAN 的所有组件。表 1 列出了评估中使用的 MVIIL-GAN 和 LightGBM 的超参数。
2. 预测实验性能评估
为了评估数据的插补质量,根据 MIMIC-IV 数据集中的生存状态,我们将患者的临床结果分为生存和死亡,以构建死亡率预测任务。这是一个类不平衡预测任务,正样本和负样本的比率为 1:7。
表 2 和图 5 中呈现的结果表明,MVIIL-GAN 在所有情况下都优于所有其他模型。有趣的是,随着缺失数据率的增加,MVIIL-GAN 的性能下降幅度小于其他基于 GAN 的插补模型,如图 5 所示。实验结果表明,实例级判别有助于提高变量级别缺失值插补的一致性,从而提高预测任务的性能。
3. 重建实验性能的评价
为了评估插补数据与实际值之间的相似性,我们利用 RMSE 指标来比较插补前后手动屏蔽的数据部分的值。由于数值数据中容易出现缺失值(如图 4(a) 所示),我们使用数值数据的整体重建误差作为我们的基准评估标准。
4. 消融实验性能的评估
MVIIL-GAN 中没有任何组件会使模型的性能变差。引入的两个判别器是预测不完整和不平衡数据的基础。具体来说,从性能均值差异的角度来看,包含样品生成组件可显著提高性能。从性能标准差的角度来看,对每个分量进行积分可以提高预测性能的鲁棒性。
5. 将缺失插补与不平衡学习相结合的层次分析的评估
为了分析MVIIL-GAN对不平衡学习的影响,我们以上述对比实验中插补法(不包括CGAIN)的输出为中间结果,然后用先进的不平衡学习方法进行处理,包括随机欠采样器(RUS)、SMOTEENN(SMTN)、SMOTETomek(SMTT)和单侧选择(OSS),最后将输出数据传递给分类器进行预测。
6. 缺失率低于原始数据集的扩展实验
为了将实验数据的缺失率设置扩展到低于原始缺失率 (63 %),我们排除了缺失率高于指定阈值的特征,从而获得更完整的特征。我们在 10 % 、 25 % 和 50 % 的受控缺失率下进行实验,同时保持与上述实验相同的其他实验设置和操作。MVIIL-GAN 非常灵活,适用于广泛的漏检率情况,使其成为更通用的漏检率和不平衡数据处理模型。
文章小结
MVIIL-GAN 在预测性能上优于现有方法。MVIIL-GAN 的实现可以在https://github.com/Peroxidess/MVIIL-GAN 中找到。今天为大家分享的文章纯公共数据挖掘+统计分析,就发到了一区!如果你也想在临床方向发高分文章,不妨试试这个省钱省事又省力的思路吧!