IF 37.6,历史新高!使用心电图数据构建深度学习模型,MIMIC为验证

文摘   科学   2024-12-25 19:28   浙江  

引言

最近机器学习真是大热趋势,挖掘小众的MIMIC数据库也能发文一区top!今天介绍的这篇文章,研究团队用蒙特利尔心脏研究所和MIMIC数据库的数据开发和验证基于心电图的深度学习预测模型接下来,让我们简单看一下。

心房颤动 (AF) 是成人中最常见的持续性心律失常。但据报道,临床上约三分之一患者发作房颤时无明显自觉不适,即无症状房颤。这也导致许多患者因未能及时就医,延误了病情。

2024年12月7日,外国学者MIMIC-IV 数据库,在期刊《European Heart Journal》(医学一区top,IF=37.6)发表题为Prediction of incident atrial fibrillation using deep learning, clinical models, and polygenic scores究论文,研究团队基于深度学习模型(ECG-AI),旨在使用患者的心电图数据开发一个心房颤动(AF)的预测模型

研究结果表明,ECG-AI在内部验证和外部验证中均表现出良好的预测性能,可准确预测患者心房颤动风险并且,该模型的预测能力优于现有的其他预测患者是否有AF风险的方法。

本公号回复“ 原文”即可获得文献PDF等资料


一、预测模型的构建与验证
√数据收集与预处理
在该项研究中,研究团队收集了2004 年~2022年间蒙特利尔心脏研究所(MHI)中所有心电图经过纳排,最终收集了145,323名患者的669,782份心电图,用于模型的构建、验证以及内部测试。
同时,团队还从重症监护医学信息(MIMIC-IV)数据库中获取了109,870名患者的437,323份心电图,对该模型进行外部测试。
异常值处理:团队排除了具有极端电压值(>10mV)的心电图。
主要结局:5年内AF的发生情况。
图1 研究人群的筛选流程

图2 研究流程
√模型的构建

在排除异常值后,研究团队按照7:1:2比例,将剩余的数据划分训练集、验证集和测试集。模型的构建过程如下:

  • 团队使用四个A6000 GPUs(NVIDIA、Santa Clara、CA、USA),在训练集上对单个随机权重初始化的ResNet-50模型进行了训练;

  • 通过贝叶斯网格搜索方法在验证集上优化超参数;

  • 根据最低损失选择验证集中表现最好的模型,然后,在内部 MHI 测试集中的三个子组上报告该模型性能,即 “MHI All-Comers”、“MHI Hospitalized” 和 “MHI Biobank”。
√模型的评估

研究团队使用多个指标评估模型性能,包括区分度、校准度和受试者工作特征曲线下面积(AUC-ROC)等。


研究结果显示,ECG-AI模型具有较好的预测性能:
  • 内部测试的结果显示,ECG-AI模型的AUC-ROC为0.78;

  • 外部测试的结果显示,ECG-AI模型的AUC-ROC为0.77

图3 外部验证

此外,研究团队还进一步将ECG-AI模型与其他预测方法进行比较,结果表明,该模型的预测能力优于现有的其他预测方法。具体结果如下:

  • ECG-AI模型(AUC-ROC=0.76)的预测性能优于现有的临床预测评分——老龄化和基因组流行病学研究队列-心房颤动(CHARGE-AF) 评分以及多基因评分(PGS)。

  • 同时,团队还发现在ECG-AI中加入PGS和CHARGE-AF能够提高模型的拟合优度 ,此时AUC-ROC的变化(从0.76变化至0.77)最小。

图4 MHI Biobank测试集中,模型的性能评估结果

√模型的解释
利用TensorFlow的GradientTape,团队计算了模型预测相对于输入ECG样本的梯度,从而得到了一个显著性图。该图突出了ECG信号中最具影响力的部分,从而提供了可解释性。
研究结果如图所示,显著性图突出显示了P波区域对模型预测的影响最大。而信号伪影和异位搏动对其影响较小。

图5 显著性图
二、生存分析
此外,为了模拟具有最长随访时间的预期部署方案,研究团队还进一步进行了生存分析。
结果显示,在长达15年的随访时间中,ECG-AI预测的AF高风险患者(即预测概率≥12%),发生AF的概率要显著高于ECG-AI预测的AF低风险患者。


图6 生存分析


综上所述,本研究开发深度学习(ECG-AI)预测模型可准确预测患者的心房颤动风险,预测性能较好。

亮点小结

MIMIC数据库作为一个重症病数据库,可以说是重症科临床医生的科研加速器。但是对于非此专业,但想挖掘此数据库发文的来说,还是存在一些压力。
但机器学习的出现,可以帮我们攻克这个数据库。无论是像本文一样仅用这个数据库做外部验证,还是用该数据库不同的数据集进行模型构建和内外部验证,都是一篇优秀的文章。
同样的思路也能用在其他公共数据,都可以成为文章的一大亮点!大家在发文时可以拓宽思路,勇于尝试。如果不知道如何开始一篇文章,那郑老师统计服务团队开设的课程绝对值得你一看, 让你不再为发表SCI文章焦头烂额!
请关注“公共数据库与孟德尔随机化众号,今后我们也会分享更多公共数据如何构建预测模型的文章,大家敬请期待!

郑老师统计团队及公众号

全国较大的线上医学统计服务平台,专注于医学生、医护工作者学术研究统计支持,我们是你们统计助理!


我们提供以医学数据数据挖掘统计服务
①NAHANES:一二区论文占半数
②MIMIC:急诊数据分析与机器学习建模
GBD:全球、中国各种疾病患病、死亡研究
孟德尔随机化:疾病的因果推断研究

同时我们提供上述数据库的挖掘的一对一指导

GBD、NHANES医学数据库挖掘1对1R语言指导

联系助教陈老师咨询(微信号sas555777


公共数据库与孟德尔随机化
我们专门介绍公共数据库与孟德尔随机化,每周文献周报,呈现精品文献阅读
 最新文章