IF 37.6，历史新高！使用心电图数据构建深度学习模型，MIMIC为验证

文摘科学 2024-12-25 19:28 浙江

引言

最近机器学习真是大热趋势，挖掘小众的MIMIC数据库也能发文一区top！今天介绍的这篇文章，研究团队用蒙特利尔心脏研究所和MIMIC数据库的数据开发和验证基于心电图的深度学习预测模型。接下来，让我们简单看一下。

心房颤动 (AF) 是成人中最常见的持续性心律失常。但据报道，临床上约三分之一患者发作房颤时无明显自觉不适，即无症状房颤。这也导致许多患者因未能及时就医，延误了病情。

2024年12月7日，外国学者用MIMIC-IV 数据库，在期刊《European Heart Journal》（医学一区top，IF=37.6）发表题为：“Prediction of incident atrial fibrillation using deep learning, clinical models, and polygenic scores”的研究论文，研究团队基于深度学习模型（ECG-AI），旨在使用患者的心电图数据开发一个心房颤动（AF）的预测模型。

研究结果表明，ECG-AI在内部验证和外部验证中均表现出良好的预测性能，可准确预测患者心房颤动风险。并且，该模型的预测能力优于现有的其他预测患者是否有AF风险的方法。

本公号回复“ 原文”即可获得文献PDF等资料

一、预测模型的构建与验证

√数据收集与预处理

在该项研究中，研究团队收集了2004 年~2022年间蒙特利尔心脏研究所（MHI）中所有心电图。经过纳排，最终收集了145,323名患者的669,782份心电图，用于模型的构建、验证以及内部测试。

同时，团队还从重症监护医学信息（MIMIC-IV）数据库中获取了109,870名患者的437,323份心电图，对该模型进行外部测试。

异常值处理：团队排除了具有极端电压值（>10mV）的心电图。

主要结局：5年内AF的发生情况。

图1 研究人群的筛选流程

图2 研究流程

√模型的构建

在排除异常值后，研究团队按照7：1：2比例，将剩余的数据划分训练集、验证集和测试集。模型的构建过程如下：

团队使用四个A6000 GPUs（NVIDIA、Santa Clara、CA、USA），在训练集上对单个随机权重初始化的ResNet-50模型进行了训练；
通过贝叶斯网格搜索方法在验证集上优化超参数；
根据最低损失选择验证集中表现最好的模型，然后，在内部 MHI 测试集中的三个子组上报告该模型性能，即 “MHI All-Comers”、“MHI Hospitalized” 和 “MHI Biobank”。

√模型的评估

研究团队使用多个指标评估模型性能，包括区分度、校准度和受试者工作特征曲线下面积（AUC-ROC）等。

研究结果显示，ECG-AI模型具有较好的预测性能：

内部测试的结果显示，ECG-AI模型的AUC-ROC为0.78；
外部测试的结果显示，ECG-AI模型的AUC-ROC为0.77。

图3 外部验证

此外，研究团队还进一步将ECG-AI模型与其他预测方法进行比较，结果表明，该模型的预测能力优于现有的其他预测方法。具体结果如下：

ECG-AI模型（AUC-ROC=0.76）的预测性能优于现有的临床预测评分——老龄化和基因组流行病学研究队列-心房颤动（CHARGE-AF）评分以及多基因评分（PGS）。
同时，团队还发现在ECG-AI中加入PGS和CHARGE-AF能够提高模型的拟合优度，此时AUC-ROC的变化（从0.76变化至0.77）最小。

图4 MHI Biobank测试集中，模型的性能评估结果

√模型的解释

利用TensorFlow的GradientTape，团队计算了模型预测相对于输入ECG样本的梯度，从而得到了一个显著性图。该图突出了ECG信号中最具影响力的部分，从而提供了可解释性。

研究结果如图所示，显著性图突出显示了P波区域对模型预测的影响最大。而信号伪影和异位搏动对其影响较小。

图5 显著性图

二、生存分析

此外，为了模拟具有最长随访时间的预期部署方案，研究团队还进一步进行了生存分析。

结果显示，在长达15年的随访时间中，ECG-AI预测的AF高风险患者（即预测概率≥12%），发生AF的概率要显著高于ECG-AI预测的AF低风险患者。

图6 生存分析

综上所述，本研究开发深度学习（ECG-AI）预测模型可准确预测患者的心房颤动风险，预测性能较好。

亮点小结

MIMIC数据库作为一个重症病数据库，可以说是重症科临床医生的科研加速器。但是对于非此专业，但想挖掘此数据库发文的来说，还是存在一些压力。

但机器学习的出现，可以帮我们攻克这个数据库。无论是像本文一样仅用这个数据库做外部验证，还是用该数据库不同的数据集进行模型构建和内外部验证，都是一篇优秀的文章。

同样的思路也能用在其他公共数据，都可以成为文章的一大亮点！大家在发文时可以拓宽思路，勇于尝试。如果不知道如何开始一篇文章，那郑老师统计服务团队开设的课程绝对值得你一看，让你不再为发表SCI文章焦头烂额！

请关注“公共数据库与孟德尔随机化”公众号，今后我们也会分享更多公共数据如何构建预测模型的文章，大家敬请期待！

郑老师统计团队及公众号

全国较大的线上医学统计服务平台，专注于医学生、医护工作者学术研究统计支持，我们是你们统计助理！

我们提供以医学数据数据挖掘统计服务

①NAHANES：一二区论文占半数

②MIMIC：急诊数据分析与机器学习建模

③GBD：全球、中国各种疾病患病、死亡研究

④孟德尔随机化：疾病的因果推断研究

同时我们提供上述数据库的挖掘的一对一指导

GBD、NHANES医学数据库挖掘1对1R语言指导

联系助教陈老师咨询（微信号sas555777）

公共数据库与孟德尔随机化

我们专门介绍公共数据库与孟德尔随机化，每周文献周报，呈现精品文献阅读

最新文章

学思路，NHAENS如何做联合效应分析？中国学者用其拿下二区

NHANES Online平台可直接分析的第57个指标：全身免疫炎症指数（SII）

谁说旧选题就该被淘汰？看看这个小众不卷的NHANES选题赛道，拿下IF 25.4

（更正）NHANES平台可直接分析的第50个指标：表型年龄和表型年龄加速（加速）

IF 37.6，历史新高！使用心电图数据构建深度学习模型，MIMIC为验证

NHANES Online平台可直接分析的第56个指标：膳食炎症指数（DII）

北大学者挖掘GBD数据库，旧选题换个研究对象再登Lancet子刊

NHANES Online平台平台可直接分析的第55个指标：身体圆度指数（BRI）

超绝新思路！用NHANES数据库做出生队列研究，拿下JAMA子刊（IF=10.5）

王者归来！GBD数据库连发三篇Lancet主刊 | GBD数据库周报（12.7-12.13）

NHANES平台可直接分析的第54个指标：心脏代谢指数（CMI）

用NHANES横断面数据做队列研究，这个作者是懂挖掘的！

12.22直播课即将开始！欢迎参加零基础友好的“临床试验设计与数据分析课

SPSS公益课今天开课啦！零基础可入门＋全程免费＋助教答疑，欢迎报名

NHANES平台可直接分析的第53个指标：红细胞分布宽度与白蛋白浓度比值（RAR）

一区top！中南大学湘雅医院学者仅挖掘NHANES两年数据，拿下IF 8.2

大爆发！一周发文269篇，79篇二区以上| 孟德尔随机化周报（12.1-12.7）

中国学者用GBD研究特殊人群，不计算ASR也能发文Lancet子刊（IF=9.6）

IF=8.2！中国学者用NHANES指标ERS发文一区| NHANES数据库周报（11.23~11.29）

旧选题也能变废为宝！中国学者用孟德尔随机化验证NHANES探索性结果，发文二区top！

TyG指数依旧给力！中国学者结合MIMIC连发两篇二区 | MIMIC-IV数据库周报（11.16~11.22）

又一数据库免费共享癌症数据，中国学者用其探索卵巢癌负担发Lancet子刊！

NHANES平台可直接分析的第56个指标：尿白蛋白/肌酐比值和肾小球滤过率

首发！NHANES数据库2023年数据发文一区（IF=14）

12月22日！"临床试验设计与数据分析"直播课程开启，欢迎报名参加！

谁说GBD数据库不行？2019年数据照样拿来发BMJ子刊（IF=8.7）

JAMA子刊！中国学者用NHANES评估慢性肾病指标UACR，拿下IF 10.5

一区！孟德尔随机化＋四个数据库＋可成药基因发高分SCI| 孟德尔随机化周报（11.24-11.30）

孟德尔随机化和GBD结果相互验证，中国学者研究共病拿下二区top（IF=6.1）

30篇二区以上！NHANES指标LE8再拿一区（IF=5.0）| NHANES数据库周报（11.16~11.22）

一区IF 4.8！上海交大学者挖掘GBD数据，描述性分析出多张新图

一分钟教会你NHANES数据下载全流程，轻松解决变量难题！

我们整理了大概史上最全的NHANES的死亡与生存时间的数据

历史最高！一周之内，MIMIC数据库发了9篇二区以上！| MIMIC-IV数据库周报（10.26~11.01）

赢麻了！中南大学学者用NHANES四个TyG相关指标作中介，发文二区（IF=6.2）

神了！孟德尔随机化+机器学习也能构建预测模型 | 孟德尔随机化周报（11.17-11.23）

导师：NHANES数据库AIP二区文章发了这么多，你也去复现一篇

GBD新风向！中国学者预测2050年中风负担发文一区（IF=5.0）| GBD数据库周报（11.16-11.22）

IF=6.2！中国学者联合机器学习+NHANES，全新视角构建心血管预测模型

超强组合拳！中国学者用CHARLS+机器学习一周发两篇SCI | CHARLS等七大老年公共数据库周报（11.23 ）

思路起飞！浙大学者仅用双样本孟德尔随机化，拿下Lancet子刊（IF=9.7）

本周六！“机器学习”预测模型直播课程开课，发文后退款，超适合零基础！

杀疯了！中国学者联合8种机器学习法＋MIMIC多数据集，发文一区top（IF=8.8）

绝了！中国学者用8种孟德尔随机化方法发文二区（IF=4.9）| 孟德尔随机化周报（11.10-11.16）

IF=8.2！湘雅医院学者仅用NHANES两年数据拿一区 | NHANES数据库周报（11.9~11.15）

明天开课！全程免费＋助教答疑，让小白30天就能学会SPSS！

上分秘籍！中国学者探索3个NHANES高分指标，一举拿下8分+

一周两篇！GBD探究不同地区帕金森病负担，发文思路再＋1| GBD数据库周报（11.9-11.15）

IF=24.7！中国学者用GBD数据登JAMA子刊，探讨极端温度相关疾病负担发高分

发文没思路？MIMIC数据库！常规分析套路发一区 |MIMIC-IV数据库周报（10.19~10.25）

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉