背景和目的
将深度学习应用于心电图(ECG-AI)是预测房颤或扑动(AF)的一种新兴方法。本研究介绍了一个在三级心脏中心开发和测试的ECG-AI模型,并比较了其与临床模型和房颤多基因评分(PGS)的性能。
方法
分析了来自蒙特利尔心脏研究所的窦性心律心电图,排除了已有房颤患者的心电图。主要结果是5年内发生房颤。通过将患者分为不重叠的数据集来开发ECG-AI模型:70%用于训练,10%用于验证,20%用于测试。在测试数据集中评估了ECG-AI、临床模型和PGS的性能。ECG-AI模型在医学信息市场IV(MIMIC-IV)医院数据集中进行了外部验证。
结果
共纳入了145,323名患者的669,782份心电图。平均年龄为61±15岁,58%为男性。15%的患者观察到主要结果,ECG-AI模型显示接收者操作特征(AUC-ROC)曲线下面积为0.78。在包括首次心电图的时间-事件分析中,ECG-AI推断高风险识别了26%的人口,其发生房颤的风险增加了4.3倍(95%置信区间:4.02-4.57)。在2301名患者的亚组分析中,ECG-AI的性能超过了CHARGE-AF(AUC-ROC=0.62)和PGS(AUC-ROC=0.59)。将PGS和CHARGE-AF添加到ECG-AI中提高了拟合优度(似然比检验P<0.001),对AUC-ROC的影响很小(0.76-0.77)。在外部队列验证中(平均年龄59±18岁,47%男性,中位随访1.1年),ECG-AI模型的性能保持一致(AUC-ROC=0.77)。
结论
ECG-AI提供了一个准确的工具,用于在三级心脏中心预测新发房颤,超越了临床和PGS。
在一项回顾性队列研究中,考虑了2004年至2022年间MHI数据库中获得的所有心电图(ECG)。如果心电图的元数据无效或波形不正确(即缺少导联或错误信号,定义为最大电压>10毫伏),或不显示窦性心律,则被排除在外。在心脏手术30天内进行的心电图、在已有房颤或房扑的患者中获得的心电图(使用与结果相同的定义,见下一部分),或在MHI没有后续随访的患者中获得的心电图也被排除(图1)。剩余的心电图随后通过将患者随机分配到不重叠的训练(70%)、验证(10%)和测试(20%)数据集中,根据年龄、性别和结果进行分层,确保这些变量在数据集中的平衡分布。在每个数据集中,定义了三个组(表1)。“MHI All-Comers”组包括每个数据集中的所有心电图。“MHI All-Comers”的两个子组被定义为:“MHI Hospitalized”组包括在MHI住院的患者的心电图,“MHI Biobank”包括MHI医院生物库中的患者子集,这是一个前瞻性的基于医院的队列,超过20,000名参与者,其中16,876人有可用的基因型数据。仅对“MHI Hospitalized”组报告了详细的共病情况,使用国际疾病分类(ICD)代码确定临床诊断。
主要结果,称为“新发房颤”(incident AF),包括新发房颤或房扑。5年内的新发房颤被建模为二元结果,并根据可用的门诊和住院临床及医疗行政数据库和心电图诊断来确定,这些诊断包括心电图采集、住院记录、急诊室访问、房颤门诊访问和电生理程序。使用200名随机选择的患者进行手动病历审查作为金标准,评估了这一新发房颤定义的敏感性和特异性。同样的临床和行政数据库被用作合格的随访接触,以确定最大随访时间,随访截止日期为在MHI的最后一次随访、心脏移植或死亡的日期。
心电图采集
心电图以XML格式通过MUSE心脏病学信息系统(GE Healthcare, Chicago, IL)检索。每个XML文件包含12个心电图导联的数据,每个导联捕获了在250Hz采样率下10秒周期内的电压读数。每个电压通过去除均值并缩放到训练集人群电压的单位方差来进行标准化。由于这种缩放方法对异常值非常敏感,因此具有极端电压值(>10毫伏)的心电图被认为是异常值,并从数据集中丢弃。
基于心电图的深度学习模型
一个使用随机权重初始化的单个ResNet-50模型,在训练集上通过四个A6000 GPU(NVIDIA,圣克拉拉,加利福尼亚州,美国)进行训练。模型接收一个单独的12导联心电图作为输入,每个导联的持续时间为10秒,采样率为250Hz。来自同一患者的多次心电图记录被独立地输入到训练模型中。通过贝叶斯网格搜索方法在验证集上优化超参数。基于最低损失,从验证集中选择表现最佳的模型,然后,该模型的性能在内部MHI测试集的三个子组中进行了报告,即“MHI All-Comers”、“MHI Hospitalized”和“MHI Biobank”。使用TensorFlow的GradientTape(版本2.9.1),计算了模型预测相对于输入心电图样本的梯度,从而生成了一个突出显示心电图信号中最有影响部分的显著性图,提供了可解释性。
临床风险模型
测试了四种不同的临床风险模型,包括“年龄与性别”、HATCH、CHA2DS2-VASc和CHARGE-AF。临床风险评分被纳入逻辑回归(LR)模型中,这些模型是使用训练和验证数据集进行拟合的。CHARGE-AF评分仅在患者纳入MHI生物库时计算,因为其他患者亚组中没有一些组成部分。基于最接近纳入MHI生物库的单次心电图(和CHARGE-AF计算)的ECG-AI预测被用来比较ECG-AI与CHARGE-AF的预测。
蒙特利尔心脏研究所生物库中的多基因评分计算
在蒙特利尔心脏研究所生物库队列中,评估了房颤多基因评分(AF-PGS)的预测能力,无论是单独使用还是与ECG-AI和CHARGE-AF结合使用。之前由Khera等人发表的AF-PGS(PGS目录ID PGS000016)被转换为GRCh38基因组构建。蒙特利尔心脏研究所生物库队列之前在Illumina全球筛查阵列上进行了阵列基因分型,随后进行了标准的基因型质量控制和基于TOPMed参考面板的全基因组插补。使用PGS000016中的权重计算AF-PGS,包括原始评分中6,730,541个中的6,502,964个单核苷酸多态性(占97%)。原始AF-PGS使用标准缩放器进行标准化,随后进行逻辑转换,将值转换到0和1之间的范围。使用最接近在蒙特利尔心脏研究所生物库注册的单次心电图来比较ECG-AI预测与AF-PGS预测。
统计分析、性能指标和报告
在ECG-AI训练后,使用逻辑回归(LR)模型将ECG-AI概率预测与临床和多基因评分整合。LR模型在训练和验证集上拟合,并在测试集上进行测试。在测试集上使用多个指标评估模型性能。使用接收者操作特征曲线下面积(AUC-ROC)、精确度-召回曲线下面积(PRC)和诊断赔率比(DOR)报告区分性能。DOR是测试阳性疾病赔率与测试阴性疾病赔率的比率.使用SciPy Python库(版本1.10.1)中的UnivariateSpline函数,通过拟合样条曲线到校准数据来评估校准,平滑因子为1。为了量化校准性能,计算估计校准指数(ECI)作为预测概率的平均值与样条拟合校准曲线之间的均方根差。通过绘制不同阈值概率的净效益(NB)来构建决策分析曲线(DCAs),同时考虑区分和校准。NB在不同的决策阈值下计算如下,其中N是总样本数,t是阈值概率:
在部署场景中,预测模型将用于指导高风险人群中的房颤密集筛查。因此,将净效益(NB)与“不筛查”或“全部筛查”的默认政策进行了比较。“不筛查”的NB为0,因为真阳性(TP)和假阳性(FP)都是0。“全部筛查”意味着过度筛查没有感知到的负面影响。要计算“全部筛查”的NB,(TP/N)被替换为患病率,(FP/N)被替换为(1 - 患病率)。例如,在一个10%的房颤事件率下,“全部筛查”意味着在给定阈值下有10%的正确分类和90%的错误分类。在每个最大化NB的事件率阈值处计算敏感性、特异性和DOR,并被认为是最优阈值。
最后,进行了时间-事件分析,其中时间0被定义为每位患者的首次心电图日期。对于MHI生物库子集,使用了最接近生物库注册的心电图。这种方法被选择来模拟一个具有尽可能长随访时间的前瞻性部署场景,并与在生物库注册时计算的CHARGE-AF进行公平比较。还通过选择产生最高预测房颤概率的心电图作为时间0进行了探索性分析。使用ECG-AI模型在所选择的最优分类阈值处的预测来确定高风险和低风险组的分层。使用Kaplan-Meier(KM)方法估计生存曲线。使用对数秩检验比较高低风险组之间的生存分布。在验证比例性假设后,通过拟合Cox比例风险模型计算两组之间的风险比(HR)。
所有结果都在测试集上报告,该测试集排除了包含在训练和验证集中的患者。ECG-AI预测在心电图层面上报出,即来自同一患者的多次心电图记录被独立地输入到训练模型中。ECG-AI预测也在患者层面上报出,通过对根据其5年房颤结果和患者身份分组的心电图的平均模型概率输出进行平均。
使用1000次迭代的bootstrapping报告置信区间(CIs)。对于正态分布的数据,结果以均值±标准差的形式呈现。对于非正态分布的数据,使用四分位数呈现结果。使用DeLong方法统计比较不同预测模型的ROC曲线。为了评估向ECG-AI添加新变量时模型拟合优度的改进,进行了对数似然比检验(LRT)。
数据分析和可视化是使用Python(版本3.8)和以下库进行的:scikit-learn(版本1.3.2)、lifelines(版本0.27.8)、matplotlib(版本3.7.5)和seaborn(版本0.13.2)。
亚组分析
研究旨在确保ECG-AI在不同患者群体中的表现保持一致。为此,通过按性别(男性和女性)、年龄(小于65岁和65岁及以上)以及社会经济地位对测试数据集进行分层,进行了预先定义的亚组分析。后者是使用加拿大多重剥夺指数(CIMD)评估的,这是一种基于2021年加拿大人口普查微观数据的社会经济条件衡量标准,通过患者邮政编码得出。综合总结得分范围从1到5,1代表最不贫困,5代表最贫困。此外,还在有无两种最常见的心脏病情况,即心力衰竭(HF)和冠状动脉疾病(CAD)的亚组中测试了ECG-AI的性能,这些情况是使用测试数据集“MHI Hospitalized”子集中的ICD代码定义的。
外部验证
为了研究ECG-AI模型在MHI之外的普适性,使用医疗信息市场重症监护(MIMIC)-IV进行了外部验证分析,这是美国波士顿贝斯以色列迪肯尼斯医疗中心急诊科或重症监护室收治患者的大型去标识化数据集。使用了与MHI数据集相似的心电图纳入/排除标准。心电图电压通过标准缩放器标准化,通过去除均值并缩放到单位方差来调整外部验证集。5年内新发房颤(主要结果)被建模为二元结果,并根据心电图和住院诊断确定。在这个外部数据集中,ECG-AI的性能也使用上述描述的AUC-ROC、PRC、校准、DCA和时间-事件分析进行了评估。
外部验证
为了研究ECG-AI模型在MHI之外的普适性,使用医疗信息市场重症监护(MIMIC)-IV进行了外部验证分析,这是美国波士顿贝斯以色列迪肯尼斯医疗中心急诊科或重症监护室收治患者的大型去标识化数据集。使用了与MHI数据集相似的心电图纳入/排除标准。心电图电压通过标准缩放器标准化,通过去除均值并缩放到单位方差来调整外部验证集。5年内新发房颤(主要结果)被建模为二元结果,并根据心电图和住院诊断确定。在这个外部数据集中,ECG-AI的性能也使用上述描述的AUC-ROC、PRC、校准、DCA和时间-事件分析进行了评估。
外部验证
为了研究ECG-AI模型在MHI之外的普适性,使用医疗信息市场重症监护(MIMIC)-IV进行了外部验证分析,这是美国波士顿贝斯以色列迪肯尼斯医疗中心急诊科或重症监护室收治患者的大型去标识化数据集。使用了与MHI数据集相似的心电图纳入/排除标准。心电图电压通过标准缩放器标准化,通过去除均值并缩放到单位方差来调整外部验证集。5年内新发房颤(主要结果)被建模为二元结果,并根据心电图和住院诊断确定。在这个外部数据集中,ECG-AI的性能也使用上述描述的AUC-ROC、PRC、校准、DCA和时间-事件分析进行了评估。
共有669,782份心电图(占筛选心电图的47%)来自145,323名患者,符合纳入标准(见图1)。在“MHI All-Comers”组中,平均年龄为61±15岁,58%的患者为男性。每位患者平均有两份心电图[第一四分位数(Q1):1,第三四分位数(Q3):5]。5年新发房颤结果在12.0%的心电图和15.6%的患者中观察到。在一项验证研究中,对随机选择的200名患者的所有可用医疗记录进行了手动检索和审查,对主要房颤结果的分类特异性和敏感性分别为100%和91%(95% CI:83.9-98.6)。新发房颤的中位时间为2年(Q1:0.1,Q3:5.6)。“MHI Hospitalized”组包括“MHI All-Comers”组中71%的心电图和53%的患者(表1)。“MHI Hospitalized”组在训练、验证和测试集中的临床特征是可比的(表2)。MHI队列中冠状动脉疾病(CAD)的患病率为71.4%,心力衰竭(HF)的患病率为13.4%。
ECG-AI模型在测试集中展现出了良好的区分能力,能够识别新发房颤(AF),与“年龄&性别”逻辑回归(LR)模型相比,其性能显著更优,AUC-ROC曲线更高,分别为0.75(95% CI: 0.745–0.753)和0.63(95% CI: 0.627–0.636;P < .001),并且提高了精确度-召回曲线下面积,分别为0.31(95% CI: 0.30–0.32)和0.17(95% CI: 0.168–0.176)(见图2)。ECG-AI模型还展现了最佳的校准性能,ECI值为0.086。将年龄和性别作为后训练LR模型添加到ECG-AI模型中,得到的AUC-ROC(0.75)相似,并没有提供更好的整体拟合(LRT统计量<0,P=1)。在患者层面,ECG-AI模型显示出最高的AUC-ROC为0.78(95% CI: 0.768–0.783)和精确度-召回曲线下面积为0.42(95% CI: 0.41–0.44)。
通过决策曲线分析(DCA),ECG-AI模型在一系列阈值概率中持续显示出最高的净效益(NB),与“年龄&性别”模型相比有显著改进,在对应事件率的概率阈值处观察到最高分离度(即心电图层面的12%和患者层面的15%)。使用12%的分类阈值,ECG-AI模型在患者层面显示出66%的敏感性,75%的特异性和93%的阴性预测值。在线补充资料的表S9提供了不同阈值下患者层面的分类指标。
亚组分析结果如图3所示。与男性患者(AUC-ROC 0.735;DeLong P < .001)相比,ECG-AI在女性患者中展现了更好的区分性能(AUC-ROC 0.77)。模型在其他亚组中,包括年龄、CIMD、随访持续时间和房颤诊断时间间隔,没有显示出显著的区分性能差异(见图3)。
时间-事件分析结果表明,被ECG-AI预测为高风险的心电图患者(阈值概率≥12%),与拥有低风险心电图的患者相比,无事件的自由概率显著降低,风险比(HR)为4.29(95% CI: 4.02–4.57;P < .001),在长达15年的延长随访中(见图4)。在敏感性分析中,去除了在心电图后30天内和1年内被诊断为房颤的病例后,KM曲线被绘制出来。模型在排除了房颤诊断时间小于1年的心电图后,也展现出一致的区分性能,这可能代表已有的阵发性房颤而非真正的新发房颤。时间-事件亚组分析在按年龄和性别分层时显示出一致的结果。
显著性图突出显示了P波区域对模型预测的影响最大。信号伪迹和异位搏动似乎对模型预测的贡献较小(图5)。
使用基于心电图的深度学习、HATCH和CHA2DS2-VASc预测蒙特利尔心脏研究所住院患者的房颤
在蒙特利尔心脏研究所住院患者中使用基于心电图的深度学习、HATCH和CHA2DS2-VASc预测房颤的研究中,ECG-AI模型与传统的临床风险评分进行了比较,以预测MHI住院队列中的新发房颤。每个患者的临床数据都经过了审核。ECG-AI模型的AUC-ROC为0.73(95% CI: 0.725–0.735),显示出比CHA2DS2-VASc(AUC-ROC = 0.55, 95% CI: 0.548–0.558)和HATCH(AUC-ROC = 0.52, 95% CI: 0.515–0.524)模型更优越的区分能力。同样,PRC显示ECG-AI模型具有最高的精确度-召回面积,为0.34(95% CI: 0.33–0.35),优于临床模型。在训练后将CHA2DS2-VASc或HATCH临床评分添加到ECG-AI模型中,并没有在测试集上提供更好的整体拟合(LRT统计量 < 0, P = 1)。还进行了敏感性分析,将病例限制在随访时间超过1年的患者中,这对临床风险模型和ECG-AI的区分性能没有显著影响。ECG-AI模型在不同亚组中的表现相似,包括在有行动性AF病例中,即根据CHA2DS2-VASc评分推荐使用OAC的情况下,心电图水平的AUC-ROC为0.728(95% CI: 0.722–0.734)。与总体结果相比,有心衰病史的患者中的区分性能降低,AUC-ROC为0.69(95% CI: 0.68–0.70),而在有冠状动脉疾病病史的患者中表现更好,AUC-ROC为0.75(95% CI: 0.746–0.758)。时间-事件分析还表明,ECG-AI预测与“MHI住院”组中长期发展房颤的风险相关(HR 3.0, 95% CI: 2.79–3.22; P < .001),在有冠状动脉疾病病史的患者中(HR 3.49, 95% CI: 3.09–3.95; P < .001)和心衰病史的患者中(HR 4.41, 95% CI: 2.74–7.10; P < .001)(见图4A–D),以及在没有心衰或冠状动脉疾病病史记录的患者中。
使用基于心电图的深度学习、AF-PGS和CHARGE-AF预测蒙特利尔心脏研究所生物库患者的房颤。
在蒙特利尔心脏研究所生物库患者中使用基于心电图的深度学习、AF-PGS和CHARGE-AF预测房颤的研究中,使用了每个患者最接近生物库注册时获得的单份心电图,来比较ECG-AI预测与AF-PGS和CHARGE-AF预测在MHI生物库组中的结果。共有2301名具有完整AF-PGS数据和CHARGE-AF评分的患者被纳入测试集。AF-PGS和CHARGE-AF模型显示出较差的区分性能,分别为AUC-ROC的0.59(95% CI: 0.57–0.63; DeLong P < .001)和0.62(95% CI: 0.60–0.65; DeLong P < .001),与ECG-AI(AUC-ROC的0.76, 95% CI: 0.74–0.79)相比。虽然将AF-PGS和/或CHARGE-AF添加到ECG-AI作为后训练集与ECG-AI相比,AUC-ROC相似,但这种添加改善了校准性能,将ECI从使用“仅ECG-AI”的0.157(95% CI: 0.125–0.198)降低到使用“ECG-AI + AF-PGS”的0.095(95% CI: 0.052–0.147)和使用“ECG-AI + AF-PGS + CHARGE-AF”的0.079(95% CI: 0.046–0.116)。LRT进一步证实,更复杂的模型提供了显著更好的整体拟合(“ECG-AI + AF-PGS”的P = .0002;“ECG-AI + AF-PGS + CHARGE-AF”的P < .0001),与“仅ECG-AI”相比。受区分和校准影响的DCA也显示,在模型中添加AF-PGS和/或CHARGE-AF到ECG-AI可以改善NB。在MHI生物库组的时间-事件分析中,当使用ECG-AI对患者进行高风险和低风险分层时,显示出优越的HR [HR 4.51(95% CI: 3.76–5.40); P < .001],与AF-PGS [HR 1.85(95% CI: 1.44–2.36); P < .001]和CHARGE-AF [HR 2.50(95% CI: 1.81–3.46); P < .001]相比(见图6)。
在对MIMIC-IV数据集中的ECG-AI模型进行外部验证时,共使用了109,870名患者记录的437,323份心电图。患者的平均年龄为59±18岁,其中47%为男性,中位随访时间为1.1年(Q1:0.03,Q3:4.7)(见表1)。5年房颤发病率为15.1%。如图7所示,ECG-AI展现出良好的区分能力、校准性能和净临床效益。时间-事件分析表明,ECG-AI预测高房颤风险的患者中有32%在长期随访中发展为房颤的风险增加了4.6倍(95% CI 4.45–4.74)(P < .001),在排除了房颤发生时间小于1年的心电图后,结果保持一致(见图8)。
排版:王倩倩
文字:王倩倩