基于机器学习的瓣膜病心房颤动患者心脏血栓形成预测和特征分析

学术 2024-09-26 17:33 四川

点击上方蓝字关注我们了解更多资讯

张译文¹，王政捷²，雷诺扬帆¹，童琪²，李涛²，潘帆³，钱永军²，赵启军¹

1. 四川大学计算机学院（软件学院）（成都 610065）

2. 四川大学华西医院心脏大血管外科（成都 610041）

3. 四川大学电子信息学院（成都 610065）

通信作者：钱永军，Email：qianyongjun@scu.edu.cn；赵启军，Email：qjzhao@scu.edu.cn

关键词：心房颤动；血栓栓塞；瓣膜性心脏病；机器学习；SHAP值；人工智能

引用本文：张译文, 王政捷, 雷诺扬帆, 等. 基于机器学习的瓣膜病心房颤动患者心脏血栓形成预测和特征分析. 中国胸心血管外科临床杂志, 2022, 29(9): 1105-1112. doi: 10.7507/1007-4848.202204047

Zhang YW, Wang ZG, Lei NF, et al. Prediction and characteristic analysis of cardiac thrombosis in patients with atrial fibrillation undergoing valve disease surgery based on machine learning. Chin J Clin Thorac Cardiovasc Surg, 2022, 29(9): 1105-1112. doi: 10.7507/1007-4848.202204047

摘要

目的评估机器学习算法在心脏瓣膜病心房颤动患者心脏血栓形成的预测和表征中的应用。方法本研究从四川大学华西医院及其分院收集2016—2021年心脏瓣膜病伴心房颤动患者的临床数据，从2 515例接受瓣膜手术的患者中筛选出886例瓣膜病伴心房颤动患者纳入研究，其中男545例（61.5%）、女341例（38.5%），平均年龄（55.62±9.26）岁，192例患者术中证实有心脏血栓形成。采用5种监督机器学习算法来预测患者的血栓形成。基于患者的临床数据（特征筛选后的33个特征），采用10折嵌套交叉验证方法，通过曲线下面积、F1分数以及马修斯相关系数等评价指标对模型的预测效果进行评价。最后，使用SHAP解释方法来解释模型，并以患者为例分析模型的特征。结果随机森林模型各项综合评估指标最佳，受试者工作特征曲线下面积为0.748±0.043，准确率79.2%。对模型的解释和分析表明，每搏输出量、二尖瓣E波峰值流速和三尖瓣压力梯度等是影响预测的重要因素。结论随机森林模型实现了最好的预测性能，有望被临床医生用作一种辅助决策工具，用于筛查患有瓣膜病心房颤动的高栓塞风险患者。

正文

心房颤动（房颤）是世界范围内常见的心律失常，在普通人群中的患病率约为3%，随年龄增长而增加（60～70岁人群约为4%；70～85岁人群超过10%），并因性别、种族和地区而异。血栓形成是房颤最严重的并发症之一，很容易造成患者的残疾和死亡[1]。房颤是卒中最重要的风险因素，仅次于高血压，高血压会使卒中风险增加4～5倍。由房颤引起的卒中占所有卒中的15%～20%，占心源性卒中的50%。准确、可重复、经济的诊断技术有助于早期识别易发生血栓栓塞的人群，并指导临床医生进行早期抗血栓干预以预防血栓事件[2]。

近年来，机器学习（machine learning，ML）已被大量应用于医学领域的各个方面[3]。尽管ML的黑匣子特性让人们认为ML方法不可靠[4]，然而随着ML可解释性理论的发展，许多理论被用来解释验证ML模型，并已经应用于包括医学在内的需要高模型解释性的各个领域[5-6]。Lundberg等[7]构建了ML系统，以帮助麻醉师提高对麻醉护理中低氧血症风险的临床理解。Sabovčik等[8]使用多个ML分类器分别检测左心室肥大（left ventricular hypertrophy，LVH）和左心室舒张功能障碍（left ventricular diastolic dysfunction，LVDD），并提供了从ML模型分析中获得的前25个重要影响变量，供医生参考。然而，到目前为止，还没有研究应用ML方法来预测瓣膜病伴房颤患者血栓形成。

本文研究监督ML算法在心脏瓣膜病伴房颤患者心脏血栓形成预测和表征中的应用，使用5种ML方法建立预测模型，并在实验验证后选择随机森林模型作为表现最佳的模型，进而使用SHAP方法解释该模型，通过解释最佳模型来评估风险特征。

资料与方法

1.1 纳入与排除标准

纳入标准：符合瓣膜病伴房颤诊断标准的患者。诊断标准参考最新美国心脏病学会/美国心脏协会心脏病患者管理指南、欧洲心脏病学会房颤诊断和管理指南[9-10]。所有患者均接受超声心动图检查，如超声心动图提示确切的瓣膜结构及功能异常，包括主动脉瓣狭窄/关闭不全、二尖瓣狭窄/关闭不全、三尖瓣狭窄/关闭不全、肺动脉瓣狭窄/关闭不全，则明确瓣膜疾病的诊断。所有患者均接受心电图检查，如心电图提示房颤特征波形（P波消失，取而代之的是频率为350～600 Hz且形态、振幅、周期不断变化的房颤波/f波；心室率绝对不规则）则明确房颤的诊断。

排除标准：（1）妊娠期妇女；（2）未签署或拒绝签署知情同意书的患者；（3）拒绝随访的患者；（4）术前已经接受过抗凝治疗的患者。

1.2 数据采集

全部样本均来自四川大学华西医院及其分院的瓣膜病伴房颤患者，共记录了2 515例瓣膜手术患者，其中443例详细数据丢失，排除了1 119例无房颤的瓣膜病患者，953例符合本研究的纳入标准。数据清理后，排除异常值和缺乏关键数据的患者，886例患者被纳入数据集中，其中男545例、女341例，平均年龄（55.62±9.26）岁。最终数据集包含694个无血栓样本（非血栓形成组）和192个血栓样本（血栓形成组）。在分析之前，对患者数据进行了匿名和身份识别。

我们通过标准化的问卷调查收集病史，以同样的方式收集饮酒和吸烟习惯以及药物摄入史。体表面积（m2）=0.006 1×身高（cm）+0.012 4×体重（kg）−0.009 9[11]。动脉血压（blood pressure，BP）值是通过坐姿听诊5次并取平均值获得的。高血压的定义是收缩压≥140 mm Hg（1 mm Hg=0.133 kPa）或舒张压≥90 mm Hg，或抗高血压药物的服用史。采集空腹血液样本，测量重要的常规生化特征，如血常规、血糖、血脂。高脂血症定义为：总胆固醇（total cholesterol，TC）≥6.18 mmol/L，甘油三酯（triglyceride，TG）≥2.26 mmol/L，低密度脂蛋白胆固醇（low-density lipoprotein cholesterol，LDL-C）≥4.13 mmol/L，高密度脂蛋白胆固醇（high-density lipoprotein cholesterol，HDL-C）<1.04 mmol/L。糖尿病定义为空腹血糖水平>126 mg/dL，或有抗糖尿病药物的摄入史。此外，我们选择了在临床实践中常规用于评估心脏结构和功能的超声心动图特征。

1.3 模型开发

处理结构化数据的ML算法种类很多，不同算法适用于不同的应用场景，很难找到适合所有应用场景的最优算法，不同的模型对不同的数据集影响不同。在这项研究中，我们选择了5种不同类型的监督ML方法，LightGBM [12]、随机森林[13]、支持向量机[14]、logistic回归和朴素贝叶斯算法[15]。

LightGBM算法是梯度增强决策树（gradient boosting decision tree，GBDT）[16]算法的增强版，是解决ML问题的可靠方法。GBDT是一种由多个决策树组成的迭代决策树算法，将所有决策树的结论进行汇总，得出最终答案。LightGBM有两种核心技术，即独占特征捆绑（exclusive feature bundling，EFB）和基于梯度的单边采样（gradient-based one-side sampling，GOSS），这两种技术都可以减少训练数据量，从而在不损失准确性的情况下显著缩短训练时间。与GBDT相同，随机森林是决策树的改进，它们都由多个决策树组成，但与GBDT不同，随机森林将多个决策树集成到一个森林中，而不是将它们相加，随机森林将所有决策树的结果集成在一起，以得到最终的预测结果。支持向量机是一种二元广义线性分类器，其基本思想是求解分离的超平面，该超平面能够以最大的几何间隔正确地划分训练数据集。根据选择的核，支持向量机可以是线性或非线性分类器。朴素贝叶斯算法是一种基于贝叶斯定理和特征条件独立性假设的分类方法，利用概率统计知识对样本数据集进行分类。在本研究中，我们假设与每个分类相关的连续值服从高斯分布，即选择高斯朴素贝叶斯进行分类。

1.4 特征选择与数据预处理

本研究使用以上5种算法在收集的数据集上评估性能，找到最适合的算法及其超参数的近似范围，最后经过训练得到最终的最佳模型。

对于数据集中的多类变量，我们使用了一个One-hot方法进行编码，使用相关图删除冗余变量或与其它变量密切相关的变量，并删除缺失百分比超过30%的特征，最终保留了每搏输出量（stroke volume，SV）、二尖瓣E波峰值流速（peak mitral E-wave velocity，Emv）、三尖瓣压力梯度、左心室内径（left ventricle diameter，LVD）等33个特征值。对于缺失值<30%的特征，我们使用K-最近邻（K-nearest neighbor，KNN）算法来填充缺失数据。KNN方法的思想是识别数据集中相似的k个样本，然后使用这些样本来估计缺失数据点的值，即使用在数据集插值中k个近邻样本的平均值来插值每个样本的缺失值。实验表明，该方法优于均值插值法。

在类分布不均衡的数据上训练ML模型可能会导致模型更倾向于预测样本数量更多的类，从而降低整体模型的实际效用。因此，对于所有模型，我们都使用了类重新加权的方法来处理类不平衡问题。

1.5 嵌套交叉验证

我们选择使用嵌套交叉验证（nested cross-validationn，CV）来测试模型性能，以获得最佳模型。嵌套交叉验证的优点是，通过嵌套交叉验证获得的测试集误差几乎是真实误差[17]，可以有效防止信息泄漏。嵌套交叉验证由外部循环和内部循环组成。在外部循环中，我们使用10折交叉验证，这是一个10次循环，在每个循环中，数据集将被平均分为10份，其中9份用作内部循环的训练集，输入内循环，剩下那份作为测试集。内循环用于模型优化，在内循环中，依然使用10折交叉验证来优化模型，通过网格搜索算法[18]来优化模型的超级参数，在所有10折内循环中选择曲线下面积（area under the curve，AUC）最大的一个作为最佳模型，并在该模型上测试外循环的测试集。最终，每个模型的每个评估指标各有10个值。实验使用Python scikit学习库（1.0.1版）进行模型构建并验证模型（https://scikit-learn.org/1.0/）。

1.6 模型解释

在本研究中，我们使用SHAP（Shapley Additive exPlanations）方法来解释模型。SHAP是一种新的模型解释方法，被广泛用于解释各种分类和回归模型[19]。SHAP在博弈论中有着坚实的理论基础，将博弈论中的Shapley值最优信用分配与局部解释结合起来，通过计算每个特征在模型做出预测中所提供的贡献度来解释单例患者的预测，能提供其它模型解释方法（如LIME[20-21]）无法提供的全局一致性解释。临床医生能够从SHAP方法中得到模型所做出的预测结果的充分解释，了解哪些特征在预测血栓发生中起到了重要的推动作用，有助于临床医生对ML方法预测结果进行验证。

1.7 统计学分析

采用SAS 9.4进行统计学分析。计量资料服从正态分布，采用均值±标准差（±s）描述，组间比较采用t检验；计数资料采用频数和百分比描述，组间比较采用χ2检验或Fisher确切概率法。P≤0.05为差异有统计学意义。

1.8 伦理审查

本研究已通过四川大学华西医院生物医学伦理委员会审查，批准号：2018-301。

结果

2.1 患者基本信息

本研究共纳入886例合并有房颤的心脏瓣膜手术患者，血栓形成组和非血栓形成组患者基线特征基本相同；见表1。

2.2 模型表现

考虑到在数据集不平衡的情况下，受试者工作特征（receiver operating characteristic，ROC）曲线下面积（AUC/ROC）可能会对性能提供过于乐观的结果。为了准确评估模型的性能，除了AUC/ROC，我们还使用了多种评估指标比较模型，如精确-召回曲线下面积（area under the curve/precision-recall，AUC/PR）、F1、马修斯相关系数（Matthews correlation coefficient，MCC）。MCC数值范围从−1～1，分数越高表明表现越好。研究[22]表明，在数据不平衡的情况下，这些评估指标可以提供更多的评估信息。

测试数据集上每个模型的性能如图1和表2所示。图1显示了每个模型嵌套交叉验证的每个外部循环的ROC曲线。可以清楚地看到，与其它模型相比，随机森林具有最好的AUC/ROC，同时具有良好的稳定性，在外部循环的每个结果之间AUC值差异很小，而logistic回归模型具有较大的方差。随机森林模型在灵敏度（0.589±0.171）、正确率（0.792±0.026）、阴性预测值（0.945±0.029）这些基础指标上均取得了最优结果。虽然贝叶斯模型具有较好的特异性和精确度，但其灵敏度和MCC指标最低，这是由于数据中正负样本不平衡导致模型更倾向于将结果预测为样本数较多的负样本，而贝叶斯模型对于样本不平衡没有很好的调节能力。而随机森林模型在综合评估指标AUC/ROC（0.748±0.043）、AUC/PR（0.339±0.047）、F1（0.473±0.061）和MCC（0.324±0.081）上均取得了最佳数值，因此最终使用通过嵌套交叉验证法中优化得到的随机森林模型作为最佳模型。

图1　10折嵌套交叉循环模型结果

a～e：分别为随机森林模型、LightGBM模型、logistic回归模型、贝叶斯模型和支持向量机模型的10折ROC曲线；蓝色线条表示模型的平均值，AUC/ROC的平均值显示在图像底部；AUC/ROC：受试者工作特征曲线下面积

2.3 模型解释

对最终模型影响最大的20个特征包括SV、Emv、三尖瓣压力梯度、LVD等；见图2。此外，图3展示了模型预测的高风险实例和低风险实例。

图2　模型解释

a：经典直方图，取变量重要性平均值（SHAP值）前20的变量，从上往下由最重要到最不重要排列；b：特性对模型的影响分布，图中每个点对应1例患者，点的颜色对应变量值的大小，从红色到蓝色代表变量值从高到低。SV：每搏输出量；Emv：二尖瓣E波峰值流速；LVD：左心室内径；EDV：左室舒张末期容积；EDD：左室舒张末期直径；RAD：右心房内径；LAD：左心房内径；EF：射血分数；FS：缩短分数；RVD：右心室内径；ESV：左室收缩末期容积；IVS：室间隔厚度；LVPW：左心室后壁舒张

图3　与特定实例的模型预测风险分数相对应的SHAP实例图

a：高风险实例；b：低风险实例。图中的基值为0.499 7，代表预测模型的平均值；输出值是预测的血栓风险。红色和蓝色箭头分别表示变量值对预测风险评分的正贡献和负贡献，模型输出值与预测的风险分数相对应；EDD：左室舒张末期直径；EDV：左室舒张末期容积；LVD：左心室内径；SV：每搏输出量；Emv：二尖瓣 E 波峰值流速；LAD：左心房内径

３

讨论

本研究提出的ML模型可为临床医生提供瓣膜性心脏病合并房颤患者是否有可能发生血栓的预测，及时筛查出这部分血栓易发人群，并指导这部分患者加强血栓监测以及采取预防血栓发生的抗凝治疗。与传统的临床评估血栓风险工具“CHA2DS2-VASc评分”相比，我们的ML模型优势在于能够从患者的病史资料、生理生化实验室指标、影像学检查参数等常规数据中广泛提取特征，能够更加全面地评估血栓风险，同时能将一些平时易被忽视的指标纳入考量范围，例如心脏的各腔室内径、瓣膜附近的血流动力学参数等，更多的血栓易发人群将会因此受益。

关于对预测血栓贡献最大的前20个特征中的SV和左室舒张末期容积，我们很难理解其背后的机制，但它们与左室射血分数（left ventricular ejection fraction，LVEF）间存在一定的联系。在临床实践中，LVEF已成为评价左室收缩功能最常用的方法，它被广泛应用于疾病评估、临床决策和预后评估。在本研究中，我们的模型预测，随着LVEF值降低，血栓栓塞风险升高。这可能是由于LVEF作为左心耳血栓（left atrial appendage thrombus，LAAT）的独立预测因子之一，它的降低会使患者更容易患LAAT[23]。

与非瓣膜性房颤相比，接受机械瓣膜置换术、轻度至重度二尖瓣狭窄和左心房扩张的房颤患者发生血栓栓塞的风险增加，这表明在每种房颤情况下导致血栓形成的致病机制存在差异[24]。Emv、二尖瓣最大流速和左心房内径的增加值，以及LVD、右心室内径和右心房内径的降低值，有助于该模型预测瓣膜病房颤患者血栓栓塞风险。有研究[23]发现左心房扩张是血栓栓塞风险增加的独立预测因子，这与本研究结果一致。据推测，二尖瓣狭窄时，左心房存在慢性压力超负荷，这不仅改变了心房大小，还改变了功能，并且出现左心房低流速，最终导致血栓栓塞风险增加[25]。房颤还通过改变细胞的数量和分布，影响细胞的结构蛋白，导致心肌纤维化等方式影响左心房重构[26]。在两者的共同作用下，心房扩大，心房内血流动力学改变，导致血栓形成[27]。同时，研究[28]表明，当左心房重构时，内皮细胞的损伤也与血栓形成的风险增加有关。随着心肌结构和功能的改变，左心房内膜也会同时发生变化，这是由于扩张和低收缩导致血栓形成[26]。瓣膜流速的增加以及心房和心室内径的变化反映了上述情况的严重程度。在这方面，我们的模型预测了血栓形成的高风险值。

本研究中，某患者的二尖瓣流速增加，我们的模型预测有较高的血栓形成风险；见图3a。某患者的瓣膜结构中度异常，我们的模型预测有较低的血栓形成风险；见图3b，因为右心房血栓形成的可能性远小于左心房[27]。虽然房颤患者三尖瓣结构或功能异常是否增加血栓栓塞发生率尚未得到证实，但本研究中的三尖瓣压力梯度和三尖瓣收缩期反流速度特征在确定模型预测血栓栓塞中起重要作用。三尖瓣压力梯度增加和三尖瓣收缩期反流速度，促进我们的模型预测高血栓栓塞风险。这表明它可能与二尖瓣狭窄有关。

本研究的局限性：当血糖处于较低水平时，会增加模型预测血栓栓塞的风险。这与之前的研究不同，之前的研究表明，高血糖水平会增加血栓栓塞的风险。实验室证据[29-30]表明，慢性和急性高血糖有助于凝血激活和纤维蛋白溶解，导致促凝状态。在本研究中，血糖是患者手术前的最后一次血糖水平，对于高血糖患者，术前会对其进行血糖控制，将其血糖控制在正常水平，这或许是导致这一现象的原因。但在本研究数据中，并未对患者是否控制血糖进行记录，因此无法分辨出其真正的原因，需要后续对研究数据进一步完善。

利益冲突：无。

作者贡献：赵启军设计、组织研究，修改论文；钱永军负责组织研究，收集数据，修改论文；张译文负责设计、执行研究，分析数据，撰写论文；王政捷负责分析数据，撰写论文；雷诺扬帆协助分析数据；潘帆负责设计、组织研究；童琪参与设计、执行研究，收集数据；李涛负责收集数据。

参考文献略。

作者介绍

通信作者　钱永军

主任医师、硕士研究生导师。中国医师协会心血管外科分会十佳青年医师获得者，中华医学会胸心血管外科分会Lillehei最高奖菁英奖获得者，中华医学会胸心血管外科分会厄尔.巴肯奖第一名获得者，四川省胸心外科专业学术和技术带头人后备人选，四川省卫健委胸心外科专业学术和技术带头人后备人选。专注于心脏病微创治疗，尤其是一站式房颤微创治疗，腔镜瓣膜病微创治疗等，拥有三项华西医院微创心脏手术新技术。德国斯图加特Stuttgar Sana心脏中心及美国克利夫兰医学中心Cleveland Clinic访问学者。

主持教育部博士点、四川省科技厅重点研发支撑等项目10余项，发表SCI论文30余篇，主编《瓣膜病心房颤动基础研究及精准治疗》，授权专利10项，转化专利1项。现为美国《胸心血管外科杂志（JTCVS）》特约翻译，《中国胸心血管外科临床杂志》、《中国循证医学杂志》及《华西医学》等杂志编委，多家SCI杂志审稿人。

通信作者　赵启军

赵启军，四川大学计算机学院（软件学院）教授、博士生导师、副院长。1999-2006年在上海交通大学计算机系获得学士与硕士学位，2006-2010年在香港理工大学电子计算学系获得博士学位，2010-2012年在美国密歇根州立大学任博士后研究员。长期从事生物特征识别领域的研究工作，近年来主持相关的国家自然科学基金项目、科技部重点研发计划项目子课题、省部级项目和企业合作项目等10余项，已在国际国内学术会议和期刊上发表学术论文100余篇，获授权发明专利10多项。曾获评上海市自然科学奖二等奖，国际计算机视觉与模式识别会议（CVPR）杰出审稿人等。曾担任第11届中国生物特征识别大会（CCBR2016）和2018年IEEE身份、安全与行为分析国际会议（ISBA2018）的程序委员会主席，第9届IEEE生物特征识别理论、应用与系统国际会议（BTAS2018）和2021年生物特征识别国际会议（IJCB2021）的人脸识别领域主席。现任《中国图象图形学学报》青年编委。

本文编辑：雷芳，刘雪梅

审校：董敏

排版：张洪雪

推荐阅读

《中国胸心血管外科临床杂志》人工智能论文集

人工智能一体化三维重建应用于胸外科的中国专家共识

《人工智能在肺结节诊治中的应用专家共识（2022年版）》解读

人工智能驱动的科学研究（AI4S）在药物研发与临床实践中的应用进展

经验性与人工智能指导下精准肺段切除术效果比较的回顾性队列研究

长按或扫描二维码关注我们！

http://mp.weixin.qq.com/s?__biz=MzI1MDA4NTAxMg==&mid=2670537187&idx=3&sn=d168d2b51426d9447d7f88af92d2ec06

中国胸心血管外科临床杂志