中国慢性心力衰竭患者预后预测模型的系统评价

学术 2024-10-24 15:19 四川

点击上方蓝字关注我们了解更多资讯

贾盈盈^{1, 2}，胡欢婷³，胡婧妮³，尤敏⁴，袁天漫³，宋剑平¹

1. 浙江大学医学院附属第二医院护理部（杭州 310000）

2. 浙江大学医学院护理系（杭州 310000）

3. 浙江中医药大学护理学院（杭州 310053）

4. 湖州师范学院护理学院（浙江湖州 313000）

通信作者：宋剑平，Email：zrxwk1@zju.edu.cn

关键词：慢性心力衰竭；预后；预测模型；系统评价

引用本文：

贾盈盈，胡欢婷，胡婧妮，等. 中国慢性心力衰竭患者预后预测模型的系统评价. 中国胸心血管外科临床杂志, 2024, 31(11): 1645-1654. doi: 10.7507/1007-4848.202302075

Jia YY, Hu HT, Hu JN, et al .Prognostic prediction model for Chinese patients with chronic heart failure: A systematic review. Chin J Clin Thorac Cardiovasc Surg, 2024, 31(11): 1645-1654. doi: 10.7507/1007-4848.202302075

摘要

目的系统评价中国慢性心力衰竭患者预后预测模型，为相关预后预测模型的构建、应用及推广提供参考。方法全面检索The Cochrane Library、PubMed、EMbase、Web of Science、中国知网、维普、万方和中国生物医学文献数据库中发表的有关中国慢性心力衰竭预后预测模型的相关研究，检索时限均为建库至2023年3月31日。两名研究人员严格按照纳入与排除标准独立筛选文献、提取数据，使用预测模型偏倚风险评价工具（prediction model risk of bias assessment tool，PROBAST）评价模型质量。结果共纳入25项研究，包括123个慢性心力衰竭患者预后预测模型。模型建立的受试者工作特征曲线下面积（area under the curve，AUC）范围为0.690～0.959。22项研究多采用随机拆分、Bootstrap开展模型内部验证，其AUC范围为0.620～0.932。7项研究开展模型外部验证，其AUC为0.720～0.874。所有模型的总体偏倚风险均为高偏倚风险。N末端脑钠肽前体、年龄、左心室射血分数、纽约心脏协会心功能分级、体重指数是模型中纳入的主要预测因素。结论中国慢性心力衰竭患者预后预测模型的建模方法学质量差，不同模型间的预测性能差异较大。对于已开发的模型，应大力开展其外部验证和临床应用研究。对于模型开发研究，建模前需全面考虑与疾病预后相关的各类预测因素，建模时严格遵循PROBAST的相关标准开展大样本、前瞻性研究，并使用多变量预测模型报告指南全面报告研究结果，以开发可推广性强的高质量预测模型。

正文

慢性心力衰竭（chronic heart failure，CHF）是由心脏结构和/或功能异常引起的一种复杂的临床综合征[1]。尽管心力衰竭（heart failure，HF）的诊断、治疗和预后管理已取得重大进展，但其再入院率和死亡率仍居高不下[2]。CHF预后不良给患者、患者家庭和医疗卫生系统带来巨大的疾病负担，已成为全球重大的公共卫生问题[2-4]。准确评估患者预后不良结局风险对减轻患者疾病负担和优化医疗资源分配至关重要。CHF患者预后预测模型通过患者的疾病数据全面评估患者预后不良结局风险，可帮助医护人员及时识别及干预高危人群[5]。现有预测模型可分为传统统计模型与机器学习模型[4]。机器学习模型能处理复杂、多维数据，其算法不受传统统计方法的限制，但其预测性能是否优于传统统计模型尚不明确[2,6-7]。目前，国内已开发了多种CHF患者预后预测模型，但尚不清楚哪种预测模型可投入临床实践。因此，需充分评估已开发预测模型的开发质量、模型预测性能和适用性。此外，中国CHF患者与西方国家CHF患者的社会经济地位、药物治疗、合并症等人群特点存在较大差异，在欧洲或美国人群中开发的预测模型不能直接应用于中国人群[8-9]。因此，医护人员应谨慎应用西方CHF患者预后预测模型预测中国CHF患者的预后风险分层[10-11]。综上所述，本研究系统评价中国CHF患者预后预测模型，比较不同模型间的性能优劣，以期为中国CHF患者预后预测模型的构建、完善、应用提供参考。

资料与方法

1.1 纳入和排除标准

纳入标准：（1）研究对象：中国CHF患者；（2）研究内容：CHF患者预后预测模型，并描述模型构建和/或验证过程；（3）结局指标：至少需包含再入院率、死亡率及心血管不良事件发生率中的任意1项。排除标准：（1）通过各种渠道均无法获得数据的文献；（2）非中文或英文文献；（3）排除在已有模型基础上增加指标的研究；（4）会议摘要、综述等；（5）仅涉及CHF预后危险因素，但没有构建预测模型的研究。

1.2 文献检索

系统检索The Cochrane Library、PubMed、EMbase、Web of Science、中国知网、维普、万方和中国生物医学文献数据库中有关中国CHF预后预测模型的相关研究，检索时限为建库至2023年3月31日，同时追溯纳入文献的参考文献，以补充相关文献。中文检索词包括：心力衰竭、慢性心力衰竭、心衰、心功能不全、充血性心力衰竭、再入院、死亡率、死亡数、心血管不良事件、不良心脏事件、预测、预测模型、预测因素、预后等。英文检索词包括：chronic heart failure、CHF、HF、cardiac failure、patient readmission、case fatality rate、rehospitalization、unplanned readmission、unplanned hospital readmission、hospital readmission、mortality、major adverse cardiovascular events、predict*、prediction model、prognostic model、prognos*、stratification等。检索均采取主题词与自由词联合检索的方式。此外，本研究使用了“用于查找疾病预后和诊断预测模型的检索过滤器”以精确检索[12]。

1.3 文献筛选及资料提取

两名研究者独立阅读文献题目和摘要，严格遵循纳入与排除标准筛选文献，初步确定纳入研究后，阅读全文复筛文献。当筛选结果不一致时，咨询第3名研究者协助判断。确定纳入研究后，2名研究者根据预测模型研究系统评价的关键评估和数据提取清单（critical appraisal and data extraction for systematic reviews of prediction modeling studies，CHARMS）独立提取数据并交叉核对[13]。提取的内容包括：（1）纳入文献的基本特征：第一作者、研究对象、研究类型、CHF的诊断标准等；（2）纳入文献建模的基本情况：建模方法、建模样本量、验模方法、验模样本量、灵敏度、特异度、模型中纳入的预测因素等；（3）结局指标：结局指标的定义、结局指标的测量方法、预测因素和结局指标测量的时间间隔。

1.4 模型质量评价

两名研究人员采用预测模型研究偏倚风险评价工具（prediction model risk of bias assessment tool，PROBAST）独立评价模型质量，若评价结果存在分歧，则与第3名研究员讨论并达成一致意见[14]。PROBAST旨在评估用于诊断或预后的多变量预测模型的偏倚风险和适用性，其由4个领域组成，预测模型整体的偏倚风险和适用性评价可被判断为“高风险”“低风险”或“不清楚”[14]。4个领域分别为：（1）研究对象：研究的数据来源及其纳入排除标准；（2）预测因素：预测因素的定义、测量方法、测量时间、是否使用盲法等；（3）结局：结局指标的定义、测量方法、测量时间、是否使用盲法等；（4）分析：缺失数据处理、分类变量处理等影响模型预测性能的关键统计因素是否得到正确处理。最后依据“短板理论”综合各领域的评价结果，对预测模型的偏倚风险和适用性做出整体评价，即只要有1个领域为“高风险”，则模型整体偏倚风险评价结果为“高风险”。此外，对于模型开发研究，即使模型评估的4个领域均为“低风险”，若模型缺乏外部验证则仍调整为“高风险”[14]。

1.5 研究注册

该系统评价已在PROSPERO平台注册，注册号：CRD42023412182。

结果

2.1 文献筛选结果

数据库检索共获得7281篇相关文献，使用EndNote X9剔除重复文献后剩余5205篇文献，逐层筛选后纳入25篇文献，包括10项回顾性研究[5,15-23]和15项前瞻性研究[2-3,24-36]。文献筛选流程见图1。中国CHF患者非计划性再入院率为3.50%～59.00%，死亡率为4.90%～29.00%。纳入文献的基本特征见表1。

图1　文献筛选流程图

*：The Cochrane Library（n=178），EMbase（n=406），Web of Science（n=2 427），万方（n=340），知网（n=1 221），维普（n=339），中国生物医学文献数据库（n=333），PubMed（n=2 037）

2.2 预测模型构建情况与预测性能

25项研究报告了123个CHF患者预后预测模型。研究对象方面，4项研究[17,33-34,36]构建了特异性CHF患者预后预测模型，其中2项研究[17,34]针对收缩性CHF患者，1项研究[36]针对老年CHF患者，1项研究[33]针对CHF易损期患者。建模方法方面，10项研究[2-3,5,21-22,24,27-28,31,36]应用了Cox比例风险模型，8项研究[15,18-20,26,30,32-33]采用了logistic回归模型，4项研究[25-26,32,35]采用随机森林模型，其他研究[25,32,34]采用高斯过程模型、支持向量机等方法构建模型。模型主要以列线图的形式呈现，此外3项研究[2,22,33]采用列线图与回归方程结合的方式呈现结果，2项研究[18,30]以回归方程的方式展现结果，2项研究[15,20]开发了风险评估表，1项研究[26]开发了在线风险计算器。纳入模型的区分度主要通过受试者工作特征曲线下面积（area under the curve，AUC）、C统计量（C-index）评估，采用Hosmer-Lemeshow检验（P>0.05）和校准图进行校准度评估。模型验证方面，除3项研究[18-19,27]外其余研究均开展了模型内部验证，43个模型内部验证的AUC均＞0.7，模型的预测性能良好。7项研究[3,17,23,26,29-30,33]开展了模型外部验证，但4项研究[17,23,26,33]未报告模型外部验证的AUC。模型中出现频率较高的前5个预测因素是N末端脑钠肽前体（N-terminal pro-brain natriuretic peptide，NT-ProBNP）、年龄、左心室射血分数（left ventricular ejection fraction，LVEF）、纽约心脏协会心功能分级、体重指数（body mass index，BMI）。纳入文献建模的基本情况见表2。

2.3 偏倚风险与适用性评价

2.3.1 研究对象领域

10项研究[2-3, 17, 24-26, 29-30, 32, 34]的研究对象领域偏倚风险低，其余研究的研究对象领域偏倚风险高。导致偏倚风险高的主要原因是研究设计多为回顾性研究、病例对照研究。建议未来开发预后预测模型时采用前瞻性队列研究设计，以降低研究对象偏倚风险[37]。

2.3.2 预测因素领域

14项研究[3, 16, 18-24, 27, 31-33, 35]预测因素领域偏倚风险高，6项研究[5, 15, 25, 28, 34, 36]偏倚风险不清楚，其余研究偏倚风险低。7项研究[3, 23-24, 26, 31-32, 35]为多中心研究，各中心的预测因素收集与评估的方式可能存在差异，从而降低了数据的可靠性。10项回顾性研究[5, 15-23]在结果已知情况下测量预测因素，无法对研究人员使用盲法，测量过程容易受结局影响。6项研究[5, 15, 25, 28, 34, 36]未报告预测因素的定义或测量方法，预测因素的偏倚风险不清楚。

2.3.3 结果领域

1项研究[18]结果领域偏倚风险高，3项研究[20-21, 28]结果领域偏倚风险不清楚，其余21项研究[2-3, 5, 15-17, 19, 22-27, 29-36]结果领域偏倚风险低。刘黎霞等[18]的研究中，结局指标为住院期间CHF患者死亡率，预测因素评估和结果确定的时间间隔较短，因此偏倚评价问题“预测因素评估和结果确定的时间间隔是否合理？”评价为“否”。Lin等[20]的研究中未报告预测因素评估与结果确定的时间间隔，因此，偏倚评价问题“预测因素评估和结果确定的时间间隔是否合理？”评价为“不清楚”。2项研究[21, 28]对结局的判定方法未进行详细说明。

2.3.4 分析领域

3项研究[3, 19, 28]分析领域的偏倚风险为“不清楚”，其余研究分析领域偏倚风险高。建模时每个变量所对应的事件发生数应≥20，验模的样本量应≥100例[38]，但13项研究[5, 15-16, 21-22, 25, 27, 29-30, 33-36]的建模样本量不足，5项研究[17, 25, 29, 34-35]的验模样本量＜100例。7项研究[2-3, 5, 24, 26, 31-32]采用Miss forest插补法、多重插补处理缺失数据，2项研究[15-16]直接排除了数据缺失病例，其余研究均未报告数据是否缺失。模型中变量的筛选应结合临床知识、预测因素测量的一致性等因素筛选，而18项研究[2-3, 5, 15, 18, 20-25, 27-31, 35-36]仅通过单因素和多因素分析筛选变量。数据复杂性方面，25项研究均未报告数据复杂性；2项研究[16-17]未报告模型的AUC，7项研究[16-18, 30-32, 35]未评估校准度，模型性能评价指标报告不全。模型偏倚风险和适用性评价情况见附件（https://www.tcsurg.org/article/10.7507/1007-4848.202302075）。

2.3.5 适用性评价

评价结果显示，所有研究在研究对象、预测因素、结果3个方面都有良好的适用性。

３

讨论

尽管所有预测模型的区分度为中等到良好，但由于建模样本量不足、模型缺少外部验证、缺失数据处理不当、预测因素筛选方法不当等因素导致所有模型均为高偏倚风险，模型的预测性能可能被高估[39]。方法学质量较差造成的偏倚无法挽回，所以PROBAST的方法学质量遵循“最低评级”原则。以预测因素的筛选为例：NT-ProBNP作为HF高危人群识别、诊断及预后评估最主要的生物标志物是模型中最常被纳入的预测因子[40-41]。HF预后生物标志物指南指出心型脂肪酸结合蛋白、C反应蛋白或白细胞介素-6等生物标志物有助于HF的危险分层及预后评估[42]。但这几种生物标志物尚未被纳入预测模型，分析造成该结果的原因可能为多数研究仅采用单因素与多因素分析的方法筛选预测因素，可能遗漏了重要的预测因素。因此，未来的研究建模前应全面纳入患者基线特征、实验室检查、治疗用药、生物标志物等所有与疾病预后相关的预测因素，统一预测因素的评估方法，建模时使用合理的方法筛选预测因素，严格遵循PROBAST开发高质量预后预测模型[14]。

清晰透明的研究结果报告对提高模型再现性和解释如何在临床环境中应用该模型至关重要[43]。但部分研究由于预测因素的测量方法未报告、模型评价指标数据报告不全、模型呈现方式未报告等因素，导致其他研究人员难以验证及使用这些模型。因此，未来的研究应遵循预测模型报告指南，清晰报告预测模型建模过程、验模过程、模型评价指标、模型呈现形式等关键信息，以提高模型的透明度和可推广性。

此外，为筛选出最优模型并将其应用于临床实践，开展模型性能优劣的比较至关重要。10项研究[2-3, 5, 21-22, 24, 27-28, 31, 36]采用Cox比例风险回归模型建模，其中Gao等[3]建立的模型样本量充足，模型内部验证与外部验证的AUC均＞0.7，模型预测性能良好，其余9项研究均未开展模型外部验证，模型预测性能有待验证。8项研究[15, 18-20, 26, 30, 32-33]采用logistic回归模型建模，其中王金琳等[30]所建模型的内部验证与外部验证AUC均＞0.8，模型预测性能良好。4项研究[25-26, 31-32]比较了传统统计模型与机器学习模型预测性能的优劣，其中3项研究[25-26, 32]显示机器学习模型预测性能更佳，1项研究[31]显示ELM Cox模型性能最佳。虽然机器学习模型预测性能良好，但其可解释性低，提高模型的可解释性可帮助医护人员做出更精准的治疗决策[44]。沙普利值加性解释（SHapley Additive exPlanation，SHAP）是解释各种机器学习模型黑盒的新框架[45]。Tian等[26]发现使用SHAP框架后模型的解释性得到提高。因此，未来构建机器学习模型时可使用SHAP框架提高模型的可解释性。此外，本系统评价纳入的研究缺乏预后预测模型与常规CHF患者预后风险评分、中国本土开发CHF患者预后预测模型与国外CHF患者预后预测模型间预测性能的优劣比较。为筛选出预测性能最佳的预测模型，未来可开展多个预测模型性能的横向比较研究。

同时本研究发现各预测模型纳入的预测因素、随访时间、结局指标、建模方法不尽相同，给模型的比较、应用与推广带来了困难。结局指标方面，不同研究中的结局指标的定义不同，导致不同研究间CHF预后事件的发生率差异较大。如陈章炜等[27]的研究中结局指标特指因HF导致的患者再入院率，而Han等[24]的研究中结局指标则为HF患者的全因再入院率。因此，未来的研究应标准化结局指标，以便精准比较不同预后预测模型的预测性能。随访期方面，纳入研究的随访时间范围为31 d至5年。部分研究[18, 22]结局时间为31 d或住院期间，预测时间过短。而CHF为长期潜伏性慢性疾病，因此CHF患者的预后分析会涉及到不同时间段的再入院、心血管事件、死亡情况的预测。未来的研究可延长结局指标观察时间，开展CHF预后轨迹预测，以加强中长期预后风险预测。研究方法方面，由于各项研究使用不同的建模方法、纳入不同的预测因素，而临床实践所使用的适当模型将取决于该医疗场所的特定患者和数据收集系统，导致文献难以量性综合，预测模型难以推广[39]。为解决模型的适用性受目标人群限制的问题，建议未来的研究根据CHF疾病亚型开发针对性的风险模型，将有助于为患者提供个性化预防和治疗策略[46]。机器学习模型能整合病例信息系统中大型、复杂和多维数据，可同时处理大量输入变量，而各大医院的病例信息采集系统内容不尽相同，且病例系统可能无法包括建模所需的全部数据，这给预后模型的临床应用带来了困难[47]。此外，模型中纳入预测因素数量过多也会给数据收集与处理带来不便。因此，为推动预测模型的临床应用与普及，需开发标准化医院电子病历系统以供机器学习模型训练，建模时还需考虑模型中预测因素的数量与收集的难易程度，以纳入合理数量的预测因素达到最佳预测效果，提高模型的推广性。

研究的局限性：本研究仅纳入中、英文文献，可能存在发表偏倚；由于研究设计和统计数据的异质性，本研究无法开展定量分析；其次，部分文献未报告模型的特异度、灵敏度、校准度等模型性能评价指标，系统评价结果只基于当前证据；此外，本研究纳入的大部分模型未进行外部验证，且尚未发现已应用于临床的预测模型，模型的可推广性有待验证。

综上，本研究共纳入25篇文献，123个中国CHF患者预后预测模型。所有模型偏倚风险高，且各模型纳入的预测因素、随访时间、结局指标、建模方法不尽相同，模型的预测性能、稳定性和可推广性还需验证。对于已开发的模型，应大力开展这些模型的外部验证和临床应用研究，以提高模型的可推广性。对于模型开发研究，建模前研究人员应全面掌握PROBAST标准，全面纳入与疾病预后相关的各类预测因素，选择合适的建模与验模方法开发高质量预测模型，使用多变量预测模型报告指南全面报告研究结果。

利益冲突：无。

作者贡献：贾盈盈负责论文设计，数据核对，论文撰写和修改；胡欢婷、胡婧妮、尤敏和袁天漫负责数据整理与分析；胡欢婷和宋剑平负责论文设计，审阅与修改。

参考文献略。

作者介绍

通信作者　宋剑平

浙江大学医学院附属第二医院护理部副主任，党支部书记，主任护师，硕士生导师。担任中华护理学会心血管护理专业委员会副主任委员，国家心血管病专家委员会护理专业委员会副主任委员，浙江省护理学会理事，心血管专业委员会主任委员，浙江省医院协会医疗质量管理专业委员会浙江省静脉血栓栓塞联盟临床委员会护理组副组长。为中华护理学会心血管专科京外临床教学基地、全国首批心血管病护理及技术培训示范基地等负责人。担任《中国护理管理杂志》《中华急危重症护理杂志》编委，《中华现代护理杂志》审稿专家，美国AHA-浙医二院培训中心BLS导师。获全国五一劳动奖章、中华护理学会杰出护理工作者等荣誉。主持省厅科研项目6项，发表论文60余篇，其中2篇获中华护理百篇优秀论文。

第一作者　贾盈盈

中共党员，浙江大学医学院第二临床医学院2022级全日制研究生，研究方向为数字化居家心脏康复，曾任浙大二院麻醉护理班党支部书记、浙江大学研究生会学术部干事。在读期间发表SCI、CSCD论文共15篇，担任Digital Health、Scientific Reports等期刊审稿人。以主要执笔人（排名：2/8）起草《中国经导管二尖瓣缘对缘修复术患者围术期管理专家共识（2023版）》。主持校级大学生创新项目、国家级大学生创新项目、浙江省教育厅一般科研项目各1项，主参（排名第2）浙江大学“双一流”优势特色学科科研培育基金1项、申请发明专利1项。

本文编辑：雷芳，刘雪梅

审校：董敏

排版：张洪雪

推荐阅读

国产左心室辅助装置植入是否同期行二尖瓣成形术的早期临床结果

精彩回顾|左心室辅助装置专题：2022—2024年

心脏移植与左心室辅助装置植入患者围术期肾功能比较的回顾性队列研究

儿童心脏移植22例近远期疗效的单中心回顾性研究

长按或扫描二维码关注我们！

http://mp.weixin.qq.com/s?__biz=MzI1MDA4NTAxMg==&mid=2670537853&idx=2&sn=51e88ad3186f4ac7eae1454f5e2a098b

中国胸心血管外科临床杂志