各位读者大家好!机器学习在近年的临床研究中可谓是大热门,但奈何许多团队可能由于既往缺乏相关研究背景和统计学专业人员,因此对这一热门技术缺乏深入了解和运用。今天小编就给大家分享并解读一篇精彩的机器学习相关临床研究—云南省儿童医院付红敏教授团队通过机器学习算法开发并验证了一种适用于后疫情时期呼吸道合胞病毒(RSV)相关儿童严重急性下呼吸道感染(SALRTI)的预测评分模型。这篇文章为研究者们提供了一个清晰的视角,通过机器学习与多中心临床数据相结合帮助临床工作者和科研人员更好地理解和预测RSV-SALRTI。
该项研究题目:A novel combined nomogram for predicting severe acute lower respiratory tract infection in children hospitalized for RSV infection during the post-COVID-19 period;近期online于知名免疫学期刊《Frontiers in Immunology》(最新IF 5.7);云南省儿童医院(暨昆明市儿童医院,云南省儿童医学中心)呼吸与危重症医学科 刘海沣博士 及 付红敏教授 分别为该项研究的第一作者和通讯作者。
图例摘要
呼吸道合胞病毒(RSV)是世界范围内引起5岁以下儿童急性下呼吸道感染(ALRTI)最常见的病因。数据显示,全球每年约有3300万人次RSV所致的新发儿童ALRTI,占5岁以下所有ALRTI的28%,其中360万患儿需住院治疗,超过10万例住院患儿死亡。更令人担忧的是,由于新冠大流行所导致的免疫债问题,后疫情时期许多国家和地区均观察到RSV感染率发生明显回升,住院人数激增,甚至超过新冠大流行前的历史季节性发病水平,且其临床特征及严重程度也呈现出不同以往的特点。鉴于此,开发一种新型、准确的RSV-SALRTI预测工具是亟需的且具有重要临床意义。
众所周知, RSV是引起全球儿童急性下呼吸道感染(ALRTI)的主要病毒性病原,感染后可致毛细支气管炎和肺炎等,重症患儿可出现呼吸衰竭,甚至死亡,对儿童健康构成巨大威胁。RSV传染性较强,几乎所有2岁以下儿童均有过RSV感染。《LANCET》发布数据显示,2019年全球约有3300万人次(UR: 2540 - 4460万例)RSV感染所致的儿童ALRTI,其中360万患儿(UR: 290 - 460万)需住院治疗,死亡病例超过10万(UR: 84,500-125,200)。既往研究指出,约20.8%~25.5%的RSV-ALRTI可发展为严重ALRTI(SALRTI),这也被认为是儿童群体中RSV相关院内死亡的主要原因。更严峻的是,新冠大流行引发了“免疫债(Immunity Debt)”,这也使得疫情过后许多国家和地区发生了不同程度RSV感染率增加,住院率急剧攀升,甚至超越了疫情前的季节性发病记录。同时,RSV感染的临床表现和严重性也显示出与以往不同的特征。因此,迫切需要开发一种新的、准确的RSV-SALRTI预测工具,这于临床而言具有极其重要的意义。
本期分享的这项研究为一项多中心回顾性研究。该研究在后疫情时代背景下,于云南省9家公立三甲医院展开,入组了包括云南省儿童医院在内7所参研单位2023年RSV感染住院患儿作为模型开发数据集(共计1102例),另外两所参研单位(临沧市人民医院,大理州人民医院)提供了其2024年1月至3月的RSV住院患儿数据作为模型外部验证数据集(共计249例)。发展为SALRTI的患儿被纳入重症组,其余患儿均归类为非重症组;该研究设置了包含人口学、临床及实验室特征在内的39个常见指标作为潜在预测变量,而后续则是通过一系列精彩的机器学习手段进行了数据降纬、变量筛选、模型建立及可视化、模型性能评估和外部验证(Note:作者在原文中共享了本研究所使用的所有R语言包链接,需要的小伙伴可以自取哦)。
在对两组患者进行基本的分析后,为了最大限度地减少潜在的多重共线性和过拟合,作者采用了最小绝对收缩和选择算法(LASSO回归,即一种L1正则化的惩罚回归模型,通过R语言包‘GLMNET’实现),基于最佳Lambda参数筛选非零系数变量作为模型的候选预测因子。随后再采用多因素Logistic回归分析(MLR)确定RSV-SALRTI的独立危险因素并获取概率计算方程;最后,将获取的9个独立的危险因素(年龄、早产、基础病、抽搐、NLR、IL-6、LDH、D-二聚体和混合感染)整合并可视化为一个Nomogram。重要的是,在临床应用中,对于一个RSV入院患儿,上述9项指标是常见且易获得的,不会给患者家庭增加额外的经济负担,将上述9项指标数值输入模型中即可获取该患儿发展为SALRTI的初步风险概率,这对于早期的临床决策而言是非常有价值的!可以看到,这基本上就是一个非常完整的经典建模方式了,有兴趣的小伙伴们可以参考学习!
在完成建模后,作者还进行了内部和外部验证来充分评估该模型性能。内部验证方面,使用R语言包‘CARET’将开发数据集中的患者按7:3的比例随机拆分为训练集和内部验证集,随后采用ROC曲线、校准曲线以及DCA曲线来评估模型对RSV-SALRTI的鉴别能力、预测准确性及模型所能提供的临床净收益。
外部验证过程,则是基于临沧市人民医院、大理州人民医院提供的两个独立的儿童RSV队列完成的(也就是说,这部分数据并未参与到模型开发过程)。其中临沧子集为142例,大理子集为107例(见下表)。58例(23.3%)患儿发展为RSV-SALRTI。将模型放入该数据集进行验证,结果显示,不管是在整体的验证集中还是两个子集中,ROC曲线、校准曲线及DCA的结果都是令人满意的,证明了该模型出色的预测能力、准确性和临床价值。
此外,值得大家注意的一个话题便是前文提及的“免疫债”,这个术语最早是法国儿科感染学组(GPIP)Robert Cohen等人在《Infectious Diseases Now》上提出,并很快在国际儿科领域引起广泛关注和引用;而我们检索发现,付红敏教授和刘海沣博士近期在《Infectious Diseases Now》发表了一篇题为“Immune debt: A concept conducive to improved public health awareness”的Letter,就免疫债问题与Robert Cohen等人以及美国University of Nebraska的Luwen Zhang等人展开了详细讨论。
最后,需要思考的是,从理论上来说,新冠大流行期间严格的非药物干预措施导致的免疫差距可能会随着后疫情时期的延长而逐渐减小,那么该研究提出的RSV-SALRTI预测模型在未来更长的一段时期内是否依旧具备临床适用性?这或许是一个值得继续探究的问题。不过我们在联系该研究相关作者后,该团队介绍,他们正与德国海德堡大学儿童医院Christian Gille教授课题组展开合作,该模型目前正在德国进行前瞻性的独立外部验证,以期通过纳入不同时期、不同人种的RSV患儿进行分析,进而进一步确认这一RSV-SALRTI模型的普适性和可推广性!据悉该验证研究将在海德堡持续纳入2024整年的RSV患者数据,让我们期待在2025年见到他们下一步详细结果。