IF30.8柳叶刀子刊--出生后第一年严重呼吸道合胞病毒感染的危险因素:模型的建立与验证

文摘   2024-10-30 13:45   北京  



总结要点

背景:针对呼吸道合胞病毒(RSV)的新型免疫方法正在出现,但对严重RSV疾病危险因素的了解不足以针对这些因素进行最佳针对性干预。本研究的目标是从基于登记的数据中确定RSV入院的预测因素,并开发和验证临床预测模型,以指导1岁以下婴儿的RSV免疫预防。

方法:在这项模型开发和验证研究中,研究了1997年6月1日至2020年5月31日期间在芬兰出生的所有婴儿,以及2006年6月1日至2020年5月31日期间在瑞典出生的所有婴儿,以及他们的父母和兄弟姐妹的数据。如果婴儿在出生后的前7天内死亡或因RSV入院,则被排除在外。结果是在出生后第一年因RSV细支气管炎入院。芬兰研究人群分为开发数据集(出生于1997年6月1日至2017年5月31日之间)和时间保留验证数据集(出生于2017年6月1日至2020年5月31日之间)。开发数据集用于预测因子的发现和选择,我们从婴儿、父母和兄弟姐妹的数据中筛选了1511个候选预测因子,并使用16个最重要的预测因子开发了逻辑回归模型。然后使用芬兰保留验证数据集和瑞典数据集对该模型进行验证。

结果:芬兰开发数据集中总共有1124561名婴儿,芬兰保留验证数据集中有130352名婴儿,瑞典数据集中有1459472名婴儿。除了已知的预测因素,如严重的先天性心脏缺陷(校正比值比2.89,95%CI2.28-3.65),我们还确认了一些不太确定的RSV住院预测因素,最明显的是食管畸形(3.11,1.86-5.19)和较低复杂性的先天性心脏缺陷(1.43,1.25-1.63)。在芬兰数据中,预测模型的C统计量为0.766(95%CI0.742–0.789),在瑞典验证数据中为0.737(0.710–0.762)。预测模型在决策曲线分析和治疗免疫计算所需的假设数量中显示出临床效用,并且其C统计量在父母收入的不同阶层中相似。

结论:已确定的预测因子和预测模型可用于指导婴儿的RSV免疫预防,或作为进一步免疫预防靶向工具的基础。

方法

1
研究人群及纳排标准

在这项开发和验证模型的研究中,调查了1997年6月1日至2020年5月31日期间在芬兰出生的所有婴儿及其父母和兄弟姐妹(FinRegistry数据),还调查了在2006年6月1日至2020年5月31日期间在瑞典出生的所有婴儿(瑞典的集成医疗和人口登记数据)。婴儿的随访时间为出生后一年。排除标准包括在0-7天龄期间死亡或因RSV而住院。

2
研究步骤

   这项研究旨在通过分析芬兰和瑞典的婴儿数据,预测婴儿在出生后7至365天内是否需要因RSV而住院治疗。为了确保结果的可靠性,研究采用两种定义RSV住院的标准,并进行了敏感性分析,比较了这两种标准的回归结果。

研究关注了15个已知的预测因子,包括婴儿的性别、出生时的孕周、父母年龄等。这些因子被认为在先前的研究中与RSV住院风险相关。然后,研究考虑了其他1496个潜在的预测因子,包括与母亲、父亲、兄弟姐妹、怀孕和新生儿相关的因素。这些因子通过逻辑回归模型的筛选和分析,以确定它们对RSV住院风险的影响。

为了验证模型的可靠性,研究将芬兰的婴儿数据分为开发数据集和验证数据集。在开发数据集中,研究使用逻辑回归模型进行训练,评估每个预测因子与RSV住院的关联。然后,研究将15个预定义的因子和最重要的候选因子合并到一个单一的逻辑模型中,通过向后逐步消除使用Akaike信息准则和L1正则化进行模型选择。

为了最大化模型的泛化能力,研究使用开发数据集的最后10年来估计模型的系数。内部验证则在时间保留的验证数据集中进行,以确保模型的性能。外部验证则使用瑞典队列进行。研究使用C-统计量评估了模型的判别能力,以区分有结果和无结果的婴儿。此外,进行了校准分析,以评估模型的预测概率与实际观察到的风险之间的一致性。

除了传统的逻辑回归模型,研究还采用了XGBoost模型进行机器学习分析。这个复杂的模型使用了所有定义的1511个预测因子,并通过ShapleyAdditiveExplanation(SHAP)值来评估变量的重要性。

      为了评估模型的潜在临床应用,研究进行了决策曲线分析,考虑了在不同预测概率截断点上指导免疫预防决策的可能性。这有助于确定模型在实际医疗决策中的有效性和可操作性。

结果
结果1  

研究预测因子和种群概况(Fig1)

      1997年6月1日至2020年5月31日期间,芬兰有1259521名儿童出生。在这些儿童中,2006例因0-7日龄死亡或RSV住院而被排除在外,2602例(0.2%)数据缺失的个体被排除在逻辑回归模型开发和验证之外。芬兰研究人群共计1259521人,其中1124561人出生于1997年6月1日至2017年5月31日之间,因此将其纳入发展数据集。其余130352人出生于2017年6月1日至2020年5月31日之间,位于时间保留验证数据集中。为了估计最终模型系数,使用了过去10年的发展数据集(2006年6月1日至2017年5月31日期间出生于芬兰),共计621487人。在2006年6月1日至2020年5月31日期间在瑞典出生的1539674名儿童中,1802名(0.1%)因死亡或在0-7天龄住院而被排除在外,78400名(5.1%)因数据缺失而被排除在外,用于外部验证的瑞典人口数据集有1459472名。

结果2

15个预定义预测变量的校正 OR(Fig 2)

将 15 个预定义的预测因子用作调整变量,以筛选来自父母、兄弟姐妹和婴儿数据的 1496 个候选预测因子与婴儿 RSV 住院风险之间的关联。在父母既往诊断中,对于母亲和父亲来说,精神病学诊断和物质使用障碍明显与RSV住院风险增加相关。孕产妇物质使用障碍反映在妊娠相关变量和新生儿变量的高调整OR上,用于诊断新生儿戒断症状(2.68,1.77-4.07)和母体成瘾药物使用对新生儿的影响(3.08,1.98-4.79)。总体而言,父母变量与婴儿RSV住院率之间的关联在母亲中比在父亲中更强。

结果3



最终预测模型变量及其与RSV入院概率的个体关联(Fig 3)

在 1511 个定义的预测因子中,我们选择了 16 个预测因子,这些预测因子在临床环境中很容易确定,并且可以合理地推广到其他国家。

结果4

与RSV流行强度相对应的模型校准变化。在强流行病中,预测概率过低,在轻度流行病中,预测概率过高,尽管如此,在合并校准曲线、大规模校准和校准斜率估计中,平均校准是令人满意的。还观察到模型辨别力存在一些差异,强流行病的C统计量略好于较温和的流行病。

结果5

保留验证数据中的模型效用分析(Fig 5)

在决策曲线分析中,临床预测模型显示,净获益高于“全部治疗、不治疗”和美国儿科学会帕利珠单抗推荐策略阈值概率范围很广,芬兰最高约为0.1,瑞典最高为0.075。作为对临床效用的探索,我们根据验证数据中的预测模型风险百分位数,估计了预防1例RSV住院免疫预防所需的治疗人数。该检验显示出与增加的临界百分位数相对应的明显增加趋势,表明模型的区分力令人满意。在芬兰的验证数据中,与2018-2020年流行期间的所有婴儿相比,RSV住院预测风险最高的前10%的婴儿的入院风险高出3.3倍(7.3% vs 2.2%)。假设免疫预防的有效性为60%,那么在风险最高的10%婴儿组中,需要治疗的人数为23人(从2018年的18人到2019年的36人不等)。同样,在瑞典,预测风险最高的前 10% 的婴儿观察到的 RSV 住院风险是所有婴儿的 3.3 倍(4.2% 对 1.3%)。需要治疗的人数为40人(从2019年的29人到2020年的77人不等)。

END




 扫码关注我们


文字 | 王倩倩

排版 | 王倩倩





小猪的科研生活
分享日常科研生活和统计以及机器学习知识
 最新文章