引言
基于传统危险因素的风险预测模型虽然也能够有效的区分未来低风险和高风险的个体,但由于缺乏特异性和对复杂风险因素的不完整描述,临床适用性受到限制。
如果你需要全文,请公众号后台回复关键词“pdf”。如果你对预测模型感兴趣,来看看我们临床预测模型服务吧,一对一指导!详情可咨询助教,微信号:aq566665
研究设计
模型推导和内部验证:纳入了86,232名英国生物银行(UKB)参与者(在2006年3月13日至2010年10月1日期间招募),将队列拆分为训练集(70%)和测试集(30%)。 外部验证:纳入了4383名来自德国ESTHER队列的参与者(在2000年7月1日至2002年6月30日期间招募)。
这个评分系统包括年龄、性别、身体质量指数(BMI)、糖尿病家族史、吸烟状况、抗高血压药物和类固醇的处方。如果可以采集血液样本,建议使用临床CDRS,其中还包括HbA1c。
√代谢组学分析
Nightingale Health的高通量NMR代谢组学平台用于测量随机选择的UKB参与者基线血浆样本中的250种代谢物,以及ESTHER队列中具有足够血液样本质量的所有基线血清样本。
自变量它是如何筛选的
对于每个bootstrap样本,我们进行10次交叉验证,以识别正则化参数λ的最佳值,使交叉验证误差最小化。 LASSO Cox比例风险模型在每个重抽样的样本中使用最优λ进行拟合,这使一些系数接近于零,而其他系数完全接近于零。 我们记录了在每个bootstrap样本的最终Cox比例风险模型中具有非零系数的代谢物,这些代谢物被选择。 完成所有的1000个bootstrap样本后,我们计算这1000个bootstrap样本中每个代谢物的选择频率,作为它被选择的次数的百分比。
随后根据代谢物的选择频率进行排序,范围从0%到100%。
在1000个bootstrap样本中,LASSO选择的代谢物至少有95%(这个阈值之前已经给出)是被选择的,可以增强模型的泛化能力并最小化模型过拟合。将筛选出的代谢物纳入临床CDRS构建新的预测模型。
最终,通过LASSO分析和bootstrapping法,研究者选择了11种代谢物来增强训练集中临床CDRS对2型糖尿病风险的预测能力。
图2 11种代谢物的Pearson相关系数相关矩阵
如何理解它的自变量筛选
公众号后台回复关键词“pdf”,即可获取原文!更多关于临床预测模型与机器学习统计服务,请联系郑老师团队,陈老师微信:sas555777
关于郑老师团队及公众号
全国较大的线上医学统计公众号平台,专注于医学生、医护工作者学术研究统计支持,我们是统计助理!
我们提供以下临床试验全流程服务: