//
当地时间11月16日-18日,2024年美国心脏协会科学年会(2024 AHA)在芝加哥以线下+线上结合的方式盛大召开。会议期间多位中国学者携研究成果闪耀AHA舞台。
来自京东健康的费金韬研究员在AHA 2024及AHA Data Science论坛上分享了“Cardiovascular Risk Models Using Large-Scale Physical Examination Data in China”的相关成果。本研究由京东健康、国家健康医疗大数据中心(北方)(以下简称北方医疗大数据中心)、北京大学公共卫生学院、清华大学附属北京清华长庚医院、浙江大学公共卫生学院、弗吉尼亚大学的多位学者共同完成。
体检数据提供了更多潜在的关键风险因素,可以增强风险模型的开发。此外,AHA最新的CVD风险模型——PREVENT,是基于美国人群开发的,由于两国人群的基线人口学、合并症、检验检查指标等存在较大差异,因此需要在中国人群进行验证。
本研究旨在基于山东省百万级别的大规模体检记录及相应人群的电子健康记录开发CVD风险模型,并与PREVENT模型在中国成年人中进行比较。
研究使用的数据来自北方医疗大数据中心(2016-2024年),包括929682名30-79岁且无CVD病史的参与者(表I)。纳入的特征包括人口统计学特征(6项)、慢性病合并症(11项)和常见体检项目(42项),共59个特征作为输入。终点事件定义与PREVENT模型相同,为总CVD事件及其亚型:ASCVD事件和心力衰竭事件(HF)。本研究为基于年龄尺度,进行性别特异性的生存分析,方法学上使用了经典Cox比例风险模型和随机生存森林模型(RSF)。特征重要性通过RSF中的平均最小深度进行评估,深度越小代表特征重要性越高。模型的性能通过验证集(占总样本30%)中的Harrell C统计量进行评估。
表I:按性别分层的总CVD及ASCVD、HF的训练和验证样本总结
验证集从总数据集中按30%进行分层抽样获得。数据报告为均值(标准差)。低教育水平:教育水平低于高中;APB/VPB:房性或室性早搏;BMI:体重指数;SBP:收缩压;FBG:空腹血糖;HDL-C:高密度脂蛋白胆固醇;eGFR:估计肾小球滤过率;CVD:心血管疾病;ASCVD:动脉粥样硬化性心血管疾病(包括致命和非致命性的心肌梗死和卒中);HF:心力衰竭。
结果显示,研究团队建立的RSF模型在总CVD预测中表现最佳,C-Index最高为0.82(表II)。每种性别的前15个预测风险因素如图1及图2所示。此外,PREVENT模型在中国人群中的验证显示了其良好的泛化能力,特别是在HF事件中。
表II:在验证集中,通过C-Index(95%置信区间)评估总CVD及其亚型的预测性能
*美国成年人PREVENT基础模型的结果来自原始PREVENT论文。
图1:总CVD的RSF预测模型中,对于男性最重要的15个特征,深度越小特征重要性越高。糖尿病(合并):糖尿病合并症和血糖水平的组合特征;高血压(合并):高血压合并症和收缩压的组合特征;血脂异常(合并):血脂异常合并症和高密度胆固醇与非高密度胆固醇水平的组合特征。BMI:体重指数;APB/VPB:房性或室性早搏。
图1:总CVD的RSF预测模型中,对于女性最重要的15个特征,深度越小代表特征重要性越高。糖尿病(合并):糖尿病合并症和血糖水平的组合特征;高血压(合并):高血压合并症和收缩压的组合特征;血脂异常(合并):血脂异常合并症和高密度胆固醇与非高密度胆固醇水平的组合特征。BMI:体重指数;APB/VPB:房性或室性早搏。
这项研究强调了利用大规模体检数据和尝试各种建模技术来提高CVD风险预测的重要性。除了传统风险因素外,还应更加重视人口统计学、合并症、尿液分析和心电图特征。
费金韬研究员在AHA Data Science论坛上交流风险建模经验