14.7/Q1，顶刊非肿瘤纯生信如今热捧新数据库！机器学习携手多组学，高分轻松拿捏

文摘 2024-10-09 18:11 海南

生信Rhim持续更新风湿免疫科，捕捉当下热点指标/思路，感兴趣的老师可以点点关注~需要定制化分析的老师欢迎扫码联系lulu~

文章标题：Data-driven identification of predictive risk biomarkers for subgroups of osteoarthritis using interpretable machine learning

中文标题：使用可解释的机器学习对骨关节炎亚组的预测风险生物标志物进行数据驱动识别

发表期刊：Nat Commun

发表时间：2024年4月

影响因子：14.7/Q1

研究背景

骨关节炎（OA） 的患病率不断增加，对患者的生活产生严重影响。然而，我们对驱动 OA 风险的生物标志物的理解仍然有限。

研究方法

我们通过开发一个机器学习模型来预测个体风险并识别 OA 诊断前 5 年的风险生物标志物。通过整合多模式患者数据，确定具有不同风险生物标志物特征的 OA 亚组。该模型利用电子健康记录（EHR）、临床生物标志物、自我报告的问卷数据、基因组学、蛋白质组学和代谢组学，在被诊断患有 OA 的英国队列中捕获了广泛的风险生物标志物景观可用个体子集。

结果分析

1. OA 研究人群

英国生物库（UKB）是一项基于人群的队列研究，与英国个人电子健康记录（EHR）相关联，有 502476 人参与。从 EHR 数据中确定了 103086 例 OA 诊断患者（约占参与者的 21%），并确定了相同数量的未被诊断为 OA 的对照参与者。对照随机选择且与病例患者 OA 诊断日期相匹配。该研究集中在评估中心后长达 5 年的 OA 诊断，旨在捕捉诊断前 5 年预测 OA 诊断的风险生物标志物，为探索老龄化人口深层表型的预防性干预提供潜在窗口。最终，19120 名诊断为 OA 的患者和 19252 名对照组被纳入分析。

2.风险建模

在确定 OA 研究和验证人群后，对多模态纵向患者数据进行处理并集成到 XGBoost 机器学习模型中。该模型用于预测 OA 诊断的 5 年风险，整合了招聘评估中心的多种数据以及 OA 诊断或匹配指数日期之前 5 年的纵向 EHR 临床数据，EHR 数据涵盖广泛内容。可解释机器学习框架在群体、精度和个性化水平上探索和量化 OA 的风险生物标志物。

3. 根据 5 年多模式临床数据预测 OA

将回顾性纵向临床数据整合到 XGBoost 模型中的 Clin 模型，用于预测 OA 诊断的 5 年风险。在 5×5 交叉验证的测试集中评估性能，该模型实现了 0.72 的交叉验证 ROC-AUC 性能，能较为准确地预测患 OA 的患者和未患 OA 的个体，预测性能在随机模型初始化中稳健且优于在排列的 OA 状态标签上训练的模型。还评估了 Clin 模型对不同受影响关节的 OA 特定亚组的预测性能，范围为 0.67 - 0.73，负重关节预测性能较高，联合分层模型与 Clin 模型相比性能略有不同。

4. 骨关节炎（OA）患者聚类和特征

Clin 模型证实 OA 风险因素在个体间有异质性。为捕捉此异质性，利用 Clin 模型的 SHAP 值对风险生物标志物聚类，经优化后识别出 14 个个体集群。聚类可发现高风险亚组，SHAP 值能解释特征重要性，用特定方式描述集群并生成 OA 亚组特征概述和风险预测原型。最后对蛋白质组学数据进行差异表达分析以获得分子 OA 特异性风险生物标志物。

5. OA研究人群中的聚类预测指标和定义规则和独立保留人群中的验证

为识别高预测 OA 风险的集群并了解亚组特征，定义了每个集群内 Clin 模型的预测性能指标。前三个集群占所有个体的 23%，对个体为 OA 病例的预测性最强，F1＞0.83；另一组六个集群占所有个体约 35%，对 OA 有较适度的预测能力（0.73＞F1＞0.61）；最后五个集群占所有个体约 41%，对 OA 的预测性最低（F1＜0.35）。

6.骨关节炎的个性化风险生物标志物

Clin 模型的 SHAP 值可量化个体患者数据对 OA 诊断风险的影响，通过瀑布图能可视化个体 OA 风险概况，展示风险生物标志物的正负作用。如集群 1 中一位患者预测 OA 风险为 64%，主要由特定 BMI 和年龄驱动，未服用 NSAIDs 等因素降低风险，其他生物标志物也有次要贡献。该方法虽不能证明 BMI 与 OA 风险的因果关系，但提示在 OA 诊断前可对高影响的可改变风险生物标志物进行干预以降低风险。

7.多组学 OA 风险生物标志物

为探索 OA 的分子风险生物标志物，在临床预测模型（Clin 模型）中结合各种组学数据与临床特征，包括 OA 遗传学、代谢组学和蛋白质组学数据用于可获得这些数据的个体子集。与 Clin 模型相比，预测性能保持不变，敏感性分析也证实特定组学患者亚群的性能无变化，但纳入 OA 组学特征影响了模型中 OA 风险生物标志物的排名。

8.关节间 OA 风险生物标志物异质性

为进一步探索风险生物标志物对不同关节 OA 的影响，在被诊断患有 OA 的五个关节的个体子集上重新训练 Clin 模型。与 Clin 模型相比，除足部特异性模型预测性能较低外，其他关节特异性模型未观察到重大预测性能差异，但对最具预测性的特征有不同排名。OA 诊断前 1 年的年龄和 NSAID 处方对预测各关节分层的 OA 风险仍重要，而 BMI 在不同关节中的重要性不同，在负重关节（膝关节、髋关节和足部）预测 OA 诊断风险的重要性高于手臂和脊柱。

文章小结

研究基于UKB数据库构建OA机器学习模型并整合组学特征，确定了OA特异性风险生物标志物，突出其在潜在OA疾病生物学预测方面的重要性，这些成果有望推动OA的早期筛查、预防和治疗并减少发病与进展。（如果你正寻求思路复现、实验设计或定制化的数据分析服务，那么请不要错过我们哟~）

http://mp.weixin.qq.com/s?__biz=MzU1NzgyODkyOQ==&mid=2247484691&idx=1&sn=19290229a3327579b167ff92414ad27d

生信Rhim

生信Rhim，持续更新风湿免疫科风湿性关节炎，系统性红斑狼疮，强直性脊柱炎，骨关节炎，痛风等疾病的临床生信前沿文献和思路，提供专业的生信分析服务：思路设计，生信分析，文献复现，科室科研培训，数据库搭建，全力助力您的科研之路！

4.8/Q1，首都医科大学国自然项目：UKB+单变量+多变量+双样本+双向孟德尔随机化分析肌肉减少症与缺血性卒中的因果关系

5.7/Q1，类风湿性关节炎：心力衰竭风险上升的潜在因素 —— 美欧人群研究成果解读

9.6/Q1，全球、区域和国家六种主要免疫介导的炎症性疾病的发病率：2019 年全球疾病负担研究

5.7/Q1，南方医科大学南方医院孟德尔随机化+转录组数据探讨乳腺癌系统性红斑狼疮的因果关系

14.7/Q1，顶刊非肿瘤纯生信如今热捧新数据库！机器学习携手多组学，高分轻松拿捏

7.5/Q1，安徽医科大学第一附属医院孟德尔随机化大揭秘：系统性红斑狼疮和常见女性激素依赖性恶性肿瘤的跨种族研究

7.6/Q1，中南大学湘雅医院影像学+双向孟德尔+WGS研究滑膜炎与膝关节和手部骨关节炎之间的关联

7.5/Q1，首都医科大学运用GBD数据库：1990 年至 2019 年全球和国家动脉粥样硬化负担

9.7/Q1，上海交通大学医学院孟德尔+SMR+共定位药靶确定抗糖尿病药物在治疗骨关节炎中具有潜在作用

6.1/Q1，成人超重会导致骨质疏松？复旦大学运用NHANES研究：终生体重指数（BMI）轨迹与骨质流失之间的关联

3.0/Q2，痛风的危险因素有这些？！川北医学院附属医院基于机器学习构建了痛风患者的预测模型

6.1/Q1，南京医科大学附属苏州医院孟德尔+转录组+差异基因分析研究双疾病：骨关节炎和类风湿性关节炎的异同

5.7/Q1，揭秘！安徽医科大学利用 NHANES 数据库，解读中青年高氯酸盐、硝酸盐、硫氰酸盐与关节炎和炎症指标的关系

15.0/Q1，GBD数据库发高分！全球、区域和国家的类风湿性关节炎负担：1990-2020 年的变迁与 2050 年的展望

5.7/Q1，昆明医科大学GEO+PPI+富集分析+免疫细胞浸润鉴定骨关节炎生物标志物

4.4/Q1，单细胞测序+全基因组孟德尔随机化确定痛风的致病基因

5.7/Q1，重磅!南昌大学第二附属医院生物信息学分析红斑狼疮中 NETs 相关生物标志物和分子簇鉴定

4.8/Q1，吸烟和咖啡导致骨关节炎？孟德尔随机化+荟萃分析揭示酒精、吸烟、咖啡消费和关节炎风险之间的因果关系

10.5/Q1，痛风的人喝什么酒？苏州大学揭示饮酒状态、痛风风险及特定酒精饮料的关联有性别差异

5.7/Q1，孟德尔随机化+GWAS揭示强直性脊柱炎和虹膜睫状体炎之间存在关联

5.7/Q1，广西医科大学多组学分析+机器学习分析揭示骨关节炎中的线粒体特征

4.9/Q1，四川康泰医院孟德尔随机化+GWAS揭示系统性红斑狼疮对精神疾病的影响

5.7/Q1，山东大学齐鲁医院孟德尔随机化+GWAS研究炎症性肠病与精神障碍之间的因果关系

5.7/Q1，双疾病纯生信文章！安徽中医药大学生物信息学探索血管性痴呆和炎症性肠病

6.1/Q1，不是测序做不起，而是数据挖掘更有性价比！机器学习算法预测狼疮性肾炎在第一次肾发作后的治疗反应

12.5/Q1，北京眼科研究所：1990-2019 年全球骨关节炎负担的趋势和跨国不平等：一项基于人群的研究

15.0/Q1，GBD痛风合作者运用GBD数据库：1990-2020 年全球、区域和国家痛风负担以及到 2050 年的预测

15.0/Q1，GBD发柳叶刀易如反掌，高BMI居然是骨关节炎的唯一危险因素！预测2050年全球骨关节炎的患病率情况

5.7/Q1，成都中医药大学附属医院孟德随机化+转录组学分析原发性胆汁性胆管炎和系统性红斑狼疮之间的关系

4.8/Q1，广西医科大学第一附属医院+孟德尔随机化+基因表达分析阐明抗体介导的免疫与自身免疫性疾病之间的因果关系

5.7/Q1，南京医科大学附属苏州医院生物信息学分析揭示系统性红斑狼疮与静脉血栓栓塞症的串联基因和免疫关系

2024国自然医学部中标热点分析及2025预测

5.7/Q1，南京医科大学附属第二医院+孟德尔随机化+GWAS 确定了强直性脊柱炎的治疗靶点

5.7/Q1，妇幼健康研究所孟德尔随机化+共定位分析+数据库揭示强直性脊柱炎的遗传关联

6.1/Q1，空气污染引发这么多疾病！中南大学湘雅医院+孟德尔随机化+TWAS揭示空气污染物与自身免疫性疾病之间的因果关系

6.8/Q1，国自然热点m6A+新颖算法，纯数据分析也能6+！深圳市人民医院建立神经胶质瘤患者预后模型

25.4/Q1，中国数据库CKB登上柳叶刀子刊！体重管理要趁早，心血管病上门闹，北京大学医学部研究成年早期BMI心血管疾病相关性

7.5/Q1，同济大学附属上海十院单细胞测序分析MSU 晶体沉积是否缓解痛风的炎症和免疫反应

6.1/Q1，中南大学湘雅二院+孟德尔随机化+单细胞转录组分析脊柱关节炎/HLA-B27 相关前葡萄膜炎急性发病机制

20.3/Q1，宝藏文章20+！单细胞转录组分析类风湿性关节炎、系统性红斑狼疮和健康对照妊娠纵向血液

8.8/Q1，上交瑞金医院团队单变量MR+多变量MR+观察性分析探讨自身免疫性疾病与脓毒症发生和 28 天死亡率的相关性

6.3/Q1，思路清晰，值得学习！上海十院俞汉杰团队运用单细胞转录组测序揭示了痛风发作和缓解之间单核细胞和 Treg 细胞的差异

6.1/Q2，创新点：单细胞+转录组联合内质网应激反应在腺泡细胞中的累积导致急性胰腺炎的发病机制

14.3/Q1，震撼，安徽医科大学本科生一作连发两篇！转录组分析揭示了严重 COVID-19 与系统性红斑狼疮共病基因

5.7/Q1，北京协和医院+WGCNA+富集分析+LASSO回归分析鉴定免疫相关基因诊断动脉粥样硬化伴类风湿性关节炎

7.0/Q1，浙江大学绍兴医院玩转生物信息学分析，确定预测系统性红斑狼疮动脉粥样硬化风险的关键基因

14.7/Q1，单细胞测序这样发10+！单细胞测序+数据分析学习类风湿关节炎滑膜淋巴细胞亚群与功能状态之间的克隆关联

7.5/Q1，高维分析+转录组+建模破译细胞在炎症性关节炎中的作用

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉