这篇Nature Communications真的很适合临床人读!顶级非肿瘤纯生信数据库+机器学习+多组学,不愧是高分助推器

学术   2024-10-19 10:01   上海  
从功利的角度来看,基础实验上手难,周期长,成本高,风险大。
而临床研究则是数据为王,各种花式统计方法可以学,但是却巧妇难于无米之炊。
因此,各种公共数据库则是财富密码限制你发文的原因,如果是缺经费,缺团队,缺样本,那确实是客观原因;但是现在公共数据库对大家都开放,再被上述因素所限,就有点守着宝藏而不自知,属实有些可惜
谈到临床数据库,肿瘤领域不论是生信分析还是临床研究,都是不胜枚举独领风骚,而非肿瘤则显得一贫如洗,两袖清风,三阳开泰,四。。。
非肿瘤研究的小伙伴们都有意见了,那今天就给大家隆重介绍一下这个可用于非肿瘤生信分析的数据库—UK Biobank(简称UKB)。该数据库包含50万名英国志愿者的详细健康数据,也囊括了各种非肿瘤疾病,面向全球研究者开放共享。Pubmed检索发现使用该数据库发表的学术论文已经高达11092项,其中不乏医学顶级期刊 NEJM,Lancet、JAMA及其子刊。
为了给大家示例,小云选取了一篇发表于NC的研究,作者采用可解释机器学习技术,基于UKB的临床数据,融合基因组、蛋白组、代谢组信息,识别预测亚组骨关节炎风险标志物,对临床实践具有显著意义。
优秀的食材是美味和营养的基础,“数据”才是科研的基本资源。公共数据库显著拉平了研究者之间的信息壁垒,对于科研起步阶段的小伙伴是重要助力,大家切勿错过哦,快快行动!如果有想法,但是思路或者技术受限,可以滴滴小云

定制生信分析

云服务器租赁

(加微信备注99领取试用)


题目:使用可解释的机器学习对骨关节炎亚组的预测性风险生物标志物进行数据驱动识别    
杂志:Nature Communications
影响因子:14.7
发表时间:2024年4月
研究背景
骨关节炎(OA)生物学机制复杂,驱动因素尚不清楚。作者利用UKB数据库中的多组学数据,通过机器学习模型中筛选生物标志物,并识别具有不同风险概况的亚组。
数据来源
UK Biobank
研究结果
OA研究人群
研究者从UKB中筛选出103,086名骨关节炎(OA)患者,同时选取了67,772的非OA对照组。作者旨在评估OA确诊后5年内的风险生物标志物,以识别高危个体,并为老龄化社会中的预防策略提供科学依据。
风险模型构建
在OA研究和验证队列确定后,作者将多源纵向患者数据,集成至XGBoost模型。利用可解释AI框架,分析人群、精确度和个性化层面的OA风险标志物。
从5年多模式临床数据预测OA
整合回顾性临床数据至XGBoost模型,以预测5年内OA风险(Clin模型),其交叉验证ROC-AUC得分为0.72。研究还评估了Clin模型在预测不同关节OA亚型(手臂、足部、髋、膝或脊柱)的效能,ROC-AUC介于0.67至0.73。基础模型仅考虑年龄、性别、BMI,预测OA的ROC-AUC为0.67。通过计算SHAP值,揭示了年龄和较高BMI为OA风险的主要预测因素。 
OA的精确亚组
Clin模型揭示了OA生物和环境风险因素在个体间存在差异。研究者通过分析不同风险标志物的SHAP值,将患者分为14个亚组。最终,通过模型中前六个特征的平均值来描述每个聚类,同时使用原始数据来展示聚类间的差异,从而构建了具有不同生物标志物特征的OA风险预测模型。
多组学OA风险生物标志物
在探究OA的分子风险标志物时,研究者将遗传学(ClinSNP、ClinWGPRS、ClinGRS、ClinPath)、代谢组学(ClinMet)和蛋白质组学(ClinPro)数据与临床特征整合,以构建临床预测模型(Clin模型)。这些多组学数据预测性能稳定。敏感性分析显示,特定组学亚群的预测性能也未受影响。
文章小结
本研究利用UKB数据库的多组学数据,通过机器学习方法筛选了标记物,为临床和基础研究提供参考。能发到顶刊,一方面,机器学习+多组学,是当前热门的分析方法,但是另一方面,也不能缺了UKB的数据呀。所以,小伙伴们不要再受限于样本和经费了,公共数据就是这么香了!如果小伙伴对数据库的了解和分析还不够,还想深入了解或者复现的小伙伴们,就扫码滴滴小云吧~ 

定制生信分析


云服务器租赁

热点推荐

孟德尔随机化

临床公共数据分析

单细胞测序

肿瘤免疫与微环境

机器学习

单基因分析

生信云服务器

代码合集(点击查看)

培训班系列(点击查看)

云生信学生物信息学
专注生信10余年,原创文章数千篇; 公号资料免费领,寻求服务找小云; 长期学习加关注,生信干货更不停。
 最新文章