近年来,由于生物医学领域的众多研究努力和突破,从个人和生物实验中产生的数据的数量和复杂性显著增加,为精准医疗带来了机遇和挑战。机器学习是一种人工智能技术,使计算机能够从大规模的数据特征中学习,识别特定的模式,并自动发现不同对象之间的相关性和差异,有助于快速构建诊断和预后模型,并且通常表现出良好的预测性能!
今天,老方分享一篇应用机器学习算法的纯生信SCI,一起看看吧~
1. 机器学习。该研究利用3种机器学习算法(SVM-SHAP,XGBoost、RF)构建诊断模型,并基于混淆矩阵、准确率(ACC)、召回率(REC)、F1评分和ROC曲线的曲线下面积(AUC)对模型的性能进行综合评估。机器学习是SCI发文的热门主题,亦是该文的一大亮点!
2. 单细胞分析。该研究通过单细胞分析在卵巢癌(OC)中鉴定了一个新癌症相关成纤维细胞(CAF)亚群,并被其命名为“SFRP2+成纤维细胞”。从单细胞水平进行研究,对于疾病机制研究具有重大意义!
3. 泛癌分析。该研究通过泛癌分析证明CAF富集水平与肿瘤患者生存风险之间的相关性,与重要基因表达水平之间的相关性。泛癌分析把范围放大,让研究更广,从更高的角度看问题!
(PS:机器学习持续火爆,想利用这一创新方法做研究的朋友,欢迎找老方设计思路、定制分析~)
方案设计
生信分析
服务器租赁
题目:鉴定机器学习模型和作为卵巢癌精准医学预测因子的新型SFRP2+成纤维细胞特征
杂志:International Journal of Molecular Sciences
发表时间:2023年11月
研究背景
OC是影响女性生殖器官的常见诊断疾病,治疗通常包括手术干预、放疗或化疗,由于在其早期阶段没有明显的症状,在这个阶段检测OC是非常具有挑战性的。大多数OC病例在晚期被诊断出来,这大大降低了治愈性治疗的有效性,故开发能够准确诊断早期OC的临床生物标志物和稳健的预测模型是当务之急。
数据来源
数据集/队列 | 数据库 | 数据类型 | 详细信息 |
GSE9891 | GEO | 微阵列 | 285个卵巢样本 |
GSE26193 | GEO | 微阵列 | 高级别卵巢腺癌样本 |
GSE154600 | GEO | RNA-seq数据 | 5例高级别浆液性卵巢癌 |
EMTAB8107 | EMTAB | scRNA-seq数据 | / |
另外,泛癌症突变负担数据、泛癌症突变信息数据、泛癌症RNA-seq表达矩阵数据和泛癌症临床信息来自Github数据库。
研究思路
首先,通过3种可解释的机器学习算法构建诊断模型,并进行性能分析。其次,研究了来自3模型的12个重叠基因在确定OC预后及其在成纤维细胞亚群定位中的性能。最后,评估了一个独特的成纤维细胞特征,其在预测ICI反应和检测泛癌TP53突变中的作用。
主要结果
1. DEG的筛选和分析
通过差异表达基因(DEG)分析,在GSE9891中鉴定了254个DEG,在GSE26193中鉴定了255个DEG;通过Veen分析来鉴定了81个重叠DEG,包括35个上调基因和46个下调基因。通过基因本体论(GO)分析发现,DEGs显著富集于含胶原的细胞外基质、细胞外结构组织、细胞外基质组织和外部包封结构组织;通过京都基因和基因组百科全书(KEGG)分析发现,DEGs显著富集于丙型肝炎、蛋白质消化和吸收等通路(图1A-B)。通过STRING数据库构建蛋白质-蛋白质相互作用(PPI)网络(图1C)。
图1 重叠DEG的功能富集分析结果
2. 12个DEG作为早期OC诊断标志物的筛选
通过3种可解释的机器学习算法(SVM-SHAP,XGBoost、RF)构建模型,通过ROC曲线的曲线下面积(AUC)等评估机器学习模型的性能,发现这些模型在临床实践中诊断I期卵巢癌可能具有良好的实用性。进一步筛选出前30个重要特征基因,其中12个DEG是3种算法重要的重叠基因(图2)。
图2 使用不同机器学习算法筛选的特征基因及这些基因表达水平的差异
通过ROC曲线评估12个特征基因作为生物标志物对判断卵巢癌患者肿瘤是否会转移到卵巢外的诊断价值,发现AGR2、TFF3、TESC、IFIT1、TGFA、DLK1、POR4、SERPINE1、SCGB2A2和SFRP2可以独立地预测肿瘤是否位于卵巢或输卵管中(图3)。
图3 12个特征基因的ROC曲线
3. SFRP2、SERPINE1与CAF密切相关,并与中晚期OC患者的总生存期相关
通过泛癌分析发现CAF丰度是影响OC患者的总体存活率的风险因素(图4A),在12个特征基因中SFRP2和SERPINE 1显示出与CAF富集水平的正相关性(图4B-C)。通过Kaplan-Meier生存分析发现SFRP2和SERPINE1高表达与OC低存活率相关(图4 E-F)。
图4 三个特征基因与CAF的共富集和Kaplan-Meier生存分析
4. SFRP2可能是一个独特的CAF亚群
通过单样本基因集富集分析(ssGSEA),发现SFRP2在两个独立的数据集中成纤维细胞、肌成纤维细胞亚群中高度表达(图5A-B)。通过单细胞分析鉴定了具有最高富集的SFRP2和CAF标志物(C0L6A1、C0L6A2、FAP)的新子集(图5C-F)。以上结果表明,存在不同的CAF亚组,将其命名为“SFRP2+成纤维细胞”。
图5 通过单细胞分析在OC中鉴定新的CAF子集
5. SFRP2+成纤维细胞特征在预测免疫检查点抑制剂(ICI)反应和检测泛癌TP53突变中的贡献
通过肿瘤免疫功能障碍和排斥(TIDE)分析,发现具有较高SFRP2+成纤维细胞富集水平的OC患者主要出现在ICI无应答者中,而较低SFRP2+成纤维细胞富集水平主要出现在ICI应答者中;两组间的TIDE评分、功能障碍评分、排除评分和CAF评分差异显著(图6A-B)。构建基于SFRP2+成纤维细胞特征的人工神经网络模型,该模型在测试数据集中表现出优异的性能,用以区分携带TP53突变的患者和不携带TP53突变的患者(图6C-D)。
图6来自SFRP2+成纤维细胞的前100个特异性基因,用于预测ICI反应和癌基因突变
文章小结
该研究基于SVM-SHAP、XGBoost和RF的模型能够早期检测OC,用于临床决策,诊断模型中使用的SFRP2+成纤维细胞特征可以为OC治疗选择提供信息,并提供泛癌TP53突变检测。PS:想要复现思路的朋友,欢迎找老方定制分析~
老方有话说
老方会持续为大家带来最新生信思路,并提供免费思路评估、付费方案设计、生信分析、实验项目实施等服务,感兴趣的朋友可以扫码咨询!
方案设计
生信分析
服务器租赁
往期推荐
1、0实验,中医药纯分析!华南农大二区SCI:14种中药+网络药理学+分子对接,从这个角度构思也是有效的!
2、机器学习助攻!创新性UP!湖南中医药大学二区SCI:机器学习+网络药理学+分子对接,干湿思路更受审稿人青睐!
3、久坐伤胃?孟德尔随机化证据来了!浙大二院等9分+SCI:单变量MR+多变量MR+中介分析,2图2表拿下一区!