嘿,伙计们! 在这样炎热的天气里,你只想呆在家里吹空调吗?小科这几天也很热,但即便如此,小科还是坚持关注生信领域的新动态,而这并没有发现超级精彩的内容,迫不及待想和大家分享。机器学习一直是生物信息学领域的“热门话题”,可以与各种算法和组学技术相结合。有了机器学习,如果想发高分,就比较容易,直接轻松拿捏~
今天,小科为大家带来一篇由青岛大学附属医院牛海涛、王永华团队发表在Molecular Therapy-Nucleic Acid杂志上的研究论文。利用机器学习和多组学数据的集成,该研究成功地确定了肌肉侵袭性尿路上皮癌(MUC)的高分辨率分子亚群,并建立了一个强大的共识机器学习驱动签名(CMLS)。此外,通过多队列试验,CMLS在预测患者预后和指导治疗计划方面的实用价值得到了强有力的证明。特别重要的是,研究中使用的数据库是免费数据库,包括TCGA和GEO,这些数据库非常简单,方便复现。如果一个新的疾病研究方向被去做,就会有另一篇高分文章发布。(ps:小伙伴们,如果你对机器学习的分析感兴趣,或者在寻找机器学习的创新思路,或者想要复现这篇文章,欢迎扫码联系小科帮你轻松!)
文章标题:Integrated multiomics analysis and machine learning refine molecular subtypes and prognosis for muscle-invasive urothelial cancer
中文标题:集成多组学分析和机器学习可优化肌浸润性尿路上皮癌的分子亚型和预后
发表期刊: Journal of Translational Medicine
发表时间:2023年6月
影响因子:6.5/Q2
研究背景
肌侵袭性尿路上皮癌(MUC)具有高度侵袭性和异质性。然而,目前严重缺乏准确的个体化治疗方案。本研究利用来自公共数据库的多个组学数据,结合多种机器学习方法对生物标志物进行分析和鉴定,以期优化患者预后和治疗效果。
研究思路
通过10种多组学集成聚类算法,整合mRNA、lncRNA、miRNA表达谱、基因组突变和表观基因组DNA甲基化数据,形成综合MUC共识亚型。然后分析存活结果、分子信号富集和亚型免疫浸润情况,通过多队列整合筛选出32个稳定预后基因。在训练队列中,基于10种机器学习算法的99种组合构建共识模型,计算平均c指数评价预测能力并筛选最佳模型,比较性能建立nomogram,分析免疫特性及免疫治疗应答预测能力,筛选潜在治疗药物。
结果解析
1. MUC预后相关分子亚型的多组学共识
在本研究中,在10种多组学集成聚类算法中鉴定出3种亚型。然后利用共识整合进一步将聚类结果与转录组mRNA、lncRNA和miRNA,以及表观遗传甲基化和体细胞突变的独特表达分子模式融合(图2A-2C)。结果表明,该分类系统与总生存期(OS)密切相关,其中亚型2 (CS2)表现出最有利的生存结局(图2D)。
通过ssGSEA算法检测样品中不同分子特征的富集状态。CS2在免疫抑制性致癌途径中显著富集,而CS3更可能从放疗或靶向治疗中获益(图3A)。此外,我们剖析了参与癌症染色质重塑的潜在调节因子以及MUC的23个转录因子(图3B),表明表观遗传驱动的转录网络可能是这些分子亚型的关键分化因子。进一步定量微环境细胞浸润水平,发现免疫细胞浸润在CS1和CS3中显著增加,而在CS2中相对较低(图3C)。根据亚型间差异表达分析结果,选择每个亚型特异性上调的20个基因作为分类器,并在多个外部队列中进行验证。NTP将外部队列中的每个样本分类为已识别的CS之一。在META-MUC联合队列中,CS2在所有亚型中预后最好,其他队列的结果相似(图3D和3E)。该研究还评估了CS与NTP和围绕中心体划分(PAM)算法的一致性(图3F-3J)。从共识基因IMvigor210队列IMvigor-MUC、癌症基因组图谱TCGA-MUC和META-MUC中筛选32个与OS显著相关的SPRGS,并将其纳入CMLS的整合框架中。在IMvigor-MUC训练队列中,基于99种算法的组合构建一致性模型(图4A)。通过Cox boost算法识别最有价值的sprg,通过逐步Cox算法筛选最有价值的模型(图4B和图4C)。计算所有集中每个样本的CMLS分数。结果显示,在TCGA、META、IMvigor和联合队列中,高CMLS患者的临床预后较差(图4D-4G)。4.与其他模型比较
本研究对近五年来发表的相关文献进行了系统检索,最终纳入22个模型进行比较。CMLS在TCGA-MUC、IMvigor-MUC和META-MUC数据集中的C-index性能优于其他模型(图5A-5C)。本研究还构建了nomogram(图5D),通过决策曲线分析(decision curve analysis, DCA)和随时间变化的C-index (FIG. 5E-H)证明了nomogram具有更好的预测性能。
本研究采用IOBR R软件包对MUC的肿瘤微环境(tumor microenvironment, TME)进行综合分析,发现低CMLS患者的免疫细胞浸润水平明显高于高CMLS患者,表明免疫激活(图6)。低CMLS水平的Mucs更容易被归类为“热瘤”。纤维细胞和中性粒细胞主要富集于高CMLS患者(图6B和6C)。这意味着高CMLSMUC更有可能成为“冷瘤”。低CMLS组TMB、TNB和M1巨噬细胞浓度较高,可能具有更高的免疫原性(图6E-6H)。生存分析显示,CMLS可以作为TMB、TNB、M1巨噬细胞的有效补充因子来区分患者预后(图6I-6K)。为了充分评估CMLS在MUC免疫治疗中的作用,该研究基于IMvigor-210队列测量了治疗3个月后患者长期生存的差异(图7A和7B)。低CMLS组预后较好。采用肿瘤免疫功能障碍和排斥(TIDE)算法评估患者对免疫治疗的反应,低CMLS组表现出更好的反应。低CMLS在接受免疫治疗的人群中预后更好(图7G, H),低CMLS通常与更好的免疫治疗结果相关(图7I)。GSEA分析显示,高CMLS患者血管生成、EMT和缺氧通路明显激活(图8A)。低ERCC1表达水平的患者对顺铂治疗的反应更强,从而可能使化疗患者受益(图8B)。然后,我们研究了高CMLS患者的潜在药物(图8C),并筛选出一种ctrp衍生药物达沙替尼(图8D)和两种prism衍生药物(洛米德新和Ispinus)。本研究评估了候选药物在肿瘤组织和正常组织中的表达水平差异(图8F和8G)。总体而言,达沙替尼和洛米地辛已被确定为治疗高CMLS患者的有希望的潜在药物。综上所述,本研究整合了10种多组学聚类算法进行肿瘤分类分析和10种机器学习算法建立预后模型,为MUC的分子亚型和预后提供了新的认识。这一结果有望为临床实践提供重要的指导,特别是在个性化治疗和免疫治疗选择方面。这篇文章更能体现研究团队的生信制作能力,再加上思维灵动,不做实验也能发8+! 如果您想复制或对分析活信感兴趣,请不要犹豫,赶紧扫码联系小科吧! 小科致力于为您提生信分析私人定制服务,帮助您高效得分!