单细胞+机器学习就能上6+!围绕代谢做挖掘,不做实验也能发!

学术   2025-02-05 16:43   上海  

新年正式开工,欢迎大家来看雪球讲生信套路!“开工没有回头路”,雪球就讲讲质价比超高的新套路,都是经典要素,却能产生1+1+1>3的奇妙效果。在这条又省实验经费、又能申请到各种基金奖金的康庄大道上,和雪球一起走下去吧!


我研究的疾病不会重点关注代谢,只关注过“代谢相关非脂肪性肝病MASLD”疾病更名那件事,没想到,代谢在哪里都可以成为破题关键。

市面上各种生信分析的实操课程能教给大家处理数据的能力,但面对一个又一个自己看到、导师安排的热点课题,未必能反应过来应该如何入手,或者不明白怎么做才能脱颖而出。

这篇文献讲的就是打好基本功、会在热点里找创新,两者结合完成质的飞跃的科研故事。在热点中找创新,优势之一在于不必在实验验证上多花成本,在投稿优质期刊时也比较有竞争力。这种思路非常适合想利用生信文章逐步升级,升学升职的普通人,可要抓紧看、抓紧学、抓紧做了!

下滑继续看

代谢研究如何破题

有任何疑问可添加雪球老师探讨


Integrating single-cell RNA-Seq and machine learning to dissect tryptophan metabolism in ulcerative colitis

整合单细胞 RNA-Seq 和机器学习剖析溃疡性结肠炎中的色氨酸代谢


期刊:Journal of Translational Medicine

IF:6.1

发布时间:2024/12/20


 技术路线 


数据获取和处理:

从GSE214695和GSE125527数据库中获取UC的scRNA-seq数据,并进行质量控制、数据清洗、批次效应去除、细胞类型注释等步骤。


色氨酸代谢评分:

利用AUCell、UCell、singscore、ssGSEA和AddModuleScore等算法评估不同细胞类型中色氨酸代谢相关基因(TrMGs)的表达水平,并进行差异分析。


差异基因表达和功能富集分析:

筛选出与TrMGs表达高度相关的差异表达基因(DEGs),并进行GO富集分析,以揭示潜在的作用机制。


机器学习筛选最优基因:

使用Boruta、LASSO、SVM-RFE、GBM和随机森林等五种机器学习算法筛选出与UC相关的关键特征基因。


GSVA富集分析:

利用GSVA分析不同风险组之间的差异生物学机制。


细胞通讯分析:

使用CellChat分析基因表达数据,探索潜在的细胞通讯网络变化。


伪时间分析:

使用Monocle软件进行伪时间分析,重建细胞发育轨迹,并评估细胞成熟度或发育状态。


验证:

通过分析bulk RNA-seq数据验证筛选出的关键基因,并进行生存分析、细胞通讯和轨迹分析等验证实验。


 实验结果 


Fig 1 细胞亚群的解释


可以看到作者特意在Fig 1b

展示了批次效应校正结果。

既显示了样品整体的稳定分布,

又证明了自身扎实的基本功。


溃疡性结肠炎(UC)样本比起健康对照(HC)样本,参与免疫反应的细胞类型(如B细胞、T细胞和巨噬细胞)比例显著增加,说明免疫因素在UC发病机制中起到关键作用。


Fig 2 色氨酸代谢相关基因(TrMGs)表达的异质性


色氨酸代谢相关基因在不同细胞类型中

活性具有很大异质性(Fig 2b),

高、低表达的分组就自然完成了。


385个与色氨酸表达显著相关的基因,与78个色氨酸代谢上调基因取交集,共得到22个与色氨酸代谢高度相关的上调基因(Fig 2i)。


Fig 3 基于批量数据的重叠基因交叉分析


富集分析结果显示,scRNA-seq数据与批量数据的21个重叠关键基因,与生物过程密切相关,特别是免疫和炎症反应(Fig 3d)。


Fig 4 使用机器学习鉴定标记基因


使用五种机器学习算法,并对共同选择的标记基因进行交叉分析,确定三个特征基因S100A11、CTSS 和 TUBB(Fig 4f)。三个基因在训练集中的分布和预测效率结果显示,UC组S100A11、CTSS 和 TUBB显著上调,且具有良好的诊断性能,结果在外部验证集中依然有效(Fig 4g-j)。


Fig 5 验证scRNA-seq数据中的CTSS基因


此外,三个基因与48个TrMGs的相关性分析结果显示,CTSS表现出最高的相关性。因此,将样品继续分为CTSS的高低表达组,并使用KEGG数据库进行GSEA富集分析。结果表明,高CTSS表达组的色氨酸代谢途径显著上调(Fig 5g)。


恰当的分组,

有时就是通向高分SCI的敲门砖!


Fig 6 CTSS+巨噬细胞中的细胞通讯和轨迹分析


根据CTSS表达,将UC样本中的巨噬细胞分为CTSS+(1213个细胞)和CTSS-(230个细胞)。CTSS+巨噬细胞显著参与和其他细胞的更多相互作用,特别是与中性粒细胞、内皮细胞和成纤维细胞的相互作用(Fig 6a)。与CTSS-巨噬细胞相比,CTSS+巨噬细胞表现出更高的细胞间通讯总体积(Fig 6c)。CTSS + 巨噬细胞通过 NAMPT - (ITGA5 + ITGB1) 和 NAMPT-INSR 信号通路与内皮细胞通讯。在信号接收方面,内皮细胞、中性粒细胞和 NK 细胞通过 ANXA1-FPR1、NAMPT - (ITGA5 + ITGB1) 和 ANXA1-FPR1 配体受体更频繁地与 CTSS + 巨噬细胞进行通讯(Fig 6d)。伪时序分析显示,CTSS+巨噬细胞主要存在于发育的早期阶段,巨噬细胞中的CTSS表达随着时间的推移逐渐增加,与UC组的分布密切相关。







单细胞+机器学习+代谢,三个重点结合,促成文章在Top期刊的顺利发表。机器学习算法的应用增强了基因选择过程的稳健性,确保鉴定的基因不仅具有统计学意义,而且与 UC 发病机制具有生物学相关性;单细胞的切入角度则有助于个性化治疗的深入发展,结果说明巨噬细胞对UC中的免疫失调和炎症有重大贡献,可作为潜在的治疗靶点。


另外,注意本文是纯公共数据

这也使得研究团队高度注意数据偏差,

强调多种机器学习算法对稳健性的贡献。

虽然有一定工作量,团队在实验验证上可是0支出

这甜蜜的烦恼,大家想不想面对呢?


代谢这个重点,有极强的延展性,赋予了代谢相关研究极高的上限。简单说,就是既能及时追热点,又能稳上分。比如,可以联系到国自然基金的宠儿——转录后修饰(PTM),或者深入研究代谢环境。一些疾病的免疫微环境的异质性,也将导致多种结局、具备多种代谢亚型。


雪球已给大家指明路,就看大家执行如何了!不过,多线并行成常态,分析过程多挑战,理解一些小伙伴的有心无力,或想精益求精。可以来添加雪球,回复“个性化”咨询定制服务详情~!雪球携精英团队不断挖掘、研发、优化,包括但不限于图中套路的分析都可以陪跑、升级。



✅立足生信 守正创新

✅上下限跨度广

✅适合优化分析/进阶分段/丰富前期背景等需求

✅涵盖众多实用创新套路

✅量身定制,绝无量产,绝不敷衍


生信学习、科研发文中遇到任何问题,也可以来找雪球解惑!对话精准答疑+朋友圈收集科研小知识,还有每周定期直播+不定期资料放送,一站式暴风成长,最佳的启动时机就是现在!


挑圈联靠
挑圈联靠,你身边的生信导师,陪伴你的生信科研成长! 关注挑圈联靠,生信全知道,个性化提供生信辅导!
 最新文章