各位小伙伴们大家好,这里是准时给大家带来文献分享的船长。先天圣体,又指在某一方面很有天赋的人物,在科研圈,也有这样一款科研圣体。就是数据挖掘和机器学习,他们强强联合,发文无数,是一众科研人的福星。今天船长就给大家带来一篇非常经典的数据挖掘+机器学习的文章,强烈建议生信小白们或经费不足的宝子们学起来~ 中风,也称为“脑卒中”,是肆虐中国的第一杀手,平均16秒就有一个中国人死于中风,甚至第一批90后已成中风高发人群!我们要警惕中风年轻化,青春挥霍要不得!今天船长就带你了解这篇用多种机器学习+共识聚类分析+单细胞分析等技术来发现中风的内质网应激基因的文章,下面先带大家细数本文的亮点吧: 1、多种数据分析与机器学习:研究通过整合多个基因表达数据集,利用多种机器学习算法(包括随机森林、LASSO回归和SVM-RFE)筛选关键的内质网应激相关基因(ERSRGs),并构建了基于这些基因的逻辑回归模型。此外还通过共识聚类和GSVA揭示了中风的分子亚型和生物学过程。 2、单细胞测序与实验验证:应用了单细胞测序技术深入探究了中风状态下的细胞特异性基因表达模式,并通过体外细胞实验和体内动物模型对关键ERSRGs的功能进行了验证。 综合来看,这些技术方法的亮点展示了一种多维度、多层次的研究策略,不仅提高了研究的深度和广度,也为发现人类中风的内质网应激基因提供了新的视角~ ps:这篇文章可以说是非常经典的数据挖掘+机器学习的文章套路了,换一个疾病马上复现!快来船长这里多学习,我们这里的高级分析,可以帮助您提高分析广度和深度!随时联系船长,为您解决烦恼! | ||||||||||||||||||||||||
定制生信分析 云服务器租赁 加好友备注“99”领取试用 后台回复321获取原文献,文献编号20240705 | ||||||||||||||||||||||||
题目:基于生物信息学和机器学习鉴定人类中风的内质网应激基因 杂志:NEUROBIOLOGY OF DISEASE 影响因子:IF=5.1 发表时间:2024年06月 | ||||||||||||||||||||||||
研究背景 由于目前缺乏足够的生物标志物来准确诊断缺血性中风,限制了我们对疾病早期识别和及时治疗。而中风患者之间存在显著的病理生理差异,使得开发统一有效的治疗策略变得复杂。由于对中风后二次脑损伤的复杂病理生理变化理解不足,导致治疗选择面临挑战,难以为患者提供个性化和有效的治疗方案。基于以上挑战,准确预测中风患者的恢复过程和长期结果变得困难,这对于制定治疗计划和患者管理具有重要意义。 研究思路 作者通过收集和预处理公共数据库中的人类中风基因表达数据集,使用生物信息学方法和机器学习算法识别与内质网应激相关的基因,然后构建并验证基于这些关键基因的诊断模型。进一步通过单细胞测序数据分析、共识聚类、基因集变异分析和免疫细胞浸润评估,探讨了这些基因在中风中的分子机制和潜在的临床应用价值。此外,通过体外实验和动物模型来验证关键基因的功能和表达,为中风的早期诊断和治疗提供了新的生物标志物和治疗靶点。下面为研究流程图: | ||||||||||||||||||||||||
数据来源
| ||||||||||||||||||||||||
主要结果1.识别候选 ERSRG基因 作者对两个GEO数据库的数据集进行了批处理校正,以减少批次效应(图2A-D)。通过使用“limma”软件包分析,识别了3771个差异表达基因,并结合MSigDB数据库中检索到的与内质网应激相关的256个基因,通过交集分析最终确定了32个候选ERSRGs。这些基因的筛选标准是调整后的p值小于0.05。最后使用热图和火山图(如图2E-F)展示了这些候选ERSRGs在中风患者和健康对照组之间的表达差异。 | ||||||||||||||||||||||||
图2 从GEO表达谱中鉴定候选ERSRG | ||||||||||||||||||||||||
2.通过机器学习算法识别 ERSRG 随机森林算法在大约67个决策树时显示出稳定的误差率,并识别出24个相对重要性得分超过1的基因作为特征变量(图3A-B)。LASSO回归分析确定了4个特征变量(图3C-D)。SVM-RFE分析揭示了27个特征变量(图3E-F)。 | ||||||||||||||||||||||||
图3 基于三种机器学习算法对候选基因进行选择 | ||||||||||||||||||||||||
3.ERSRGs在中风诊断中的影响 在训练和测试数据集中,与健康个体相比,中风患者中ERP29的表达水平显著降低,而ATF6和DDIT3的表达水平则升高(图4A-B)。随后对三个ERSRGs(ATF6、DDIT3和ERP29)的诊断效力进行了评估。AUC值显示,训练数据集的AUC分别为0.763(ATF6)、0.762(DDIT3)和0.842(ERP29),验证数据集(GSE16561)的AUC分别为0.790、0.744和0.859,这强调了它们作为预测指标具有很强的潜力(图4C-D)。 通过对GSE112137数据集(人类低氧脑类器官模型)进行分析,研究了这些基因在低氧条件下的表达变化。结果显示,在24小时和48小时低氧后,所有三个关键ERSRGs显著上调。然而,在72小时再氧化(总时间120小时)后,所有三个关键ERSRGs的表达水平恢复到对照水平(图4E-G)。 通过小鼠MCAO模型的RT-qPCR结果进一步确认,在缺血性脑模型中ATF6和DDIT3显著增加,而ERP29在MCAO组中下调(图4H-J)。 | ||||||||||||||||||||||||
图4 ERSRG 的诊断效果分析 | ||||||||||||||||||||||||
4.建立逻辑回归诊断模型 研究者构建了一个包含这三个基因的多因素逻辑回归模型,用于中风的诊断。 在训练集上,模型的ROC曲线下面积(AUC)为0.855。在验证集上,AUC提高到了0.927(图5A),表明模型具有良好的诊断能力。研究者生成了一个列线图(nomogram),用于个体化预测中风风险(图5B)。校准曲线与理想曲线拟合良好,表明模型在预测中风发展方面具有可靠性(图5C)。作者随后使用决策曲线分析(DCA)评估了模型的临床价值,DCA曲线显示了预测列线图的明显净收益(图5D)。 | ||||||||||||||||||||||||
图5 基于三种基因的逻辑回归模型 | ||||||||||||||||||||||||
5.免疫浸润分析 作者通过CIBERSORT算法评估了22种免疫细胞类型在IS和对照组之间的相对丰度,发现CD8 T细胞、中性粒细胞、单核细胞、静息自然杀伤(NK)细胞和活化CD4记忆T细胞在中风患者中占主导地位(图6A)。相关性热图显示活化的NK细胞与辅助T细胞之间,以及M0型巨噬细胞与单核细胞之间存在显著的正相关。而M2型巨噬细胞与M0型巨噬细胞之间观察到显著的负相关(图6B)。 箱线图分析揭示了IS患者与健康对照组之间免疫细胞的显著差异。IS患者表现出单核细胞、M0型巨噬细胞、嗜酸性粒细胞和中性粒细胞水平的升高,以及与健康对照相比,幼稚B细胞和幼稚CD4 T细胞比例的降低(图6C)。 免疫细胞与ERSRGs之间的相互关系分析表明,ERSRGs可能通过调节免疫细胞影响IS的进展,如单核细胞、中性粒细胞和巨噬细胞。(图6D-F)。 | ||||||||||||||||||||||||
图6 免疫细胞浸润分析 | ||||||||||||||||||||||||
6.建立缺血性中风的内质网应激亚型 为了区分缺血性中风中与ER应激相关的亚型,作者采用了共识聚类方法,分析了89个缺血性中风样本的三个关键ERSRGs的表达数据。 通过共识矩阵图、累积分布函数(CDF)图、CDF曲线下面积的相对变化以及一致性聚类得分(> 0.9),确定了两个最优的亚型数量(图7A-D)。共识聚类后,识别出两个不同的ER应激亚型,为了清晰起见,将其标记为C1和C2。通过主成分分析(PCA)进一步验证了这两个亚型之间的显著差异(图7E)。最终,将缺血性中风样本分为两个亚型:亚型1(n = 36)和亚型2(n = 53)。 | ||||||||||||||||||||||||
图7 基于 ERSRG 的亚型分类 | ||||||||||||||||||||||||
7.ER应激亚型免疫特征和分子机制的区分 为了明确缺血性中风中不同ER应激亚型之间的分子差异,作者评估了不同ER应激相关亚型中特征基因的差异表达。发现基因表达模式与健康对照组和中风患者组之间的模式相似。 亚型1(subtype1)的特征是ERP29表达水平升高。亚型2(subtype2)则以ATF6和DDIT3表达水平的增加为特点(图8A)。除了M1型巨噬细胞、中性粒细胞和活化的树突细胞外,两种亚型之间在免疫细胞浸润方面没有显著差异(图8B)。 随后作者通过GSVA评估了具有不同ER应激表达模式的亚型之间的分子机制差异。功能富集结果表明,亚型2中ER超载反应、未折叠蛋白反应、对亚硝基应激的反应、正向调节对ER应激的反应以及许多细胞凋亡途径显著上调(图8C)。此外,通路富集结果揭示,NOD样受体、RIG-I样受体、TOLL样受体信号通路以及自噬信号通路在亚型2中显著上调(图8D)。结果表明,亚型2与IS中的ER应激更密切相关。 | ||||||||||||||||||||||||
图8 两种亚型的不同免疫特征和分子机制 | ||||||||||||||||||||||||
8.ERSRGs的表达影响巨噬细胞中的ER应激水平 研究者从GEO数据库获取了GSE189432数据集,该数据集包含一个MCAO样本和一个对照样本。通过单细胞RNA测序数据,鉴定出8种细胞类型,包括内皮细胞、上皮细胞、粒细胞、巨噬细胞、小胶质细胞、单核细胞、B细胞和NK细胞(图9A-B)。在这些细胞类型中(特别是巨噬细胞),ATF6、DDIT3和ERP29的表达在MCAO组中显著增加(图9C-E)。 在小胶质细胞中,上调的GO terms包括mRNA代谢过程的调控和翻译以及细胞大分子的生物合成,这表明细胞活性增强(图9F)。下调过程主要与能量生产有关,如氧化磷酸化和细胞呼吸,表明在中风后的急性阶段可能向低能耗过程的代谢转变(图9G)。在巨噬细胞中,上调的GO terms突出了与神经元相关过程的增强活动,包括神经元凋亡过程和突触修剪。此外,细胞迁移和趋化途径的显著上调指向巨噬细胞向损伤部位的积极募集(图9H)。在巨噬细胞中,下调的功能涉及抗原处理和呈递途径,表明在中风急性反应期间可能抑制与抗原呈递相关的免疫功能(图9I)。 体外实验结果显示,ATF6和DDIT3的敲低显著影响了巨噬细胞中ER应激相关标记物的表达,包括GRP78、GRP94、XBP1和Caspase 3(图9J-O),提示ATF6和DDIT3可能在中风后巨噬细胞的ER应激中发挥关键作用。 | ||||||||||||||||||||||||
图9 MCAO小鼠模型和缺氧人脑类器官模型中的 ERSRGs | ||||||||||||||||||||||||
文章小结这篇文章通过综合应用机器学习算法、单细胞测序、逻辑回归模型构建、共识聚类、基因集变异分析、免疫细胞浸润分析以及体外和体内实验验证等技术方法,揭示了内质网应激相关基因在缺血性中风中的表达模式,识别了潜在的生物标志物,并建立了具有诊断价值的预测模型,为中风的早期诊断和治疗提供了新的分子靶点和治疗策略。通过这些技术方法,研究揭示了ERSRGs在缺血性中风中的表达模式,鉴定了与ER应激相关的潜在生物标志物,并为中风的诊断和治疗提供了新的见解。最后还用湿实验进行验证,一个完美的收尾结束。总的来说,这篇文章还是干货满满,非常经典的机器学习算法思路,看完是不是觉得你上你也行了呢?关注船长,带你0成本挖掘公共数据库,感兴趣的宝子们快来后台戳戳船长吧~ 船长寄语 船长可以为您提供以下服务哦:评估思路(免费)、生信分析、方案设计、服务器租赁、特色数据库搭建等!欢迎大家扫码咨询,有问必答! 生信分析 思路设计 服务器租赁 扫码咨询船长 往期推荐 |