预后模型文章很多,我认为将模型构建好以后,再去谈一谈模型中的基因可能更好。为什么它们的组合可以很好的预测患者的风险?把基因的生物学内涵讲清楚,文章才会更完整。对于刚接触科研的研究生甚至本科生来说,很多工具例如R语言拥有一定的使用门槛,或多或少投入一定的学习时间。大多数的在线科研网站以发文为目的偏多,一旦文章发表也不会再去更新数据库。从用户的角度是出更多、更精美的图,从而补充自己文章的工作量,现阶段依托大学的数据库没有从用户出发,更多的是从自己发文出发。光热生物数据库(网址:https://grswsci.top)作为一键式科研网站,只有一个按钮30秒上手、图片精美、持续更新,收获广大硕博的普遍好评,生信小白也真正的把生信组学工作量拉满,化身常规生信工程师,超越中端代做水平。那么,如何利用光热生物数据库去研究一个基因?(如果你已经有了目标基因,那么直接跳过Step1)Step1 泛筛获得HUB gene,通过大数据筛选获得关键基因,1)通过单细胞分析,获得某一类肿瘤的某一种细胞特异性高表达的标志物;2)将细胞特异标志物采用生存分析和或差异分析在全转录组中进一步筛选过滤以缩小基因数量;3)通过机器学习对基因的重要性或相对重要性进行识别,确定最重要的基因以供下游分析。Step2 明确基因的可探索性,可以通过表达与生存两个维度阐述,一般推荐两种类型的基因,更容易解释,1)基因高表达且与患者的不良结局相关,即基因在肿瘤中高表达,且在肿瘤中高表达组生存更差;2)基因低表达且与患者的更好以后相关,即基因在肿瘤中低表达,且在肿瘤中高表达组生存更好。3)建议采用多个数据库、多个数据集、多个组学相互印证。光热生物数据库以TCGA作为主要研究对象,扩展了GEO数据库的数据集进行转录水平的验证,扩展了CPTAC数据库蛋白组学与磷酸化蛋白组学的数据作为蛋白水平的验证,链接了HPA数据库的病理组学数据,进行免疫组化切片的半定量验证。Step3 明确基因的表达来源,可以通过提升分辨率的形式,1)空间转录组,观察在不同的微区中,基因的表达量与微区中各种细胞含量的相关性;2)观察不同类型的微区中,基因表达量是否存在差异。3)观察在单细胞水平,尤其是在多个单细胞数据集中,基因的表达来源是否总是某些细胞(如恶性细胞),光热生物数据库的特色就是把每一个单细胞数据集当成一个样本,去分析基因的平均表达量与特定细胞类型的比例的相关性。4)常规的全转录组水平评估——多种免疫浸润评估算法,再去计算与基因表达量的spearman相关性(很多教程只有这一步)。
Step4 明确基因的功能,1)常规的功能富集分析,重点关注恶性特征与代谢重编程,挂钩挂钩通路;2)WGCNA分析,识别基因所在的共表达模块。3)Cellchat分析,观察基因对某一类细胞的通讯功能影响;4)基因的突变效应、敲除效应及免疫效应Step5 明确基因的调控,1)甲基化调控,尤其是启动子甲基化、DNA超敏感位点及增强子;2)体细胞拷贝数变异。3)其他分子的突变是否会影响我们目标基因的表达在最后,万分感谢一直陪伴我们一路走来用户!没有你们的支持,我也不会有机会全职更新数据库,数据库也不会达到今天这个地步。