24年做生信,这十个数据库一定要知道

学术   科学   2024-10-11 07:08   北京  

最近对接客户,包括面试毕业生。

发现大家对于生物信息分析重视程度有了,但是它的能力范围并不清楚。

很多小伙伴就知道肿瘤数据库TCGA,却不知道单细胞当道的情况下,GEO的数据利用程度远远超过TCGA。这句话是重点,一定要记得,实在不清楚,找我们设计的方案,你就知道了。


今天小编就整理了24年做生信分析,一定要知道的十大数据库。


一、NCBI(GEO,数据多,疾病,肿瘤都有,单细胞)

https://www.ncbi.nlm.nih.gov/geo

GEO数据库随着疾病研究的深入,包括单细胞测序技术的发展,目前在生信分析上已经慢慢的有超越TCGA的趋势,所以你一定要知道,GEO是块宝,不过得好好的做数据清洗才能用。

生信人之前对GEO中常见的癌症数据进行了梳理
感兴趣的添加我们获取
二、文献检索Pubmed
https://www.ncbi.nlm.nih.gov/pubmed
Are you kidding me?这个数据库还要说一遍。pubmed 收录了几乎全部的文献,新的旧的,再做生信分析时,提前检索下有没有类似的思路,或者说目前的研究进展是什么样子的,可以做到事半功倍。同时做孟德尔随机之前,也可以用这个数据库做做meta分析,提前锁定相关性。
三、临床表型数据库NHANSE(SEER)
https://www.cdc.gov/nchs/nhanes/index.htm
这个数据库早就用了,最近火起来就是因为孟德尔随机,孟德尔随机可以确定暴露和结局的因果关系,是从相关开始出发的。暴露因素哪里有,哪里就会火,很明显流行病学的数据库就火了,尤其是这个NHANSE。
四、Biobank(GWAS数据库)
https://www.ukbiobank.ac.uk
孟德尔随机火了,之前那些大规模队列的GWAS数据都值得拿出来好好挖一挖了。同样的数据孟德尔随机上下游分析的数据库还有
1、IEU(https://gwas.mrcieu.ac.uk/)2、GWAS Catalog(https://www.ebi.ac.uk/gwas/)3、Finngen(https://r10.finngen.fi/)4、eQTLGen(https://www.eqtlgen.org/phase1.html)
五、TCGA(多组学、样本齐全)
https://portal.gdc.cancer.gov/
小编认为虽然下载数据TCGA官网肯定不如CGDSR或者XENA,但是呢,它的信息最全,有很多稀奇古怪的临床指标都得从这下载。除此之外,一些整体的样本情况,实验和对照信息,临床统计数据,也都一目了然。
六、GEPIA  (可以提前测试)
 http://gepia2.cancer-pku.cn/#index
现在工具版本升级到2了,这个支持TCGA所有的样本基因的差异分析,预后分析。
GEPIA2还支持TCGA和GTEx联合分析,这对于提升差异的准确性相当友好。如果你的课题涉及到了TCGA数据基因的表达和预后,可以选择这个工具,事半功倍哦。

七、Cbioportal  
https://www.cbioportal.org/
下载TCGA的突变数据firebrowse或者xena效果更好,但是对突变数据整体评估,单个基因突变预后分析,这个工具更优秀。

还支持自定义基因队列情况,所做的图也都提供下载。

八、UALCAN 
http://ualcan.path.uab.edu/
这个数据库可以对TCGA数据的RNA-seq进行深入研究,主要是miRNA,还可以预测药物靶点,因为整合了drugbank数据库,可以认为是一个GEPIA的补充。

九、TCIA  
 http://www.cancerimagingarchive.net/
The Cancer Imaging Archive (TCIA)影像组,病理组在多模态研究中发挥的作用会越来越大,但是目前的数据还是需要跟临床、组学数据进行关联,所以还是得用TCGA相关的数据库,关注这个方向的,需要牢记。

十. The Human Protein Atlas 
http://www.proteinatlas.org
这个数据库最近很火很火,后面也会很火。在于对于一些常见的疾病和分组,它直接可以在别人做好的免疫组化的图。就省你自己做实验了,审稿人很喜欢哦。
时间仓促,小编抛砖引玉,希望大家多指点。有更多更优秀的数据库也欢迎留言分享。最后安利下生信人的一个临床课题设计的公开课,大家感兴趣的可以去瞅一瞅。


生信人
共同学习生物信息学知识,共同探究生物奥秘。
 最新文章