收藏！分享10个基因功能注释的数据库

学术科学 2024-10-21 11:30 湖北

不管是组蛋白修饰的靶基因，还是转录组的差异基因，我们都需要通过基因注释的方式，了解基因的功能或作用。在这个过程中各种公开的数据库起着相当重要的作用，今天就由小爱带领大家来了解下常用数据库吧~

GO数据库（https://www.geneontology.org/）

该数据库由基因本体论联合会建立，将全世界所有与基因有关的研究结果进行分类汇总。对不同数据库中关于基因和基因产物的生物学术语进行标准化，对基因和蛋白功能进行统一的限定和描述，算是转录组分析中注释和富集最常用的数据库了。

该数据库主要有三个部分组成：BP（Biological Process），生物过程；MF（Molecular Function）分子功能；CC（Cellular Component），细胞组分。这三大分支下一级又分很多小层级，级别数字越大，功能描述越细致。

KEGG(http://www.genome.jp/kegg/)

KEGG是一个包含生物信息学数据库和相关工具的综合性资源，旨在帮助我们理解生物系统的功能和组成。KEGG数据库包含了多种生物信息学数据，包括基因组、代谢途径、疾病和药物等信息。数据库分为三个级别，第一级分为七个大类：代谢途径（Metabolic Pathways）、遗传信息处理（Genetic Information Processing）、环境信息处理（Environmental Information Processing）、细胞过程（Cellular Processes）、有机系统（Organismal Systems）、人类疾病（Human Diseases）和药物开发（Drugs Development），富集分析结果中我们常见的**pathway属于第三级描述。

数据库还提供了一系列工具和资源，如KEGG Pathway，KEGG BRITE，KEGG Orthology等，帮助我们进行生物信息学分析和研究。

常见KEGG数据库比对结果解读：善用KEGG数据库挖掘目的基因

NR(ftp://ftp.ncbi.nih.gov/blast/db)

NR全称为Non-Redundant Protein Database，是一个非冗余的蛋白质数据库，由NCBI创建并维护，内容比较全面，涵盖了广泛的生物物种，包括细菌、真菌、植物、动物等。同时注释结果中会包含有物种信息，可作物种分类用。

使用Diamond软件，把目标物种的氨基酸序列，与NR数据库进行比对，把目标物种的基因和其相对应的功能注释信息结合起来，得到注释结果。该数据库可从NCBI上直接下载使用，下载地址为：ftp://ftp.ncbi.nlm.nih.gov/blast/db/fasta/nr.gz。

Pfam(http://pfam.xfam.org/)

Pfam数据库是一个大型的蛋白质家族集合，其中每个家族都由多序列比对和隐马尔可夫模型（HMMs）来表示。蛋白质通常由一个或多个功能区域组成，这些区域通常被称为结构域。不同结构域的组合产生了自然界中发现的各种蛋白质。因此，确定蛋白质中出现的结构域可以深入了解其功能。

该数据库的使用方式多样，例如可以分析蛋白质序列以查找Pfam匹配、查看Pfam注释和比对、查看相关条目组、查看蛋白质序列的结构域组织、查找 PDB 结构上的结构域，或通过关键字查询 Pfam 等。

KOG(ftp://ftp.ncbi.nih.gov/pub/cog/kog/)

KOG数据库（euKaryotic Orthologous Groups）是真核生物的直系同源蛋白数据库，它是由NCBI创建并维护的。通过对多种真核生物的蛋白质序列进行比较和分析构建而成的。该数据库可以将某个蛋白序列与KOG数据库进行比对，可以推测序列的功能。构成每个KOG的蛋白被假定为来自于一个祖先蛋白，这些蛋白可能是orthologs（来自于不同物种的由垂直家系进化而来的蛋白，通常保留与原始蛋白相同的功能）或者paralogs（在一定物种中来源于基因复制的蛋白，可能进化出新的与原来有关的功能）。

在生物学研究中，KOG注释常用于功能注释、代谢途径分析、推导特定的代谢途径是否存在、进化关系研究。

EggNOG(http://www.ncbi.nlm.nih.gov/COG)

EggNOG（evolutionary genealogy of genes: non-supervised orthologous groups）数据库是由EMBL创建并维护的直系同源蛋白分组比对数据库，它是对NCBI的COG数据库的拓展。EggNOG采用基于图状结构的非监督聚类算法，构建了真核、原核、病毒等不同物种的同源蛋白簇。

该数据库提供了不同分类水平蛋白的直系同源分组（orthologous groups，OG），并对每个同源基因类进行了系统发育树构建、HMM模型构建、GO注释、KEGG pathway注释、SMART/FPAM结构域注释、CAZyme注释等。通过鉴定蛋白与该数据库的比对，可以预测蛋白质的功能。

EggNOG的最新版本为eggNOG 5.0，新版本不再使用物种名称缩写，而是使用更加规范的ncbi taxid来进行物种分类。下载地址：http://eggnog5.embl.de/indexof/download/eggnog_5.0/

Swissprot(http://web.expasy.org/docs/swiss-prot_guideline.html)

Swissprot数据库是经过注释的蛋白序列数据库，由欧洲生物信息学研究所（EBI）维护。每个条目包含蛋白质序列、引用文献、分类学信息和详细注释等。注释内容包括蛋白质的功能、转录后修饰、特殊位点、二级结构等信息，具有较高的准确性和可靠性。

Swissprot数据库中的数据经过了人工校验，冗余度较小，是一个高质量的蛋白质序列数据库。它主要来自文献中的研究成果和经过e-value校验过的计算分析结果，只有有质量保证的数据才会被加入该数据库。

需注意的是，该数据库文件较大，下载可能需要一些时间。下载地址为：ftp://ftp.ncbi.nlm.nih.gov/blast/db/fasta/swissprot.gz

TrEMBL(https://www.uniprot.org/）

TrEMBL是UniProt（Universal Protein Resource，通用蛋白质资源）数据库的一部分。

TrEMBL数据库包含了大量的蛋白质序列，这些序列主要是通过计算机预测或从核酸序列翻译而来，其注释信息相对较少。它的作用是补充Swissprot中未包含的蛋白质序列，以增加蛋白质数据的覆盖范围。下载地址：ftp://ftp.uniprot.org/pub/databases/uniprot/current_release/knowledgebase/complete/uniprot_trembl.fasta.gz

String(https://string-db.org/)

STRING数据库是一个用于检索已知蛋白和预测蛋白之间相互作用的综合性数据库。它收集了多个公共数据库的信息，并整合了这些数据来生成蛋白质相互作用网络。

该数据库涵盖了来自5090个物种的两千四百多万种蛋白质（截至2019年，包含5090个物种、24,584,628个蛋白、3,123,056,667个相互作用），其数据来源包括基因组预测、高通量实验、共表达实验、自动化文本挖掘以及其他数据库等；不仅提供了蛋白质相互作用网络的可视化，还能提供蛋白质家族、途径、亚细胞定位等信息，并且具有一些分析工具，如聚类分析、GO富集分析和KEGG富集分析等，可帮助使用者更好地分析网络图，找到有意义的生物学命题。

UniProt(https://www.uniprot.org/)

UniProt (Universal Protein)是一个信息丰富、资源广泛的蛋白质数据库。它由Swiss-Prot、TrEMBL和PIR-PSD三大数据库的数据整合而成，其数据主要来自于基因组测序项目完成后获得的蛋白质序列，包含了大量来自文献的蛋白质生物学功能信息。

Uniprot的一大特征是具有强大的搜索功能，可以通过以下两种方式进行检索：

（1）搜索框：在页面的上半部分有一个搜索框，可以通过输入关键词进行搜索。

（2）高级搜索：点击页面上方的“Advanced”按钮，可以使用更复杂的搜索选项，如物种、序列等。

搜索功能具体使用步骤：打开UniProt页面后在顶部搜索栏中输入蛋白质名称或编号，根据需要选择数据库和高级筛选后，点击search即可进入搜索结果页面。这里我们以小鼠FABP蛋白为例：

进入蛋白详细信息界面后，可以首先看到FABP蛋白的[Function]即功能介绍，该板块总结了FABP蛋白的基本功能和主要参与的生物学过程。

之后是[Names&Taxonomy]即名称与分类板块，这里介绍了FABP蛋白的命名和来源种属、NCBI分类编号、分离族谱、种属详细信息、蛋白组学信息等。

再接下来的几个板块和蛋白实验息息相关，包括[Subcellular location]亚细胞定位、[PTM/Processing]翻译后修饰、[Expression]表达情况、[Interaction]蛋白相互作用等

在做WB实验时我们往往会发现一些蛋白的实际检测分子量和期望分子量有一定的差异，这时我们就可以运用[Sequence]蛋白序列与翻译后修饰板块进行比对，有了这些信息我们便能轻松预测正确的WB条带位置。例如FABP蛋白，Mass(Da)显示其分子量约为15kDa。还有一种可能，实际的WB条带比15kDa更大，造成这样差值的原因可能是翻译后有修饰残基。

总之，基因功能注释的数据库在生物学领域发挥着至关重要的作用，是生物学家们不可或缺的工具，为我们揭示基因的奥秘提供了有力支持。随着技术的不断进步，这些数据库将不断完善和更新，为生物学研究带来更多的惊喜和突破。

欢迎有分析需求的各位老师前来咨询，爱基强大的生信分析团队将尽可能为您提供帮助。

项目咨询

IGENEBOOK

关于我们

武汉爱基百客生物科技有限公司（简称爱基百客），位于武汉高农生物园，是一家专业提供表观组学科研服务、单细胞与空间组学测序分析和高通量测序分析的新型生物科技服务企业。公司先后引入ChIP、WGBS、ATAC-seq、DNBSEQ-T7、10x Genomics、SeekOne^® DD、DNBelabC-TaiM4和Stereo-seq等实验平台，不断提升公司的科研服务能力。

运营至今合作的科研客户超2000家，涵盖国内知名科研院所、高校以及相关生物企业，科研成果曾多次在Science、Cancer Cell、Nature Communications、J HEMATOL ONCOL、Plant Cell 等国际高水平学术期刊发表，受到了客户广泛好评，是国内成长最迅速的高通量测序科研服务企业之一。

了解更多

{ 往期精彩回顾 }

精选合集，欢迎收藏哟！

点个「在看」天天发SCI

爱基百客生物

爱基百客是一家专业提供表观组学、单细胞与空间组学以及高通量测序分析的新型生物科技服务企业，旗下拥有DNBSEQ-T7、10xGenomics等平台，依托表观技术的优势，为生命科学研究和医疗健康等领域提供方案设计到数据分析一站式服务。

最新文章

干货 | 单细胞转录组标准和个性化分析解析

如何进行“单细胞转录组+单细胞ATAC”联合分析？

DCS Lab新纪元：爱基百客与华大智造携手开启全方位基因组学合作新篇章

今日直播预告 | 探索“长生不老”的对立面，细胞衰老的机制与干预

直播预告 | 探索“长生不老”的对立面，细胞衰老的机制与干预

项目文章 | ChIP-seq+TBS助力揭示转录因子在肺癌的调控机制研究

项目文章 | RNA-seq+WES-seq+机器学习，揭示DNAH5是结直肠癌的预后标志物

大队列ATAC-seq：揭秘基因调控的“密码本”

肿瘤明星转录因子研究策略和汇总

项目文章 | NC&ChIP-seq助力揭示高温胁迫下白菜开花调控新机制

直播回顾 | 植物转录因子研究利器——DAP-seq

项目文章 | ChIP-seq揭开热休克因子ZmHsf17调控ZmPAH1增强玉米耐热性的作用机制

今日直播 | 植物转录因子研究利器——DAP-seq

直播预告 | 植物转录因子研究利器——DAP-seq

云平台 | 如何绘制高频使用的火山图？

扒一扒高分文章中空间转录组常见的分析内容

单细胞转录组+空间转录组联合应用，1+1>2

玩转表观，单细胞CUT&Tag技术介绍

直播回顾 | 单细胞多组学联合分析思路

国自然宠儿“肿瘤微环境”研究该如何入手

今日直播 | 秋收冬藏，爱基邀您共探单细胞多组学联合分析思路

直播预告 | 秋收冬藏，爱基邀您共探单细胞多组学联合分析思路

科研顶流“空间转录组”的分析流程解读

时空解码：Stereo-seq FFPE技术引领病理学研究新纪元

国自然 | 组蛋白修饰和组蛋白乳酸化合集文章

项目文章 | Cell Rep Med &SGLT2抑制剂达格列净可改善高尿酸血症肾病的肾纤维化

转录调控 | 转录组高频可视化结果解读

Sci Adv项目文章|ChIP-seq助力解析巨噬细胞关键调节因子AhR在黑色素瘤的进展和免疫治疗的耐药性作用

空间转录组 | Stereo-seq在疾病中的应用研究

项目文章 | 药学TOP期刊PR&ChIP-seq助力揭示激酶LIMK2促进梗死不良重构的机制

会议回顾 | 2024年花卉产业青年科技论坛圆满召开

收藏！分享10个基因功能注释的数据库

Nature Neu | 单细胞CUT&Tag+单细胞RNA-seq+类器官解析发育动态过程的表观遗传机制

会议预告 | 爱基百客邀您参加2024年花卉产业青年科技论坛

空间转录组 | 华大Stereo-seq在肿瘤研究中的应用

Cell | 利用scRNA-seq和scStereo-seq对免疫特性的蜕膜基质细胞控制小鼠早期妊娠的时空洞察

【m6A】如何调节【免疫】，双热点如何碰撞出火花?

直播回顾 | 染色质开放性研究的整体解决方案

空间转录组 | 华大时空stereo-seq技术原理

今日直播 | 染色质开放性研究的整体解决方案

直播预告 | 染色质开放性研究的整体解决方案

署名文章 | 对桂花AP2/ERFs的比较转录组分析揭示了OfERF017介导的有机酸代谢途径在花衰老中的作用

如何研究转录因子，合集文章让你的研究直接开挂

直播回顾 | 转录因子概述及研究思路分享

表观项目文章速递，平均IF=9.7

今日开讲 | 转录因子概述及研究思路分享

直播预告 | 转录因子概述及研究思路分享

EM-seq：酶法甲基化测序，甲基化测序的新选择

空间转录组 | 如何制备冷冻切片样本？

合作新篇章！继DCS后爱基百客成为华大智造CycloneSEQ首批合作伙伴

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

收藏！分享10个基因功能注释的数据库

GO数据库（https://www.geneontology.org/）

KEGG(http://www.genome.jp/kegg/)

NR(ftp://ftp.ncbi.nih.gov/blast/db)

KOG(ftp://ftp.ncbi.nih.gov/pub/cog/kog/)

EggNOG(http://www.ncbi.nlm.nih.gov/COG)

Swissprot(http://web.expasy.org/docs/swiss-prot_guideline.html)

TrEMBL(https://www.uniprot.org/）

String(https://string-db.org/)

UniProt(https://www.uniprot.org/)