前言
组蛋白修饰是表观遗传控制的关键要素之一,在生物过程和疾病发展的调控中起着重要作用。组蛋白修饰可以通过标记特定的基因组位点来调节转录表观遗传,可以使用染色质免疫沉淀测序 (ChIP-seq) 进行定位。为了更好地理解和利用组蛋白修饰据,研究人员开发了多个专门的数据库和分析工具,这些数据库为研究人员提供了宝贵的资源和工具。组蛋白修饰的阐明为基础、生物医学和临床研究提供了重要基础。今天,让我们一起探索在生物信息学分析中经常使用的几个重要的组蛋白修饰相关数据库。
添加微信
精彩推送不错过
1.QHistone
1.1.数据库网址
https://qhistone.paoyang.ipmb.sinica.edu.tw
1.2.数据库简介
QHistone ,其中包含来自拟南芥中组蛋白修饰和组蛋白变体的大量 ChIP-seq,并附有分析函数。总共有 1534 个 ChIP-seq,来自 27 种类型的组蛋白修饰、11 种类型的组蛋白变体和 4 种类型的组蛋白,这些蛋白是从基因表达综合 (GEO) 和序列读取档案 (SRA) 收集的,该数据库还包括植物状况的信息。这些数据通过统一的峰值调用管道进行处理,并且可以在网站上浏览、下载和可视化。
QHistone 的三个关键功能概述 |左图. QHistone 预测用户查询蛋白的表观基因组图谱,该图谱可以是一组从 ChIP-seq 的峰检出衍生而来的基因组区域。此配置文件有助于推断查询在转录调控中的作用。中图. 用户可以输入两个查询来研究其调控活动,从而识别功能相关的蛋白质对。右图. 最后,QHistone 将查询蛋白与已知蛋白进行比较,从 240 万个表观基因组图谱的比较中鉴定出新的调节相互作用并发现新的伴侣。
QHistone 数据库的汇总统计|A.QHistone 中记录的各种组蛋白修饰、变体和蛋白质的比例。B. QHistone 从不同植物阶段、组织类型、基因型和胁迫下的植物中收集 ChIP-seq 样本。
1.3.数据库使用
1.输入数据:输入如图中数据或上传文件(BED format、Gene IDs、TE IDs、GEO Sample ID ,任选其一)
2.结果1--查询信息相关信息
3.结果2--查询信息相关表观信息
4.结果3--查询信息相关表达信息
5.结果4--查询信息相关集群
6.结果5--查询信息相关基因组信息
7.结果6--查询信息相关基因拓扑信息
8.QHistone通过比较两个查询(例如,两个蛋白质ChIP-seqs)的表观基因组谱,预测了可能具有功能一致性或相反的调控活性。
9.QHistone可以查询所有拟南芥蛋白,寻找推定的蛋白质伴侣或功能相关的对。
2.CHHM
2.1.数据库网址
https://pmc.ncbi.nlm.nih.gov/articles/instance/11302869/bin/ijbsv20p3760s3.xlsx
2.2.数据库简介
通过手动整理来自 10 个知识库/数据库和 3 篇补充文章的修饰记录,获得了人类组蛋白修饰的精选目录 CHHM。CHHM 包含 6612 个非冗余修饰条目,涵盖 31 种修饰类型(包括 9 种新兴修饰)和 2 种组蛋白-DNA 交联,在 11 个 H1 变体、21 个 H2A 变体、21 个 H2B 变体、9 个 H3 变体和 2 个 H4 变体中鉴定。CHHM 揭示了组蛋白家族中的修饰热点区域和独特的分布模式。
该数据库对所有检索到的修改记录进行人工检查,根据实验证据根据置信度分为3类。对低贯穿实验方法识别/确认的修改给出了最高的可信度(CL3),即典型实验产生了坚实的证据。对于那些仅通过高通量实验方法识别的方法,例如基于质谱的自下而上的蛋白质组学实验,给予了中等水平的可信度(CL2)。根据蛋白质序列相似性推断所确定的修饰的置信度最低(CL1,包括CL1a和CL1b)。
CHHM 不仅是人类组蛋白修饰的重要且用户友好的资源,还为理解人类组蛋白修饰和表观遗传学控制的机制提供了新的见解。
2.3.数据库使用
1.信息页面
信息页面提供了工具CHHM的基本介绍,在该工具中检索到的知识库/数据库和文章的信息,以及置信水平的分类
2.CHHM中包含的组蛋白修饰和交联列表
提供了CHHM中包含的31种修改和2种交联的摘要。对于乙酰化和甲基化,对其亚型进行了注释。
3.人类组蛋白变异体的列表
提供了已识别的人类组蛋白变异的摘要。人类组蛋白变异包括11个人类H1变体,21个人类H2A变体,21个人类H2B变体,9个人类H3变体,和2个人类H4变体。蛋白质信息从UniProt中检索。
4.人类组蛋白家族中的整理修饰条目
提供了人类组蛋白家族H1、H2A、H2B、H3和H4中精心策划的修饰条目。
4.1
CHHM中精心整理的修饰条目在两个层面上交付:蛋白质序列层面和修饰层面。在蛋白质序列水平上,大写字母表示氨基酸符号(例如,M表示蛋氨酸,K表示赖氨酸)。在修饰级别,斜体大写字母或数字表示修改条目的来源(例如,N表示iPTMnet中的修改;2表示O'Neil等人,Sci-adv.,2020中的修改)。在蛋白质序列水平和修饰水平上,字体颜色和背景颜色表示关键表中所示的置信水平。此外,初始蛋氨酸以红色背景色表示。
4.2
在蛋白质序列水平上,提供了一个家族内组蛋白变异的对齐氨基酸序列。蛋白质序列中的间隙是通过序列比对来确定的。氨基酸残基作为修饰位点的置信度由与氨基酸残基相关的所有条目中证据可信度最高的修饰条目的置信度表示。置信度由背景颜色和氨基酸符号的颜色的组合来表示。初始蛋氨酸以红色背景色表示。
4.3
为了可视化每个氨基酸残基的修饰条目,点击连续行左侧、组蛋白变体的氨基酸序列下方的“+”按钮,将给出单个修饰条目的信息,包括类型、定位、来源和置信水平。对于每个修改条目,其类型信息在每行条目的开头都带有相应的缩写。斜体字母/数字表示条目的来源,即知识库/数据库或文章。字体颜色和背景颜色的组合表示为每个条目的检索到的记录的最高置信度(详细信息请参阅键表)。
值得注意的是,用灰色背景颜色突出显示的修改条目仅用于描述识别修改类型的情况,但修改的子类型尚未澄清。例如,“sym/asymme2”仅用于描述该位点上的二甲基化被识别的情况,但甲基化的类型尚未在源知识/数据库中得到澄清。
5.在三篇文章中出现的修改条目列表
提供从文章中检索到的详细信息,包括来源、置信水平、蛋白质信息、站点信息和修饰/交联类型。这部分信息包含在工作表4-8中的CHHM的主要内容中
3.Histone Database
3.1.数据库网址
https://www.ncbi.nlm.nih.gov/projects/HistoneDB2.0
3.2.数据库简介
“HistoneDB 2.0 – with variants”是一个全面的组蛋白序列数据库,按组蛋白类型和变体分类。数据库中的所有条目都辅以丰富的序列和结构注释,以及许多交互式工具,用于探索和比较来自各种生物体的不同变体的序列。数据库的核心是一组手动编排的组蛋白序列,这些序列被分组为 30 个不同的变体子集,并带有变体特异性注释。交互式网站支持两个数据集中的各种搜索策略:浏览系统发育树;按需生成带有特征注释的多个序列比对;组蛋白样序列的分类和浏览每个组蛋白变体的分类多样性。HistoneDB 2.0 是组蛋白序列及其对染色质功能的影响进行交互式比较分析的资源。
数据库网站一下功能,可以:
(1) 浏览组蛋白变体、它们的注释、特征和序列
(2) 分析组蛋白变体的系统发育树
(3) 执行各种序列的多个序列比对,并与注释一起浏览它们
(4) 研究组蛋白变体在自动提取的序列集中的分类分布
(5) 对用户提供的序列进行分类,并在 HistoneDB 2.0 数据库中找到最接近的匹配项。
3.3.数据库使用
3.3.1.数据库主页
核小体结构及其不同组蛋白变体组成的示意图。核小体核心由 147 bp 的 DNA 和 H3、H4、H2A 和 H2B 组蛋白的八聚体(分别以蓝色、绿色、黄色和红色表示)形成。H1 接头组蛋白(紫色)与 DNA 入口出口点附近的核小体核心相关。将显示每种组蛋白类型的选定组蛋白变体名称。
3.3.2.浏览变体
3.3.2.1.首页允许通过为每个变体选择颜色编码的 3D 模型来选择五种组蛋白类型中的一种。
3.3.2.2.点击选定(eg:H3)组蛋白类型的信息页面
在此页面上,可以获取1.组蛋白变体列表及其替代名称、分类范围,2.变异系统发育树:大多数变体聚集在单独的分支中,点击分类群名称以了解更多关于其变体的信息。
3.3.2.3.典型组蛋白变体的摘要页面
1.通过单击组蛋白变体名称可以跳转到组蛋白变体摘要页面
2.其中包括其描述、带有突出显示特征的组蛋白序列预览,以及它与同一类型的通用组蛋白(第一行)的比较。
3.在组蛋白序列下方可以查看变体和特定类型特征列表
3.3.2.4.组蛋白变体页面的“精选序列”选项卡
1.点击选项卡Curated Sequences,此时可以快速预览带注释的序列
2.点击感兴趣的序列
3.点击View MSA,此时可以在页面最下方查看多序列比对(MSA)结果
3.3.2.5.HMMER 评分的表格视图,用于对所选序列进行分类
按照下图中的步骤,可以选择查看所有 HMM 模型的选定序列的分数,此选项可能有助于检查序列是否与多个模型相似,或者是否存在分类错误。我们敦促用户在对相关序列得出最终结论之前检查这些分数,特别是如果已知自动分配的变体类型属于密切相关的变体组(例如,规范 H3、H3.3、H3.5,它们都仅有几个位置不同)。还可以按分类法、序列头、序列模序、GI 标识符和 RefSeq 数据库 中的序列过滤序列。
4.Cistrome
4.1.数据库网址
http://db3.cistrome.org/browser
4.2.数据库简介
Cistrome 数据浏览器是来自人类和小鼠的 ChIP-seq、ATAC-seq 和 DNase-seq 数据的资源。它提供了转录因子、辅因子、染色质重塑基因、组蛋白翻译后修饰和核酸内切酶活性可接近的染色质区域的全基因组位置图谱。与上一版本相比,Cistrome DB v3.0 包含大约 45000 个人类样本和 44000 个小鼠样本,以及大约 32000 个新收集的数据集。Cistrome DB v3.0 用户界面作为单页应用程序实现,它统一了菜单驱动和数据驱动的搜索功能,并提供了一个嵌入式基因组浏览器,使用户能够更有效地查找和可视化数据。用户可以通过关键字、菜单和数据驱动的搜索工具找到信息丰富的染色质图谱。浏览器搜索功能可以预测查询基因的调节因子以及潜在顺式调节元件的细胞类型和因子依赖性功能。Cistrome DB v3.0 扩展了质量控制统计数据的显示,将序列徽标整合到基序丰富显示中,并包含更广泛的样本元数据。
4.3.数据库使用
进入网站主页,如想查看基因AFTPH的组蛋白修饰情况,按下图中步骤操作,即可获得该基因组蛋白修饰信息
5.总结
组蛋白修饰在染色质重塑、基因转录调控、干细胞维持和分化中起重要作用。组蛋白修饰的改变可能与人类疾病有关,尤其是癌症。通过 ChIP-seq、ChIP-chip 和 qChIP 探测的组蛋白修饰(包括甲基化、乙酰化和泛素化)已广泛使用。组蛋白修饰数据的挖掘和整合有利于新的生物学发现。目前还没有专门用于人类组蛋白修饰的综合数据存储库。组蛋白修饰数据库的不断更新和完善,将极大地推动表观转录组学研究的发展,为理解生命过程的复杂调控机制和开发新的疾病诊断治疗策略提供重要支持。
6.REF
1. Hsieh, Chih-Hung et al. “Predicting protein synergistic effect in Arabidopsis using epigenome profiling.” Nature communications vol. 15,1 9160. 24 Oct. 2024, doi:10.1038/s41467-024-53565-y
2. Ma, Wendong et al. “CHHM: a Manually Curated Catalogue of Human Histone Modifications Revealing Hotspot Regions and Unique Distribution Patterns.” International journal of biological sciences vol. 20,10 3760-3772. 2 Jul. 2024, doi:10.7150/ijbs.95954
3. Draizen, Eli J et al. “HistoneDB 2.0: a histone database with variants--an integrated resource to explore histones and their variants.” Database : the journal of biological databases and curation vol. 2016 baw014. 17 Mar. 2016, doi:10.1093/database/baw014
4. Li, Jing et al. “SysPTM 2.0: an updated systematic resource for post-translational modification.” Database : the journal of biological databases and curation vol. 2014 bau025. 3 Apr. 2014, doi:10.1093/database/bau025
添加微信
精彩推送不错过
概普生物 让科研丰富