组蛋白修饰数据库

学术 2024-12-02 07:07 北京

前言

组蛋白修饰是表观遗传控制的关键要素之一，在生物过程和疾病发展的调控中起着重要作用。组蛋白修饰可以通过标记特定的基因组位点来调节转录表观遗传，可以使用染色质免疫沉淀测序（ChIP-seq）进行定位。为了更好地理解和利用组蛋白修饰据，研究人员开发了多个专门的数据库和分析工具,这些数据库为研究人员提供了宝贵的资源和工具。组蛋白修饰的阐明为基础、生物医学和临床研究提供了重要基础。今天,让我们一起探索在生物信息学分析中经常使用的几个重要的组蛋白修饰相关数据库。

添加微信

精彩推送不错过

1.QHistone

1.1.数据库网址

https://qhistone.paoyang.ipmb.sinica.edu.tw

1.2.数据库简介

QHistone ，其中包含来自拟南芥中组蛋白修饰和组蛋白变体的大量 ChIP-seq，并附有分析函数。总共有 1534 个 ChIP-seq，来自 27 种类型的组蛋白修饰、11 种类型的组蛋白变体和 4 种类型的组蛋白，这些蛋白是从基因表达综合（GEO）和序列读取档案（SRA）收集的，该数据库还包括植物状况的信息。这些数据通过统一的峰值调用管道进行处理，并且可以在网站上浏览、下载和可视化。

QHistone 的三个关键功能概述 |左图. QHistone 预测用户查询蛋白的表观基因组图谱，该图谱可以是一组从 ChIP-seq 的峰检出衍生而来的基因组区域。此配置文件有助于推断查询在转录调控中的作用。中图. 用户可以输入两个查询来研究其调控活动，从而识别功能相关的蛋白质对。右图. 最后，QHistone 将查询蛋白与已知蛋白进行比较，从 240 万个表观基因组图谱的比较中鉴定出新的调节相互作用并发现新的伴侣。

QHistone 数据库的汇总统计|A.QHistone 中记录的各种组蛋白修饰、变体和蛋白质的比例。B. QHistone 从不同植物阶段、组织类型、基因型和胁迫下的植物中收集 ChIP-seq 样本。

1.3.数据库使用

1.输入数据：输入如图中数据或上传文件（BED format、Gene IDs、TE IDs、GEO Sample ID ，任选其一）

2.结果1--查询信息相关信息

3.结果2--查询信息相关表观信息

注：在该结果页面可以下载组蛋白修饰预测结果

4.结果3--查询信息相关表达信息

5.结果4--查询信息相关集群

6.结果5--查询信息相关基因组信息

7.结果6--查询信息相关基因拓扑信息

8.QHistone通过比较两个查询（例如，两个蛋白质ChIP-seqs）的表观基因组谱，预测了可能具有功能一致性或相反的调控活性。

9.QHistone可以查询所有拟南芥蛋白，寻找推定的蛋白质伴侣或功能相关的对。

2.CHHM

2.1.数据库网址

https://pmc.ncbi.nlm.nih.gov/articles/instance/11302869/bin/ijbsv20p3760s3.xlsx

2.2.数据库简介

通过手动整理来自 10 个知识库/数据库和 3 篇补充文章的修饰记录，获得了人类组蛋白修饰的精选目录 CHHM。CHHM 包含 6612 个非冗余修饰条目，涵盖 31 种修饰类型（包括 9 种新兴修饰）和 2 种组蛋白-DNA 交联，在 11 个 H1 变体、21 个 H2A 变体、21 个 H2B 变体、9 个 H3 变体和 2 个 H4 变体中鉴定。CHHM 揭示了组蛋白家族中的修饰热点区域和独特的分布模式。

该数据库对所有检索到的修改记录进行人工检查，根据实验证据根据置信度分为3类。对低贯穿实验方法识别/确认的修改给出了最高的可信度（CL3），即典型实验产生了坚实的证据。对于那些仅通过高通量实验方法识别的方法，例如基于质谱的自下而上的蛋白质组学实验，给予了中等水平的可信度（CL2）。根据蛋白质序列相似性推断所确定的修饰的置信度最低（CL1，包括CL1a和CL1b）。

CHHM 不仅是人类组蛋白修饰的重要且用户友好的资源，还为理解人类组蛋白修饰和表观遗传学控制的机制提供了新的见解。

2.3.数据库使用

1.信息页面

信息页面提供了工具CHHM的基本介绍，在该工具中检索到的知识库/数据库和文章的信息，以及置信水平的分类

2.CHHM中包含的组蛋白修饰和交联列表

提供了CHHM中包含的31种修改和2种交联的摘要。对于乙酰化和甲基化，对其亚型进行了注释。

3.人类组蛋白变异体的列表

提供了已识别的人类组蛋白变异的摘要。人类组蛋白变异包括11个人类H1变体，21个人类H2A变体，21个人类H2B变体，9个人类H3变体，和2个人类H4变体。蛋白质信息从UniProt中检索。

4.人类组蛋白家族中的整理修饰条目

提供了人类组蛋白家族H1、H2A、H2B、H3和H4中精心策划的修饰条目。

4.1

CHHM中精心整理的修饰条目在两个层面上交付：蛋白质序列层面和修饰层面。在蛋白质序列水平上，大写字母表示氨基酸符号（例如，M表示蛋氨酸，K表示赖氨酸）。在修饰级别，斜体大写字母或数字表示修改条目的来源（例如，N表示iPTMnet中的修改；2表示O'Neil等人，Sci-adv.，2020中的修改）。在蛋白质序列水平和修饰水平上，字体颜色和背景颜色表示关键表中所示的置信水平。此外，初始蛋氨酸以红色背景色表示。

4.2

在蛋白质序列水平上，提供了一个家族内组蛋白变异的对齐氨基酸序列。蛋白质序列中的间隙是通过序列比对来确定的。氨基酸残基作为修饰位点的置信度由与氨基酸残基相关的所有条目中证据可信度最高的修饰条目的置信度表示。置信度由背景颜色和氨基酸符号的颜色的组合来表示。初始蛋氨酸以红色背景色表示。

4.3

为了可视化每个氨基酸残基的修饰条目，点击连续行左侧、组蛋白变体的氨基酸序列下方的“+”按钮，将给出单个修饰条目的信息，包括类型、定位、来源和置信水平。对于每个修改条目，其类型信息在每行条目的开头都带有相应的缩写。斜体字母/数字表示条目的来源，即知识库/数据库或文章。字体颜色和背景颜色的组合表示为每个条目的检索到的记录的最高置信度（详细信息请参阅键表）。

值得注意的是，用灰色背景颜色突出显示的修改条目仅用于描述识别修改类型的情况，但修改的子类型尚未澄清。例如，“sym/asymme2”仅用于描述该位点上的二甲基化被识别的情况，但甲基化的类型尚未在源知识/数据库中得到澄清。

5.在三篇文章中出现的修改条目列表

提供从文章中检索到的详细信息，包括来源、置信水平、蛋白质信息、站点信息和修饰/交联类型。这部分信息包含在工作表4-8中的CHHM的主要内容中

3.Histone Database

3.1.数据库网址

https://www.ncbi.nlm.nih.gov/projects/HistoneDB2.0

3.2.数据库简介

“HistoneDB 2.0 – with variants”是一个全面的组蛋白序列数据库，按组蛋白类型和变体分类。数据库中的所有条目都辅以丰富的序列和结构注释，以及许多交互式工具，用于探索和比较来自各种生物体的不同变体的序列。数据库的核心是一组手动编排的组蛋白序列，这些序列被分组为 30 个不同的变体子集，并带有变体特异性注释。交互式网站支持两个数据集中的各种搜索策略：浏览系统发育树;按需生成带有特征注释的多个序列比对;组蛋白样序列的分类和浏览每个组蛋白变体的分类多样性。HistoneDB 2.0 是组蛋白序列及其对染色质功能的影响进行交互式比较分析的资源。

数据库网站一下功能，可以：

（1）浏览组蛋白变体、它们的注释、特征和序列

（2）分析组蛋白变体的系统发育树

（3）执行各种序列的多个序列比对，并与注释一起浏览它们

（4）研究组蛋白变体在自动提取的序列集中的分类分布

（5）对用户提供的序列进行分类，并在 HistoneDB 2.0 数据库中找到最接近的匹配项。

3.3.数据库使用

3.3.1.数据库主页

核小体结构及其不同组蛋白变体组成的示意图。核小体核心由 147 bp 的 DNA 和 H3、H4、H2A 和 H2B 组蛋白的八聚体（分别以蓝色、绿色、黄色和红色表示）形成。H1 接头组蛋白（紫色）与 DNA 入口出口点附近的核小体核心相关。将显示每种组蛋白类型的选定组蛋白变体名称。

3.3.2.浏览变体

3.3.2.1.首页允许通过为每个变体选择颜色编码的 3D 模型来选择五种组蛋白类型中的一种。

3.3.2.2.点击选定（eg:H3）组蛋白类型的信息页面

在此页面上，可以获取1.组蛋白变体列表及其替代名称、分类范围，2.变异系统发育树：大多数变体聚集在单独的分支中，点击分类群名称以了解更多关于其变体的信息。

3.3.2.3.典型组蛋白变体的摘要页面

1.通过单击组蛋白变体名称可以跳转到组蛋白变体摘要页面

2.其中包括其描述、带有突出显示特征的组蛋白序列预览，以及它与同一类型的通用组蛋白（第一行）的比较。

3.在组蛋白序列下方可以查看变体和特定类型特征列表

3.3.2.4.组蛋白变体页面的“精选序列”选项卡

1.点击选项卡Curated Sequences，此时可以快速预览带注释的序列

2.点击感兴趣的序列

3.点击View MSA，此时可以在页面最下方查看多序列比对（MSA）结果

3.3.2.5.HMMER 评分的表格视图，用于对所选序列进行分类

按照下图中的步骤，可以选择查看所有 HMM 模型的选定序列的分数，此选项可能有助于检查序列是否与多个模型相似，或者是否存在分类错误。我们敦促用户在对相关序列得出最终结论之前检查这些分数，特别是如果已知自动分配的变体类型属于密切相关的变体组（例如，规范 H3、H3.3、H3.5，它们都仅有几个位置不同）。还可以按分类法、序列头、序列模序、GI 标识符和 RefSeq 数据库中的序列过滤序列。

4.Cistrome

4.1.数据库网址

http://db3.cistrome.org/browser

4.2.数据库简介

Cistrome 数据浏览器是来自人类和小鼠的 ChIP-seq、ATAC-seq 和 DNase-seq 数据的资源。它提供了转录因子、辅因子、染色质重塑基因、组蛋白翻译后修饰和核酸内切酶活性可接近的染色质区域的全基因组位置图谱。与上一版本相比，Cistrome DB v3.0 包含大约 45000 个人类样本和 44000 个小鼠样本，以及大约 32000 个新收集的数据集。Cistrome DB v3.0 用户界面作为单页应用程序实现，它统一了菜单驱动和数据驱动的搜索功能，并提供了一个嵌入式基因组浏览器，使用户能够更有效地查找和可视化数据。用户可以通过关键字、菜单和数据驱动的搜索工具找到信息丰富的染色质图谱。浏览器搜索功能可以预测查询基因的调节因子以及潜在顺式调节元件的细胞类型和因子依赖性功能。Cistrome DB v3.0 扩展了质量控制统计数据的显示，将序列徽标整合到基序丰富显示中，并包含更广泛的样本元数据。

4.3.数据库使用

进入网站主页，如想查看基因AFTPH的组蛋白修饰情况，按下图中步骤操作，即可获得该基因组蛋白修饰信息

5.总结

组蛋白修饰在染色质重塑、基因转录调控、干细胞维持和分化中起重要作用。组蛋白修饰的改变可能与人类疾病有关，尤其是癌症。通过 ChIP-seq、ChIP-chip 和 qChIP 探测的组蛋白修饰（包括甲基化、乙酰化和泛素化）已广泛使用。组蛋白修饰数据的挖掘和整合有利于新的生物学发现。目前还没有专门用于人类组蛋白修饰的综合数据存储库。组蛋白修饰数据库的不断更新和完善,将极大地推动表观转录组学研究的发展,为理解生命过程的复杂调控机制和开发新的疾病诊断治疗策略提供重要支持。

6.REF

1. Hsieh, Chih-Hung et al. “Predicting protein synergistic effect in Arabidopsis using epigenome profiling.” Nature communications vol. 15,1 9160. 24 Oct. 2024, doi:10.1038/s41467-024-53565-y

2. Ma, Wendong et al. “CHHM: a Manually Curated Catalogue of Human Histone Modifications Revealing Hotspot Regions and Unique Distribution Patterns.” International journal of biological sciences vol. 20,10 3760-3772. 2 Jul. 2024, doi:10.7150/ijbs.95954

3. Draizen, Eli J et al. “HistoneDB 2.0: a histone database with variants--an integrated resource to explore histones and their variants.” Database : the journal of biological databases and curation vol. 2016 baw014. 17 Mar. 2016, doi:10.1093/database/baw014

4. Li, Jing et al. “SysPTM 2.0: an updated systematic resource for post-translational modification.” Database : the journal of biological databases and curation vol. 2014 bau025. 3 Apr. 2014, doi:10.1093/database/bau025

添加微信

精彩推送不错过

最新文章汇总（持续更新ing）

最新热点方向

1、去年才出的review，今年就有顶刊了——神经免疫

2、医之侠者：中国肺癌领军人物吴一龙

3、陈志坚成果汇总｜大概率是华人下一位诺奖获得者

4、《Nature》中肠道菌群研究的正确打开方式

5、这文章才十来分，是被nature撤稿影响了吗？

生信人课堂

1、多组学水平的孟德尔随机化分析套路

2、单细胞+空转王炸组合，探索骨骼肌纤维化巨噬细胞

3、以小博大，紧张刺激：肿瘤耐药研究，从基因到网络

4、零基础入门-单细胞课程

5、史上最全格局打开，细讲基因组学，确定不来学学？

课题设计 | 生信分析 | 数字产品

概普生物让科研丰富

生信人

专注于基因技术相关知识分享

扫码关注获取更多

END

http://mp.weixin.qq.com/s?__biz=MzA5NjU5NjQ4MA==&mid=2651234242&idx=1&sn=4ce0d4ba58993e80237b7f0df3f29f77

生信人

共同学习生物信息学知识，共同探究生物奥秘。

最新文章

组蛋白修饰数据库

Cell 前沿：线粒体处于健康与疾病的十字路口

国自然中标热点预测：线粒体质量控制

爆款：多组学联合深度解析T细胞耗竭

简单好上手，更适合初学宝宝的转录组课程

充电时间｜让知识成为您职业生涯的加速器

Nature万字综述：癌细胞代谢与抗肿瘤免疫

最新27+生信，原来只做了这些操作！

张泽民单细胞最新思路：免疫治疗响应相关的肿瘤微环境细胞变化规律

24年肿瘤血管生成还有得做吗？Nature教你用单细胞在泛癌水平发高分文章（文末有礼）

天呀，你都不知道现在孟德尔随机能有多火

R-loop介导的肿瘤微环境新思路

探索癌症奥秘：3C 技术引领精准医学新征程

恒河猴前额叶发育和衰老过程中的表观基因组景观

核糖体请你适可而止！对恶性肿瘤可不能过分“热情”~

二区发文新方向：多聚腺苷酸化APA-qtl

纯安利，生信基础也很重要

20+ 疾病进展研究，单细胞联合空转经典策略推荐

顶刊聚焦类器官，生信也能尝尝鲜

泛癌可变剪切30分思路分享

五分一区JCR，中药生信玩出花

Cell Metabolism重磅：乳酸化如何影响肿瘤治疗耐受性

临床转化一步到位，空间亚群30分拿下！

永不过时的热点：铁死亡

癌症研究新视角，发文利器血小板

找好选题角度，公开数据也能发高分！

运用多组学方法表征肿瘤细胞的可塑性

单细胞聚焦微生物与免疫互作

孟德尔随机新思路等你来通关

Nature子刊最新单细胞转录组文章，癌基因重编程肿瘤微环境

纯生信发一区10+，图还少，一看一个不吱声

癌症研究新视角，发文利器血小板

单细胞聚焦微生物与免疫互作

超高性价比，10分到手，微生物亮点在这！

数据在手，分析全有，探究微生物感染与宿主交互，利用单细胞就够了

CELL高分热点：转移性癌症的微生物组全面解析

82.9分Nature Medicine，微生物组特征分析

探秘超级增强子：干细胞特性与癌症干细胞之间的桥梁

学科交叉，临床转化，高分文章，抢先登陆

探秘超级增强子：干细胞特性与癌症干细胞之间的桥梁

Cell Stem Cell最新综述：肿瘤干性的标志

爆火的肿瘤动态变化，拿下science

重磅综述：肿瘤的转移分7步

纯生信发高分的三大策略

神经内分泌：聚焦难治性肿瘤

可能超越CAR-T的CAR-NK、CAR-M、CAR-NKT

跨越表观遗传前沿：新型组蛋白修饰与疾病的交叉点

诺奖新鲜出炉，miRNA该如何预测

乳腺癌干细胞领域先驱——Max Wicha教授的成果盘点

多组学解密：女性容易发生“断崖式衰老”

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉