一个全面的DNA甲基化疾病数据资源库:DiseaseMeth version 3.0

教育培训   2021-12-04 08:30  

介绍

       DNA甲基化是目前研究人员关注最多的表观遗传修饰形式,在哺乳动物和细胞生物活动的正常发育中起着至关重要的作用,参与调控包括发育、X染色体失活、基因组印记等重要的生命过程。生物体内正常的DNA甲基化可以维持细胞生长和代谢,而且是必需的,而DNA甲基化的异常表现有可能会导致疾病。异常的DNA甲基化一方面可以阻止抑癌基因的转录,另一方面也可以导致基因组不稳定。CpG 区域的全局 DNA 低甲基化和局部高甲基化在致癌过程中很常见。因此DNA甲基化作为临床诊断和治疗的工具具有广阔的应用前景,明确DNA甲基化与疾病的关系对于揭示DNA甲基化的致病机制至关重要。

 

202111月发表在《NAR》题为“DiseaseMeth version 3.0:A major expansion and update of the humandisease methylation database”的论文,展示了DiseaseMeth version 3.0数据库,一个集存储、查询、分析、可视化、下载等功能的综合性DNA甲基化疾病数据资源平台,附网址:http://diseasemeth.edbc.org/



数据来源

在过去几年中,DNA 甲基化数据的数量大幅增加,作者从GEOTCGA等公共数据库中收集了这些碎片化数据,其中包含162种与DNA甲基化相关的疾病数据,49,949个高通量测序数据的样本,以及3328个从文献中手动挖掘的经实验验证的DNA甲基化疾病关联基因。

为了便于用户使用并获取更多信息,作者针对这些DNA 甲基化数据集的元数据建立了统一的、标准化的分析流程(图2C),提供基于不同实验技术平台(如450KWGBS等)检测的DNA甲基化谱,在此基础上用户可进一步挖掘和分析DNA甲基化的作用,包括差异分析、相关分析、生存分析和网络分析。DiseaseMeth 3.0 提供了一个友好的界面支持搜索、交互式分析、可视化和下载等。



数据库功能介绍

DiseaseMeth 3.0提供四种搜索方法:GeneSearchDiseaseSearchFunctionSearchAdvancedSearch。在 GeneSearch 页面,用户可以输入基因符号(基因名称/转录本 ID)或基因组位置,以获得数据库疾病样本中该特定基因的甲基化水平。输出将显示为表格和热图,基因的 DNA 甲基化水平由热图表示,它可以显示所有包含的疾病中特定基因的 DNA 甲基化水平的差异。在DiseaseSearch页面可以使用疾病类型查询,输入疾病相关的DNA甲基化差异基因(DMGs),该基因在正常样本和疾病样本中的平均甲基化水平、显著性P值、该基因的实验类型以及获得的途径等信息会在结果表格展示,两类样本中对应的DNA甲基化水平更是直观的会以热图形式展示,帮助用户快速的了解所感兴趣的基因在两类样本的DNA甲基化差异情况。此外,作者基于GOKEGGDMGs的生物学过程和通路进行了注释,并开发了一个FunctionSearch页面,用户通过选择包括感兴趣的疾病名称,基因名、GO 术语和通路 ID 等参数作为更精确的查询条件,可以快速获得DMGs有可能参与调控的生物学功能和分子通路。AdvanceSearch 页面提供用户进行更具体的查询,可输入一个或多个符合条件的条目,包括基因名称/转录本ID、基因组位置、疾病类型和所需数据的测序技术等,以帮助用户快速获取所需的数据信息。

2

除了基本的查询功能外,DiseaseMeth3.0还支持在线分析功能,以深化对通过上述方式获得的基因信息的探索。在Analyze页面,用户可以选择想要分析的疾病类型、甲基化测序数据技术类型/平台以及数据库支持的多个统计学参数,最后再输入并提交自己想探究的基因列表就可以进行分析。分析结果页面分为五个展示窗口,其中基因在各种疾病中的DNA甲基化水平差值、基因对应的染色体位置、转录本信息、显著性P值、基因实验类型等信息以表格的形式直观地展示(图 2E)。两组样本之间DNA甲基化水平的差异以可视化箱线图和热图的形式展示(图2D2F)。当用户同时选择多种疾病,还会展示疾病间DNA甲基化差异基因的相关性(图2G),以及多种疾病间的相关性(图 2H)。对于用户来说,Analyze功能相比Search功能更加友好,因为在Analyze页面用户可以自主选择想要用于分析的任何参数,通过提交自己的基因列表就可以获得多种疾病在DNA甲基化多层次、多角度的分析结果。对于想要通过高通的数据分析来探索DNA甲基化疾病的研究人员,Analyze无疑是他们开展相关研究工作最好的“启蒙工具”和“指导老师”。

为了深入研究DNA甲基化在疾病中所发挥的作用,DiseaseMeth 3.0 开发了两个在线分析工具,MethylationDisease Correlation and Cancer Prognosis &Co-MethylationMethylationDisease Correlation,一种跨疾病的网络分析工具——甲基化疾病相关性,目的是探索由 DNA 甲基化介导的疾病之间的相关性。该工具允许用户使用两种疾病的差异甲基化基因(DMG)的交集和并集对数据库中收录的 99 种疾病与22,718 个差异DNA甲基化基因进行配对,通过计算 Jaccard 相似性获得疾病之间的相关性。如果两种疾病之间存在显著关联(p < 0.05Jaccard > mean ± sd),则这两种疾病连接起来形成疾病关联网络。对于网络中与所选疾病一步关联的其他疾病,根据任意两种疾病的Jaccard系数(Jaccard > 0.6)进行筛选,形成完整的DNA甲基化介导的疾病关联网络(图3A)。用户可以在网络中直观地观察到疾病之间的所有关联情况,节点间的线条颜色越深则代表两种疾病之间共有的差异甲基化基因所占比例越大,证明DNA甲基化修饰对两种疾病的发生和发展可能存在共同的影响作用,提示研究人员对两种相关联的疾病进行更深入的研究是有意义的。

3

大量的研究表明DNA甲基化是早期癌症诊断和临床实践中更准确的肿瘤亚型分类的可靠生物标志物。所以另一个工具——Cancer Prognosis & Co-Methylation是专门针对癌症的预后和共甲基化分析。作者从TCGA数据库中收集了31种癌症的DNA甲基化和临床数据,结合患者的临床信息展示在癌症样本不同进展期的DNA甲基化水平,同时将癌症样本分为了高低甲基化风险组表征DNA甲基化对于癌症患者生存时间的影响。用户可以在下拉菜单来选择癌症名称、临床因素 T、临床因素 N、临床因素 M、癌症临床分期、年龄、生存分析或模块挖掘(图3A)。该工具使用箱线图来说明不同类型基因/多基因之间 DNA 甲基化水平的差异,以提供临床特征。例如,可以选择临床因子 T 来查看输入基因的 DNA 甲基化水平在 T1T2T3 T4 分期之间的差异,在图中可以观察到不同分期的样本DNA甲基化水平分布情况,以及通过方差分析的显著性P值。对于生存分析,作者提供自主研发的在线工具,支持用户探索单基因在癌症样本和正常样本的DNA甲基化分布、癌症患者高低甲基化组的生存曲线以及癌症样本在高低甲基化组中不同生存时间节点的样本数占比。此外,作者对数据库中所有癌症的 DMGs 进行了 Pearson 相关分析,保留了 p < 0.01cor > 0.6 的基因对,分别形成了 31 种癌症的共甲基化网络,用户可以从 DMGs共甲基化网络中挖掘共甲基化模块(图3B)。Cancer Prognosis & Co-Methylation工具包含了常见癌症在分子机制和临床数据层面的见解,作者巧妙地为用户提供这些数据的联合分析,并对DNA甲基化可以作为癌症诊断的生物标志物提供了有效的证据。

对于DiseaseMeth3.0数据库所有的操作与功能,作者详细地在帮助界面进行了介绍,包含数据库中所有主要界面功能的图片和文字说明。用户通过阅读帮助界面,可以更好地了解浏览、查询、分析、下载等功能。


综上所述,DiseaseMethversion 3.0是一个综合性的策划数据库,它集成了所有人类 DNA 甲基化疾病公开可用的元数据,并提供疾病的DNA甲基化谱和进一步挖掘分析信息,涵盖了多种统计结果,包括差异分析、相关分析、生存分析和网络分析。DiseaseMeth version 3.0数据库,不仅全面表征了 DNA 甲基化作为疾病的生物标志物,而且为研究DNA甲基化介导的疾病表观遗传调控提供了全面的数据资源,为基础研究和临床研究的用户提供可靠的支持。



计算表观遗传学

计算表观遗传学
微信号:intro4gcer
分享到朋友圈丨点右上角···分享








往期「精彩内容」,点击回顾

DNA测序历史 | CircRNA数据库 | Epigenie表观综合 | 癌症定位

BWA介绍  |  源码安装R包 | CancerLocator  | lme4 | 450K分析

乳腺癌异质性 |  BS-Seq  | 隐马模型 Circos安装 |  Circos画图

KEGG标记基因 |  GDSC  |  Meta分析  |   R线性回归和相关矩阵


精彩会议及课程,点击回顾

计算表观遗传学大数据前沿学术论坛会议记实

哈尔滨医科大学2017年全国生物信息学暑期学校

2017龙星课程系列(一)

2017龙星课程系列(二)
2017龙星课程系列(三)

2017龙星课程系列(四)

2017龙星课程系列(五)


编辑:my.z

通讯邮箱:ad.cepi@edbc.org

投稿邮箱:scw.cepi@edbc.org




CEPI感谢您的支持!

(IOS系统用户专用通道)


    赞赏    



计算表观遗传学
“计算表观遗传学(Computational Epigenetics - CEPI)”公众平台致力于表观遗传领域的科学研究,汇集领域内数据分析、算法开发及平台搭建,领航表观前沿,共同探索表观遗传调控机制。
 最新文章