m6A与疾病的关系数据资源平台M6ADD

教育培训   2021-07-19 10:56  

介绍

     m6A作为一个热门的RNA表观遗传修饰,目前已有很多的研究成果,尤其是在m6A修饰与疾病关系这一研究领域。这些宝贵的实验数据散落在众多的科研成果中,科研人员并不容易快速的获得自己关注的m6A修饰与疾病关系数据。因此本研究开发了m6A与疾病的关系数据资源平台M6ADD(m6A-disease database)。本研究从PubMed数据库中检索了超过2000篇m6A相关文献,并从中手动收集了222条实验证实的m6A与疾病关系的数据。同时,M6ADD还包含从GEO和SRA数据库中获得的30套m6A与疾病关系的高通量数据并通过统一的处理流程将计算结果储存到数据库中。本研究还根据TCGA数据预测了24种癌症中潜在的m6A 调控蛋白,并对每个潜在的m6A 调节蛋白进行可能性打分。此外,M6ADD数据库还包括一个在线的PPI网络小工具,用于去探索单基因的蛋白互作网络以及该网络中所包含的基因集合的功能。M6ADD的网址为:http://m6add.edbc.org/

 



数据查询

M6ADD 提供了一个用户友好的界面来帮助科研人员探索m6A疾病数据。 M6ADD包含多个界面,例如浏览搜索下载“m6A-Net”“m6A-Regulator”帮助。在浏览界面,用户可以点击特定的基因疾病蛋白质来获取相应的数据。浏览页面将数据分为两部分:实验数据测序数据。在实验数据部分,有三列:基因、疾病和蛋白质。通过点击每列中的单词,您可以在界面右侧获得相应的数据。测序数据部分包含基因列,功能与实验数据部分相同。在搜索界面,数据搜索分为搜索实验验证数据搜索高通量测序数据两部分。在搜索实验验证数据部分,用户可以通过选择物种和器官并输入疾病、蛋白质和基因的名称来进行组合搜索。在搜索高通量测序数据部分,用户可以通过选择计算m6A差异的方法并输入疾病和基因名称进行搜索。在下载界面,M6ADD提供了所有的实验确认数据和高通量测序数据。它还描述了每组高通量数据,并提供了三种数据集计算方法的结果。在‘m6A-Net’界面,用户可以通过输入一个与疾病相关的m6A基因来获取对应的PPI网络,并可以进行功能注释。在‘m6A-Regulator’界面,用户可以选择癌症类型和已知的m6A调节蛋白,以获得M6ADD提供的潜在癌症m6A调节蛋白。帮助界面包含数据库中所有主要界面功能的图片和文字说明。M6ADD 的详细用法可以在帮助界面找到。用户通过阅读帮助界面,可以更好地了解浏览、查询、下载等功能。

M6ADD 提供了大量以疾病为中心的 m6A 数据。例如,用户可以在搜索实验验证数据中搜索胶质母细胞瘤,获取当前所有实验证实的胶质母细胞瘤数据。结果包括目标基因、m6A蛋白、调控模式、是否在TCGA中差异表达、器官以及所有数据的链接。点击detail打开数据的所有信息,分为基本信息和数据来源两大类(图12A)。我们发现很多研究已经证实 METTL3 与胶质母细胞瘤有关,并且METTL3 可以通过影响SOX2SRSFsADAM19来影响胶质母细胞瘤的生物学过程。在搜索高通量测序数据中选择Integration搜索“Glioblastoma”会得到2265个不同的m6A数据,包括P_value、样本处理方法、综合评分、UCSC基因组浏览器链接等数据。同时,用户可以点击表格左上角的按钮导出数据(图12B)。在m6A-Net界面中,用户可以搜索基因SOX2得到一个包含SMAD2PBX1EPAS1等基因的蛋白质相互作用网络,并可以通过网页上的链接对基因集进行注释。在“m6A-Regulator”界面,用户可以选择“Glioblastoma” 和调节蛋白YTHDC1得到预测的15个与胶质母细胞瘤相关的m6A调节蛋白,点击NetworkDiagram得到胶质母细胞瘤预测m6A调节蛋白网络图(网络中黄色节点为癌症差异表达基因,绿色节点为非差异表达基因)(如图)。

 


方法介绍

   

在这里我们着重介绍一下M6ADD是如何预测潜在的m6A调控因子。首先在TCGA数据库下载了24种癌症的表达谱数据,对数据进行预处理后对癌症样本和正常样本进行差异表达分析,满足fold_c>2(或fold_c<0.5)且p_value<0.01的位点认为是差异表达位点,将差异表达位点的ENSEMBLID通过R包org.Hs.eg.db转换成SYMBOL。整合来源于STRING数据库和HPRD数据库的蛋白质互作网络,并将网络的节点名称统一成SYMBOL。将在癌症中发生差异表达的基因作为节点映射到整合的蛋白质互作网络中,提取这些节点的一步邻居位点作为子网络。通过PubMed数据库文献挖掘,一共总结出27种m6A调控因子。提取这些m6A调控因子在癌症中的表达量数据,计算m6A调控因子与差异表达基因之间的皮尔森相关系数,保留相关系数大于0.4的基因对。将m6A调控因子作为种子基因映射到子网络中,提取种子基因和差异表达基因在网络中的最短距离,并进行最大最小值标准化,公式如下,其中X为两节点间的距离,Xmax和Xmin分别为全网络中的最短距离的最大值和最小值。

X*=(X-Xmin)/(Xmax-Xmin)

为了将差异表达的基因之间的互作网络重构为权重网络,自定义了权重网络中边的加权公式:

ω=1-(1-R)*L

其中ω为权重,R为节点之间相关性,L为两节点间标准化的最短距离。

以一步邻居子网络为种子网络,用加权公式对m6A调控因子和差异表达基因计算权重,获得一个m6A调控因子和差异表达基因之间的权重列表。随后扰动种子基因网络1000次,重新计算权重,将1000次扰动得到的权重的最小值计算平均值作为cutoff,剔除掉第一次计算得到的权重列表中低于cutoff的基因对。将保留下来的基因对加入到一步邻居子网络中,由此获得了重构的权重网络。

将网络输入到cytoscape软件中,通过mcode工具对网络进行模块挖掘,筛选包含m6A调控因子的功能模块。整理出每个癌症对应的m6A调控因子的模块,对模块进行网络可视化,筛选出模块中包含的在癌症中差异表达的基因,对基因与对应的m6A调控因子的相关性权重进行排序,最终得到数据库中储存的结果。这一部分数据共包含5239条预测的癌症相关的潜在m6A调控因子。




m6A正成为目前热点的科研和国自然标书研究对象,使用现有的m6A相关的数据库能够激发科研人员的灵感,减轻科研人员的工作负担。今天的数据库就介绍到这里,祝大家科研顺利。



计算表观遗传学

计算表观遗传学
微信号:intro4gcer
分享到朋友圈丨点右上角···分享








往期「精彩内容」,点击回顾

DNA测序历史 | CircRNA数据库 | Epigenie表观综合 | 癌症定位

BWA介绍  |  源码安装R包 | CancerLocator  | lme4 | 450K分析

乳腺癌异质性 |  BS-Seq  | 隐马模型 Circos安装 |  Circos画图

KEGG标记基因 |  GDSC  |  Meta分析  |   R线性回归和相关矩阵


精彩会议及课程,点击回顾

计算表观遗传学大数据前沿学术论坛会议记实

哈尔滨医科大学2017年全国生物信息学暑期学校

2017龙星课程系列(一)

2017龙星课程系列(二)
2017龙星课程系列(三)

2017龙星课程系列(四)

2017龙星课程系列(五)


编辑:my.z

通讯邮箱:ad.cepi@edbc.org

投稿邮箱:scw.cepi@edbc.org




CEPI感谢您的支持!

(IOS系统用户专用通道)


    赞赏    



计算表观遗传学
“计算表观遗传学(Computational Epigenetics - CEPI)”公众平台致力于表观遗传领域的科学研究,汇集领域内数据分析、算法开发及平台搭建,领航表观前沿,共同探索表观遗传调控机制。
 最新文章