获得miRNA之后就需要尝试去预测它们的作用靶点了,一般我们会采用多数据库整合分析,这次先介绍一下ENCORI数据库,这个数据库的优势之一在于它已经整合了多个数据库的数据。
ENCORI数据库
ENCORI (The Encyclopedia of RNA Interactomes) 是一个集成数据库,主要致力于提供 RNA 分子间的互作信息,尤其是 miRNA、lncRNA、mRNA 等之间的互作数据。
ENCORI 的主要特点和功能:
RNA 互作网络:ENCORI 提供了多种 RNA 分子之间的互作信息,包括 lncRNA-miRNA、miRNA-mRNA、mRNA-mRNA 等。研究者可以通过这些数据更好地理解 RNA 在细胞调控中的作用。通过整合多种实验数据和生物信息学预测,ENCORI 能够帮助揭示 RNA 分子如何相互作用来调控基因表达。 miRNA 靶基因分析:数据库中整合了大量 miRNA 和其靶基因的实验验证和预测数据。用户可以查询某个特定 miRNA 的靶基因,或者查看某个基因的潜在调控 miRNA。功能特别有助于研究 miRNA 在癌症等复杂疾病中的调控作用。 lncRNA 功能注释:ENCORI 提供了 lncRNA 的功能注释,包括其潜在的调控机制和在疾病中的作用。数据库中收录了 lncRNA 与 miRNA 和 mRNA 的相互作用信息,这些信息对于研究 lncRNA 的功能和机制至关重要。 多组学数据整合:ENCORI 整合了多种组学数据,包括转录组数据、表观基因组数据、蛋白质相互作用等,以支持对 RNA 互作的多角度分析。用户可以通过这些数据进行关联分析,研究 RNA 互作在不同生物学条件下的变化。 疾病关联:ENCORI 提供了多种 RNA 分子在疾病中的关联信息,特别是癌症中的 RNA 互作数据。研究者可以通过这些数据分析 RNA 分子在癌症等复杂疾病中的潜在作用机制。 数据浏览与可视化:ENCORI 提供了用户友好的界面和丰富的可视化功能,支持数据的快速浏览、查询和可视化。用户可以轻松查找感兴趣的 RNA 分子和互作信息,并生成相应的图表。本次我们尝试去找到miRNA与mRNA作用的信息。左侧界面可以输入需要检索的microRNA分子,右侧可以把数据完整的下载下来。开发者还提供了网页接口,可以一次性下载大量数据。如果需要把全部数据都下载下来需要修改一下参数,这些参数包括: assembly=[genome version]:指定参考基因组的版本。常用版本包括 hg38(人类基因组版本 38) 和 mm10(小鼠基因组版本 10)。 geneType=[main gene type]: 指定要查询的主要基因类型。可选项包括:mRNA,lncRNA,pseudogene,circRNA,sncRNA。 miRNA=[microRNA name]:指定要查询的miRNA名称,格式如 hsa-miR-21-5p(hsa 表示人类 miRNA)。可以使用 "all" 表示查询所有的调控数据。 clipExpNum=[integer]:指定支持调控关系的最小 CLIP-seq 实验数量。CLIP-seq (Cross-Linking Immunoprecipitation Sequencing) 是一种用于研究 RNA 与蛋白质相互作用的实验技术,该参数设定支持调控关系的实验数据下限。 degraExpNum=[integer]:指定支持调控关系的最小 degradome-seq 实验数量。degradome-seq 是一种用于检测 RNA 降解产物的实验技术,设定此值以确保数据的实验支持强度。 pancancerNum=[integer]:指定最低的癌症类型数量,以实现 Pan-Cancer(跨癌种)的分析。可选范围是 1 到 32,数值越高表示数据支持的癌症种类越多。 programNum=[integer]:指定目标预测程序的最小数量。选择数值 1 到 7(最多 7 个程序)以设定调控关系必须得到至少几个程序的支持。 program=[string]:指定用于预测靶基因的程序。常用的程序包括:PITA、RNA22、miRmap、DIANA-microT、miRanda、PicTar 和 TargetScan。 target=[gene name]:指定要查询的目标基因名称。例如,TP53。也可以使用 "all" 表示查询所有的调控数据。 cellType=[cell type]:指定细胞类型,例如 HeLa。可以使用 "all" 表示下载所有细胞类型的调控数据。
步骤流程
打开终端,创建脚本,路径自定哈
# 创建脚本
nano ENCORI.sh
把内容贴上去
#!/bin/bash
# 定义所需的预测程序
programs=("PITA" "RNA22" "miRmap" "DIANA-microT" "miRanda" "PicTar" "TargetScan")
# 循环下载每个程序的数据
for prog in "${programs[@]}"
do
# 使用curl下载数据,并保存到相应的文件
curl "https://rnasysu.com/encori/api/miRNATarget/?assembly=hg38&geneType=mRNA&miRNA=all&clipExpNum=5°raExpNum=0&pancancerNum=0&programNum=1&program=${prog}&target=all&cellType=all" > "ENCORI_hg38_CLIP-seq_${prog}.txt"
done
运行
bash ./ENCOR.sh
文件不大,下载挺快的
用R整合数据
1.导入
rm(list = ls())
# 其中DIANA-microT中没有数据,因此整合的时候需要删去
programs <- c("PITA","RNA22","miRmap",# "DIANA-microT",
"miRanda","PicTar","TargetScan")
2.数据预处理
data_list <- list()
for (i in programs) {
# 读取文件并保存到 R 环境中的不同变量
data <- read.delim(paste0("ENCORI_hg38_CLIP-seq_", i, ".txt"),
sep = "\t", quote = "", row.names = NULL, comment.char = "#")
# 使用 assign() 函数创建动态变量名
assign(paste0("data_", i), data)
# 将数据和列名分别保存到列表中
data_list[[i]] <- data
}
# check数据
data_list[["PITA"]][1:4,1:4]
# miRNAid miRNAname geneID geneName
# 1 MIMAT0000062 hsa-let-7a-5p ENSG00000116237 ICMT
# 2 MIMAT0000062 hsa-let-7a-5p ENSG00000173641 HSPB7
# 3 MIMAT0000062 hsa-let-7a-5p ENSG00000244038 DDOST
# 4 MIMAT0000062 hsa-let-7a-5p ENSG00000007968 E2F2
之后就可以筛一筛数据做一做韦恩图啦公众号输入关键词:241019 ,即可得到下载后的ENCORI-miRNA数据(30天)
参考资料:
ENCORI数据库:https://rnasysu.com/encori/ 生信技能树:https://mp.weixin.qq.com/s/dkVBcls3f0acXtPnFSXeWw 生信菜鸟团:https://mp.weixin.qq.com/s/1voOEoFOQlym0GNl94dEEQ
注:若对内容有疑惑或者有发现明确错误的朋友,请联系后台(欢迎交流)。更多内容可关注公众号:生信方舟
- END -