miRNA分析流程学习(三)/miRNA靶基因预测-ENCORI数据库数据下载

文摘   2024-10-29 09:58   日本  

获得miRNA之后就需要尝试去预测它们的作用靶点了,一般我们会采用多数据库整合分析,这次先介绍一下ENCORI数据库,这个数据库的优势之一在于它已经整合了多个数据库的数据。

ENCORI数据库

ENCORI (The Encyclopedia of RNA Interactomes) 是一个集成数据库,主要致力于提供 RNA 分子间的互作信息,尤其是 miRNA、lncRNA、mRNA 等之间的互作数据。

ENCORI 的主要特点和功能:
  1. RNA 互作网络:ENCORI 提供了多种 RNA 分子之间的互作信息,包括 lncRNA-miRNA、miRNA-mRNA、mRNA-mRNA 等。研究者可以通过这些数据更好地理解 RNA 在细胞调控中的作用。通过整合多种实验数据和生物信息学预测,ENCORI 能够帮助揭示 RNA 分子如何相互作用来调控基因表达。
  2. miRNA 靶基因分析:数据库中整合了大量 miRNA 和其靶基因的实验验证和预测数据。用户可以查询某个特定 miRNA 的靶基因,或者查看某个基因的潜在调控 miRNA。功能特别有助于研究 miRNA 在癌症等复杂疾病中的调控作用。
  3. lncRNA 功能注释:ENCORI 提供了 lncRNA 的功能注释,包括其潜在的调控机制和在疾病中的作用。数据库中收录了 lncRNA 与 miRNA 和 mRNA 的相互作用信息,这些信息对于研究 lncRNA 的功能和机制至关重要。
  4. 多组学数据整合:ENCORI 整合了多种组学数据,包括转录组数据、表观基因组数据、蛋白质相互作用等,以支持对 RNA 互作的多角度分析。用户可以通过这些数据进行关联分析,研究 RNA 互作在不同生物学条件下的变化。
  5. 疾病关联:ENCORI 提供了多种 RNA 分子在疾病中的关联信息,特别是癌症中的 RNA 互作数据。研究者可以通过这些数据分析 RNA 分子在癌症等复杂疾病中的潜在作用机制。
  6. 数据浏览与可视化:ENCORI 提供了用户友好的界面和丰富的可视化功能,支持数据的快速浏览、查询和可视化。用户可以轻松查找感兴趣的 RNA 分子和互作信息,并生成相应的图表。本次我们尝试去找到miRNA与mRNA作用的信息。左侧界面可以输入需要检索的microRNA分子,右侧可以把数据完整的下载下来。开发者还提供了网页接口,可以一次性下载大量数据。如果需要把全部数据都下载下来需要修改一下参数,这些参数包括:
  7. assembly=[genome version]:指定参考基因组的版本。常用版本包括 hg38(人类基因组版本 38) 和 mm10(小鼠基因组版本 10)。
  8. geneType=[main gene type]:
  9. 指定要查询的主要基因类型。可选项包括:mRNA,lncRNA,pseudogene,circRNA,sncRNA。
  10. miRNA=[microRNA name]:指定要查询的miRNA名称,格式如 hsa-miR-21-5p(hsa 表示人类 miRNA)。可以使用 "all" 表示查询所有的调控数据。
  11. clipExpNum=[integer]:指定支持调控关系的最小 CLIP-seq 实验数量。CLIP-seq (Cross-Linking Immunoprecipitation Sequencing) 是一种用于研究 RNA 与蛋白质相互作用的实验技术,该参数设定支持调控关系的实验数据下限。
  12. degraExpNum=[integer]:指定支持调控关系的最小 degradome-seq 实验数量。degradome-seq 是一种用于检测 RNA 降解产物的实验技术,设定此值以确保数据的实验支持强度。
  13. pancancerNum=[integer]:指定最低的癌症类型数量,以实现 Pan-Cancer(跨癌种)的分析。可选范围是 1 到 32,数值越高表示数据支持的癌症种类越多。
  14. programNum=[integer]:指定目标预测程序的最小数量。选择数值 1 到 7(最多 7 个程序)以设定调控关系必须得到至少几个程序的支持。
  15. program=[string]:指定用于预测靶基因的程序。常用的程序包括:PITA、RNA22、miRmap、DIANA-microT、miRanda、PicTar 和 TargetScan。
  16. target=[gene name]:指定要查询的目标基因名称。例如,TP53。也可以使用 "all" 表示查询所有的调控数据。
  17. cellType=[cell type]:指定细胞类型,例如 HeLa。可以使用 "all" 表示下载所有细胞类型的调控数据。

步骤流程

打开终端,创建脚本,路径自定哈

# 创建脚本
nano ENCORI.sh

把内容贴上去

#!/bin/bash

# 定义所需的预测程序
programs=("PITA" "RNA22" "miRmap" "DIANA-microT" "miRanda" "PicTar" "TargetScan")

# 循环下载每个程序的数据
for prog in "${programs[@]}"
do
  # 使用curl下载数据,并保存到相应的文件
  curl "https://rnasysu.com/encori/api/miRNATarget/?assembly=hg38&geneType=mRNA&miRNA=all&clipExpNum=5&degraExpNum=0&pancancerNum=0&programNum=1&program=${prog}&target=all&cellType=all" > "ENCORI_hg38_CLIP-seq_${prog}.txt"
done

运行

bash ./ENCOR.sh

文件不大,下载挺快的

用R整合数据

1.导入

rm(list = ls())

# 其中DIANA-microT中没有数据,因此整合的时候需要删去
programs <- c("PITA","RNA22","miRmap",# "DIANA-microT",
              "miRanda","PicTar","TargetScan")

2.数据预处理

data_list <- list()
for (i in programs) {
  # 读取文件并保存到 R 环境中的不同变量
  data <- read.delim(paste0("ENCORI_hg38_CLIP-seq_", i, ".txt"),
                     sep = "\t", quote = "", row.names = NULL, comment.char = "#")
  
  # 使用 assign() 函数创建动态变量名
  assign(paste0("data_", i), data)
  # 将数据和列名分别保存到列表中
  data_list[[i]] <- data
}

# check数据
data_list[["PITA"]][1:4,1:4]
#        miRNAid     miRNAname          geneID geneName
# 1 MIMAT0000062 hsa-let-7a-5p ENSG00000116237     ICMT
# 2 MIMAT0000062 hsa-let-7a-5p ENSG00000173641    HSPB7
# 3 MIMAT0000062 hsa-let-7a-5p ENSG00000244038    DDOST
# 4 MIMAT0000062 hsa-let-7a-5p ENSG00000007968     E2F2

之后就可以筛一筛数据做一做韦恩图啦公众号输入关键词:241019 ,即可得到下载后的ENCORI-miRNA数据(30天)

参考资料:

  1. ENCORI数据库:https://rnasysu.com/encori/
  2. 生信技能树:https://mp.weixin.qq.com/s/dkVBcls3f0acXtPnFSXeWw
  3. 生信菜鸟团:https://mp.weixin.qq.com/s/1voOEoFOQlym0GNl94dEEQ

:若对内容有疑惑或者有发现明确错误的朋友,请联系后台(欢迎交流)。更多内容可关注公众号:生信方舟

- END -


生信方舟
执着医学,热爱科研。站在巨人的肩膀上,学习和整理各种知识。
 最新文章