miRNA分析流程学习(三)/miRNA靶基因预测-ENCORI数据库数据下载

文摘 2024-10-29 09:58 日本

获得miRNA之后就需要尝试去预测它们的作用靶点了，一般我们会采用多数据库整合分析，这次先介绍一下ENCORI数据库，这个数据库的优势之一在于它已经整合了多个数据库的数据。

ENCORI数据库

ENCORI (The Encyclopedia of RNA Interactomes) 是一个集成数据库，主要致力于提供 RNA 分子间的互作信息，尤其是 miRNA、lncRNA、mRNA 等之间的互作数据。

ENCORI 的主要特点和功能：

RNA 互作网络：ENCORI 提供了多种 RNA 分子之间的互作信息，包括 lncRNA-miRNA、miRNA-mRNA、mRNA-mRNA 等。研究者可以通过这些数据更好地理解 RNA 在细胞调控中的作用。通过整合多种实验数据和生物信息学预测，ENCORI 能够帮助揭示 RNA 分子如何相互作用来调控基因表达。
miRNA 靶基因分析：数据库中整合了大量 miRNA 和其靶基因的实验验证和预测数据。用户可以查询某个特定 miRNA 的靶基因，或者查看某个基因的潜在调控 miRNA。功能特别有助于研究 miRNA 在癌症等复杂疾病中的调控作用。
lncRNA 功能注释：ENCORI 提供了 lncRNA 的功能注释，包括其潜在的调控机制和在疾病中的作用。数据库中收录了 lncRNA 与 miRNA 和 mRNA 的相互作用信息，这些信息对于研究 lncRNA 的功能和机制至关重要。
多组学数据整合：ENCORI 整合了多种组学数据，包括转录组数据、表观基因组数据、蛋白质相互作用等，以支持对 RNA 互作的多角度分析。用户可以通过这些数据进行关联分析，研究 RNA 互作在不同生物学条件下的变化。
疾病关联：ENCORI 提供了多种 RNA 分子在疾病中的关联信息，特别是癌症中的 RNA 互作数据。研究者可以通过这些数据分析 RNA 分子在癌症等复杂疾病中的潜在作用机制。
数据浏览与可视化：ENCORI 提供了用户友好的界面和丰富的可视化功能，支持数据的快速浏览、查询和可视化。用户可以轻松查找感兴趣的 RNA 分子和互作信息，并生成相应的图表。本次我们尝试去找到miRNA与mRNA作用的信息。左侧界面可以输入需要检索的microRNA分子，右侧可以把数据完整的下载下来。开发者还提供了网页接口，可以一次性下载大量数据。如果需要把全部数据都下载下来需要修改一下参数，这些参数包括：
assembly=[genome version]：指定参考基因组的版本。常用版本包括 hg38(人类基因组版本 38) 和 mm10(小鼠基因组版本 10)。
geneType=[main gene type]：
指定要查询的主要基因类型。可选项包括：mRNA，lncRNA，pseudogene，circRNA，sncRNA。
miRNA=[microRNA name]：指定要查询的miRNA名称，格式如 hsa-miR-21-5p（hsa 表示人类 miRNA）。可以使用 "all" 表示查询所有的调控数据。
clipExpNum=[integer]：指定支持调控关系的最小 CLIP-seq 实验数量。CLIP-seq (Cross-Linking Immunoprecipitation Sequencing) 是一种用于研究 RNA 与蛋白质相互作用的实验技术，该参数设定支持调控关系的实验数据下限。
degraExpNum=[integer]：指定支持调控关系的最小 degradome-seq 实验数量。degradome-seq 是一种用于检测 RNA 降解产物的实验技术，设定此值以确保数据的实验支持强度。
pancancerNum=[integer]：指定最低的癌症类型数量，以实现 Pan-Cancer（跨癌种）的分析。可选范围是 1 到 32，数值越高表示数据支持的癌症种类越多。
programNum=[integer]：指定目标预测程序的最小数量。选择数值 1 到 7（最多 7 个程序）以设定调控关系必须得到至少几个程序的支持。
program=[string]：指定用于预测靶基因的程序。常用的程序包括：PITA、RNA22、miRmap、DIANA-microT、miRanda、PicTar 和 TargetScan。
target=[gene name]：指定要查询的目标基因名称。例如，TP53。也可以使用 "all" 表示查询所有的调控数据。
cellType=[cell type]：指定细胞类型，例如 HeLa。可以使用 "all" 表示下载所有细胞类型的调控数据。

步骤流程

打开终端，创建脚本，路径自定哈

# 创建脚本
nano ENCORI.sh

把内容贴上去

#!/bin/bash

# 定义所需的预测程序
programs=("PITA" "RNA22" "miRmap" "DIANA-microT" "miRanda" "PicTar" "TargetScan")

# 循环下载每个程序的数据
for prog in "${programs[@]}"
do
  # 使用curl下载数据，并保存到相应的文件
  curl "https://rnasysu.com/encori/api/miRNATarget/?assembly=hg38&geneType=mRNA&miRNA=all&clipExpNum=5&degraExpNum=0&pancancerNum=0&programNum=1&program=${prog}&target=all&cellType=all" > "ENCORI_hg38_CLIP-seq_${prog}.txt"
done

运行

bash ./ENCOR.sh

文件不大，下载挺快的

用R整合数据

1.导入

rm(list = ls())

# 其中DIANA-microT中没有数据,因此整合的时候需要删去
programs <- c("PITA","RNA22","miRmap",# "DIANA-microT",
              "miRanda","PicTar","TargetScan")

2.数据预处理

data_list <- list()
for (i in programs) {
  # 读取文件并保存到 R 环境中的不同变量
  data <- read.delim(paste0("ENCORI_hg38_CLIP-seq_", i, ".txt"),
                     sep = "\t", quote = "", row.names = NULL, comment.char = "#")
  
  # 使用 assign() 函数创建动态变量名
  assign(paste0("data_", i), data)
  # 将数据和列名分别保存到列表中
  data_list[[i]] <- data
}

# check数据
data_list[["PITA"]][1:4,1:4]
#        miRNAid     miRNAname          geneID geneName
# 1 MIMAT0000062 hsa-let-7a-5p ENSG00000116237     ICMT
# 2 MIMAT0000062 hsa-let-7a-5p ENSG00000173641    HSPB7
# 3 MIMAT0000062 hsa-let-7a-5p ENSG00000244038    DDOST
# 4 MIMAT0000062 hsa-let-7a-5p ENSG00000007968     E2F2

之后就可以筛一筛数据做一做韦恩图啦公众号输入关键词：241019 ，即可得到下载后的ENCORI-miRNA数据(30天）

参考资料：

ENCORI数据库：https://rnasysu.com/encori/
生信技能树：https://mp.weixin.qq.com/s/dkVBcls3f0acXtPnFSXeWw
生信菜鸟团：https://mp.weixin.qq.com/s/1voOEoFOQlym0GNl94dEEQ

注：若对内容有疑惑或者有发现明确错误的朋友，请联系后台(欢迎交流)。更多内容可关注公众号：生信方舟

- END -

http://mp.weixin.qq.com/s?__biz=MzkwMjYyMDA1OA==&mid=2247486417&idx=1&sn=6562b92505d00399bfc0dd9d7557833b

生信方舟

执着医学，热爱科研。站在巨人的肩膀上，学习和整理各种知识。

最新文章

郑大一附院胃肠外科6.8分力作，旧活新整，来看看你是否能学会~

临床预测模型-静态诺模/列线图(Nomogram)+校准曲线(Calibration)分析学习

单细胞cluster/细胞亚群的标志识别工具—FindAllmarkers/presto/COSG/starTracer算法学习

miRNA测序数据的上游定量流程实战演练

临床预测模型/机器学习-偏最小二乘回归plsRcox算法学习

临床预测模型/机器学习-生存分析支持向量机SVM(survivalsvm)算法学习

临床预测模型/机器学习-随机森林树RSF(RandomForest/RandomForestSRC)算法学习

临床预测模型/机器学习-Coxboost算法学习

主动脉瘤形成的新机制：促红细胞生成素（EPO）

CSC申报流程及日本留学感受

同济大学最新多组学爽文，大力才能出奇迹！

miRNA分析流程学习(四)/miRNA芯片数据差异分析再学习以及异常火山图可能原因解释

🧬 下游笔记1：最全pySCENIC报错解决！

miRNA分析流程学习(三)/miRNA靶基因预测-ENCORI数据库数据下载

miRNA分析流程学习(二)/TCGAmiRNA数据三大R包整合差异分析再学习

miRNA分析流程学习(一)/TCGAmiRNA数据下载

转录组上游分析流程(四）

转录组上游分析流程(三）

转录组上游分析流程(二）

转录组上游分析流程(一）

看完还不会来揍/找我 | TCGA 与 GTEx 数据库联合分析 | 附完整代码 + 注释

Linux常见命令回顾/转录组上游分析环境部署(Mac/M1/M2)

空间单细胞转录组Cell2location分析流程学习

单细胞空间转录组RCTD去卷积分析学习和整理

单细胞空间转录组分析流程学习python版(三)

单细胞空间转录组分析流程学习(二)

单细胞空间转录组分析流程学习(一)

单细胞copyKat分析学习和整理

tigeR免疫治疗数据分析工具学习和整理

单细胞Ro/e分析学习和整理

单细胞METAFlux分析学习和整理

Cell & Bioscience | 一篇很好的生信复现文献(提供部分代码/联系热点/工作量扎实/图片美观）

将bulk数据特征整合进单细胞数据中：R包scAB

WGCNA加权基因共表达网络多步法分析学习

原始代码给的这么全，这么基础的生信图谱文章，咱们能不学吗？

单细胞hdWGCNA分析学习和整理

单细胞scDist细胞扰动差异分析学习

单细胞scMetabolism代谢相关通路分析学习和整理

单细胞Augur细胞扰动差异分析学习和整理

单细胞miloR分析(基于 KNN 图的细胞差异丰度分析方法)

单细胞Seruat和h5ad数据格式互换(R与python)方法学习和整理

单细胞Scanpy流程学习和整理(分析簇间差异基因/细胞注释/数据保存)

单细胞Scanpy流程学习和整理(单样本10X数据读取/过滤/降维/聚类)

单细胞SCENIC简单可视化分析学习和整理

单细胞monocle3分析流程再整理

单样本Cellchat(V2)细胞通讯分析学习和整理

单细胞BisqueRNA和BayesPrism(贝叶斯棱镜)去卷积分析工具简单比较

算不上什么大错误的成纤维细胞亚群的细分操作

CytoTRACE2可视化进阶(修改坐标维持umap图前后一致)

CytoTRACE2单细胞分化潜力预测工具学习

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉