一套完整的samll RNA上游分析流程 (五)

文摘 2024-10-26 07:43 云南

一边学习，一边总结，一边分享！

由于微信改版，一直有同学反映。存在长时间接收不到公众号的推文。那么请跟随以下步骤，将小杜的生信筆記设置为星标，不错过每一条推文教程。

欢迎关注《小杜的生信笔记》！！

如何加入社群

小杜的生信笔记，仅有微信社群。

1. 微信群：付费社群。添加小杜好友，加友请知：加友须知！！，加入社群请查看小杜生笔记付费加友入群声明。

2. 小杜个人微信：若你有好的教程或想法，可添加小杜个人微信。值得注意的是，小杜个人微信并不支持免费咨询长时间咨询，但支持小问题2-3个免费咨询。

小杜微信：

知识星球：

2022年教程总汇

https://mp.weixin.qq.com/s/Lnl258WhbK2a8pRZFuIyVg

2023年教程总汇

https://mp.weixin.qq.com/s/wCTswNP8iHMNvu5GQauHdg

11. 靶基因预测与定量

11.1 植物靶基因预测

使用psRobot和targetfinder两款软件

基于targetfinder软件

mamda install targetfinder

## 使用targetfinder进行靶基因预测
targetfinder_threads.pl \
-f all.mature.fa \ # miRNA文件
-d exon.fa \ # mRNA序列文件
-o targetfinder.out \ # 输出结果
-p table # 输出结果格式

基于psRobot

# 软件下载
wget http://omicslab.genetics.ac.cn/psRobot/program/WebServer/psRobot_v1.2.tar.gz
# 解压
tar -zxvf psRobot_v1.2.tar.gz
# 安装软件
./configure
make
make install

## 使用psRobot进行植物靶基因预测
/pub/software/psRobot_v1.2/bin/psRobot_tar \
-s all.mature.fa \ # miRNA文件
-t exon.fa \ # mRNA文件
-o psRobot.out # 输出结果

12. miRDeep2定量、miRDeep-P2 miRNA进行预测

12.1 miRDeep-P2软件进行植物miRNA预测。

## 基于small rna 分类注释信息进行提取
$ awk '$NF=="unknown" || $NF == "intron_sense" \
|| $NF=="intron_antisense" ' \
../S2.reads_mapping/P11.out.read_anno.txt > P11.reads.anno.txt
## 将提取结果转成fa格式
$ awk '{print ">"$1"\n"$2}' P11.reads.anno.txt > P11.reads.fa

ls*.reads.anno.txt | while read line; do \
file_name=$(basename "$line");prefix="${file_name%%.reads.anno.txt}" \
awk '{print ">"$1"\n"$2}' "$line" > "${prefix}.reads.fa";done

运行miRDP2程序进行新miRNA预测

bash /pub/software/miRDP2-v1.1.4/1.1.4/miRDP2-v1.1.4_pipeline.bash \
--genome ../S0.ref_prepare/03.genome/genome.fa \ # 基因组文件
--index ../S0.ref_prepare/03.genome/genome \ # bowtie index
--fasta \ # 输入数据为fasta格式
--input ./B01.mapped.fa \ # 数据输入数据名称
--output ./ # 输出结果目录

输出结果为：

B01.mapped_filter_P_prediction ：新 miRNA 预测结果
B01.mapped_filter_P_prediction.bed ：预测结果 bed 格式文件

将每个样本预测到的 novel miRNA进行合并，根据第七列 miRNA 是否相同进行去重。

# 这个做法不是很合适，有更好的方法，请更正
cat *reads/*filter_P_prediction > all_reads_filter_P_prediction

## 修改预测的新miRNA的名字
perl ../script/novel_name_mirdp2.pl \
-pbed all_reads_filter_P_prediction \ #miRDP2预测结果，并经过过滤重复后文件
-outpre novel_out # 数据结果前缀

12.2 miRDeep2进行miRNA 、novel miRNA定量

# 合并 已知成熟miRNA、novel miRNA与前体miRNA 的序列
cat $kn_mat $nv_mat > all.mature.fa
cat $kn_hp $nv_hp > all.hairpin.fa

## 将所有样品的srna数据合并
cat ../S1.reads_filter/uniq_data/P1*.fa >all.reads.fa

## 使用mirdeep2软件包中的quantifier.pl程序进行表达定量
/pub/software/mirdeep2-0.1.3/bin/quantifier.pl \
-p all.hairpin.fa \ # 前体序列
-m all.mature.fa \ # 成熟体序列
-r all.reads.fa \ # 输入的srna数据文件，fa格式
-g 0 # bowtie比对错配数

12.3 RdDM进行定量时使用

#!/bin/bash

ShortStack --genomefile /home/yanghj/my_data/worksapce/SmallRNA/Small/data/genome/genome.fa \
           --known_miRNAs  /home/yanghj/my_data/worksapce/SmallRNA/Small/S0.ref_prepare/01.known_miRNA/can.mature.fa \
           --threads 30 --dicermin  20 --dicermax  24  --outdir can_result  \
           --readfile \
           /home/yanghj/my_data/worksapce/SmallRNA/Small/S1.reads_filter/clean_data2/PBC688_inc_1_trimmed.fq \
           /home/yanghj/my_data/worksapce/SmallRNA/Small/S1.reads_filter/clean_data2/PBC688_inc_2_trimmed.fq \
           /home/yanghj/my_data/worksapce/SmallRNA/Small/S1.reads_filter/clean_data2/PBC688_mock_1_trimmed.fq \
           /home/yanghj/my_data/worksapce/SmallRNA/Small/S1.reads_filter/clean_data2/PBC688_mock_2_trimmed.fq \
           /home/yanghj/my_data/worksapce/SmallRNA/Small/S1.reads_filter/clean_data2/st_8_inc_1_trimmed.fq \
           /home/yanghj/my_data/worksapce/SmallRNA/Small/S1.reads_filter/clean_data2/st_8_inc_2_trimmed.fq \
           /home/yanghj/my_data/worksapce/SmallRNA/Small/S1.reads_filter/clean_data2/st_8_mock_1_trimmed.fq \
           /home/yanghj/my_data/worksapce/SmallRNA/Small/S1.reads_filter/clean_data2/st_8_mock_2_trimmed.fq

13. 靶基因的预测

提取20-24nt的碱基，进行靶基因预测。

# 注意将其中的 U 碱基替换成 T 碱基 方便后续进行靶基因的对应，也可以不转化，软件能识别 RNA序列
awk 'NR > 1 && $20 >= 20 && $20 <= 24 {print ">"$2"\n"$11}' Results.txt | sed 's/U/T/g' > mature_20_24.fa
# 查看碱基 数目 只保留20-24的 
less -S Results.txt|awk ' NR>1 {print ">"$2"\n"$11}'|seqkit fx2tab -l |less

targetfinder进行靶基因预测

# 将提取到的 mature序列，进行靶基因预测 植物靶基因预测可以直接使用 DNA\RNA 序列做输入。
targetfinder_threads.pl -f mature_20_24.fa -d /home/yanghj/my_data/worksapce/SmallRNA/Small/S0.ref_prepare/03.genome/exon.fa -p table -t 30 -o targetfinder.table

psRobot_tar 进行靶基因预测

#  需要先将 mature.fa 转化为tsv, 
seqkit fx2tab mature_20_24.fa > mature_20_24.tab
/home/yanghj/my_data/software/psRobot_v1.2/psRobot_tar -s mature_20_24.tab -t /home/yanghj/my_data/worksapce/SmallRNA/Small/S0.ref_prepare/03.genome/exon.fa -o psRobot.out

# 合并俩个预测的结果，将miRNA转化gene  进行靶基因的整理为target2gene
grep -v  'No' targetfinder.table|awk '{print $1"\t"$2}'| sed "s/\.1//g"| sort | uniq > target2gene.txt
grep '>' psRobot.out |sed 's/>//g;s/\.1//g' |awk '{print $1"\t"$4}'| sort | uniq > psRobot2gene.txt
cat psRobot2gene.txt target2gene.txt | sort -k1,1V |uniq > merge_target2gene.txt
#  -V 选项来进行“自然排序”（也称为版本排序
#  uniq 命令只能去除连续的重复行,得先 sort排序再去重

13. 进行RPM计算、差异分析

## 导入R进行RPM的计算
#cpm标准化，因为miRNA一个reads就是一个count，所以CPM就是RPM 

library(tidyverse)
library(readr)
Counts <- read_delim("E:/ShortStack/bw_20_24/Counts.txt", 
                     delim = "\t", escape_double = FALSE, 
                     trim_ws = TRUE) %>% 
  select(-1,-3) %>% 
  column_to_rownames("Name")

library(edgeR)
#cpm标准化，因为miRNA一个reads就是一个count，所以CPM就是RPM
Counts_cpm <- cpm(Counts) %>% 
  as.data.frame() %>% 
  rownames_to_column("Name")

# 差异分析
perl /home/yanghj/my_data/software/trinityrnaseq-v2.15.1/Analysis/DifferentialExpression/run_DE_analysis.pl \
--matrix ../31.merge/gene.counts.matrix --method DESeq2 \
--samples_file sample_info.txt \
--contrasts contrast.txt 

write.table(Counts_cpm, "E:/ShortStack/bw_20_24/Counts_cpm.txt",sep="\t", 
            row.names = F,col.names = T,quote=F)
#  同样的替换  t(t(Counts)/colSums(Counts) * 1000000)
###--------------------------
# 参考来源 https://www.notion.so/Small-RNA-ac645653ce71488bb33a4b21d363944f?pvs=4#b7dd0dbb7ea04289b0b933bb76390768

<<<>>>

若我们的教程对你有所帮助，请点赞+收藏+转发，大家的支持是我们更新的动力！！

往期部分文章

1. 最全WGCNA教程（替换数据即可出全部结果与图形）

WGCNA分析代码六

推荐大家购买最新的教程，若是已经购买以前WGNCA教程的同学，可以在对应教程留言，即可获得最新的教程。（注：此教程也仅基于自己理解，不仅局限于此，难免有不恰当地方，请结合自己需求，进行改动。）

2. 精美图形绘制教程

3. 转录组分析教程

4. 转录组下游分析

小杜的生信筆記 ，主要发表或收录生物信息学教程，以及基于R分析和可视化（包括数据分析，图形绘制等）；分享感兴趣的文献和学习资料!!

http://mp.weixin.qq.com/s?__biz=MzAwODY5NDU0MA==&mid=2455866467&idx=1&sn=9363c90ae0c9b8bcaef9dddb50afe00f

小杜的生信筆記

小杜的生信筆記，生信小白，初来乍到请多指教。主要学习分享，转录组数据分析，基于R语言数据分析和绘制图片等，以及相关文献的分享。

最新文章

R语言绘图 | GO气泡图表绘制教程

R语言 | GO富集GOCircle弦表图绘制

生信云服务器推荐

R语言绘图 | 差异散点图(类似火山图)绘制教程

新的征程，学习永远不晚！Bioinfo Notes生信交流群②成立！

这篇文章分享了Pangenome图谱的分析代码

如何查看已中奖或结题的国家基金项目情况，科研人纯干货

大好事！医学文章可以全程托管了，6个月期限SCI中刊！不中退款

R语言 | 还在为绘制多个数据的维恩图而烦恼吗？

新的征程，学习永远不晚！Bioinfo Notes生信交流群②成立！

当你在NCBI中提交了fq数据，但数据未公开，审稿专家要求你提供数据访问链接，怎么办呢？

大好事！医学文章可以全程托管了，6个月期限SCI中刊！不中退款

使用Copilot自动在Rstudio中写代码，提高效率！ | 今天购买了$4/month的版本

R语言 | 基于ggplot绘制气泡热图

新的征程，学习永远不晚！Bioinfo Notes生信交流群②成立！

R语言绘图 | GO富集柱状图

Linux中支持多线程压缩和解压软件 | pigz

差异基因散点图绘制教程 | 今天画图，再一次翻出以前的教程代码，也许这就是记录的意义吧！

10月份教程总结

R语言绘图 | PCA绘图教程

R语言绘图 | 多组GO和KEGG富集结果，分面堆积柱状图

一套完整的samll RNA上游分析流程 (五)

如何将测序数据(FQ)上传到NCBI数据库

一种快速发表SCI的“建议”，让你拥有一篇IF 5.8的文章。你惊奇吗？意外吗？

论文一直投不中？保姆级SCI全程投稿发表服务来了！润色、选刊、投稿、返修，直至中刊！

一套完整的samll RNA上游分析流程 (三)

一套完整的small RNA上游分析流程 (二)

一套完整的small RNA上游分析流程 (一)

学习使用Bioconda管理R语言？？

真实评审专家实时分享：国自然中标秘籍——什么样的本子容易上会？

Chipseq全流程通关

使用Copilot自动在Rstudio中写代码，提高效率！

在R语言中做RNA-seq上游分析，可行吗？

国自然十年评审专家1v1本子精修，中标率提升58.6%！大牛评审在线直播!

Genome varScant | 基因组结构变异分析教程 | 基于TBtools

论文一直投不中？保姆级SCI全程投稿发表服务来了！润色、选刊、投稿、返修，直至中刊！

在模仿中精进数据可视化_使用R语言绘制微生物功能基因的表达模式

长链非编码RNA (lncRNA)分析 | 上游分析软件的安装

富集桑基气泡图绘制教程

论文润色服务，正在打折中！！！

Nat Med.作者提供全文的绘图代码，对于学习作图很有帮助，但你不一定能成功绘制......

富集桑基气泡图绘制教程

快年末了，发文章吧！

WGNCA教程六版本【基于教程五更新】| 前期已获得WGNCA教程的同学，同样可免费获得此版本代码

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉