一个转录组上游分析流程

文摘 2024-12-09 19:36 云南

「一边学习，一边总结，一边分享！」

由于微信改版，一直有同学存在长时间接收不到公众号的推文。那么请跟随以下步骤，将「小杜的生信筆記」设置为「星标」，不错过每一条推文教程。

本期的教程代码（部分）

#!/bin/bash
#
# 使用fastq-dump解压sra数据
# 本数据集为双端数据
# 解压格式为fq.gz
for i in SRR6929571 SRR6929572 SRR6929573 SRR6929574 SRR6929577 SRR6929578;
do 
	pfastq-dump --split-files --threads 20 --gzip -s 00_RawData/${i}.sra --outdir 00_RawData/
    ## 质控
	fastp -i 00_RawData/${i}_1.fastq.gz -o 01_CleanReads/${i}_1.clean.fq.gz -I 00_RawData/${i}_2.fastq.gz -O 01_CleanReads/${i}_2.clean.fq.gz -q 20 -z 4 -w 20 -h 01_CleanReads/html/${i}.html
	## fastqc评估
	fastqc -q -t 30 -o 01_CleanReads/fastqc/ 01_CleanReads/${i}_*.fq.gz 
    ## 根据的信息，修改下面脚本
#mkdir 03_MappedFile/Hisat2_Mapped
#mkdir 03_MappedFile/Hisat2_Mapped/summary/
#mkdir 03_MappedFile/Hisat2_Mapped/Unmapped_reads
....
....
....
....
    done

以下为获得.sort.bam文件后进行运行。

# 合并gtf文件
ls 04_Result/Stringtie/*.gtf > 04_Result/Stringtie/mergelist.txt
stringtie --merge -F 0 -T 0 -G 02_Geneome_index/ITAG4.1_gene_models.gtf -o 04_Result/Stringtie/gffcompare/stringtie_merged.gtf 04_Result/Stringtie/mergelist.txt
## 计算FPKM
mkdir 04_Result/Stringtie/featureCounts
featureCounts -T 20 -p -t exon -g transcript_id -a 04_Result/Stringtie/gffcompare/stringtie_merged.gtf -o 04_Result/Stringtie/featureCounts/All.transcript.count.txt 03_MappedFile/Hisat2_Mapped/*.sort.bam
### 
## Count to FPKM
cat 04_Result/Stringtie/featureCounts/All.transcript.count.txt | cut -f 1,6-13 > 04_Result/Stringtie/featureCounts/01.all.count.txt
perl CountToFPKM.pl 04_Result/Stringtie/featureCounts/01.all.count.txt > 04_Result/Stringtie/featureCounts/02.all.FPKM.txt

一、写在前面

今天分享一个转录组上游分析的流程（Hisat2-Stringtie-Count），此流程的操作依旧是非常简单的。我们的流程主要使用软件的安装、数据下载、过滤、比对、Count、Count To FPKM等流程。

二、软件的安装

1. Conda软件安装

conda是常用的软件安装和管理软件，操作简单、便捷。

https://mirrors.tuna.tsinghua.edu.cn/

conda软件的下载，可下载miniconda或Anaconda。

2. `miniconda`（下载对应的版本）

3. `Anaconda`（下载对应的版本）

4. 软件的安装

5. 添加常用镜像

若是不能使用，可以自己百度一下进行搜索即可。

## Conda常使用的镜像
# 下面这四行配置清华大学的bioconda的channel地址，国内用户推荐
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/bioconda/
conda config --set show_channel_urls yes

# 中科大镜像源
conda config --add channels https://mirrors.ustc.edu.cn/anaconda/pkgs/main/
conda config --add channels https://mirrors.ustc.edu.cn/anaconda/pkgs/free/
conda config --add channels https://mirrors.ustc.edu.cn/anaconda/cloud/conda-forge/
conda config --add channels https://mirrors.ustc.edu.cn/anaconda/cloud/msys2/
conda config --add channels https://mirrors.ustc.edu.cn/anaconda/cloud/bioconda/
conda config --add channels https://mirrors.ustc.edu.cn/anaconda/cloud/menpo/
conda config --add channels https://mirrors.ustc.edu.cn/anaconda/cloud/

# 阿里镜像源
conda config --add channels https://mirrors.aliyun.com/pypi/simple/
# 豆瓣镜像
conda config --add channels http://pypi.douban.com/simple/ 
#中国科学技术大学 USTC Mirror
conda config --add channels  https://mirrors.ustc.edu.cn/anaconda/pkgs/main/
conda config --add channels https://mirrors.ustc.edu.cn/anaconda/pkgs/free/
conda config --add channels https://mirrors.ustc.edu.cn/anaconda/cloud/conda-forge/

6. 创建生信环境

若是你担心自己base环境被破坏，那么就安装自己对于的小环境即可。

## 创建环境
conda create -n env_name python=x.x

## 删除环境
conda remove -n env_name -all

## 激活
conda activate env_name 
##
source activate env_name

## 关闭
conda deactivate

「查看环境中的软件」

# 查看指定环境下安装的package
## 查看指定环境下安装的package
conda list -n env_name

## 安装指定环境下某个package
conda install -n env_name [package]

## 删除指定环境下某个package
conda remove -n env_name [package]

## 更新指定环境下某个package
conda update -n env_name [package]

三、生信比对软件的安装

安装mamba软件，mamba相对于conda安装软件，速度更快，也更容易安装。

conda install -y mamba

比对所需的软件......

hista2
Stringtie
subread
samtools
fastp

mamba install hisat2
mamba install stringtie
mamba install samtools 
mamba install subread
mamba install fastp

使用源码安装直接下载对应的软件源码，解压后进行安装。

四、数据的下载

公共数据库的下载，可直接在NCBI中下载，或是使用自己测的数据即可。若你想使用公共数据库的数据，可以我们前面的教程转录组数据的下载。

五、基因组的下载

「大部分的作物有自己基因组注释网址，我们需要自己的去寻找」

模式植物中，拟南芥、番茄、烟草等都有自己的基因组网址。

茄科类作物基因组：https://solgenomics.net/organism/solanum_lycopersicum/genome-- NCBI 中下载基因组文件

「如果自己的物种基因组没有单独的网址，如何做呢？」

「可以根据NCBI中进行下载」

「步骤：」

「进入NCBI官网（https://www.ncbi.nlm.nih.gov/)」
「输入需要寻找的基因组名称（可以是作物名或是拉丁名）」

，点击“search"后即可看到以下的界面，其中”Geneome"就是作物的基因组数据，点击进去。

「在此界面就是我们的作物的基因组信息，有版本信息，geneome，transcript，protein,GFF，GenBank等信息。」

六、数据过滤和质控检测

使用FastP，主要是简单、便捷。软件官网：[https://github.com/OpenGene/fastp](https://github.com/OpenGene/fastp}
FastQC进行质量评估 FastQC旨在提供一种简单的方法，对来自高通量测序管道的原始序列数据做一些质量控制检查。它提供了一套模块化的分析，你可以用它来快速了解你的数据是否有任何问题，在做任何进一步的分析之前，你应该注意到这些问题。

小杜的生信筆記

小杜的生信筆記，生信小白，初来乍到请多指教。主要学习分享，转录组数据分析，基于R语言数据分析和绘制图片等，以及相关文献的分享。

最新文章

R语言系统发育树专栏 | 复杂系统发育树教程（三）

生信分析 | 生信云服务器

国自然中标真不难！对于青椒来说，必须有好东西，而硬文章必不可少，润色来联系

杀疯了，天才博士少年连发Nature！生信领域“爆炸性”信息，引千万人狂欢！

R语言绘图 | 冲击堆积柱状图和堆积状图绘制教程

生信分析 | 生信云服务器

国自然中标真不难！对于青椒来说，必须有好东西，而硬文章必不可少，润色来联系

R语言系统发育树专栏 | 复杂系统发育树教程（二）

生信分析 | 生信云服务器

国自然中标真不难！对于青椒来说，必须有好东西，而硬文章必不可少，润色来联系

ggtree | ggtreeExtra包绘制系统发育树（一）

国自然中标真不难！对于青椒来说，必须有好东西，而硬文章必不可少，润色来联系

生信分析 | 生信云服务器

年末投稿高峰期 | 润色、选刊、投稿、返修，直至中刊！

Nature文章中所用的“多项式拟合曲线图”教程

一个转录组上游分析流程

这可能是GitHub R包安装的最优方法

生信分析 | 生信云服务器

R语言手搓一个Cytoscape/Gephi网络

跟着顶刊学作图 | R语言绘制堆积柱状图

系统学习单细胞多组学、空间转录组和机器学习单细胞分析应用线上会议11月30日开始

R语言绘图 | GO气泡图表绘制教程

R语言 | GO富集GOCircle弦表图绘制

生信云服务器推荐

R语言绘图 | 差异散点图(类似火山图)绘制教程

新的征程，学习永远不晚！Bioinfo Notes生信交流群②成立！

这篇文章分享了Pangenome图谱的分析代码

如何查看已中奖或结题的国家基金项目情况，科研人纯干货

大好事！医学文章可以全程托管了，6个月期限SCI中刊！不中退款

R语言 | 还在为绘制多个数据的维恩图而烦恼吗？

新的征程，学习永远不晚！Bioinfo Notes生信交流群②成立！

当你在NCBI中提交了fq数据，但数据未公开，审稿专家要求你提供数据访问链接，怎么办呢？

大好事！医学文章可以全程托管了，6个月期限SCI中刊！不中退款

使用Copilot自动在Rstudio中写代码，提高效率！ | 今天购买了$4/month的版本

R语言 | 基于ggplot绘制气泡热图

新的征程，学习永远不晚！Bioinfo Notes生信交流群②成立！

R语言绘图 | GO富集柱状图

Linux中支持多线程压缩和解压软件 | pigz

差异基因散点图绘制教程 | 今天画图，再一次翻出以前的教程代码，也许这就是记录的意义吧！

10月份教程总结

R语言绘图 | PCA绘图教程

R语言绘图 | 多组GO和KEGG富集结果，分面堆积柱状图

一套完整的samll RNA上游分析流程 (五)

如何将测序数据(FQ)上传到NCBI数据库

一种快速发表SCI的“建议”，让你拥有一篇IF 5.8的文章。你惊奇吗？意外吗？

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

一个转录组上游分析流程

本期的教程代码（部分）

一、写在前面

二、软件的安装

1. Conda软件安装

2. miniconda（下载对应的版本）

3. Anaconda（下载对应的版本）

4. 软件的安装

5. 添加常用镜像

6. 创建生信环境

三、生信比对软件的安装

四、数据的下载

五、基因组的下载

六、数据过滤和质控检测

2. `miniconda`（下载对应的版本）

3. `Anaconda`（下载对应的版本）