一个转录组上游分析流程

文摘   2024-12-09 19:36   云南  

「一边学习,一边总结,一边分享!」

由于微信改版,一直有同学存在长时间接收不到公众号的推文。那么请跟随以下步骤,将「小杜的生信筆記」设置为「星标」,不错过每一条推文教程。

本期的教程代码(部分)

#!/bin/bash
#
# 使用fastq-dump解压sra数据
# 本数据集为双端数据
# 解压格式为fq.gz
for i in SRR6929571 SRR6929572 SRR6929573 SRR6929574 SRR6929577 SRR6929578;
do
pfastq-dump --split-files --threads 20 --gzip -s 00_RawData/${i}.sra --outdir 00_RawData/
## 质控
fastp -i 00_RawData/${i}_1.fastq.gz -o 01_CleanReads/${i}_1.clean.fq.gz -I 00_RawData/${i}_2.fastq.gz -O 01_CleanReads/${i}_2.clean.fq.gz -q 20 -z 4 -w 20 -h 01_CleanReads/html/${i}.html
## fastqc评估
fastqc -q -t 30 -o 01_CleanReads/fastqc/ 01_CleanReads/${i}_*.fq.gz
## 根据的信息,修改下面脚本
#mkdir 03_MappedFile/Hisat2_Mapped
#mkdir 03_MappedFile/Hisat2_Mapped/summary/
#mkdir 03_MappedFile/Hisat2_Mapped/Unmapped_reads
....
....
....
....
done

以下为获得.sort.bam文件后进行运行。

# 合并gtf文件
ls 04_Result/Stringtie/*.gtf > 04_Result/Stringtie/mergelist.txt
stringtie --merge -F 0 -T 0 -G 02_Geneome_index/ITAG4.1_gene_models.gtf -o 04_Result/Stringtie/gffcompare/stringtie_merged.gtf 04_Result/Stringtie/mergelist.txt
## 计算FPKM
mkdir 04_Result/Stringtie/featureCounts
featureCounts -T 20 -p -t exon -g transcript_id -a 04_Result/Stringtie/gffcompare/stringtie_merged.gtf -o 04_Result/Stringtie/featureCounts/All.transcript.count.txt 03_MappedFile/Hisat2_Mapped/*.sort.bam
###
## Count to FPKM
cat 04_Result/Stringtie/featureCounts/All.transcript.count.txt | cut -f 1,6-13 > 04_Result/Stringtie/featureCounts/01.all.count.txt
perl CountToFPKM.pl 04_Result/Stringtie/featureCounts/01.all.count.txt > 04_Result/Stringtie/featureCounts/02.all.FPKM.txt

一、写在前面

今天分享一个转录组上游分析的流程(Hisat2-Stringtie-Count),此流程的操作依旧是非常简单的。我们的流程主要使用软件的安装数据下载过滤比对CountCount To FPKM等流程。

二、软件的安装

1. Conda软件安装

conda是常用的软件安装和管理软件,操作简单、便捷。

https://mirrors.tuna.tsinghua.edu.cn/

conda软件的下载,可下载minicondaAnaconda

2. miniconda(下载对应的版本)

3. Anaconda(下载对应的版本)

4. 软件的安装

5. 添加常用镜像

若是不能使用,可以自己百度一下进行搜索即可。

## Conda常使用的镜像
# 下面这四行配置清华大学的bioconda的channel地址,国内用户推荐
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/bioconda/
conda config --set show_channel_urls yes

# 中科大镜像源
conda config --add channels https://mirrors.ustc.edu.cn/anaconda/pkgs/main/
conda config --add channels https://mirrors.ustc.edu.cn/anaconda/pkgs/free/
conda config --add channels https://mirrors.ustc.edu.cn/anaconda/cloud/conda-forge/
conda config --add channels https://mirrors.ustc.edu.cn/anaconda/cloud/msys2/
conda config --add channels https://mirrors.ustc.edu.cn/anaconda/cloud/bioconda/
conda config --add channels https://mirrors.ustc.edu.cn/anaconda/cloud/menpo/
conda config --add channels https://mirrors.ustc.edu.cn/anaconda/cloud/

# 阿里镜像源
conda config --add channels https://mirrors.aliyun.com/pypi/simple/
# 豆瓣镜像
conda config --add channels http://pypi.douban.com/simple/
#中国科学技术大学 USTC Mirror
conda config --add channels https://mirrors.ustc.edu.cn/anaconda/pkgs/main/
conda config --add channels https://mirrors.ustc.edu.cn/anaconda/pkgs/free/
conda config --add channels https://mirrors.ustc.edu.cn/anaconda/cloud/conda-forge/

6. 创建生信环境

若是你担心自己base环境被破坏,那么就安装自己对于的小环境即可。

## 创建环境
conda create -n env_name python=x.x

## 删除环境
conda remove -n env_name -all

## 激活
conda activate env_name
##
source activate env_name

## 关闭
conda deactivate

「查看环境中的软件」

# 查看指定环境下安装的package
## 查看指定环境下安装的package
conda list -n env_name

## 安装指定环境下某个package
conda install -n env_name [package]

## 删除指定环境下某个package
conda remove -n env_name [package]

## 更新指定环境下某个package
conda update -n env_name [package]

三、生信比对软件的安装

  1. 安装mamba软件,mamba相对于conda安装软件,速度更快,也更容易安装。
conda install -y mamba

比对所需的软件......

  1. hista2
  2. Stringtie
  3. subread
  4. samtools
  5. fastp

mamba install hisat2
mamba install stringtie
mamba install samtools
mamba install subread
mamba install fastp
  1. 使用源码安装 直接下载对应的软件源码,解压后进行安装。

四、数据的下载

公共数据库的下载,可直接在NCBI中下载,或是使用自己测的数据即可。若你想使用公共数据库的数据,可以我们前面的教程转录组数据的下载

五、基因组的下载

  • 「大部分的作物有自己基因组注释网址,我们需要自己的去寻找」

模式植物中,拟南芥、番茄、 烟草等都有自己的基因组网址。

茄科类作物基因组:https://solgenomics.net/organism/solanum_lycopersicum/genome-- NCBI 中下载基因组文件

  • 「如果自己的物种基因组没有单独的网址,如何做呢?」

「可以根据NCBI中进行下载」

「步骤:」

  1. 「进入NCBI官网(https://www.ncbi.nlm.nih.gov/)」
  2. 「输入需要寻找的基因组名称 (可以是作物名或是拉丁名)」
,点击“search"后即可看到以下的界面,其中”Geneome"就是作物的基因组数据,点击进去。

「在此界面就是我们的作物的基因组信息,有版本信息,geneome,transcript,protein,GFF,GenBank等信息。」

六、数据过滤和质控检测

  1. 使用FastP,主要是简单、便捷。软件官网:[https://github.com/OpenGene/fastp](https://github.com/OpenGene/fastp}

  2. FastQC进行质量评估 FastQC旨在提供一种简单的方法,对来自高通量测序管道的原始序列数据做一些质量控制检查。它提供了一套模块化的分析,你可以用它来快速了解你的数据是否有任何问题,在做任何进一步的分析之前,你应该注意到这些问题。

小杜的生信筆記
小杜的生信筆記,生信小白,初来乍到请多指教。 主要学习分享,转录组数据分析,基于R语言数据分析和绘制图片等,以及相关文献的分享。
 最新文章