转录组上游分析流程(一）

文摘 2024-10-23 19:09 日本

流程一：

环境部署——数据下载——查看数据(非质控）

分析流程

1.环境部署/软件安装：

尝试使用ARM架构(M1/M2芯片)去安装fastqc trim-galore hisat2 subread multiqc samtools salmon fastp，但这些软件中有几个是不兼容的。所以需要改回原来的x86_64架构(Intel芯片)，如果非mac/M1/M2的不需要用这种方式。

CONDA_SUBDIR=osx-64 conda create -n rna_x86_64 python=3.9
conda activate rna_x86_64
conda install -y sra-tools
conda install -y fastqc trim-galore hisat2 subread multiqc samtools salmon fastp 
conda install -y -c hcc aspera-cli

如果安装软件很慢的话可以先安装mamba再安装软件，比如：只需要把conda修改成mamba即可

conda install -c conda-forge mamba
mamba install fastqc trim-galore hisat2 subread multiqc samtools salmon fastp

SRA-tools：一组用于访问和处理Sequence Read Archive (SRA) 数据的命令行工具。内含工具主要包括：

prefetch：用于从 SRA 数据库下载测序数据。
fastq-dump：用于将下载的 SRA 文件转换为常见的 FASTQ 格式，以便进行进一步的分析。
fasterq-dump：fastq-dump 的改进版本，速度更快，适合处理大数据集。
sam-dump：用于将 SRA 数据转换为 SAM 格式（测序比对格式）。
vdb-config：配置 SRA 工具的参数，比如下载路径、缓存大小等。

FastQC：用于评估高通量测序数据的质量。

Trim Galore：用于剪切测序数据中的低质量序列和接头序列。

HISAT2：用于将RNA-Seq数据比对到参考基因组上。

Subread：用于比对和量化RNA-Seq、DNA-Seq等高通量测序数据。

MultiQC：用于整合并展示多个质控工具的结果。

Samtools：用于处理比对后的SAM/BAM/CRAM文件。

Salmon：用于RNA-Seq数据的转录本定量分析。

Fastp：高效的测序数据质控和剪切工具。

aspera CLI: IBM Aspera提供的命令行工具，用于通过Aspera的高速文件传输协议（Aspera FASP）传输大型文件和数据集。

2.创建工作目录

mkdir -p ~/RNA/Human-3-NPC-Tra
cd ~/RNA/Human-3-NPC-Tra

mkdir -p  rawdata  fastq_25000  qc  trim_galore  fastp hisat2 featureCounts

3.下载/解压缩数据

下载数据

只要有SRR号，可以使用sra-tools工具中的prefetch进行下载。

首先进入GEO的GSE227503数据集界面，拉到最下面进入SRA Run Selector接着获取Accession List得到三个SRR号码开始下载，第一句是下载特定的数据，后一句是循环下载SRR_Acc_List中的数据

prefetch SRR23881762 -O ./rawdata   #-O . 指定到当前路径

# cat SRR_Acc_List.txt | while read id; do (prefetch  ${id} );done #全部下载

cat SRR_Acc_List.txt: 使用 cat 命令显示并输出 SRR_Acc_List.txt 文件的内容

while read id; do ... done: while 循环用于读取 SRR_Acc_List.txt 文件中的每一行内容，每次循环将一行内容存储在 id 变量中。read 命令会读取 SRR_Acc_List.txt 中的每一行，直到文件读取完毕。

prefetch -X 100G id（每个 SRR 记录）。-X 100G: 选项 -X 用于设置下载文件的缓存大小，在这个例子中设置为 100GB，以确保处理较大文件时不会因为空间限制而出现问题。$id: 这是 while 循环中的 id，代表当前读取的 SRR 编号。&: 这个符号将命令放入后台执行。

解压缩文件

fasterq-dump SRR23881762.sra --split-files # 把双端测序文件分开
gzip *.fastq # 压缩fastq文件，但这一步会非常慢哦
rm *.fastq # 删除fastq文件

笔者没有压缩，因为有点慢

4.check数据(建议查看)

双端测序：一般一个样本对应两个fq文件，gz是压缩后缀。如SRR23881762.gz

对应的为read1：SRR23881762_1.fastq.gz; read2: SRR23881762_2.fastq.gz

fastq数据格式：高通量测序(如illumina NovaSeq等测序平台)得到的原始图像数据文件，经过碱基识别(Base calling)分析转化为原始测序序列(Sequenced Reads)，称之为Raw data或Raw reads，结果以FASTQ(简称为fq)文件格式存储，其中包含测序序列(Reads)的序列信息以及其对应的测序质量信息。

head -n 8 SRR23881762_1.fastq # 查看前8行的数据

每4行为一个read：

第1行主要储存序列测序时的坐标信息等。
第2行是测序得到的序列信息，一般用ATCGN(N 代表的是未确定的碱基（N 表示 "unknown" 或 "ambiguous" base）来表示。
第3行以“+”开始，可以储存一些附加信息，一般是空的。
第4行储存质量信息，与第2行的碱基序列一一对应。每个符号对应的ASCII值成为phred值，可以简单理解为对应位置碱基的质量，越大说明测序质量越好。质量字符的ASCII值和质量得分的关系有如下两种：

Phred+64 质量字符的ASCII值 - 64/ Phred+33: 质量字符的ASCII值 - 33

可以粗略分为 Phred+33和Phred+64，这里的33和64就是指ASCII值转换为得分需要减去的数值。统计reads_1.fq文件种共有多少条reads的方法

# zless 是一个用于查看压缩文件内容的命令
# grep 是一个文本搜索工具，用于查找符合特定模式的行
# wc 是 "word count" 的缩写，用于统计行数、单词数和字符数。-l 选项告诉 wc 只输出行数。
# | 是管道符号，将 grep "@SRR" 的输出传递给 wc -l 作为输入，从而统计 @SRR 出现的次数。
zless  SRR23881762_1.fastq.gz | grep "@SRR" |wc -l

# grep '^@SRR'：这里的 ^ 是正则表达式中的特殊符号，表示 "行首"。
zless  SRR23881762_1.fastq.gz | grep '^@SRR' |wc -l

# paste：这是一个将多个行合并到一行的工具。
# - - - -：这部分告诉paste命令每次读取四行并将它们拼接在一起
# -S 表示不换行显示长行的内容
zless -S SRR23881762_1.fastq | paste - - - - |wc -l

#awk：这是一个文本处理工具。
# $0/4：表示将 wc -l 计算的总行数除以 4，因为每4行代表一个完整的序列条目。
zless  SRR23881762_1.fastq |wc -l | awk '{print $0/4}'

# awk：这是一个文本处理工具，逐行处理输入的内容。NR：表示当前行号。
# NR%4==2：这个条件判断用于选择每四行中的第2行，因为FASTQ文件的格式是每4行代表一个序列条目，而第2行是序列本身。NR%4是取行号对4的余数，NR%4==2 表示当行号除以4余2时，也就是第2行。
# print：将满足条件的行打印出来，因此它会输出每个序列条目的序列部分。
zless -S SRR23881762_1.fastq |awk '{ if(NR%4==2) {print} }' |wc -l

使用了第一条代码，数据量大过程很慢，中途用Ctrl + T查看了一下数据，最后发现一共有3000万+的reads输出SRR23881762_1.fastq文件中所有的序列ID（即第一行）

zless  SRR23881762_1.fastq | grep '^@SRR'  |less -S
zless  SRR23881762_1.fastq | paste - - - - |cut -f 1 |less -S
zless -S SRR23881762_1.fastq |awk '{if(NR%4==1){print}}' |less -S

输出SRR23881762_1.fastqz文件中所有的序列（即第二行）

zless SRR23881762_1.fastq | paste - - - - |cut -f 2 |less -S
zless SRR23881762_1.fastq |awk '{if(NR%4==2){print}}' |less -S

统计SRR23881762_1.fastq碱基总数

# 简单版本
zless SRR23881762_1.fastq |paste - - - - |cut -f 2 |tr -d '\n' |wc -m
zless -S SRR23881762_1.fastq |paste - - - - |cut -f 2 |grep -o [ATCGN] |wc -l

# awk的高阶用法：BEGIN END模块
zless -S SRR23881762_1.fastq |awk '{ if(NR%4==2){print} }' | awk 'BEGIN {num=0} {num=num+length($0)}  END{ print "num="num}'

查看reads拷贝数

zless SRR23881762_1.fastq | paste - - - - | cut -f2 | sort | uniq -c | sort -nr | head

参考资料：

Bioinformatics workbook: https://bioinformaticsworkbook.org/introduction/fastqquality-score-encoding.html#gsc.tab=0
生信技能树：https://mp.weixin.qq.com/s/dxoorMYHU-tlxMcICnTQTg
生信菜鸟团：https://mp.weixin.qq.com/s/Z5YNRkJ6tlY_tAeuUfL8SA
芒果师兄聊生信：https://mp.weixin.qq.com/s/X0SW5bKRgXZmlDJ-2eUjzQ

致谢：感谢曾老师以及生信技能树团队全体成员。

注：若对内容有疑惑或者有发现明确错误的朋友，请联系后台(欢迎交流)。更多内容可关注公众号：生信方舟

- END -

http://mp.weixin.qq.com/s?__biz=MzkwMjYyMDA1OA==&mid=2247486287&idx=1&sn=eb6c39195fd4449ff651a6c7b2c4caf5

生信方舟

执着医学，热爱科研。站在巨人的肩膀上，学习和整理各种知识。

最新文章

郑大一附院胃肠外科6.8分力作，旧活新整，来看看你是否能学会~

临床预测模型-静态诺模/列线图(Nomogram)+校准曲线(Calibration)分析学习

单细胞cluster/细胞亚群的标志识别工具—FindAllmarkers/presto/COSG/starTracer算法学习

miRNA测序数据的上游定量流程实战演练

临床预测模型/机器学习-偏最小二乘回归plsRcox算法学习

临床预测模型/机器学习-生存分析支持向量机SVM(survivalsvm)算法学习

临床预测模型/机器学习-随机森林树RSF(RandomForest/RandomForestSRC)算法学习

临床预测模型/机器学习-Coxboost算法学习

主动脉瘤形成的新机制：促红细胞生成素（EPO）

CSC申报流程及日本留学感受

同济大学最新多组学爽文，大力才能出奇迹！

miRNA分析流程学习(四)/miRNA芯片数据差异分析再学习以及异常火山图可能原因解释

🧬 下游笔记1：最全pySCENIC报错解决！

miRNA分析流程学习(三)/miRNA靶基因预测-ENCORI数据库数据下载

miRNA分析流程学习(二)/TCGAmiRNA数据三大R包整合差异分析再学习

miRNA分析流程学习(一)/TCGAmiRNA数据下载

转录组上游分析流程(四）

转录组上游分析流程(三）

转录组上游分析流程(二）

转录组上游分析流程(一）

看完还不会来揍/找我 | TCGA 与 GTEx 数据库联合分析 | 附完整代码 + 注释

Linux常见命令回顾/转录组上游分析环境部署(Mac/M1/M2)

空间单细胞转录组Cell2location分析流程学习

单细胞空间转录组RCTD去卷积分析学习和整理

单细胞空间转录组分析流程学习python版(三)

单细胞空间转录组分析流程学习(二)

单细胞空间转录组分析流程学习(一)

单细胞copyKat分析学习和整理

tigeR免疫治疗数据分析工具学习和整理

单细胞Ro/e分析学习和整理

单细胞METAFlux分析学习和整理

Cell & Bioscience | 一篇很好的生信复现文献(提供部分代码/联系热点/工作量扎实/图片美观）

将bulk数据特征整合进单细胞数据中：R包scAB

WGCNA加权基因共表达网络多步法分析学习

原始代码给的这么全，这么基础的生信图谱文章，咱们能不学吗？

单细胞hdWGCNA分析学习和整理

单细胞scDist细胞扰动差异分析学习

单细胞scMetabolism代谢相关通路分析学习和整理

单细胞Augur细胞扰动差异分析学习和整理

单细胞miloR分析(基于 KNN 图的细胞差异丰度分析方法)

单细胞Seruat和h5ad数据格式互换(R与python)方法学习和整理

单细胞Scanpy流程学习和整理(分析簇间差异基因/细胞注释/数据保存)

单细胞Scanpy流程学习和整理(单样本10X数据读取/过滤/降维/聚类)

单细胞SCENIC简单可视化分析学习和整理

单细胞monocle3分析流程再整理

单样本Cellchat(V2)细胞通讯分析学习和整理

单细胞BisqueRNA和BayesPrism(贝叶斯棱镜)去卷积分析工具简单比较

算不上什么大错误的成纤维细胞亚群的细分操作

CytoTRACE2可视化进阶(修改坐标维持umap图前后一致)

CytoTRACE2单细胞分化潜力预测工具学习

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉