转录组上游分析流程(二)

文摘   2024-10-24 16:59   日本  

环境部署——数据下载——查看数据(非质控)——数据质控

补充上一篇推文的内容,这是另一种数据下载的方法

使用ascp(Aspera Connect)来下载数据,它是 NCBI 的另一个官方工具。

首先先找到ascp的私钥路径:

find ~/ -name "asperaweb_id_dsa.openssh"
ascp -QT -l 300m -P33001 -i /home/data/t020527/anaconda3/envs/rna/pkgs/aspera-cli-3.9.6-h5e1937b_0/etc/asperaweb_id_dsa.openssh -r era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/SRR238/062/SRR23881762 ./rawdata
  1. ascp: Aspera 的命令行工具,用于高速传输大文件。它使用 UDP 进行数据传输,比传统的 TCP 更快。
  2. -QT: -Q: 使用高优先级的队列处理数据传输,优化数据传输速度。-T: 禁用加密,这可以提高传输速度,但在某些场合可能不安全(未加密的传输)。
  3. -l 300m: 限制带宽为 300 Mb/s。这个参数用于指定传输的最大带宽,防止占用所有网络带宽或被服务器拒绝。
  4. -P 33001: 使用 UDP 的端口号 33001,这是 Aspera 默认的端口。需要确保防火墙允许该端口的流量。
  5. -i /home/data/t020527/anaconda3/envs/rna/pkgs/aspera-cli-3.9.6-h5e1937b_0/etc/asperaweb_id_dsa.openssh: 指定 SSH 私钥文件的路径(asperaweb_id_dsa.openssh),用于验证和加密传输。这个文件是 Aspera 连接服务器所需的认证密钥。
  6. -r: 递归模式,表示会下载整个文件夹及其内容。如果服务器端的路径下有多个文件,它们都会被下载。
  7. era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/SRR238/062/SRR23881762: 这是远程服务器的路径信息era-fasp@fasp.sra.ebi.ac.uk: 连接到 ENA 的服务器,并使用 era-fasp 这个账号。
  8. /vol1/fastq/SRR238/062/SRR23881762: 这是 ENA 服务器上实际存储的文件夹路径,包含 SRR23881762 的文件。
  9. ./rawdata: 指定将下载的文件保存到当前工作目录下的 rawdata 文件夹中。

数据质控-fastqc

conda activate rna_x86_64

三种方式:

# 方式一:直接运行
# -t 6:表示使用 6 个线程来运行 fastqc,可以加快处理速度。数字可以根据机器的 CPU 核心数调整。
# -o ./:指定输出目录。这里 ./ 表示当前目录,生成的质量控制结果会保存在当前目录下。
# SRR*.fastq.gz:这是输入文件名,SRR*.fastq.gz 使用了通配符 *,表示选择所有以 SRR 开头,扩展名为 .fastq.gz 的文件。这通常是一些测序数据文件的格式。
fastqc -t 6 -o ./SRR*.fastq.gz

# 方式二:在命令前后加上nohup & 
# nohup:表示“no hang up”,即使关闭终端窗口,命令也会继续在后台运行。
# fastqc -t 6 -o ./ SRR*.fastq.gz:和方式一相同的命令,指定使用 fastqc 进行质量控制。
# > qc.log:将命令的输出重定向到一个日志文件 qc.log 中,这样就不会在终端输出,而是记录在文件里,可以查看日志了解进度和错误信息。
# &:表示将命令放入后台运行,这样可以在同一个终端执行其他命令而无需等待命令执行完成。
nohup fastqc -t 6 -o ./ SRR*.fastq.gz > qc.log &

# 方式三:将命令写入sh脚本,使用nohup & 运行sh脚本
# qc.sh 文件:
#!/bin/bash:这是一行 shebang,告诉系统用 /bin/bash 解释这个脚本文件。
# fastqc -t 6 -o ./ SRR*.fastq.gz:和方式一相同的 fastqc 命令,用于处理测序数据。
# nohup:即使关闭终端窗口,脚本依然继续运行。
# bash qc.sh:运行脚本 qc.sh。
# > qc.log:将运行输出记录在日志文件 qc.log 中。
# &:将脚本放入后台运行。
nohup bash qc.sh > qc.log &

尝试一下第三种:

# cd到文件夹(建议这样,因为bash文件中数据保存路径都是基于这个路径做延伸)
cd ./Desktop/RNA/Human-3-NPC-Tra
# 进入编辑器
nano qc.sh

把下边代码复制进去

#!/bin/bash
# 这是一个批处理脚本,用于运行 fastqc 质量控制

# 设置线程数、输入目录和输出目录
THREADS=6
INPUT_DIR="./rawData"
OUTPUT_DIR="./qc"

# 创建输出目录(如果不存在)
mkdir -p $OUTPUT_DIR

# 运行 fastqc 命令,处理 rawData 目录中的所有 SRR*.fastq.gz 文件
# .gz与否自己判断哈!!
fastqc -t $THREADS -o $OUTPUT_DIR $INPUT_DIR/SRR*.fastq

# 打印完成信息
echo "质量控制完成!结果保存在 $OUTPUT_DIR 目录下。"
# 保存文件
# 屏幕底部会出现提示 File Name to Write: <qc.sh>。按 Enter 确认保存。
Ctrl+O

# 退出nano,这样就会退出编辑器。
Ctrl+X
# 运行一下
nohub bash qc.sh > qc.log &
# check数据
tail -f qc.log

# 退出
Ctrl + C

FastQC 报告:

点击任一一个html文件

1.Bastic Statistics
  1. Encoding:表示碱基质量值的编码方式,采用 Sanger / Illumina 1.9 标准。
  2. Total Sequences: 样本中包含的总序列数(读段的数量),即测序得到的 reads 的总数。
  3. Total Bases: 样本中的总碱基数量,表示所有 reads 中碱基的总和。
  4. Sequences flagged as poor quality: 质量较差的序列数目。在该文件中,标记为低质量的序列数量为 0。
  5. Sequence length: 所有序列的长度,表示所有的 reads 均为 150 碱基对长,通常表示 Illumina 测序平台上的读长。
  6. %GC: 样本中 G 和 C 碱基的百分比。%GC 表示在所有碱基中,G 和 C 所占的比例为 52%,这是一个反映序列碱基组成的指标。
2.Per base sequence quality
  1. 绿色区域 (高质量):表示质量分数在 28 以上的部分。这部分通常认为是高质量区域,对应很低的测序错误率。
  2. 黄色区域 (中等质量):表示质量分数在 20-28 之间的部分,这部分表示质量较为可接受,但建议谨慎处理。
  3. 红色区域 (低质量):表示质量分数在 20 以下的部分,这部分通常表示测序质量较低,可能有较高的测序错误率。
3.Per sequence quality scores
  1. 横轴:质量值0-40,也是Q值
  2. 纵轴:每个质量值对应的read数
4.Per base sequence content
  1. 理想的均一性:对于随机分布的样本,期望 A、T、C、G 的百分比在每个位点上比较接近,不会有显著偏差。通常四条线应尽可能平行,并保持在 25% 附近。
  2. 低质量的指示:如果四种碱基的百分比在特定位点上有显著的变化,可能表示在这些位置存在偏好性或技术性问题。
5.Per sequence GC content

GC含量分布图:横轴为平均GC含量;纵轴为每个GC含量对应的序列数量。蓝线为理论分析,红线为测量值,二者越接近越好。

6.Per base content
  1. N含量为0%或接近0%:理想情况下,"N" 的比例应该为0%,因为 "N" 代表无法确定的碱基位置。这通常意味着测序反应中该位置没有产生明确信号,可能是由于低质量的测序反应或样本问题。
  2. 本图符合期望:从图中可以看到整个测序过程中在所有碱基位置上的 "N" 含量为 0%,表示样本的测序数据质量很高。
7.Sequence Length Distribution
  1. 一致的序列长度:在理想情况下,所有读取的序列长度应该一致或接近一致。通常,Illumina 测序平台会产生长度一致的读取(例如 150 bp 或 100 bp)。
  2. 图中的形态:该图表现出峰值非常集中在 150 bp,说明所有读取序列几乎都是等长,这是一种好的信号,表示测序的质量和均匀性很好。
8.Overrepresented sequences

高频序列可能有多种来源:

  1. 技术污染:如果数据中存在较多来自同一序列的高频段,这可能表示有污染。例如,可能是在实验过程中引入了不必要的引物或适配子。
  2. 生物学意义:在某些情况下,特定高频序列可能与目标基因区域的高表达有关,这可能是生物学现象。
  3. 低复杂性区域:某些区域可能具有较低的序列复杂性,导致某些片段频率高。
9.Sequence Duplication Levels
  1. 图上显示“Percent of seqs remaining if deduplicated 34.82%”,意味着在去除所有重复序列后,只有约34.82%的序列会留下来。这表示数据中有较高的重复率。
  2. 红色线的形状:红色线表示在不同重复水平上的序列数量。通常,理想的图像应该在低重复水平(例如1或2)有较高的比例,表明大多数序列是独特的。但如果在较高的重复水平(如>10)处有很高的比例,可能表明有大量冗余的序列。
  3. 理论上还有一条蓝色的线,通常表示去除重复后的理论分布。没有蓝色线可能表示:FastQC没有生成去重复后的理论分布,这可能与输入的数据集有关,或者由于某些设置或数据特性导致FastQC没有提供这部分信息。或者数据重复率较高,并且没有足够的非重复序列来生成可靠的参考线。

MultiQc整合FastQC结果

一次性把每个质控整合在一起,方便浏览

multiqc  ./qc/*.zip  -o ./qc/

multiQC结果解读跟上述的结果解读是差不多的哦~

顺便需要提一嘴,质控跟后续分析需要“辩证”看待哦~

参考资料:

  1. 生信技能树:https://mp.weixin.qq.com/s/dxoorMYHU-tlxMcICnTQTg
  2. 生信菜鸟团:https://mp.weixin.qq.com/s/Z5YNRkJ6tlY_tAeuUfL8SA

致谢:感谢曾老师/新叶老师以及生信技能树团队全体成员。

:若对内容有疑惑或者有发现明确错误的朋友,请联系后台(欢迎交流)。更多内容可关注公众号:生信方舟

- END -


生信方舟
执着医学,热爱科研。站在巨人的肩膀上,学习和整理各种知识。
 最新文章