转录组上游分析流程(二）

文摘 2024-10-24 16:59 日本

环境部署——数据下载——查看数据(非质控)——数据质控

补充上一篇推文的内容，这是另一种数据下载的方法

使用ascp（Aspera Connect）来下载数据，它是 NCBI 的另一个官方工具。

首先先找到ascp的私钥路径：

find ~/ -name "asperaweb_id_dsa.openssh"

ascp -QT -l 300m -P33001 -i /home/data/t020527/anaconda3/envs/rna/pkgs/aspera-cli-3.9.6-h5e1937b_0/etc/asperaweb_id_dsa.openssh -r era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/SRR238/062/SRR23881762 ./rawdata

ascp: Aspera 的命令行工具，用于高速传输大文件。它使用 UDP 进行数据传输，比传统的 TCP 更快。
-QT: -Q: 使用高优先级的队列处理数据传输，优化数据传输速度。-T: 禁用加密，这可以提高传输速度，但在某些场合可能不安全（未加密的传输）。
-l 300m: 限制带宽为 300 Mb/s。这个参数用于指定传输的最大带宽，防止占用所有网络带宽或被服务器拒绝。
-P 33001: 使用 UDP 的端口号 33001，这是 Aspera 默认的端口。需要确保防火墙允许该端口的流量。
-i /home/data/t020527/anaconda3/envs/rna/pkgs/aspera-cli-3.9.6-h5e1937b_0/etc/asperaweb_id_dsa.openssh: 指定 SSH 私钥文件的路径（asperaweb_id_dsa.openssh），用于验证和加密传输。这个文件是 Aspera 连接服务器所需的认证密钥。
-r: 递归模式，表示会下载整个文件夹及其内容。如果服务器端的路径下有多个文件，它们都会被下载。
era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/SRR238/062/SRR23881762: 这是远程服务器的路径信息era-fasp@fasp.sra.ebi.ac.uk: 连接到 ENA 的服务器，并使用 era-fasp 这个账号。
/vol1/fastq/SRR238/062/SRR23881762: 这是 ENA 服务器上实际存储的文件夹路径，包含 SRR23881762 的文件。
./rawdata: 指定将下载的文件保存到当前工作目录下的 rawdata 文件夹中。

数据质控-fastqc

conda activate rna_x86_64

三种方式：

# 方式一：直接运行
# -t 6：表示使用 6 个线程来运行 fastqc，可以加快处理速度。数字可以根据机器的 CPU 核心数调整。
# -o ./：指定输出目录。这里 ./ 表示当前目录，生成的质量控制结果会保存在当前目录下。
# SRR*.fastq.gz：这是输入文件名，SRR*.fastq.gz 使用了通配符 *，表示选择所有以 SRR 开头，扩展名为 .fastq.gz 的文件。这通常是一些测序数据文件的格式。
fastqc -t 6 -o ./SRR*.fastq.gz

# 方式二：在命令前后加上nohup & 
# nohup：表示“no hang up”，即使关闭终端窗口，命令也会继续在后台运行。
# fastqc -t 6 -o ./ SRR*.fastq.gz：和方式一相同的命令，指定使用 fastqc 进行质量控制。
# > qc.log：将命令的输出重定向到一个日志文件 qc.log 中，这样就不会在终端输出，而是记录在文件里，可以查看日志了解进度和错误信息。
# &：表示将命令放入后台运行，这样可以在同一个终端执行其他命令而无需等待命令执行完成。
nohup fastqc -t 6 -o ./ SRR*.fastq.gz > qc.log &

# 方式三：将命令写入sh脚本，使用nohup & 运行sh脚本
# qc.sh 文件：
#!/bin/bash：这是一行 shebang，告诉系统用 /bin/bash 解释这个脚本文件。
# fastqc -t 6 -o ./ SRR*.fastq.gz：和方式一相同的 fastqc 命令，用于处理测序数据。
# nohup：即使关闭终端窗口，脚本依然继续运行。
# bash qc.sh：运行脚本 qc.sh。
# > qc.log：将运行输出记录在日志文件 qc.log 中。
# &：将脚本放入后台运行。
nohup bash qc.sh > qc.log &

尝试一下第三种：

# cd到文件夹(建议这样，因为bash文件中数据保存路径都是基于这个路径做延伸)
cd ./Desktop/RNA/Human-3-NPC-Tra

# 进入编辑器
nano qc.sh

把下边代码复制进去

#!/bin/bash
# 这是一个批处理脚本，用于运行 fastqc 质量控制

# 设置线程数、输入目录和输出目录
THREADS=6
INPUT_DIR="./rawData"
OUTPUT_DIR="./qc"

# 创建输出目录（如果不存在）
mkdir -p $OUTPUT_DIR

# 运行 fastqc 命令，处理 rawData 目录中的所有 SRR*.fastq.gz 文件
# .gz与否自己判断哈！！
fastqc -t $THREADS -o $OUTPUT_DIR $INPUT_DIR/SRR*.fastq

# 打印完成信息
echo "质量控制完成！结果保存在 $OUTPUT_DIR 目录下。"

# 保存文件
# 屏幕底部会出现提示 File Name to Write: <qc.sh>。按 Enter 确认保存。
Ctrl+O

# 退出nano，这样就会退出编辑器。
Ctrl+X

# 运行一下
nohub bash qc.sh > qc.log &

# check数据
tail -f qc.log

# 退出
Ctrl + C

FastQC 报告：

点击任一一个html文件

1.Bastic Statistics

Encoding：表示碱基质量值的编码方式，采用 Sanger / Illumina 1.9 标准。
Total Sequences: 样本中包含的总序列数（读段的数量），即测序得到的 reads 的总数。
Total Bases: 样本中的总碱基数量，表示所有 reads 中碱基的总和。
Sequences flagged as poor quality: 质量较差的序列数目。在该文件中，标记为低质量的序列数量为 0。
Sequence length: 所有序列的长度，表示所有的 reads 均为 150 碱基对长，通常表示 Illumina 测序平台上的读长。
%GC: 样本中 G 和 C 碱基的百分比。%GC 表示在所有碱基中，G 和 C 所占的比例为 52%，这是一个反映序列碱基组成的指标。

2.Per base sequence quality

绿色区域 (高质量)：表示质量分数在 28 以上的部分。这部分通常认为是高质量区域，对应很低的测序错误率。
黄色区域 (中等质量)：表示质量分数在 20-28 之间的部分，这部分表示质量较为可接受，但建议谨慎处理。
红色区域 (低质量)：表示质量分数在 20 以下的部分，这部分通常表示测序质量较低，可能有较高的测序错误率。

3.Per sequence quality scores

横轴：质量值0-40，也是Q值
纵轴：每个质量值对应的read数

4.Per base sequence content

理想的均一性：对于随机分布的样本，期望 A、T、C、G 的百分比在每个位点上比较接近，不会有显著偏差。通常四条线应尽可能平行，并保持在 25% 附近。
低质量的指示：如果四种碱基的百分比在特定位点上有显著的变化，可能表示在这些位置存在偏好性或技术性问题。

5.Per sequence GC content

GC含量分布图：横轴为平均GC含量；纵轴为每个GC含量对应的序列数量。蓝线为理论分析，红线为测量值，二者越接近越好。

6.Per base content

N含量为0%或接近0%：理想情况下，"N" 的比例应该为0%，因为 "N" 代表无法确定的碱基位置。这通常意味着测序反应中该位置没有产生明确信号，可能是由于低质量的测序反应或样本问题。
本图符合期望：从图中可以看到整个测序过程中在所有碱基位置上的 "N" 含量为 0%，表示样本的测序数据质量很高。

7.Sequence Length Distribution

一致的序列长度：在理想情况下，所有读取的序列长度应该一致或接近一致。通常，Illumina 测序平台会产生长度一致的读取（例如 150 bp 或 100 bp）。
图中的形态：该图表现出峰值非常集中在 150 bp，说明所有读取序列几乎都是等长，这是一种好的信号，表示测序的质量和均匀性很好。

8.Overrepresented sequences

高频序列可能有多种来源：

技术污染：如果数据中存在较多来自同一序列的高频段，这可能表示有污染。例如，可能是在实验过程中引入了不必要的引物或适配子。
生物学意义：在某些情况下，特定高频序列可能与目标基因区域的高表达有关，这可能是生物学现象。
低复杂性区域：某些区域可能具有较低的序列复杂性，导致某些片段频率高。

9.Sequence Duplication Levels

图上显示“Percent of seqs remaining if deduplicated 34.82%”，意味着在去除所有重复序列后，只有约34.82%的序列会留下来。这表示数据中有较高的重复率。
红色线的形状：红色线表示在不同重复水平上的序列数量。通常，理想的图像应该在低重复水平（例如1或2）有较高的比例，表明大多数序列是独特的。但如果在较高的重复水平（如>10）处有很高的比例，可能表明有大量冗余的序列。
理论上还有一条蓝色的线，通常表示去除重复后的理论分布。没有蓝色线可能表示：FastQC没有生成去重复后的理论分布，这可能与输入的数据集有关，或者由于某些设置或数据特性导致FastQC没有提供这部分信息。或者数据重复率较高，并且没有足够的非重复序列来生成可靠的参考线。

MultiQc整合FastQC结果

一次性把每个质控整合在一起，方便浏览

multiqc  ./qc/*.zip  -o ./qc/

multiQC结果解读跟上述的结果解读是差不多的哦~

顺便需要提一嘴，质控跟后续分析需要“辩证”看待哦~

参考资料：

生信技能树：https://mp.weixin.qq.com/s/dxoorMYHU-tlxMcICnTQTg
生信菜鸟团：https://mp.weixin.qq.com/s/Z5YNRkJ6tlY_tAeuUfL8SA

致谢：感谢曾老师/新叶老师以及生信技能树团队全体成员。

注：若对内容有疑惑或者有发现明确错误的朋友，请联系后台(欢迎交流)。更多内容可关注公众号：生信方舟

- END -

http://mp.weixin.qq.com/s?__biz=MzkwMjYyMDA1OA==&mid=2247486315&idx=1&sn=55b86d559466a5468f07a22ca1560a48

生信方舟

执着医学，热爱科研。站在巨人的肩膀上，学习和整理各种知识。

最新文章

郑大一附院胃肠外科6.8分力作，旧活新整，来看看你是否能学会~

临床预测模型-静态诺模/列线图(Nomogram)+校准曲线(Calibration)分析学习

单细胞cluster/细胞亚群的标志识别工具—FindAllmarkers/presto/COSG/starTracer算法学习

miRNA测序数据的上游定量流程实战演练

临床预测模型/机器学习-偏最小二乘回归plsRcox算法学习

临床预测模型/机器学习-生存分析支持向量机SVM(survivalsvm)算法学习

临床预测模型/机器学习-随机森林树RSF(RandomForest/RandomForestSRC)算法学习

临床预测模型/机器学习-Coxboost算法学习

主动脉瘤形成的新机制：促红细胞生成素（EPO）

CSC申报流程及日本留学感受

同济大学最新多组学爽文，大力才能出奇迹！

miRNA分析流程学习(四)/miRNA芯片数据差异分析再学习以及异常火山图可能原因解释

🧬 下游笔记1：最全pySCENIC报错解决！

miRNA分析流程学习(三)/miRNA靶基因预测-ENCORI数据库数据下载

miRNA分析流程学习(二)/TCGAmiRNA数据三大R包整合差异分析再学习

miRNA分析流程学习(一)/TCGAmiRNA数据下载

转录组上游分析流程(四）

转录组上游分析流程(三）

转录组上游分析流程(二）

转录组上游分析流程(一）

看完还不会来揍/找我 | TCGA 与 GTEx 数据库联合分析 | 附完整代码 + 注释

Linux常见命令回顾/转录组上游分析环境部署(Mac/M1/M2)

空间单细胞转录组Cell2location分析流程学习

单细胞空间转录组RCTD去卷积分析学习和整理

单细胞空间转录组分析流程学习python版(三)

单细胞空间转录组分析流程学习(二)

单细胞空间转录组分析流程学习(一)

单细胞copyKat分析学习和整理

tigeR免疫治疗数据分析工具学习和整理

单细胞Ro/e分析学习和整理

单细胞METAFlux分析学习和整理

Cell & Bioscience | 一篇很好的生信复现文献(提供部分代码/联系热点/工作量扎实/图片美观）

将bulk数据特征整合进单细胞数据中：R包scAB

WGCNA加权基因共表达网络多步法分析学习

原始代码给的这么全，这么基础的生信图谱文章，咱们能不学吗？

单细胞hdWGCNA分析学习和整理

单细胞scDist细胞扰动差异分析学习

单细胞scMetabolism代谢相关通路分析学习和整理

单细胞Augur细胞扰动差异分析学习和整理

单细胞miloR分析(基于 KNN 图的细胞差异丰度分析方法)

单细胞Seruat和h5ad数据格式互换(R与python)方法学习和整理

单细胞Scanpy流程学习和整理(分析簇间差异基因/细胞注释/数据保存)

单细胞Scanpy流程学习和整理(单样本10X数据读取/过滤/降维/聚类)

单细胞SCENIC简单可视化分析学习和整理

单细胞monocle3分析流程再整理

单样本Cellchat(V2)细胞通讯分析学习和整理

单细胞BisqueRNA和BayesPrism(贝叶斯棱镜)去卷积分析工具简单比较

算不上什么大错误的成纤维细胞亚群的细分操作

CytoTRACE2可视化进阶(修改坐标维持umap图前后一致)

CytoTRACE2单细胞分化潜力预测工具学习

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉