亲测一批国产单细胞数据,没啥问题,国产单细胞新秀-寻因生物seeksoultools的使用

文摘   2024-10-21 07:00   北京  

不要怕国产技术测序数据不会分析,恰恰相反,相当容易,而且速度快。

最近,出于课题的需要,课题组进行了一批寻因生物的FFPE样本单核测序,这是第一次接触国产单细胞测序公司。这个过程和寻因的销售们反复交流了解,逐渐对这家低调但实力出众的国产生物公司有了更多了解。从目前我本人目前测序得到的数据来看,寻因的FFPE样本测序数据整体表现非常稳定,基本符合他们官网的宣传。这对于FFPE样本的研究尤其重要,因为这些样本通常由于固定过程的影响,RNA质量较差。寻因的技术能够克服这一难题,获得较高质量的转录本数据,为后续的单细胞分析提供了可靠基础。

与10X公司的Flex技术(基于探针法)不同,寻因在FFPE样本中采用了随机引物的方法,这意味着有机会捕获相对完整的转录本。因此,除了常规的转录本定量分析,我们还能通过这些测序数据获取体细胞变异信息。对于从事生物信息学的研究人员来说,这是一个不小的优势,做到在单细胞水平通过SNP解析肿瘤细胞的异质性和克隆演变。

除了FFPE单核测序方案,寻因还推出了单细胞3'转录组试剂盒、单细胞全长转录组试剂盒以及单细胞免疫分析试剂盒。在目前最热门的空间转录组领域(核定位技术,之前专门介绍过),寻因生物也有其独特的解决方案。当前流行的空间转录组技术依赖于spatial barcode对透化后捕获的转录本进行反转录并标记位置,而寻因采用可断裂的定位探针标记细胞核,真正实现了物理意义上的单细胞级别空间转录组分析。

这套代码让你一口气跑到底,产生你想要的所有空间组学结果,代码和示例数据分享(之前专门介绍过他们的空间分析代码)

昨天的Nature基本上把空转所有的共性问题都提出了——并提供了解决办法

作为一家成立仅6年的公司,寻因生物能够从无到有积累如此多的技术,实属难能可贵。相比之下,他们的产品和技术却显得过于低调,很多优秀的成果还未得到足够的宣传。尤其是在单细胞领域,如今越来越多的体细胞变异检测算法被开发,这些全长转录本的单细胞测序技术无疑是极其重要的资源。

好了,言归正传,各位同学现在对寻因生物也有了点基础了解,今天这篇推送主要和大家分享下寻因生物单FFPE样本的转录本定量。FFPE样本单核测序技术是很优秀,但是还是得自己上手分析一下,毕竟实践才是检验真理的唯一标准。

Step1:下载SeekSoulTools

#wget下载mkdir seeksoultools.1.2.2cd seeksoultools.1.2.2wget -c -O seeksoultools.1.2.2.tar.gz "https://seekgene-public.oss-cn-beijing.aliyuncs.com/software/seeksoultools/seeksoultools.1.2.2.tar.gz"

#curl下载mkdir seeksoultools.1.2.2cd seeksoultools.1.2.2curl -C - -o seeksoultools.1.2.2.tar.gz "https://seekgene-public.oss-cn-beijing.aliyuncs.com/software/seeksoultools/seeksoultools.1.2.2.tar.gz"
#部署到环境变量# 解压tar zxf seeksoultools_1.2.2.tar.gz
# 设置环境变量export PATH=`pwd`:$PATHecho "export PATH=$(pwd):\$PATH" >> ~/.bashrcsource ~/.bashrc
# 初始化和安装验证,初次执行所需时间稍长./seeksoultools --version1.2.2

Step2:部署数据库

#注意seeksoultools的STAR版本是2.7.10a,CellRanger内置STAR版本是2.7.6a,数据库好像是不太通用的,我自己试了结果就是报错。#seeksoultools的STAR参考是需要两个版本。rRNA编号的是用于核糖体转录本定量的,这点和10x略微有点区别的。wget -c -O GRCh38.tar.gz "https://seekgene-public.oss-cn-beijing.aliyuncs.com/software/data/reference/GRCh38.tar.gz"# decompresstar -zxvf GRCh38.tar.gz
wget -c -O hg38_rRNA.tar.gz "https://seekgene-public.oss-cn-beijing.aliyuncs.com/software/data/reference/hg38_rRNA.tar.gz"tar -zxvf hg38_rRNA.tar.gz
wget -c -O mm10.tar.gz "https://seekgene-public.oss-cn-beijing.aliyuncs.com/software/data/reference/mm10_ensemble_102.tar.gz"tar -zxvf mm10.tar.gz
wget -c -O mouse_rRNA.tar.gz "http://seekgene-public.oss-cn-beijing.aliyuncs.com/software/data/reference/mm10_rRNA.tar.gz"tar -zxvf mouse_rRNA.tar.gz

Step3:数据定量

#主要命令seeksoultools --help
Usage: seeksoultools_py [OPTIONS] COMMAND [ARGS]...
Options: --version Show the version and exit. --debug debug flag. -h, --help Show this message and exit.
Commands:  fast   quantifies singlecell gene expression #专门针对SeekOneDD单细胞全序列试剂盒和FFPE样本单细胞试剂盒数据进行单细胞定量。  rna    quantifies singlecell gene expression #用于识别细胞barcode,得到分析用的表达矩阵,除了公司试剂盒以外,还支持自定义序列分析。  utils  utils. #一些功能工具,比如给bam文件添加CB标签用于RNA速率分析 vdj assembl and annotate vdj sequence. #用于寻因公司单细胞免疫试剂盒数据分析#FFPE样本定量采用fast命令进行操作,这里给出我自己用的示例命令seeksoultools fast run \--fq1 $fq1 \ #指定R1文件--fq2 $fq2 \ #指定R2文件--samplename $sample \ #输入sample名字--genomeDir $stardb \ #指定数据库--gtf $gtf \ #指定gtf文件--rRNAgenomeDir $rnadb \ #指定rRNA数据库路径--rRNAgtf $rnagtf \ #指定rRNA数据库的gtf文件--scoremin 0.2 --matchnmin 0.33 \ #官方建议的ffpe参数--chemistry DD-Q --include-introns \ #指定试剂盒--core 30 --outdir result/ #最后结果文件包含bam、html报告、用于seurat分析的matrix文件等等,分析和数据读取参考10X标准流程即可。

Step0:数据库搭建

#seeksoultools的数据库有两个文件,带rRNA的用于核糖体转录本定量,构建的时候直接用原始的gtf文件和fasta就可以#参考命令如下,只要指定好对应的文件就可以,流程也很简单。#gtf内部过滤参考10x的流程就可以,很详细。seeksoultools.1.2.0/bin/STAR \  --runMode genomeGenerate \  --runThreadN 16 \                          --genomeDir /path/to/star \               --genomeFastaFiles /path/to/genome.fa \    --sjdbGTFfile /path/to/genome.gtf \        --sjdbOverhang 149 \                       --limitGenomeGenerateRAM 17179869184

现在我们下载demo数据实战一下

wget -c -O demo https://seekonetools-release.oss-cn-beijing.aliyuncs.com/demo_data/link/FFPE_Lung/ffpedemo.tar.gztar -xzvf demo/ffpedemo.tar.gz
#使用seeksoultools和上述准备好的数据库进行定量seeksoultools fast run \--fq1 ffpedemo1_R1.fastq.gz \--fq2 ffpedemo1_R2.fastq.gz \--samplename demo \--genomeDir $GRCh38/star/ \--gtf $GRCH38/genes/genes.gtf \--rRNAgenomeDir $hg38_rRNA/star/ \--rRNAgtf $hg38_rRNA/genes/delete_rRNA5.8-18-28_in_rRNA45s.gtf \--scoremin 0.2 --matchnmin 0.33 \--chemistry DD-Q --include-introns \--core 20 --outdir result/
#输出如下:#2024-10-15 22:38:20.379 | INFO     | seeksoultools.utils.wrappers:cmd_execute:39 - zcat "data/demo/ffpedemo1_R1.fastq.gz"|head -n 400000|gzip > demo/result/demo/.test/data/ffpedemo1_R1.fastq.gz#2024-10-15 22:38:30.210 | INFO     | seeksoultools.utils.wrappers:cmd_execute:39 - zcat "data/demo/ffpedemo1_R2.fastq.gz"|head -n 400000|gzip > demo/result/demo/.test/data/ffpedemo1_R2.fastq.gz#2024-10-15 22:38:38.580 | INFO | seeksoultools.utils.barcode:chemistry_auto:133 - test DD-Q!#2024-10-15 22:38:38.581 | INFO | seeksoultools.utils.barcode:barcode_main:406 - extract barcode start!#2024-10-15 22:38:42.809 | INFO | seeksoultools.utils.barcode:barcode_main:417 - barcode one base mismatch allowed.#2024-10-15 22:38:42.810 | INFO | seeksoultools.utils.barcode:barcode_main:428 - rescue barcode match multi barcode in whitelist.#2024-10-15 22:40:01.528 | INFO | seeksoultools.utils.barcode:barcode_main:472 - deal multi start!#2024-10-15 22:40:01.771 | INFO | seeksoultools.utils.barcode:barcode_main:524 - deal multi done!#2024-10-15 22:40:01.803 | INFO | seeksoultools.utils.barcode:barcode_main:528 - extract barcode done!#2024-10-15 22:40:02.286 | INFO | seeksoultools.utils.barcode:chemistry_auto:138 - valid barcode rate of DD-Q: 98.724%
#运行大概24h结束

最终文件输出内容:

demo├── demo_report.html├── demo_summary.csv├── demo_summary.json├── step1 #数据预处理│   ├── demo_1.fq.gz│   ├── demo_2.fq.gz│   ├── demo_multi_1.fq.gz│   ├── demo_multi_2.fq.gz│   └── demo_multi.json├── step2 #STAR比对结果│   ├── featureCounts│   │   ├── counts.txt│   │   ├── counts.txt.summary│   │   └── demo_SortedByName.bam│   └── STAR│       ├── demo_Log.final.out│       ├── demo_Log.out│       ├── demo_Log.progress.out│       ├── demo_SJ.out.tab│       ├── demo_SortedByCoordinate.bam #添加BC标签后用于下游RNA速率分析│       ├── demo_SortedByCoordinate.bam.bai│       ├── demo_SortedByName.bam│       ├── downbam│       │   ├── demo.bed│       │   ├── demo.down.0.1.bam│       │   ├── demo.down.0.1.bam.bai│       │   ├── demo.geneBodyCoverage.curves.pdf│       │   ├── demo.geneBodyCoverage.r│       │   ├── demo.geneBodyCoverage.txt│       │   ├── demo.reduction.bed│       │   └── log.txt│       ├── report.pdf│       ├── rnaseq_qc_results.txt│       └── rRNA│           ├── counts.txt│           ├── counts.txt.summary│           ├── demo_Aligned.out.bam│           ├── demo_Aligned.out.bam.featureCounts.bam│           ├── demo_Log.final.out│           ├── demo_Log.out│           ├── demo_Log.progress.out│           ├── demo_SJ.out.tab│           └── demo.xls├── step3 #定量结果│   ├── counts.xls│   ├── detail.xls│   ├── filtered_feature_bc_matrix #过滤后的输出矩阵│   │   ├── barcodes.tsv.gz│   │   ├── features.tsv.gz│   │   └── matrix.mtx.gz│   ├── raw_feature_bc_matrix #原始输出矩阵│   │   ├── barcodes.tsv.gz│   │   ├── features.tsv.gz│   │   └── matrix.mtx.gz│   └── umi.xls└── step4 #一些初步聚类的结果    ├── biotype_FindAllMarkers.xls    ├── demo.rds    ├── FeatureScatter.png    ├── FindAllMarkers.xls    ├── lncgene_FindAllMarkers.xls    ├── mito_quantile.xls    ├── nCount_quantile.xls    ├── nFeature_quantile.xls    ├── resolution.xls    ├── top10_heatmap.png    ├── tsne.png    ├── tsne_umi.png    ├── tsne_umi.xls    ├── umap.png    └── VlnPlot.png
Step4的一些初步聚类结果,辅助我们判断demo数据质量

接下来就是通过html报告看一下整体demo数据的整体质控情况了

当然最终技术怎么样,我们还是要以实际为准,可能我的ffpe样本相对质量还好一点,也是达到了官网示例的demo水准,也说明寻因ffpe单核测序的实际效果还是相当稳定的。

如果大家对这个分析有疑惑的话,欢迎大家多交流:sx_qtx01(微)

生信钱同学
北京大学在读博士生,记录自己的学习日常🌞分享生信知识:如单细胞和空间测序、多组学分析、宏基因组、病理组学、影像组学等生物信息学、机器学习和深度学习内容🌬
 最新文章