不要怕国产技术测序数据不会分析,恰恰相反,相当容易,而且速度快。
最近,出于课题的需要,课题组进行了一批寻因生物的FFPE样本单核测序,这是第一次接触国产单细胞测序公司。这个过程和寻因的销售们反复交流了解,逐渐对这家低调但实力出众的国产生物公司有了更多了解。从目前我本人目前测序得到的数据来看,寻因的FFPE样本测序数据整体表现非常稳定,基本符合他们官网的宣传。这对于FFPE样本的研究尤其重要,因为这些样本通常由于固定过程的影响,RNA质量较差。寻因的技术能够克服这一难题,获得较高质量的转录本数据,为后续的单细胞分析提供了可靠基础。
与10X公司的Flex技术(基于探针法)不同,寻因在FFPE样本中采用了随机引物的方法,这意味着有机会捕获相对完整的转录本。因此,除了常规的转录本定量分析,我们还能通过这些测序数据获取体细胞变异信息。对于从事生物信息学的研究人员来说,这是一个不小的优势,做到在单细胞水平通过SNP解析肿瘤细胞的异质性和克隆演变。
除了FFPE单核测序方案,寻因还推出了单细胞3'转录组试剂盒、单细胞全长转录组试剂盒以及单细胞免疫分析试剂盒。在目前最热门的空间转录组领域(核定位技术,之前专门介绍过),寻因生物也有其独特的解决方案。当前流行的空间转录组技术依赖于spatial barcode对透化后捕获的转录本进行反转录并标记位置,而寻因采用可断裂的定位探针标记细胞核,真正实现了物理意义上的单细胞级别空间转录组分析。
这套代码让你一口气跑到底,产生你想要的所有空间组学结果,代码和示例数据分享(之前专门介绍过他们的空间分析代码)
昨天的Nature基本上把空转所有的共性问题都提出了——并提供了解决办法
作为一家成立仅6年的公司,寻因生物能够从无到有积累如此多的技术,实属难能可贵。相比之下,他们的产品和技术却显得过于低调,很多优秀的成果还未得到足够的宣传。尤其是在单细胞领域,如今越来越多的体细胞变异检测算法被开发,这些全长转录本的单细胞测序技术无疑是极其重要的资源。
好了,言归正传,各位同学现在对寻因生物也有了点基础了解,今天这篇推送主要和大家分享下寻因生物单FFPE样本的转录本定量。FFPE样本单核测序技术是很优秀,但是还是得自己上手分析一下,毕竟实践才是检验真理的唯一标准。
Step1:下载SeekSoulTools
#wget下载
mkdir seeksoultools.1.2.2
cd seeksoultools.1.2.2
wget -c -O seeksoultools.1.2.2.tar.gz "https://seekgene-public.oss-cn-beijing.aliyuncs.com/software/seeksoultools/seeksoultools.1.2.2.tar.gz"
#curl下载
mkdir seeksoultools.1.2.2
cd seeksoultools.1.2.2
curl -C - -o seeksoultools.1.2.2.tar.gz "https://seekgene-public.oss-cn-beijing.aliyuncs.com/software/seeksoultools/seeksoultools.1.2.2.tar.gz"
#部署到环境变量
# 解压
tar zxf seeksoultools_1.2.2.tar.gz
# 设置环境变量
export PATH=`pwd`:$PATH
echo "export PATH=$(pwd):\$PATH" >> ~/.bashrc
source ~/.bashrc
# 初始化和安装验证,初次执行所需时间稍长
./seeksoultools --version
1.2.2
Step2:部署数据库
#注意seeksoultools的STAR版本是2.7.10a,CellRanger内置STAR版本是2.7.6a,数据库好像是不太通用的,我自己试了结果就是报错。
#seeksoultools的STAR参考是需要两个版本。rRNA编号的是用于核糖体转录本定量的,这点和10x略微有点区别的。
wget -c -O GRCh38.tar.gz "https://seekgene-public.oss-cn-beijing.aliyuncs.com/software/data/reference/GRCh38.tar.gz"
# decompress
tar -zxvf GRCh38.tar.gz
wget -c -O hg38_rRNA.tar.gz "https://seekgene-public.oss-cn-beijing.aliyuncs.com/software/data/reference/hg38_rRNA.tar.gz"
tar -zxvf hg38_rRNA.tar.gz
wget -c -O mm10.tar.gz "https://seekgene-public.oss-cn-beijing.aliyuncs.com/software/data/reference/mm10_ensemble_102.tar.gz"
tar -zxvf mm10.tar.gz
wget -c -O mouse_rRNA.tar.gz "http://seekgene-public.oss-cn-beijing.aliyuncs.com/software/data/reference/mm10_rRNA.tar.gz"
tar -zxvf mouse_rRNA.tar.gz
Step3:数据定量
#主要命令
seeksoultools --help
Usage: seeksoultools_py [OPTIONS] COMMAND [ARGS]...
Options:
--version Show the version and exit.
--debug debug flag.
-h, --help Show this message and exit.
Commands:
fast quantifies singlecell gene expression #专门针对SeekOneDD单细胞全序列试剂盒和FFPE样本单细胞试剂盒数据进行单细胞定量。
rna quantifies singlecell gene expression #用于识别细胞barcode,得到分析用的表达矩阵,除了公司试剂盒以外,还支持自定义序列分析。
utils utils. #一些功能工具,比如给bam文件添加CB标签用于RNA速率分析
vdj assembl and annotate vdj sequence. #用于寻因公司单细胞免疫试剂盒数据分析
#FFPE样本定量采用fast命令进行操作,这里给出我自己用的示例命令
seeksoultools fast run \
--fq1 $fq1 \ #指定R1文件
--fq2 $fq2 \ #指定R2文件
--samplename $sample \ #输入sample名字
--genomeDir $stardb \ #指定数据库
--gtf $gtf \ #指定gtf文件
--rRNAgenomeDir $rnadb \ #指定rRNA数据库路径
--rRNAgtf $rnagtf \ #指定rRNA数据库的gtf文件
--scoremin 0.2 --matchnmin 0.33 \ #官方建议的ffpe参数
--chemistry DD-Q --include-introns \ #指定试剂盒
--core 30 --outdir result/
#最后结果文件包含bam、html报告、用于seurat分析的matrix文件等等,分析和数据读取参考10X标准流程即可。
Step0:数据库搭建
#seeksoultools的数据库有两个文件,带rRNA的用于核糖体转录本定量,构建的时候直接用原始的gtf文件和fasta就可以
#参考命令如下,只要指定好对应的文件就可以,流程也很简单。
#gtf内部过滤参考10x的流程就可以,很详细。
seeksoultools.1.2.0/bin/STAR \
--runMode genomeGenerate \
--runThreadN 16 \
--genomeDir /path/to/star \
--genomeFastaFiles /path/to/genome.fa \
--sjdbGTFfile /path/to/genome.gtf \
--sjdbOverhang 149 \
--limitGenomeGenerateRAM 17179869184
现在我们下载demo数据实战一下
wget -c -O demo https://seekonetools-release.oss-cn-beijing.aliyuncs.com/demo_data/link/FFPE_Lung/ffpedemo.tar.gz
tar -xzvf demo/ffpedemo.tar.gz
#使用seeksoultools和上述准备好的数据库进行定量
seeksoultools fast run \
--fq1 ffpedemo1_R1.fastq.gz \
--fq2 ffpedemo1_R2.fastq.gz \
--samplename demo \
--genomeDir $GRCh38/star/ \
--gtf $GRCH38/genes/genes.gtf \
--rRNAgenomeDir $hg38_rRNA/star/ \
--rRNAgtf $hg38_rRNA/genes/delete_rRNA5.8-18-28_in_rRNA45s.gtf \
--scoremin 0.2 --matchnmin 0.33 \
--chemistry DD-Q --include-introns \
--core 20 --outdir result/
#输出如下:
#2024-10-15 22:38:20.379 | INFO | seeksoultools.utils.wrappers:cmd_execute:39 - zcat "data/demo/ffpedemo1_R1.fastq.gz"|head -n 400000|gzip > demo/result/demo/.test/data/ffpedemo1_R1.fastq.gz
#2024-10-15 22:38:30.210 | INFO | seeksoultools.utils.wrappers:cmd_execute:39 - zcat "data/demo/ffpedemo1_R2.fastq.gz"|head -n 400000|gzip > demo/result/demo/.test/data/ffpedemo1_R2.fastq.gz
#2024-10-15 22:38:38.580 | INFO | seeksoultools.utils.barcode:chemistry_auto:133 - test DD-Q!
#2024-10-15 22:38:38.581 | INFO | seeksoultools.utils.barcode:barcode_main:406 - extract barcode start!
#2024-10-15 22:38:42.809 | INFO | seeksoultools.utils.barcode:barcode_main:417 - barcode one base mismatch allowed.
#2024-10-15 22:38:42.810 | INFO | seeksoultools.utils.barcode:barcode_main:428 - rescue barcode match multi barcode in whitelist.
#2024-10-15 22:40:01.528 | INFO | seeksoultools.utils.barcode:barcode_main:472 - deal multi start!
#2024-10-15 22:40:01.771 | INFO | seeksoultools.utils.barcode:barcode_main:524 - deal multi done!
#2024-10-15 22:40:01.803 | INFO | seeksoultools.utils.barcode:barcode_main:528 - extract barcode done!
#2024-10-15 22:40:02.286 | INFO | seeksoultools.utils.barcode:chemistry_auto:138 - valid barcode rate of DD-Q: 98.724%
#运行大概24h结束
最终文件输出内容:
demo
├── demo_report.html
├── demo_summary.csv
├── demo_summary.json
├── step1 #数据预处理
│ ├── demo_1.fq.gz
│ ├── demo_2.fq.gz
│ ├── demo_multi_1.fq.gz
│ ├── demo_multi_2.fq.gz
│ └── demo_multi.json
├── step2 #STAR比对结果
│ ├── featureCounts
│ │ ├── counts.txt
│ │ ├── counts.txt.summary
│ │ └── demo_SortedByName.bam
│ └── STAR
│ ├── demo_Log.final.out
│ ├── demo_Log.out
│ ├── demo_Log.progress.out
│ ├── demo_SJ.out.tab
│ ├── demo_SortedByCoordinate.bam #添加BC标签后用于下游RNA速率分析
│ ├── demo_SortedByCoordinate.bam.bai
│ ├── demo_SortedByName.bam
│ ├── downbam
│ │ ├── demo.bed
│ │ ├── demo.down.0.1.bam
│ │ ├── demo.down.0.1.bam.bai
│ │ ├── demo.geneBodyCoverage.curves.pdf
│ │ ├── demo.geneBodyCoverage.r
│ │ ├── demo.geneBodyCoverage.txt
│ │ ├── demo.reduction.bed
│ │ └── log.txt
│ ├── report.pdf
│ ├── rnaseq_qc_results.txt
│ └── rRNA
│ ├── counts.txt
│ ├── counts.txt.summary
│ ├── demo_Aligned.out.bam
│ ├── demo_Aligned.out.bam.featureCounts.bam
│ ├── demo_Log.final.out
│ ├── demo_Log.out
│ ├── demo_Log.progress.out
│ ├── demo_SJ.out.tab
│ └── demo.xls
├── step3 #定量结果
│ ├── counts.xls
│ ├── detail.xls
│ ├── filtered_feature_bc_matrix #过滤后的输出矩阵
│ │ ├── barcodes.tsv.gz
│ │ ├── features.tsv.gz
│ │ └── matrix.mtx.gz
│ ├── raw_feature_bc_matrix #原始输出矩阵
│ │ ├── barcodes.tsv.gz
│ │ ├── features.tsv.gz
│ │ └── matrix.mtx.gz
│ └── umi.xls
└── step4 #一些初步聚类的结果
├── biotype_FindAllMarkers.xls
├── demo.rds
├── FeatureScatter.png
├── FindAllMarkers.xls
├── lncgene_FindAllMarkers.xls
├── mito_quantile.xls
├── nCount_quantile.xls
├── nFeature_quantile.xls
├── resolution.xls
├── top10_heatmap.png
├── tsne.png
├── tsne_umi.png
├── tsne_umi.xls
├── umap.png
└── VlnPlot.png
接下来就是通过html报告看一下整体demo数据的整体质控情况了
当然最终技术怎么样,我们还是要以实际为准,可能我的ffpe样本相对质量还好一点,也是达到了官网示例的demo水准,也说明寻因ffpe单核测序的实际效果还是相当稳定的。
如果大家对这个分析有疑惑的话,欢迎大家多交流:sx_qtx01(微)