由于课题涉及到一些单细胞数据的处理,因此前面曾讨论过STAR软件处理scRNA-seq数据的一些参数(普通和单细胞转录组比对利器-STAR),最近又看了看STAR的文档,整理了下一些小技巧。
STAR用法:
/path/to/STAR --genomeDir /path/to/genome/dir/ \
--readFilesIn ... \
--soloType ... \
--soloCBwhitelist ...
和CellRanger 4保持一致,需要加入的参数:
## 和CellRanger 4.0保持一致, 去除cDNA(R2)序列中5'TSO和3'polyA-tail。使用下列参数:
--clipAdapterType CellRanger4 \
--outFilterScoreMin 30 \
--soloCBmatchWLtype 1MM_multi_Nbase_pseudocounts \
--soloUMIfiltering MultiGeneUMI_CR \
--soloUMIdedup 1MM_CR
其他重要参数的设置:
Barcode类型:
## The STAR solo algorithm is turned on with: since 2.7.3a
--soloType CB_UMI_Simple
STAR index:
## Index和基因注释文件gtf都可以从10x直接下载或调用:
https://support.10xgenomics.com/single-cell-gene-expression/software/downloads/latest
## FASTA and GTF文件:
refdata-gex-GRCh38-2020-A/genes/genes.gtf
refdata-gex-GRCh38-2020-A/fasta/genome.fa
## 自己生成Index:
STAR --runMode genomeGenerate \
--runThreadN ... \
--genomeDir ... \
--genomeFastaFiles /path/to/genome.fa \
--sjdbGTFfile /path/to/genes.gtf
Barcode白名单:
## 指定CellBarcode whitelist
--soloCBwhitelist /path/to/cell/barcode/whitelist
## 10x whitelist文件可以从CellRanger软件内找到或直接下载GitHub/10XGenomics(https://github.com/10XGenomics/cellranger/tree/master/lib/python/cellranger/barcodes).
要确保10X chemistry: whitelist版本是V2还是V3.
例如,对于CellRanger 3.1.0, V2 whitelist在:
cellranger-cs/3.1.0/lib/python/cellranger/barcodes/737K-august-2016.txt
https://github.com/10XGenomics/cellranger/raw/master/lib/python/cellranger/barcodes/737K-august-2016.txt
Barcode长度参数:
## 默认的barcode参数 (CB=16b, UMI=10b) 适用于10X V2.
V3的话:
--soloUMIlen 12
输入2个或多个fastq文件:
## Input fastq文件: 第一个必须为cDNA reads, 第二个是barcode (cell+UMI) reads;
例如:
--readFilesIn cDNAfragmentSequence.fastq.gz CellBarcodeUMIsequence.fastq.gz
因此,对于标准的10xrun:--readFilesIn Read2.fastq.gz Read1.fastq.gz## 对于多个lanes的fastq文件,read1和read2用空格分开
--readFilesIn Read2_Lane1.fastq.gz,Read2_Lane2.fastq.gz Read1_Lane1.fastq.gz,Read1_Lane2.fastq.gz
往期文章: