关于单细胞转录组分析的STAR的小技巧

文摘   2024-07-24 08:07   广东  

由于课题涉及到一些单细胞数据的处理,因此前面曾讨论过STAR软件处理scRNA-seq数据的一些参数(普通和单细胞转录组比对利器-STAR),最近又看了看STAR的文档,整理了下一些小技巧。

STAR用法:

/path/to/STAR --genomeDir /path/to/genome/dir/ \
--readFilesIn ... \
--soloType ... \
--soloCBwhitelist ...

和CellRanger 4保持一致,需要加入的参数

## 和CellRanger 4.0保持一致, 去除cDNA(R2)序列中5'TSO和3'polyA-tail。使用下列参数:
--clipAdapterType CellRanger4 \
--outFilterScoreMin 30 \
--soloCBmatchWLtype 1MM_multi_Nbase_pseudocounts \
--soloUMIfiltering MultiGeneUMI_CR \
--soloUMIdedup 1MM_CR

其他重要参数的设置:

Barcode类型:

## The STAR solo algorithm is turned on with: since 2.7.3a
--soloType CB_UMI_Simple

STAR index

## Index和基因注释文件gtf都可以从10x直接下载或调用:
https://support.10xgenomics.com/single-cell-gene-expression/software/downloads/latest
## FASTA and GTF文件:
refdata-gex-GRCh38-2020-A/genes/genes.gtf
refdata-gex-GRCh38-2020-A/fasta/genome.fa

## 自己生成Index:
STAR --runMode genomeGenerate \
--runThreadN ... \
--genomeDir ... \
--genomeFastaFiles /path/to/genome.fa  \
--sjdbGTFfile /path/to/genes.gtf

Barcode白名单:

## 指定CellBarcode whitelist
--soloCBwhitelist /path/to/cell/barcode/whitelist

## 10x whitelist文件可以从CellRanger软件内找到或直接下载GitHub/10XGenomics(https://github.com/10XGenomics/cellranger/tree/master/lib/python/cellranger/barcodes).
要确保10X chemistry: whitelist版本是V2还是V3.
例如,对于CellRanger 3.1.0, V2 whitelist在:
cellranger-cs/3.1.0/lib/python/cellranger/barcodes/737K-august-2016.txt
https://github.com/10XGenomics/cellranger/raw/master/lib/python/cellranger/barcodes/737K-august-2016.txt

Barcode长度参数:

## 默认的barcode参数 (CB=16b, UMI=10b) 适用于10X V2. 
V3的话:
--soloUMIlen 12

输入2个或多个fastq文件:

## Input fastq文件: 第一个必须为cDNA reads, 第二个是barcode (cell+UMI) reads;
例如:
--readFilesIn cDNAfragmentSequence.fastq.gz CellBarcodeUMIsequence.fastq.gz
因此,对于标准的10xrun:--readFilesIn Read2.fastq.gz Read1.fastq.gz## 对于多个lanes的fastq文件,read1和read2用空格分开
--readFilesIn Read2_Lane1.fastq.gz,Read2_Lane2.fastq.gz  Read1_Lane1.fastq.gz,Read1_Lane2.fastq.gz


往期文章:

单细胞测序:从Drop-Seq到10xGenomics

单细胞测序-Cell Ranger-01)

你真的搞懂了单细胞转录组吗?


科研这点事儿
科普分子生物学知识,关注前沿生物技术,聚焦表观遗传学。