科研好帮手:空间转录组质控报告自动化工具解析

文摘   2024-08-23 18:00   上海  

写在前面


    在当今的生命科学研究中,空间转录组学作为一种前沿技术,能够在空间维度上揭示基因表达的复杂图谱,已经成为揭示生物体内细胞异质性的重要手段。随着空间转录组技术的飞速发展,我们能够在亚细胞分辨率和大视野下研究基因的空间表达分布。然而,尽管新技术为科研带来了巨大的潜力,但同时也伴随着重大挑战,尤其是在测序深度和大样本测序质量方面的不均匀性。因此,对数据进行系统的质量评估和过滤,成为了确保空间转录组数据可靠分析的第一步。

    为了解决空间转录组数据分析流程中缺乏一站式质控工具的问题,东南大学的研究团队开发了SpatialQC。这款自动化质控工具不仅填补了这一空白,还显著提升了数据质量并简化了分析流程。SpatialQC从切片、细胞和基因三个维度对空间转录组数据进行全面的自动化质控。它能够直接生成用于下游分析的过滤数据,并提供交互式质控报告,便于用户探索和检查数据质量。无论是基于高通量测序的空间转录组数据如Visium和Stereo-seq,还是基于成像的空间转录组数据如MERFISH和Xenium,SpatialQC的设计都能广泛适用。

    今天小编就带大家一起看看SpatialQC这款自动化质控工具是如何完成一站式质控的吧!我们将详细介绍SpatialQC的操作步骤,对生成的报告内容进行全面解读。Let’s go!



01

SpatialQC安装

    SpatialQC比较简单,只需运行以下代码即可:

pip install SpatialQC

    安装成功后,运行SpatialQC -h,得到SpatialQC的帮助信息:

[root@localhost ~]# SpatialQC -husage: SpatialQC [-h] [--adata] [--markers] [--species] [--tissue_class] [--tissue_type]                 [--cancer_type] [--slice_number] [--slice] [--mito] [--doublet]                 [--mito_percent] [--ribo] [--hemo] [--bin_value]                 [--min_genes_list  [...]] [--min_genes_list2  [...]]                 [--min_cells_list  [...]] [--f] [--s] [--min_genes] [--n] [--min_cells]                 [--l] [--s1 ] [--s2  ] [--s3    ] [--s4      ] [--s5      ] [--s6      ]                 [--s7 ] [--s8    ] [--output] [--o1] [--o2] [--j]


02

SpatialQC使用

    在使用SpatialQC之前,我们需要准备输入文件:.h5ad file。以10X空间转录组的数据为例:
.└── Sample_1    ├── filtered_feature_bc_matrix.h5    └── spatial        ├── aligned_fiducials.jpg        ├── aligned_tissue_image.jpg        ├── cytassist_image.tiff        ├── detected_tissue_image.jpg        ├── scalefactors_json.json        ├── spatial_enrichment.csv        ├── tissue_hires_image.png        ├── tissue_lowres_image.png        ├── tissue_positions.csv        └── tissue_positions_list.csv2 directories, 11 files
    运行python:
import scanpy as sc#单样本s1=sc.read_visium(path="./Sample_1/",count_file='filtered_feature_bc_matrix.h5',library_id="Sample_1",load_images=True,source_image_path="./Sample_1/spatial/")s1.obs['slice'] = "Sample_1" # slice在SpatialQC运行参数中会用到s1.write_h5ad('Sample_1.h5ad')#也可一次性导入多个样本samples = ['Sample_1', 'Sample_2', 'Sample_3']adata_list = []for i, sample in enumerate(samples, start=1):    cdata = sc.read_visium(path=sample,count_file='filtered_feature_bc_matrix.h5',library_id=sample,load_images=True,source_image_path=f"{sample}/spatial/")    cdata.obs['slice'] = f's{i}'    cdata.var_names_make_unique()    adata_list.append(cdata)adata = sc.concat(adata_list, join='outer')adata.var_names_make_unique()adata.obs = adata.obs[['slice']]adata.write('ST.h5ad')
    除此之外,SpatialQC还要求提供marker genes.csv file。如果没有 .csv file,则需要提供样本的物种(--species)、组织分类(--tissue_class)、组织类型(--tissue_type)。组织分类和组织类型与CellMarker上的分类标准一致。
    准备好后,即可运行SpatialQC:
SpatialQC --adata ST.h5ad --markers gene.csv --doublet False --slice slice --mito 'MT-' --ribo 'RPS, RPL' --hemo 'HBB, HBA'

图1. SpatialQC工作流程


03

SpatialQC解读

    SpatialQC会生成一个名为“report.html”的自动化报告,和过滤后的“filtered.h5ad”。
    SpatialQC通过3个步骤执行数据过滤:切片、细胞和基因级过滤。
    步骤1:切片级过滤(Slice-level)。对于空间转录组学数据,特别是3D数据,样本被单独切片和测序,导致不同切片的数据质量差异较大。如果在切片评分模块中,某块切片的中位数分数小于5(阈值可调),SpatialQC则视该切片为无效切片并删除。
    步骤2:细胞级过滤(Cell-level)。SpatialQC使用参数min_genes过滤细胞。此外,SpatialQC会移除被鉴定为双胞(不建议空转数据使用双胞过滤)和线粒体比率超过10%的细胞(阈值可调)。
    步骤3:基因级过滤(Gene-level)。SpatialQC选择在超过最小数量的细胞(min_cells)中检测到的基因。对于预定义的marker基因集,建议选择min_cells的值,以便保留>99%(阈值可调)的marker基因。
    以下是过滤参数设置,此处我们使用了默认值:
Filter related parameters:  --mito_percent        Filter cells with mitochondrial proportion higher than mito_percent.                        default: 0.1  --f                   Whether to filter adata.                        default: True  --s                   Sections with a median score less than s will be removed.                        default: 5  --min_genes           Provide your min_genes, otherwise determined by --n.                        default: None  --n                   Determine the value of min_genes to ensure that the valid cell ratio is greater than n.                        default: 0.7  --min_cells           Provide your min_cells, otherwise determined by --l.                        default: None  --l                   After filtering cells, determine the value of min_cells to ensure that the proportion of marker genes is greater than l among the remaining detected markers.                        default: 0.99
    下图是SpatialQC生成的自动化质控报告。在这个界面中,用户可以看到与空间转录组数据质量相关的基本统计信息。报告列出了切片数量、细胞数量、基因数量、每个细胞的基因和UMI的中位数与平均值等关键指标。此外,还包括线粒体、核糖体和血红蛋白等计数、检测到的marker数量及其检测比率等信息。用户可以通过这些指标来全面了解数据的质量,并进行深入的分析。

图2. report.html自动化质控报告界面
    首先,SpatialQC对每个slice进行了评分,对每个合格的切片,SpatialQC在空间spots坐标上绘制了不同指标的分布情况。
图3. Slice评分
图4. 空间特征分布

    随后,SpatialQC绘制了n_counts、n_genes、Log10GenesPerUMI、线粒体、核糖体、血红蛋白、marker基因的密度图、箱线图和条形图,展示了各个指标的分布情况。

图5. n_counts密度图和箱线图
    最后,SpatialQC评估了不同min_genes下,有效细胞、marker基因的占比情况。

图6. Cell数目随min_genes增加而减少

总结

    综上所述,SpatialQC是一款用户友好的工具,能够快速评估空间转录组数据的质量,并生成过滤后的数据。它通过一键式操作,自动生成详细的质控报告,并以交互式HTML格式呈现。报告不仅汇总了关键的统计数据,还提供了每个切片的详细信息和图表,方便研究人员深入探索数据的质量。此外,SpatialQC的报告功能还能帮助研究人员在进行进一步测序和数据分析前,识别潜在的问题,从而确保后续研究的可靠性和准确性。这款工具无疑在简化质控流程、提升数据处理效率方面起到了重要作用。

    如果你正在分析空间转录组学,或者对数据质控有需求,不妨试试看SpatialQC这款强大的工具。它将为你的研究提供更高效、更准确的质控解决方案,帮助你轻松应对数据分析中的各种挑战。欢迎大家点点手指,关注我们的公众号,获取更多科研工具的推荐和使用指南。大家如果还有什么想要了解的生信小知识,可以在下方留言互动哦,我们将持续为大家分享更多实用的科研干货,助力你的科研之路!


关于我们

纽科生物提供专业的生物信息学数据分析和高通量测序服务。目前,公司已经和四川大学、复旦大学、上海交通大学、中山医院、华中科技大学等多所医院、高校的研究团队建立了长期良好的合作关系,提供高品质的数据分析和测序服务,帮助客户在European Heart Journal、Circulation Research、Nature Communications等多个著名杂志期刊上发表高水平科研文章,欢迎各位老师前来咨询。

纽科生物
提供优质的高通量测序和生物信息学个性化数据分析服务,http://www.RNAstar.com
 最新文章