空间转录组技术是一种新兴的研究方法,可以同时获取组织或细胞样本中基因表达的空间信息。它在多个领域的科研中都有广泛的应用,包括动物、植物、微生物和医学等方面。
在动物领域,它帮助揭示大脑神经回路与行为的关系、理解胚胎发育中细胞命运的决定过程,以及探讨肿瘤微环境中肿瘤细胞与周围细胞的相互作用及其空间分布。在植物领域,该技术能够研究植物不同部位的基因表达特征,分析植物在逆境下的空间基因表达变化,以及探索根际微生物与植物根系的相互作用。在微生物领域,空间转录组有助于揭示微生物间及其与环境的空间关系,以及生物膜中微生物群落的基因表达模式。在医学领域,空间转录组技术则促进了对疾病机制的理解、药物开发的优化以及个性化治疗方案的制定。
目前市面上使用频次较高的主要是空间条形码的ST平台,例如Visium和Stereo-seq。小伙伴们也在跃跃欲试了,今天给大家带来一篇Stereo-seq空间转录组的分析内容,希望对大家有所帮助。
测序数据下机后,会对read1和read2进行下机数据的质控。具体质控过程如下:首先,使用ST_BarcodeMap工具通过read1 中的CID序列与芯片上的barcodes序列进行比对,并提取含有效CID的read pairs;然后对含有有效CID的read pairs,将read1的CID序列转换为reads 在切片上的空间位置信息,写入read2的ID 中;最后使用Fastp对read2的Valid reads 进行过滤得到Clean reads。然后使用STAR软件将Clean reads比对到参考基因组上,并根据基因注释文件,分别统计比对到外显子区、内含子区和基因间区等区域的reads数。使用Bam2Gem软件,将比对到参考基因组唯一位置的reads(Uniquely Mapping Reads)与基因的对应关系进行统计,并根据MID校正计算得到所有基因的表达量。在时空组学技术(STOmics)中,Bin是分析数据统计的基本单元,用于标识分析单元的大小。一个Bin表示一个固定大小的区域,区域内DNB表达量累加,区域间不重合,数字表示单边DNB数量。时空芯片上每个DNB在基因表达热图上表现为一个像素点,此时的分析单元为Bin1,即一个像素点只包含一个 DNB 的数据。将相邻N×N个DNB数据合并,在基因表达热图上以一 个像素点的形式展示,此时分析单元为BinN。如Bin100表示一个分析单元包含100×100=10000个 DNB区域的数据。Bin大小的选择会根据细胞大小、基因数量进行调整。取Bin200对测序饱和度进行统计,结果见下图。基于条形码的空间转录组(ST)研究中,每个测序点都标记有唯一分子标识符(UMI),旨在捕捉RNA序列并测量相应位置的基因表达。然而,研究揭示了一种显著现象,称为“点位交换”,指的是相邻点位之间的交叉污染,这可能对ST分析带来挑战。SpotClean是一种新的概率模型,旨在解决空间转录组实验中的点位交换问题,通过去除邻近点位之间的交叉污染,提供更准确的基因表达估计,从而显著改善标记基因的识别和空间区域的检测。图2 SpotClean提高了人乳腺癌样本human_breast_2的标志物特异性
ST表达数据由于每个测序单元的测序覆盖度较低以及为了保留测序位置而需要额外的实验步骤,因此存在较高的噪声水平。Sprod软件可以通过测序的物理位置和相应切片图像中反映的组织结构信息来去除这种噪声。获得每张芯片的基因表达矩阵后,使用Seurat4软件进行矩阵统计、细胞聚类、筛选Maker基因等分析。Seurat是一个广泛使用的R包,专门用于单细胞RNA测序(scRNA-seq)和空间转录组学的数据分析。在Stereo-seq数据分析中,Seurat 4提供了全面的支持,包括导入计数矩阵和空间信息,进行质量控制和归一化处理,结合空间坐标分析基因表达模式和生物学特征,以及应用聚类方法对细胞进行分组和注释。此外,Seurat还允许进行差异表达分析以识别特征性基因,并通过可视化功能(如SpatialFeaturePlot)展示特定基因的空间分布,结合其他R包(如ggplot2)进行进一步的交互式分析。取bin50统计基因表达矩阵nCount(MID,基因表达量)和nFeature(基因数),并在样本空间位置中进行展示。图4基因表达矩阵统计(Bin50)。
通过基因的表达矩阵,首先对矩阵数据使用PCA进行降维处理,之后使用UMAP算法进行细胞聚类,并将细胞类群的每个细胞在样品组织切片的空间位置中进行展示,结果见图5。图5 细胞聚类结果(Bin50)。
通过Seurat软件分别计算每一类细胞与其他类群的差异表达基因,筛选Top10差异基因作为该类细胞的Marker基因。对得到的Marker基因,统计其在不同细胞类群中的表达情况,使用聚类热图、气泡图和小提琴图等方式进行可视化展示,每个细胞类群中Top3基因的结果分别见图6。图6 Marker基因聚类热图气泡热图小提琴图(Bin50)。对Top1的Marker基因所属的细胞类群在样品组织上的空间排布进行可视化展示。图7 Marker基因的空间排布(Bin50)。
拟时序分析(pseudotime analysis)也称为细胞轨迹分析(trajectory inference),是指根据不同细胞类群之间其基因差异表达的情况,获得细胞谱系的发育结果,构建细胞随着一个虚拟时间顺序的变化轨迹,以此重现细胞随时间变化而变化的过程。使用Monocle3软件进行拟时序分析,基于Seurat对象提取的矩阵进一步降维聚类,并判断降维后的聚类结果之间的表达量关联以确定是否属于同一发育轨迹。根据软件推测的发育轨迹进行细胞类群的可视化。根据细胞发育轨迹结果中的节点信息,结合不同细胞类群中基因表达量的变化,Monocle3可以通过机器学习算法计算处于最早发育阶段的细胞,实现拟时序分析。在不同的细胞类群聚类结果中,选取Monocle3计算得到的Top5 Marker基因,按照已获得的拟时序结果进行基因表达量的拟时序作图。图8 细胞发育轨迹图、拟时序分析结果和Marker基因动态表达结果图。图中黑色线条表示推测的细胞发育轨迹,颜色从紫色到黄色,颜色越接近黄色表示细胞发育时间越晚。
通过聚类分析得到不同细胞类群后,除了使用每个cluster的Marker基因信息对细胞类群进行初步的注释和分析之外,还可通过其他软件将细胞类群与参考数据库进行比较,以得到分群后不同细胞的细胞类群注释信息。SingleR可以将细胞聚类结果中的每个cluster与参考数据库进行比较,根据该cluster与参考数据库中已知细胞类群基因表达谱的相似性对cluster进行打分,最终得到一个打分矩阵。通过打分矩阵结果即可将细胞聚类结果注释为不同的细胞类群。图9 SingleR细胞类群注释打分热图和细胞类群注释结果图。
CellChat是一个能够从单细胞数据中定量推断和分析细胞间通信网络的工具,利用网络分析和模式识别方法预测细胞的主要信号输入和输出,以及这些细胞和信号如何协调功能。CellChatDB数据库整合了来自KEGG和最近研究中的信号分析信息,该数据库囊括了已知的配体-受体复合物组成,包括配体-受体多聚体复合物以及几类辅酶因子。使用CellChat来鉴定时空数据中的配体/受体关系和细胞间的通讯分子,研究不同细胞类型之间的相互交流及通讯网络。图10所有细胞类群间的细胞通讯网络图和每个细胞类群与其他类群间的细胞通讯网络图在每一种细胞类群的所有Marker基因中筛选显著的差异表达基因(P-value < 0.05 && Log2FC > 0.5),使用clusterProfiler 软件分别对每一个细胞类群的差异基因进行GO(Gene Ontology)和KEGG(Kyoto Encyclopedia of Genes and Genomes)功能富集分析。图11 富集分析气泡图
StereoMap可视化系统(https://stereomap.cngb.org/)是华大时空组学Stereomics®技术配套的生物信息可视化系统。本系统主要用于可视化空间组学的结果,并通过多种工具算法对时空组学数据进行深入探索和挖掘。武汉爱基百客生物科技有限公司(简称爱基百客),位于武汉高农生物园,是一家专业提供表观组学科研服务、单细胞与空间组学测序分析和高通量测序分析的新型生物科技服务企业。公司先后引入ChIP、WGBS、ATAC-seq、DNBSEQ-T7、10x Genomics、SeekOne® DD、DNBelabC-TaiM4和Stereo-seq等实验平台,不断提升公司的科研服务能力。
运营至今合作的科研客户超2000家,涵盖国内知名科研院所、高校以及相关生物企业,科研成果曾多次在Science、Cancer Cell、Nature Communications、J HEMATOL ONCOL、Plant Cell 等国际高水平学术期刊发表,受到了客户广泛好评,是国内成长最迅速的高通量测序科研服务企业之一。