空间转录组细胞注释软件之Cell2location |生信开发实战

企业   2024-11-29 16:20   浙江  

 

 

 

什么是Cell2location?


  

Cell2location是一个基于贝叶斯统计模型的Python包,旨在利用空间转录组数据和单细胞转录组数据来进行细胞类型的空间解构

它通过将单细胞转录组数据中的细胞类型信息投射到空间转录组数据中,估算不同细胞类型在空间位置中的丰度分布,从而帮助研究人员理解在组织切片中的不同位置上,哪种细胞类型占据主导地位。

Cell2location的主要特点包括:

1.细胞类型空间解构:通过整合单细胞RNA-seq数据(提供细胞类型的转录特征)和空间转录组学数据,预测每个空间位置中细胞类型的组成和丰度。

2.贝叶斯模型:基于贝叶斯框架来推断空间位置中每种细胞类型的相对丰度,能够处理数据中的不确定性并生成可信区间,使得推断的结果更加可靠。

3.结合单细胞和空间数据:允许用户结合单细胞RNA-seq数据与空间转录组数据,使得在细胞分辨率不高的空间数据中可以更好地推断出各类细胞的分布模式。

4.高分辨率推断:能够在较高的分辨率上推断出不同细胞类型在组织中的分布情况,尤其适用于像Visium空间转录组这类数据。 

 

 

Cell2location的安装


  

Cell2location的安装可以通过conda环境进行,首先创建一个新的虚拟环境并激活,然后使用pip安装cell2location包。在安装过程中,可能需要解决一些依赖包的安装问题,例如h5py包的安装,以及可能需要修改某些包的版本要求。在某些情况下,可能需要离线下载第三方库并手动安装。

         

Cell2location的应用场景  



Cell2location的应用场景包括细胞类型定位、肿瘤微环境分析、器官发育和疾病研究等。通过绘制细胞类型的空间分布,Cell2location为生命科学研究提供了新的视角,有助于揭示疾病机制、药物靶点发现、发育生物学和再生医学等领域的关键信息。    

 

 

Cell2location的工作流程  



Cell2location 通过将空间数据分解为细胞类型的参考表达特征来估计细胞丰度。其工作流程是:

1.使用负二项回归从scRNA-seq或sn-RNA表达谱中估计参考细胞类型特征(estimate reference cell type signatures)cell2location.models.RegressionModel()函数    

2.使用该参考细胞类型特征和一至多个空间转录组数据集作为输入数据,在每个空间位置上将空转数据的mRNA的count分解为各细胞类型的贡献  cell2location.models.Cell2location()函数

3.下游分析和可视化:可以基于生成的Spot-细胞丰度矩阵来进行聚类,依据细胞组成对空转数据进行区域划分;可以进行非负矩阵分解(NMF)对细胞类型的空间共现进行研究。

         

 

    

原理说明


   

过滤低表达基因 


意义:有助于提高计算效率、降低维度、去除噪声、避免过度拟合、突出生物学意义以及便于数据可视化,从而获得更准确、更可靠的分析结果。         

 

过滤示意图:基于细胞数和基因表达量      

 

         

 

图片解读:

1.基因表达细胞数(对数):Y轴通常表示每个基因被多少细胞表达的数量,采用对数缩放。基因在更多的细胞中有表达,其位置越往上;反之,基因只在很少的细胞中有表达,其位置越往下。

2.颜色表示基因的密度分布:颜色从黄色到深紫色,表示在该区域的基因数量密度。黄色表示有较多的基因集中在这个区间,紫色表示基因数量较少。在图的左下方区域,可以看到有一个更加密集的分布,这通常代表低表达和少数细胞中表达的基因。

3.数据过滤后的信息:图标题可能会显示过滤后的数据信息,如“Gene filter: 73260 cells x 10237 genes”,这表明经过基因过滤后,保留了73260个细胞和10237个基因。基因过滤通常基于基因的表达量和基因在多少个细胞中有表达的标准,以移除在大多数细胞中几乎没有表达的基因或表达量非常低的基因,因为这些基因可能对后续分析贡献较少或者是噪声。    

         

 

进行负二项回归  


接下来训练模型来估计参考细胞类型特征

 

ELBO  


Cell2location中的ELBO(Evidence Lower BOund)是评估变分推断模型的一个关键指标。在Cell2location的训练过程中,ELBO损失函数的优化是模型学习数据分布的重要步骤。ELBO损失值越小,表示模型的拟合效果越好,即模型能够更准确地从给定的单细胞和空间转录组数据中推断出细胞类型的空间分布。

在Cell2location的训练过程中,可以通过绘制ELBO损失随训练轮数(epochs)的变化曲线来监控模型的训练进度和效果。通常,在训练初期,ELBO损失会迅速下降,随着训练的深入,损失值会逐渐趋于稳定,这表明模型已经收敛到一个较好的解。如果在训练过程中发现ELBO损失没有明显下降或者出现波动,可能需要调整模型的参数或者增加训练轮数以改善模型的性能。

在实际应用中,Cell2location通过优化ELBO损失函数,能够有效地从空间转录组学数据中解析出细粒度的细胞类型,并创建出高分辨率的细胞地图,为生命科学研究提供了新的视角和方法。

ELBO损失图是训练过程中ELBO值随迭代次数变化的可视化图表,可以帮助我们理解模型训练的进展。ELBO是优化的目标函数,其值越高,表示近似后验分布越接近真实后验分布。通过观察ELBO损失图,可以判断模型是否收敛。如果ELBO值随着训练迭代逐渐稳定,这通常意味着模型正在收敛。ELBO损失图还可以帮助我们调整模型的超参数,如学习率、批大小等,以改善模型性能。         

 

             

 

重建精度(Reconstruction Accuracy)  


重建精度(Reconstruction Accuracy)通常指的是模型根据其学习到的参数重建原始数据的能力。在重建精度图中,通常有两个主要的轴:

  • X轴:表示模型预测的值,即模型根据其参数重构的数据。

  • Y轴:表示实际观测到的数据值。

理想情况下,如果模型完美地重构了数据,所有的点都会精确地落在对角线上,表明预测值和实际值完全一致。任何显著偏离对角线的情况都表明模型在某些方面存在问题。    

 

在实际应用中,如果发现重建精度的结果不合格,可能需要调整模型的训练参数,如增加训练轮数或调整batch_size,以提高模型的拟合效果。此外,还可以通过可视化训练过程中的ELBO(Evidence Lower BOund)损失来监控模型的训练过程,ELBO损失越小,表示模型的拟合效果越好。       

 

    

         

         

 

 

 

参考表达特征图(Reference Expression Plot) 

  

Reference Expression Plot是一种用于展示基因表达情况的图表,它可以帮助用户直观地理解不同细胞类型中基因的表达模式。

在参考表达特征图中,通常有两个主要的轴:

  • X轴:表示参考细胞类型或状态的平均表达水平。

  • Y轴:表示样本或细胞的估计表达水平,这些估计值已经根据批次效应进行了校正。

理想情况下,如果参考表达特征图与对角线接近一致,这表明校正批次效应后,样本的估计表达特征与参考表达特征非常接近。如果图表与对角线有较大偏差,则可能表明存在未校正的批次效应或其他问题。 

 

细胞丰度估计  


使用参考信号和一个或多个空间转录组数据集作为输入,将各个空间位置的mRNA计数分解为参考细胞类型,从而估计不同位置单个细胞类型的细胞丰度,这对于理解组织的结构和功能至关重要。         

 

细胞丰度估计的意义:

1.理解组织结构和功能:例如,在肿瘤微环境分析中,了解免疫细胞、癌细胞及其他微环境细胞的空间分布对于理解肿瘤的发展和免疫反应至关重要。

2.疾病机制研究:通过绘制病灶区域的细胞分布,细胞丰度估计有助于揭示疾病发展过程中的关键细胞变化。这对于疾病机制的研究和治疗方法的开发具有重要意义。

3.药物靶点发现:可以帮助确定特定细胞类型的表达模式,为药物设计提供精确的目标。

4.发育生物学研究:在发育生物学领域,细胞丰度估计可以追踪胚胎或组织发育过程中细胞类型和结构的变化,有助于理解发育过程和相关疾病。

5.提高分辨率:Cell2location技术能够在较高的分辨率上推断出不同细胞类型在组织中的分布情况,尤其适用于像Visium空间转录组这类数据。这使得研究人员能够更细致地分析细胞类型的空间分布。

6.解析复杂组织:Cell2location采用分层设计来分析跨空间位置的统计强度,从而提高分辨率和灵敏度,特别是用于解析复杂组织中的细粒度细胞类型。  

 

           

 

主要步骤:加载空转数据(一个或多个)-> 使用共有的细胞类型特征基因 ->细胞类型丰度估计->模型评估(训练历史的ELBO损失图、数据与模型预期值的比较图)       

   

         

 

 

细胞丰度空间可视化


Cell2location估计参考细胞类型的绝对细胞和mRNA丰度,后验分布的5%分位数代表细胞丰度和mRNA计数的置信水平

         

 

   

         

 

   

 

下游分析示例  


使用细胞丰度对Spot进行聚类,来识别细胞组成不同的区域       

 

         

 

使用NMF识别细胞区室/组织区

        

 

    

 

估计空间数据中每个基因的细胞类型特异性表达情况

    

 

    

         

 

 

结果说明  

以上图片和代码是10x Visium数据使用cell2location的结果展示,关键步骤为:

l基于负二项回归从scRNA-seq数据中估计参考细胞类型特征,生成参考细胞类型特征表格

l使用参考细胞类型特征表格进行空转数据的细胞丰度估计,关键的超参数为指示一个spot中预期有多少个细胞的N_cells_per_location和Visum一般用5,Visium HD使用8um bin时用1,具体还是参考HE图片决定;和表示对数据集的适应性的detection_alpha,除细胞数量外造成的批次效应明显时用200,批次效应不明显时用20。关键的输出结果是细胞丰度估计矩阵。

l下游分析基本是基于细胞丰度估计矩阵展开,如使用细胞丰度对Spot进行聚类,来识别细胞组成不同的区域;如估计空间数据中每个基因的细胞类型特异性表达情况。

l在Visium HD数据上也可以使用cell2location,但由于其数据量较大(一个样本约有三十万bins),在模型训练和提取后验分布时非常耗时(建议epochs先设置为4000进行测试),该分析也受到了GPU内存大小的限制。

         

 

参考资料

    

文献  

Kleshchevnikov, V., Shmatko, A., Dann, E. et al. Cell2location maps fine-grained cell types in spatial transcriptomics. Nat Biotechnol (2022). https://doi.org/10.1038/s41587-021-01139-4Cell2location maps fine-grained cell types in spatial transcriptomics | Nature Biotechnology

其他  

github网址:https://github.com/BayraktarLab/cell2location

cell2location使用手册:https://cell2location.readthedocs.io/en/latest/

10X单细胞空间联合分析之cell2location的详细梳理 - 简书


 

相关阅读

 【联川苍穹】如何使用联川苍穹平台开展普氏分析

单细胞代谢分析之-scFEA

单细胞代谢分析之-scMetabolism

肿瘤研究利器:PDX模型与单细胞测序的深度融合

     

   
本文系联川生物公众号原创文章,未经授权禁止转载,侵权必究!

扫描下方二维码





点分享


点点赞


点在看


 

   

联川生物
一个提供科研入门学习资源、经验的平台。 分享前沿测序技术资讯、实用生信绘图技巧及工具。 发布高质量的科研论文精度、精炼科研思路。 我们的目标是持续提供“干货”,滋润您的科研生涯。
 最新文章