关注+标星,邂逅每一篇经典!
投稿或寻求合作:qunfunction@163.com
|摘要
最近亚细胞成像转录组学平台的进步使得基因表达的高分辨率空间映射成为可能,同时也引入了在准确识别细胞和分配转录本方面的重要分析挑战。
现有的方法在细胞分割上存在困难,经常导致细胞碎片化或产生包含污染表达的超大细胞。
为此,作者提出了BIDCell,这是一种基于自监督深度学习的框架,它利用生物信息损失函数来学习空间解析基因表达与细胞形态之间的关系。
BIDCell整合了细胞类型数据,包括来自公共数据库的单细胞转录组学数据,以及细胞形态信息。通过一个由五个互补类别指标组成的全面评估框架来评价细胞分割性能,展示了BIDCell在多种组织类型和技术平台上根据许多指标优于其他最先进的方法。研究结果强调了BIDCell在显著增强单细胞空间表达分析方面的潜力,为生物学发现提供了巨大可能性。
学术地址:
https://www.nature.com/articles/s41467-023-44560-w?fromPaywallRec=false
代码地址:
https://github.com/SydneyBioX/BIDCell
|前世今生
高通量空间组学技术位于现代分子生物学的前沿,有望为丰富的转录组数据提供地形背景。最近在分析技术上的突破彻底改变了对多细胞生物系统的理解,亚细胞空间转录组学(SST)技术的集合(例如10x Genomics Xenium、NanoString CosMx、BGI Stereo-seq以及Vizgen MERSCOPE)现在提供了解决以前无法访问的生物学问题的可能性,并通过保持组织结构更好地理解细胞间通信。根据不同的商业平台,这些超高分辨率的空间解析单细胞数据包含了核、胞质和/或细胞膜信号的混合物,这在信息提取方面带来了新的数据挑战。更具体地说,目标是确保所有可用的数据都能被利用来自动且准确地划分单个细胞的边界,因为SST技术的基本目标是在给定组织中理解单细胞转录组的行为。
迄今为止,针对这些数据挑战的尝试有限,并且已经出现了三种概念类别。第一种使用最初为低分辨率成像技术如显微镜设计的形态学操作。在这个类别中,首先通过核标记物使用阈值处理或预训练模型(如Cellpose和Mesmer)完成初始的核分割。然后,细胞边界通过预先指定距离的形态学扩展或通过对细胞体掩模应用分水岭算法来识别。一些研究者将一个全局阈值应用于SST数据中所有分子的密度以估计细胞体掩模。Cellpose及类似方法的局限性在于它们主要是为显微镜模式和荧光标记设计的,因此由于视觉特征不同,它们可能并不总是适合SST。
其次,另一种细胞分割的方法不是直接识别细胞边界,而是将单个转录本分类或聚类到与细胞相关的不同测量类别中。这些包括无分割和基于转录本的方法,例如Baysor、StereoCell、pciSeq、Sparcle和ClusterMap。然而,这些方法的一个关键局限性是假设细胞体内所有RNA的表达是均匀的,并且对于某些方法而言,细胞形状(形态)可以用多元正态先验很好地近似。这可能导致与成像数据不相符的视觉上不现实的分割结果。
第三,最近的方法开始利用深度学习(DL)。像U-Net这样的DL模型为许多图像分析挑战提供了解决方案。然而,它们需要生成真实标签用于训练。基于DL的SST细胞分割方法包括GeneSegNet和SCS,尽管仍然需要以初始细胞标签或基于硬编码规则的形式进行监督。在基准测试过程中遇到的现有方法的进一步限制,比如代码运行时间长。自监督学习(SSL)范式可以提供一种克服注释需求的解决方案。虽然基于SSL的方法已经在其他成像模式中显示出前景,但直接应用于SST图像仍然具有挑战性。SST数据与其他细胞成像模式和自然图像(例如常规RGB图像)相比有很大的不同,因为它们通常包含数百个通道,并且缺乏明确指示细胞边界的视觉线索。这创造了新的挑战,如在密集区域精确勾勒出连贯的细胞掩模、处理基因通道内的高度稀疏性以及解决细胞实例对比度不足的问题。
虽然这些基于形态学和DL的方法显示了潜力,但它们还没有充分利用SST数据中的高维表达信息。越来越清楚的是,仅依赖成像信息可能不足以准确分割细胞。人们日益关注利用大型、良好标注的单细胞RNA测序数据集,如JSTA所提出的联合细胞分割和细胞类型注释策略所示。尽管文献强调了考虑生物信息如转录组成、细胞类型和细胞形态的重要性,但在分割方法中整合此类信息的影响仍有待完全理解。
在这里,作者提出了一种基于生物学信息的深度学习细胞分割框架(BIDCell),该框架通过框架和学习策略的关键创新解决了SST图像中细胞体分割的挑战。引入了带有多个协同组件的生物学信息损失函数;以及明确结合来自单细胞测序数据的先验知识,以实现不同细胞形状的估计。损失函数与现有scRNA-seq数据相结合,除了亚细胞成像数据外,还提高了性能,并且BIDCell可以在不同的SST平台上通用。随着分割方法的发展,作者创建了一个全面的细胞分割评估框架CellSPA,它评估五个互补标准类别以确定最佳分割策略。这个框架旨在促进新型生物技术数据的新分割方法的采用。
|匠心独运
图1:BIDCell框架。a) BIDCell框架及其用于训练的损失函数的示意图。在深度学习模型中,E1至E5和D1至D4分别是编码层和解码层,而层与每个解码层之间的连接由特定颜色的箭头表示(例如,D3用绿色箭头表示)。b) 在公开的Xenium-乳腺癌数据集上,BIDCell与其他细胞分割方法预测结果的对比示意图。BIDCell能够捕捉到与输入图像更相符的细胞形态,并且能够识别出更多样化的细胞形状,包括拉长型细胞。H&E图像仅用于说明目的,并未作为所示任何方法的输入使用。
|卓越性能
图2:CellSPA性能评估框架。a) 细胞分割评估框架示意图,包含五个互补的类别。b) 条形图展示了11种方法的整体特征,包括细胞数量[左]和转录本数量[右]。c) 细胞水平质量指标的箱线图,显示总转录本数量[左]和总基因数量[右]。每个箱子中的点数代表每种方法检测到的细胞数量(N = Chromium: 22,294; Cellpose (核): 99,693; BIDCell: 103,209; 10x (核): 126,515; 10x: 160,254; JSTA: 107,131; Cellpose 核膨胀: 104,307; Cellpose 细胞: 87,046; Voronoi: 106,227; 分水岭: 105,527; Baysor: 177,437; Baysor (无先验): 191,698),范围从第一四分位数到第三四分位数,中位数用横线表示。箱线图的下须延伸至第一四分位数下方1.5倍的四分位距,上须延伸至第三四分位数上方1.5倍的四分位距。d) 基因水平质量指标,以散点图表示,y轴为在分割细胞中表达的细胞百分比,x轴为在核中表达的细胞百分比。e) 细胞形态学指标,以拉伸值表示,y轴为分割细胞,x轴为核,每个点代表每种细胞类型的平均拉伸值,并在左上角注明了核与分割细胞之间拉伸值的皮尔逊相关性。f) 散点图表示核与分割细胞之间的拉伸值相关性(y轴)与基于平均表达的每细胞平均总转录本数量(x轴)。
图3:使用Xenium-乳腺癌数据集进行比较研究的CellSPA图形表示。a) BIDCell分割细胞(y轴)与Chromium数据(x轴)之间平均表达的相关性热图[左]。基于平均表达,Chromium表达相关性(y轴)与每细胞平均总转录本数量(x轴)之间的散点图[右]。每个点代表不同的方法。b) 基于平均表达,Chromium表达相关性(y轴)与每细胞平均总转录本数量(x轴)之间的散点图,每个点代表不同的方法。c) 基于从每种方法中提取的细胞类型比例,BIDCell(y轴)与Chromium数据(x轴)之间的散点图。d) 散点图显示BIDCell中阳性标记物的F1分数(y轴)与10x分割中的F1分数(x轴)之间的表达[左],以及纯度F1分数与每细胞平均总转录本数量之间的散点图[右]。每个点代表一种方法。e) 线图显示B细胞表达不希望出现的T细胞标志物CD4、CD8A和CD8B的百分比与其距离最近T细胞的距离之间的关系,其中B细胞按距离范围分组。较低的百分比更好,每条线代表不同的方法。f-h) 空间特征多样性。f) 图像中局部空间区域的划分,左侧面板表示每个局部区域的细胞类型比例,右侧面板表示局部区域的细胞类型熵。g) 散点图显示了三种方法(10x, BIDCell, 和分水岭)的细胞类型熵与总转录本变异系数之间的关联,每个点代表(f)中所示的每个局部区域。h) 散点图显示了拉伸值变异系数与数据中成纤维细胞比例之间的关联。i) Xenium-乳腺癌两个重复样本的空间成像,每个点代表根据注释的细胞类型着色的分割细胞。j) 两个重复样本的UMAP图,按细胞类型[左]和重复样本[右]着色。
图4:BIDCell的通用性。a) CosMx-肺图像,UMAP图突出显示了不同的细胞类型。b) BIDCell、NanoString和Cellpose核对CosMx-肺预测结果的对比示意图。c) 线图展示了B细胞表达不希望出现的T细胞标志物CD4、CD8A和CD8B的百分比与其距离最近T细胞的距离之间的关系,其中B细胞按距离范围分组。较低的百分比更好,每条线代表不同的方法,分别是BIDCell(红色)、NanoString(橙色)和Cellpose核(灰色)。d) MERSCOPE-黑色素瘤图像,UMAP图突出显示了不同的细胞类型。e) BIDCell、Vizgen和Cellpose核对MERSCOPE-黑色素瘤预测结果的对比示意图。f) 散点图显示了在给定区域内由BIDCell分割的细胞[左]、核细胞[中]以及由Vizgen分割的细胞[右]的总基因数量变异系数与细胞类型熵之间的关系。
参考:
https://www.nature.com/articles/s41467-023-44560-w?fromPaywallRec=false