探针集选择在靶向空间转录组学中的重要性
靶向空间转录组学(Targeted Spatial Transcriptomics, TST)是一项突破性的前沿技术,它通过检测特定基因的表达来解析组织中不同细胞类型的空间分布,提供单细胞及亚细胞级别的分辨率。这种方法不仅揭示组织中细胞的类型和状态,还能够展现细胞之间的相互作用及其在空间中的基因表达变化,为揭示复杂生物系统中的空间异质性提供了不可替代的工具。
在靶向空间转录组学中,探针集的选择至关重要,它直接决定了实验能捕捉到的基因表达信息的广度与深度。探针集选择的质量直接影响实验结果的准确性和信息量。因此,一个最优的探针集应涵盖代表性细胞类型的标志基因(marker genes),并捕捉细胞内部的基因表达异质性,从而揭示细腻而复杂的生物学信息。
Spapros:创新的探针集选择方法
为了解决传统探针集选择方法的局限性,研究人员开发了一种名为“Spapros”的端到端探针集选择工具。Spapros不仅优化基因集的特异性以提高细胞类型的识别精度,还全面考虑了细胞类型内部的表达变异,结合探针设计的技术限制和生物学先验知识,从而确保基因选择的最优性。
传统的基因集选择通常仅基于少数标志基因,难以捕捉空间信号的连续性或新的细胞状态。Spapros通过结合多个选择标准,如细胞类型识别、表达变异的恢复以及探针设计的技术限制,在多维度上进行优化,显著提升了实验性能。
探针集选择的挑战以及对所选基因集进行评估的过程(Credit: Nature Methods)
Spapros的设计理念
Spapros的设计基于以下核心目标:
细胞类型识别(Cell Type Identification):优化基因选择,确保能精确区分不不同细胞类型,从而实现空间分析中细胞类型的准确标定。
变异捕捉(Variation Recovery):选择能捕捉细胞间及同一细胞类型内基因表表达变异的基因,以揭示细胞的空间异质性。
探针设计的技术限制(Technical Constraints on Probe Design):探针设设计过程中必须考虑特定基因的序列特性,确保探针具有足够的特异性和灵敏度,避免非特异性结合。
Spapros结合多种评估手段,如主成分分析(Principal Component Analysis, PCA)和差异表达分析(Differential Expression, DE),并考虑技术限制进行基因集优化选择。例如,在针对人类肺组织的实验中,Spapros选择了一组针对成年肺组织的探针集,并通过SCRINSHOT实验验证其有效性。结果表明,这些探针不仅能够精准识别目标细胞类型,还能够捕捉同一细胞类型之间的空间变异,展示了其设计的精确性和有效性。
Spapros 探针集选择的整体流程(Credit: Nature Methods)
探针集的评估方法与结果
为了系统地评估探针集的有效性,Spapros团队开发了一套多维度的评估指标:
细胞类型识别准确率(Classification Accuracy):衡量探针集在区分不同细胞类型时的表现。
捕获细胞类型的百分比(Percentage of Captured Cell Types):反映探针集是否涵盖所有潜在的细胞类型。
表达变异的恢复能力(Variation Recovery Metrics):评估探针集在重构全基因组表达变异方面的表现。
研究结果显示,Spapros在细胞类型识别和表达变异恢复方面均显著优于传统方法。例如,在多重误差鲁棒荧光原位杂交(MERFISH)数据集中,Spapros探针集的细胞类型识别和空间变异恢复的相关性高达0.79,表明其探针能够有效捕捉到空间中的细胞变异。
此外,研究人员将Spapros与其他基因选择方法在不同数据集上进行对比。在Madissoon2020肺数据集中,Spapros选择了50和150个基因,通过UMAP嵌入分析探针集的性能,结果显示Spapros选择的探针集能够有效保留细胞类型的多样性特征。尤其对于类似的细胞类型(如1型和2型树突细胞),Spapros选择的基因组合(如CST3、FCER1A、IL1B)表现尤为出色,使细胞类型识别和空间变异恢复均优于其他传统方法。
在对心脏和肝脏组织的实验中,Spapros在选择用于检测纤维化标志物的探针集方面也展现出显著优势。例如,在纤维母细胞与心肌细胞的区分中,Spapros选择的探针集显著提高了检测准确率,尤其在TGFB1和COL1A1等关键基因的检测上,表现出卓越的灵敏度和特异性。这些基因在纤维化过程中起重要作用,证明了Spapros不仅能精确区分细胞类型,还能捕捉疾病相关的关键状态。
Spapros的优势与创新
Spapros与其他方法的比较
在多项对比实验中,Spapros探针集与其他十种流行的基因选择方法进行了比较。这些方法中,有些偏重于细胞类型识别(如NS-Forest和SMaSH),而另一些偏重于变异恢复(如SCMER和SelfE)。Spapros通过兼顾这两方面需求,表现出优于所有其他方法的综合性能。
例如,在针对肺和心脏组织的大规模基准测试中,Spapros在50基因和150基因探针集的选择中均表现优异,尤其在细胞类型识别和变异恢复方面。此外,Spapros在探针设计中充分考虑技术限制,使其选择的探针集在实际应用中更加可靠,避免了因探针设计失败导致的性能下降。
在对比MERFISH数据集上的表现时,Spapros探针集在细胞类型识别和变异恢复的综合得分上显著优于其他方法。Spapros通过自动化并行的高性能计算,使其在不同基因集大小的选择中,计算时间始终保持在合理范围内,尤其在需要同时考虑细胞类型识别和变异恢复的情况下,Spapros表现最为稳定。
在实际应用中,NS-Forest利用随机森林方法选择标志基因,而SMaSH则通过聚类进行标志基因识别。然而,在对肺组织和心脏组织的实验中,Spapros探针集的F1-score和均方误差(MSE)均优于这两种方法,特别是在小规模基因集选择上(如50个基因),显示出更高的准确性和稳定性。此外,SCMER在恢复空间变异方面的表现略逊一筹,因为其未充分考虑技术限制,而这正是Spapros的优势所在。
Spapros的实际应用:肺组织的SCRINSHOT实验
为了验证Spapros在实际空间检测中的性能,研究人员设计并进行了基于SCRINSHOT技术的人肺组织实验。在这个实验中,Spapros选择了一组包含64个基因的探针集,成功识别了目标细胞类型,并检测到不同细胞类型之间的空间变异。
在实验中,所有目标细胞类型的组织分布与已知的细胞结构相吻合,例如在下气道和肺泡空间中的分布。这些结果表明,即使探针集的规模相对较小(仅64个基因),Spapros依然能够实现可靠的细胞类型识别和空间表达模式检测。这与以往高通量空间技术需要更大基因集才能达到类似分类效果的情况形成鲜明对比,证明了Spapros探针集的高效性和精确性。
进一步分析中,研究人员使用FISH(荧光原位杂交)技术验证了这些发现。结果表明,Spapros选择的探针在检测IGFBP7和RGCC基因表达时,与单细胞RNA测序(scRNA-seq)数据高度一致,相关性系数高达0.83,进一步证明了Spapros探针集在实际生物样品中的高效性和准确性。
Spapros为靶向空间转录组学中的探针集选择提供了一种新颖且全面的方法,通过基因选择和探针设计的双重优化,实现了细胞类型识别和基因表达变异恢复的双重目标。这使得Spapros不仅在细胞类型识别中表现优异,还能揭示细胞内部的空间表达模式。
随着空间转录组学技术的不断发展,探针集的需求也将变得更加复杂。Spapros的模块化设计和灵活性使其能够适应不同的实验需求,例如在疾病研究中,用户可以预先选择感兴趣的基因,从而聚焦特定的病理机制。此外,随着更多单细胞RNA测序(Single-Cell RNA Sequencing, scRNA-seq)数据的发布,Spapros可以利用这些数据构建更全面的参考数据库,以提高探针集的普适性和可靠性。
未来,Spapros还可以进一步优化,以适应更大规模的空间蛋白组学(Spatial Proteomics)实验,例如CODEX等技术,拓展探针设计的应用场景。通过结合空间转录组学与蛋白组学数据,Spapros有望为揭示细胞行为的复杂调控网络提供更有力的工具和证据。总之,Spapros的开发为靶向空间转录组学的实验设计提供了更为高效和精准的工具,其在探针集选择和设计上的双重优化将极大推动未来空间转录组学研究的应用和发展。
参考文献
责编|探索君
排版|探索君
转载请注明来源于【生物探索】
声明:本文仅用于分享,不代表平台立场,如涉及版权等问题,请尽快联系我们,我们第一时间更正,谢谢!
End
往期精选
一文读透细胞死亡(Cell Death) | 24年Cell重磅综述(长文收藏版)
热文
Cell | 是什么决定了细胞的大小?
热文
Cell | AI取代科研人员还有多远?
新英格兰 | 司美格鲁肽(semaglutide)又有新发现:助力关节炎治疗
热文