Cancer-Finder:一站式迅速精准的鉴定出scRNA和ST数据中的癌细胞

文化   2024-07-30 11:00   陕西  

前言

肿瘤细胞的异质性阻碍了行之有效的肿瘤治疗方法的使用,目前的恶性细胞/区域的鉴定主要基于肿瘤细胞的标记基因或拷贝数变异(CNV)。scRNA-seq技术使我们能在单细胞水平上全面了解肿瘤异质性,是研究肿瘤细胞异质性的有利工具。。然而,由于细胞脱落和稀疏矩阵伪影的影响,鉴定结果可能存在假阴性,而且目前并没有通用的肿瘤特异性标记基因(对癌症特异性标记基因了解不充分),使得通过肿瘤细胞的标记基因区分在肿瘤微环境里面的恶性细胞区域难度骤升。目前CNV的代表性工具是inferCNV和CopyKAT,前者需要依靠使用正常细胞作为参考和用户的先验知识,后者需要统计学上区分完整和非整倍体,在高纯度数据中(一组几乎完全是恶性或非恶性细胞)很难得到高精度,而且有研究表明细胞拷贝数的改变在正常人体组织中很普遍,这可能会导致错误的分类结果。

近年来,研究者开发了一系列基于机器学习的区分细胞恶性程度的方法,如:ikarus和Casee,但这两种算法都限于单细胞数据,不能应用于ST数据。获得高质量的参考数据集可能很困难,迫切需要一种具有高精度、良好泛化性能、易于扩展的无参考恶性细胞注释算法来处理多种数据类型。

因此,本项研究作者基于域泛化,假设来自不同组织的数据来自不同的领域,训练基于多个域的广义模型,以预测来自不同域(包括未知域)的测试数据的标签,应用于单细胞或空间数据中细胞恶性状态的注释,开发了Cancer-Finder软件,实现在未知的泛癌单细胞数据中直接区分肿瘤微环境中的恶性细胞和正常细胞。

本篇推文主要是介绍Cancer-Finder软件的功能框架,后续会有系列推文去对其算法原理,应用和代码实操教程的讲解,敬请期待!

主要内容

图1. Cancer-Finder框架

Cancer-Finder采用一种基于风险外推(Risk extrapolation)的损失函数优化方法进行域泛化。详细地说就是首先将域(即组织)的经验风险定义为域中对象的预测标签和真实标签的交叉熵,然后利用两种类型的全局风险(方差风险和平均风险)来评估模型在多个领域的性能。方差风险计算为不同训练领域之间的风险方差,以反映不同领域之间训练风险的差异。或者,计算所有训练域数据的平均风险,以反映跨域的总训练风险。为了实现在所有领域都具有良好性能的模型,必须将方差风险和平均风险降至最低。该模型是一个神经网络,由一个输入层和两个用于特征提取的隐藏层和一个用于分类的层组成。在训练过程中,第一个隐藏层中的节点会随机丢弃,以防止过拟合。此外,还集成了一个可解释性模块,该模块利用了修改后的显著性图,增强了模型的可解释性。

1. Cancer-Finder的训练和评估

作者从肿瘤免疫单细胞中心(TISCH)数据库收集了74个人类肿瘤微环境数据集作为训练集,根据其原始组织将它们分为 13 个不同的类别。来自数据库的细胞恶性肿瘤注释用作整理细胞的训练标签,采用欠采样以确保类别平衡,数据分为 80% 的训练集和 20% 的内部验证集。为了防止过度拟合,使用CopyKAT归一化乳腺癌数据作为外部验证集,只有外部验证准确度达到最大值的模型才被保留使用。

图2.Cancer-Finder性能评估

随后,作者利用了来自13个不同组织的328,230个细胞,进行 5 倍 leave-cells-out 交叉验证,发现区分恶性细胞和健康细胞比识别其他细胞特征(如细胞类型)更困难。方差风险快速增加,然后逐渐降低到稳定状态。这表明该模型从随机初始化状态过渡到组织特异性适应状态,然后逐渐演变为跨组织的恶性共性状态。平均风险稳步下降,导致恶性肿瘤分类的整体准确性提高,在内部验证数据集的所有 13 个组织中,这 5 个预训练的 Cancer-Finder 的平均准确率为 95.16%。利用了来自10x基因组学官方网站的外周血单核细胞(PBMC)的 scRNA-seq 数据集和先前研究的五个不同的癌细胞系数据集,外部验证这个预训练模型的准确性。两者平均准确率为98.30%。

2. 与现有方法在scRNA-seq数据集上的性能比较

Cancer-Finder在基准数据集中鉴定出癌细胞的总体准确率为98.30%,于标准数据集中细胞的原始注释标记90.89%的总体平均水平相似,而计算速度(可以在一小时内预测超过 500,000 个细胞),各种性能均明显优于其他方法。

图3.Cancer-Finder与其他方法的性能比较

3. Cancer-Finder 扩展到空间转录组学注释

紧接着,作者还收集了14张Visium空间载玻片,包括乳腺癌(BRCA)、肝细胞癌(HCC),肝内胆管癌(ICC),结直肠癌(CRC)、卵巢癌(OV)和肾细胞癌(RCC),一些没有可用注释的载玻片由病理学家直接手动注释。当模型使用少量空间转录组学数据进行训练时,其对训练的癌症空间数据的预测与病理学家的注释高度一致(准确率:82.00-97.37%),但由于整体训练数据集仍然有限,一些未经训练的癌症的准确性不太理想。未来需要更新数据集用于训练。相比于10X平台,其他平台数据量较少,因此,在单细胞或 10x Visium 数据集上训练的模型更适应10X平台和具有高测序分辨率的数据集。

图4.Cancer-Finder扩展到空间转录组(ST)注释
图5. Cancer-Finder在ccRCC ST数据集肿瘤间异质性分析中的应用

Cancer-Finder揭示的特征往往在肿瘤-正常界面中富集,免疫球蛋白相关基因(IGKC、IGHA1、IGHG4、IGLC2、IGHG3)主要是血浆的副产物。TAGLN主要在成纤维细胞中表达,已被证明在EMT过程中起重要作用和RCC入侵。MALAT1 和 SOD2 在所有这些细胞类型中普遍表达,而 KRT19 在癌症和 Henle 细胞的升细肢(LoH ATL 细胞)中表现出更高的表达。这些基因也是各种癌症上皮-间充质转化(EMT)过程的积极参与者。Cancer-Finder 揭示的特征可以作为比这些可用的EMT程序更好的预后指标。

小结

本篇文章的故事线:

本项研究作者开发了新型癌细胞鉴定工具--Cancer-Finder,这是一个基于域泛化的深度学习算法,用于快速准确地识别单细胞和空间转录组学数据中的恶性细胞。Cancer-Finder的平均准确度高达95.16%,并能揭示与疾病预后相关的基因特征。该研究通过在多种癌症类型的数据集上训练,展示了算法在未知数据上的强大泛化能力。此外,单细胞测序和空间转录组技术的应用,为理解肿瘤微环境的复杂性和推动个性化治疗的发展提供了关键见解。Cancer-Finder在多个数据集上的验证表明,它在泛癌细胞注释的准确性和能力上超过了其他方法,展示了其在癌症研究和分子诊断领域的应用潜力。

研究观点:

作者开发了一种基于域泛化的深度学习算法Cancer-Finder,该算法能够在不同的癌症数据集中实现高准确度的恶性细胞识别。通过跨多种数据集的训练测试中,Cancer-Finder展示了出色的泛化能力,有效克服了单细胞和空间转录组学数据中恶性细胞注释的挑战。这不仅提高了癌症研究的注释精度,还为个性化治疗的开发和实施提供了重要支持。


[参考文献] 

https://www.nature.com/articles/s41467-024-46413-6


关注公众号,下回更新不迷路



生信宝库
本公众号只用于生信知识的收集与传播,以及生信人之间互相交流和学习,不会涉及任何商业利益。本公众号各小编平时忙于科研,更新文章较其它同类型公众号较慢,但保持宁缺毋滥的本心,只更新对大家有用的推文。
 最新文章