肿瘤微环境是一个由多种类型细胞组成的复杂生态系统。实体肿瘤内,除了癌细胞之外,还存在数量可观的血管内皮细胞、成纤维细胞、以及多种免疫细胞,如肿瘤相关巨噬细胞和肿瘤浸润淋巴细胞等。大量研究表明,这些不同类型细胞的比例,在多种癌症类型中与患者的病情进展密切相关。因此,精准量化肿瘤微环境中各类细胞的比例,对于深入理解肿瘤的发生与发展规律、优化癌症诊疗策略等具有重要意义。
在现有的技术中,流式细胞术和单细胞RNA测序(scRNA-seq)等实验方法能够直接测定肿瘤微环境中的细胞比例,但这些方法通常成本较高。为解决这一问题,研究人员开发了多种计算方法以基于低成本的批量RNA测序(bulk RNA-seq)数据来估算不同类型细胞的比例,例如EPIC、MuSiC、CIBERSORTx、Scaden、Kassandra等。然而,由于不同肿瘤类型中癌细胞的基因表达谱差异很大,使用单一模型精准预测多种肿瘤中各类细胞的丰度仍然是一个挑战。
2024年11月8日,中国科学院深圳先进技术研究院李雪飞副研究员团队与香港浸会大学田亮副教授团队合作,在《美国国家科学院院刊》(PNAS)发表了题为:DeSide: A unified deep learning approach for cellular deconvolution of tumor microenvironment 的研究论文。
该研究开发了一种基于深度学习与公开单细胞数据集的解卷积算法,能够较精确地估算19种实体肿瘤中16种细胞类型的丰度。
合成高质量的训练集
首先,该研究整合了来源于6种实体肿瘤类型的12个scRNA-seq数据集,为后续合成虚拟肿瘤bulk RNA-seq数据(训练集)提供了更为全面的参考数据。其次,该研究提出了一种新的采样方法segment sampling,从而使得所合成的虚拟肿瘤bulk RNA-seq数据中包含更多样的细胞比例组合。此外,在合成bulk RNA-seq数据时,该研究通过对基因的过滤(gene-level filtering)来保留与每种细胞类型高度相关的基因,以降低输入数据的维度;再对表达谱进行过滤(GEP-level filtering)以保留与真实肿瘤表达谱相似度较高的样本。这些创新点共同有效提升了所合成的虚拟肿瘤bulk RNA-seq数据的质量。
深度神经网络结构的创新点
在深度神经网络(deep neural network,DNN)结构中,DeSide创新性地采用了两个全连接网络:pathway网络和GEP网络,分别从生物信号通路(pathway)和基因表达谱(gene expression profile,GEP)中提取特征信息。其中,pathway网络通过引入粗颗粒度的特征,有效提升了输入数据的多样性。
此外,考虑到肿瘤细胞的基因表达谱在不同癌症类型之间差异较大,DeSide采用了sigmoid函数作为DNN输出层的激活函数,使输出总和处于[0,1]区间。这一设计先预测免疫细胞等非癌细胞类型的比例,再通过1减去所有非癌细胞的比例来估算肿瘤细胞的比例,从而有效减少了直接预测肿瘤细胞比例所带来的误差。值得指出的是,在利用深度神经网络预测细胞比例的研究方向上,DeSide是首个引入该策略的算法。
与其它算法预测效果的比较
该研究系统对比了DeSide与现有算法在预测肿瘤微环境内细胞比例的准确性。结果表明,DeSide能较好地预测多种肿瘤类型内不同细胞类型的比例(图2 a,b)。同时,即便是与依赖参考数据的算法(Reference-based model)相比较,DeSide在特定肿瘤类型上的表现依然出色(图2c)。值得指出的是,DeSide能较准确地预测训练集中未包含的癌症类型,显示了较好的泛化能力。
https://www.pnas.org/doi/10.1073/pnas.2407096121