在图论当中有这样一类问题,如何在图数据结构中找到一组顶点的集合,使得这些集合内部顶点之间的链接比集合外的顶点更紧密。这种思想与组织细胞域不谋而合,同样要求在域内的细胞有更紧密的联系。今天带来的这篇文章将组织细胞域的识别问题转化成了图论当中的社区检测问题。作者将包含有位置信息和细胞表型的细胞数据集映射成了空间中的无向图并通过无监督的图神经网络(GNN)识别TCN,再利用样本的标签和可微图池化识别特定条件的TCN这整套流程,不仅实现了对样本区域内部TCN的简单划分,并能够根据需求得到特定的空间域划分。
虽然诸如Spatial-LDA、UTAG、STAGATE、BayesSpace和stLearn等模型也实现了相似的功能,但与之前现有的方法不同的是,作者直接将通过图神经网络后的结果作为分区依据,避免了依赖聚类算法的不确定性。此外,作者针对特定场景TCN的识别,简化的监督学习框架,提高了模型检测的有效性。
论文题目:Unsupervised and supervised discovery of tissue cellular neighborhoods from cell phenotypes
论文链接:
https://www.nature.com/articles/s41592-023-02124-2
如上图所示,CytoCommunity算法由一个TCN分配模块(黑框外)和TCN集成模块(黑框内)集合而成。
在TCN分类模块中,首先基于细胞空间坐标计算欧氏距离,构建了一个有向的k近邻图,将每个节点与其k个最近邻节点相连。然后,从有向k近邻图中提取出无自环的无向图,作为输入到图神经网络模型的细胞空间图。接下来将细胞空间图输入到激活函数为ReLu的图卷积层,获取到细胞节点的特征向量。最后通过全连接层,获取到细胞的分配矩阵S。
如下图所示,通过多次运行,得到不同的分配矩阵S,通过投票机制,得到每一个细胞所属的空间域。值得一提的是,在这个过程中只需要输入细胞的表型和位置信息即可得到细胞所属的空间域表达。
相比上述的无监督的任务而言,CytoCommunity算法针对有监督的任务仅仅增加了TCN集成模块。通过额外补充特定场景下细胞所属空间域的标签,增强模型对特定场景下的空间域分类能力。具体而言:在训练的过程中将上述得到的细胞分配矩阵$S$,依次输入到由可微图池化层、图卷积层和两个全连接层构建的模型当中。
这种计算损失的方式,既通过左项鼓励强链接节点聚集在一起,又可以通过右项,使得不同簇之间差异最大。在细胞层面的表达既是,既鼓励了相同组织空间域内部细胞聚集在一起,又可以使得不同组织之间分隔开。这种方法的设计和运用,也被作者认为是效果优异的关键因素。
为了评估CytoCommunity算法在有监督和无监督任务中的有效性,作者共计做了5个相关实验。前三个实验围绕无监督空间域检测性能评估、针对小TCNs的无监督空间域检测性能评估和特定条件下有监督空间域性能评估这三个方面展开,综合考量了CytoCommunity算法不同模块的空间域检测性能。后两个实验以具体的结直肠癌和乳腺癌数据为例,证明了算法拥有在特定风险条件下的免疫相关TCNs识别和不同数据模态下的特定条件TCNs发现的能力,并从中探究了域内细胞通信和不同域之间的通信,进一步为理解不同细胞如何影响疾病的发展和治疗提供依据。在本篇文章中,对比方法包括了Spatial-LDA、UTAG、STAGATE、BayesSpace和stLearn。
目的:在对较大细胞组织的检测中,验证无监督的CytoCommunity算法的有效性。 数据集:包含了3个小鼠的脾脏样本,共计使用了30个蛋白质进行标记,平均每个样本包含了81760个细胞,27种细胞类型。在这些细胞中,人工进行标记分成了四个组织室(红髓;边缘区;B细胞区;动脉周围淋巴鞘)。 结果:可以看到,相对于其他对比方法,作者方法(红框部分)能够清晰地将边缘区、B细胞区和动脉附近淋巴鞘进行一个准确地分割。其他方法主要主要集中于红髓、B细胞区和动脉周围淋巴鞘的划分,忽视了边缘区。 使用空间转录组进行评估
目的:根据上个实验,作者的无监督CytoCommunity算法在检测大的区域当中能够实现不错的分类效果。但是,当组织区域较小时,检测的难度得到上升之后,CytoCommunity算法是否能够保持高效的检测效果,仍需要进一步实验验证。
数据集: 该数据集包含了五大脑区样本,每个样本图像平均含有5352个细胞,9种细胞类型,对每张图像划分了17个下丘脑核区域。具体表现如上图所示(由于在单张图像的区域增多,如图的第二行所示,作者将不同区域轮廓的用手工进行绘制以便观测)。
结果:如图 ,在此类场景中一个突出的特征是不同几种类型的区域对称性。相比其他方法,无监督CytoCommunity在这种复杂场景下能够尽可能多的检测出对称且相干的细胞组织域,虽然在某类场景中(第二行)的表现不如UTAG。但综合来看,对复杂区域的检测效果应是CytoCommunity>UTAG>其他。
目的 :证明有监督CytoCommunity在检测特定条件的组织细胞邻域的优势。具体到任务而言是监督的CytoCommunity算法是否能够在区室化的肿瘤中识别空间分离的肿瘤和免疫细胞主导的区域。 数据集:数据采集于41名患有三阴性乳腺癌的MIBI-TOF图像。此外,数据集收集到了15张免疫细胞和肿瘤细胞在空间中分离的图像、免疫细胞和肿瘤细胞在空间中高度混合的图像和冷肿瘤的MIBI-TOF图像。 结果: 1. 在对四号患者(红色框线内部)的的细胞域的区分当中,除SPACE—GM外其他四种方法都能够正确区分肿瘤细胞主导和免疫细胞主导的组织细胞邻域。 2. 在其他患者的细胞域分类来说,有监督的CytoCommunity算法的检测效果要明显优于其他方法。相比较无监督的方法来说,有监督的CytoCommunity在对复杂细胞类型组成的样本(例如:当样本中存在其他亚群是否能够正确区分,高度混合的肿瘤细胞和免疫细胞的区域)上表现得要更优异。具体的指标表现如下。
目的:证明CytoCommunity算法使用有标签样本从头开始(de novo)进行细胞空间域检测的有效性。数据集:作者使用了17名低风险和18名高风险直肠癌患者的样本数据构建成的CODEX数据集,其中低风险包含了68张样本数据,高风险包含了72张样本数据。
结果:
事实上,作者的第五个实验目的是对CytoCommunity在不同数据模式下进行组织细胞域进行分类的进一步研究。由于处理方式和结直肠癌中风险特异性免疫相关细胞组织邻域检测类似,在此不再重复赘述。但是作者对乳腺癌细胞空间域内部和细胞空间域之间的细胞是如何起到相互作用,这个分析过程也同样很精彩,强烈建议阅读一下原文。
通过这5个实验,相信CytoCommunity是能够满足不管是无标签还是有标签下的细胞空间域的分割。作者将这种优异表现的主要归结了以下几点:
1. 它利用 GNN 模型和理论上基于MinCut的损失函数进行软 TCN 赋值学习,比其他支持池化的 GNN 模型生成更准确、更稳定的图分区结果。
2. CytoCommunity使用可微分图池化层来利用软TCN分配矩阵来粗化输入图,并生成用于样本或图像分类的整个图的嵌入。这种框架能够以端到端的方式使用样本标签有效地学习特定条件的 TCN 分配。
3. CytoCommunity使用细胞类型作为初始细胞特征,与直接使用嘈杂的基因或蛋白质表达数据相比,可能更好地测量细胞之间的功能相似性。
但目前作者同样总结了当前方法的不足之处:由于使用了细胞类型信息,CytoCommunity的当前版本不直接适用于具有斑点分辨率的空间转录组学数据。为了解决这个问题,作者提出可以:
(1)使用反卷积来估计每个点的细胞类型组成;
(2)构建一个点-点邻近图,将推断的细胞类型分数作为节点属性,作为CytoCommunity的输入,用于TCN识别。
但是这种情况下需要对反卷积方法进行进一步研究以获得更优的组织细胞域的分割效果。作者针对这种情况额外补充了使用这种方法的实验结果(如上图),可以看到还是存在一定的优化空间。
这篇文章完美展示了什么是AI for Science,在针对目前组织细胞域的分类问题,使用了基于图神经网络的CytoCommunity方法,并用大量实验证明了无监督条件下的检测效果和有效果条件下的检测效果,最后成功俘获Nature Methods的芳心。在对组织细胞域进行无监督分类的时候,作者通过大量的实验对KNN的参数K,组织空间域的数量进行实验,最终获得一组效果最好的参数。然而,在现实的场景中,如何在不重复实验的条件下确认参数K和组织空间域数量,同样是需要解决的关键问题。另外,在实验中,我们看到了不同模型展现出的不同效果,可能需要进一步解释模型表现效果具有差异化的更深层次原因。
事实上,这篇文章的方法并非横空出世,于2020年发表在ICML中《Spectral Clustering with Graph Neural Networks for Graph Pooling》就已经对该方法进行详细的描述。但如何根据现有数据的特点,有针对性地采用人工智能的方法解决特定场景下的任务,应当是当前如何解决生信难题的一个思路。
为什么CytoCommunity行?
在读《Unsupervised and supervised discovery of tissue cellular neighborhoods from cell phenotypes》这篇文章的最后,我想还是结合《Spectral Clustering with Graph Neural Networks for Graph Pooling》一起探讨,为什么作者提出的CytoCommunity行?
如开篇而言,在细胞邻域的检测问题实际上被抽象为了一个寻找图顶点划分的问题(即谱聚类问题),过往这种聚类方式的缺陷在于过于依赖图的拉普拉斯向量的聚类方法,导致往往特征分解过程不可微分,从而不能够与依赖梯度下降的算法结合使用。作者依赖的CytoCommunity将这类的谱聚类问题转化为了一个连续优化问题,具体做法是训练一个GNN计算节点的聚类分配,而训练过程中的目标函数为一个关于聚类分配的连续函数,并允许梯度下降算法来优化节点的聚类分配。这样避免了依赖拉普拉斯的特征分解,而且可以引入深度学习的分类方法使得模型更关注的是节点之间的聚类关系,也可以为后续泛化到特定任务中提供了方案。而这种优势,或者引入这种方法的效果在与另一方法UTAG(流程图如下所示)的对比中更具有说服力。
UTAG应用的是一种典型的传统谱聚类方法,可以看到这类方法通过将获得到的特征矩阵和邻接矩阵直接进行点乘获得空间聚合特征矩阵,并以此矩阵使用Leiden或者PARC算法进行聚类。CytoCommunity虽然同样使用特征矩阵和邻接矩阵,但不同的是将这两类矩阵通过GNN的方式链接在一起,并使用连续优化的思路解决分类问题。从最后在不同实验的结果来看,CytoCommunity在细胞邻域检测的解决思路,在理论和实验结果上显然是更加有效的。对UTAG有兴趣的也可读一下原版论文。
论文名称:Unsupervised discovery of tissue architecture in multiplexed imaging
论文链接:
https://www.nature.com/articles/s41592-022-01657-2
关注我!不错过任何AIMShare学术资讯!!
【注意:转载请联系本公众号获得授权。】如果您对我们的内容有任何疑问需要咨询或想要联系作者,可以备注“AIMS”联系课代表。也欢迎大家投稿!
目前已有1000+人关注加入我们