Nat. Methods | 单细胞蛋白生物学的上下文AI模型

学术   2024-08-29 00:02   韩国  

DRUGAI

今天为大家介绍的是来自Marinka Zitnik团队的一篇论文。理解蛋白质功能和开发分子疗法需要解析蛋白质作用的细胞类型以及蛋白质之间的相互作用。然而,在不同生物学背景下建模蛋白质相互作用对现有算法来说仍然是个挑战。本文介绍了PINNACLE,一种几何深度学习方法,它生成上下文感知的蛋白质表示。利用多器官单细胞图谱,PINNACLE在上下文化的蛋白质相互作用网络上学习,生成394,760个蛋白质表示,这些表示来自24种组织的156种细胞类型背景。PINNACLE的嵌入空间反映了细胞和组织的组织结构,使得组织层次结构的零样本检索成为可能。预训练的蛋白质表示可以适应下游任务:例如,通过增强基于三维结构的表示来解析免疫肿瘤学的蛋白质相互作用,以及研究药物在不同细胞类型中的效果。PINNACLE在推荐类风湿性关节炎和炎症性肠病的治疗靶点方面优于最新模型,并且在预测能力上比无上下文模型更能准确定位细胞类型背景。PINNACLE根据其操作的背景调整输出的能力,为生物学中大规模的特定背景预测铺平了道路。

蛋白质在不同的生物背景中可以具有不同的作用。尽管几乎每个细胞都含有相同的基因组,但基因的表达和这些基因编码的蛋白质功能依赖于细胞和组织的背景。基因表达和蛋白质功能在健康和疾病状态之间也可以有显著差异。结合生物背景的方法可以改进蛋白质的表征,并提供精确的、特定背景的见解。然而,深度学习方法产生的蛋白质表示(或嵌入)是无背景的:每个蛋白质只有一个表示,这个表示来自于单一背景或跨多个背景的综合视图。这些方法为每个蛋白质生成一个表示,提供了综合摘要。无背景的蛋白质表示并未针对特定的生物背景(如细胞类型和疾病状态)进行定制。这些表示无法识别在不同细胞类型中变化的蛋白质功能,从而阻碍了对多效性和细胞类型特异性蛋白质角色的预测。


测量基因表达的单细胞测序技术为解决这一挑战铺平了道路。单细胞转录组图谱在许多细胞背景下测量活化的基因。通过基于注意力的深度学习,这些模型可以关注大量输入并学习每个背景中最重要的元素,可以利用单细胞图谱来增强驱动疾病进展的基因调控网络的映射,并揭示治疗靶点。然而,将蛋白质编码基因的表达整合到蛋白质相互作用网络中仍然是一个挑战。现有的算法,包括蛋白质表示学习,无法对蛋白质表示进行上下文化处理。


多尺度网络构建


图 1


生成有细胞类型上下文的蛋白质表征需要考虑相同背景的蛋白质相互作用网络。作者整理了一个上下文敏感的蛋白质互作组数据集,首先使用多器官单细胞转录组图谱,这个图谱包含来自15名供体的24个组织和器官样本(图1a)。作者通过评估每种专家注释的细胞类型相对于指定参考细胞集的平均基因表达,编译了该数据集中每种细胞类型的活化基因(见图1a)。在这里,“活化基因”被定义为在特定类型注释的细胞中平均表达水平高于数据集中其余细胞的基因。根据这些活化基因列表,作者从综合参考蛋白质相互作用网络中提取相应的蛋白质,并保留最大连接组件(图1a)。因此,作者得到了156个上下文感知的蛋白质相互作用网络,每个网络包含2530 ± 677个蛋白质,这些网络最大限度地类似于全局参考(global reference)蛋白质相互作用网络,同时具有高度的细胞类型特异性。作者的156个细胞类型背景的上下文感知蛋白质相互作用网络涵盖了62种不同生物规模的组织。


此外,作者构建了一个细胞类型和组织的网络(metagraph),用来建模细胞相互作用和组织层次结构。根据多器官转录组图谱提供的细胞类型注释,该网络包含156个细胞类型节点。作者根据显著的配体-受体(LR)相互作用在成对细胞类型之间加入边,并验证了这些相互作用对应的蛋白质在上下文感知的蛋白质相互作用网络中相比于空值分布具有富集性。利用测量细胞类型的组织信息,作者从24个组织节点开始,如果细胞类型来源于相应的组织,则在细胞类型节点和组织节点之间建立连接。接着,作者在组织层次结构中确定了24个组织节点的所有祖先节点,包括根节点,形成由父子关系互连的62个组织节点。因此,作者的数据集包括156个上下文感知的蛋白质相互作用网络和一个反映细胞类型和组织结构的元图。


模型部分

PINNACLE 是一种几何深度学习模型,能够基于不同细胞类型背景下的蛋白质相互作用生成蛋白质表示。PINNACLE在一组综合的上下文感知蛋白质相互作用网络上进行训练,并辅以一个捕捉细胞相互作用和组织层次结构的网络(图1b,c)。它生成的上下文蛋白质表示专门针对那些蛋白质编码基因被激活的细胞类型(图1d)。与无上下文模型不同,PINNACLE为每种蛋白质生成多个表示,每个表示都依赖于其特定的细胞类型背景。此外,PINNACLE还生成细胞类型背景和组织层次结构的表示(图1d,e)。这种方法确保了对蛋白质相互作用网络的多方面理解,考虑到蛋白质作用的多种背景。


在多尺度模型输入的基础上,PINNACLE通过优化统一的潜在表示空间来学习蛋白质、细胞类型和组织的拓扑结构。PINNACLE将不同的特定背景数据整合到一个上下文感知模型中(图1f),并在蛋白质、细胞类型和组织层次数据之间传递知识,以上下文化表示(图1g)。为了将细胞和组织结构融入这个嵌入空间,PINNACLE使用蛋白质、细胞类型和组织层次的注意力机制以及相应的目标函数(图1b,c)。从概念上讲,物理上相互作用的蛋白质对(即输入网络中由边连接的蛋白质)在嵌入空间中紧密相邻。类似地,蛋白质与其相应的细胞类型背景相邻,同时与不相关的背景保持相当的距离。这确保了在相同细胞类型背景下的相互作用蛋白质在嵌入空间中位置接近,但与其他细胞类型背景中的蛋白质分隔开。这种方法产生的嵌入空间准确地反映了蛋白质、细胞类型和组织之间关系的复杂性。


PINNACLE 通过一系列针对每个特定节点和边类型的注意力机制,在蛋白质、细胞类型和组织之间传播图神经网络的消息。蛋白质级别的预训练任务为蛋白质相互作用上的自监督链接预测和蛋白质节点上的细胞类型分类。这些任务使得 PINNACLE 能够构建一个包含上下文感知蛋白质相互作用网络拓扑和蛋白质细胞类型身份的嵌入空间。PINNACLE的细胞类型和组织特异性预训练任务完全依赖于自监督链接预测,促进了对细胞和组织结构的学习。细胞类型和组织的拓扑通过一个注意桥机制传递到蛋白质表示上,有效地将组织和细胞结构强加到蛋白质表示上。PINNACLE 的上下文化蛋白质表示捕捉到了上下文感知的蛋白质相互作用网络的结构。这些上下文化蛋白质表示在潜在空间中的区域排列反映了元图所代表的细胞和组织结构。这导致了在一个统一的细胞类型和组织特异性框架内对蛋白质的全面和特定背景的表示。


PINNACLE能够捕捉到细胞和组织的排列

图 2


作者展示了PINNACLE如何在嵌入空间中根据细胞类型背景定位蛋白质。首先,作者使用一种系统方法SAFE对PINNACLE的蛋白质嵌入区域的空间富集进行了量化。结果表明,PINNACLE的上下文蛋白质表示在嵌入空间中自组织,源自相同细胞类型背景的蛋白质表示在空间嵌入区域中富集(显著性截止值α = 0.05;图2)。

图 3


接下来,作者评估了嵌入区域,以确认它们是否按照细胞类型和组织身份分离,通过计算跨细胞类型背景的蛋白质表示之间的相似性来验证。同一细胞类型的蛋白质表示比不同细胞类型的蛋白质表示更相似(图3a)。相反,没有细胞或组织背景的模型无法捕捉跨细胞类型背景的蛋白质表示之间的差异(图3b)。此外,作者预期在多种细胞类型中起作用的蛋白质表示会很不同,反映出特定细胞类型的专门蛋白质功能。作者基于蛋白质在多少细胞类型中活跃来计算蛋白质表示的相似性(即,跨细胞类型背景的蛋白质表示的余弦相似性)。结果显示,蛋白质表示的相似性与其作用的细胞类型数量负相关(Spearman’s ρ = -0.9798;P < 0.001),而在关闭的细胞和组织元图的消融模型中,这种相关性较弱(Spearman’s ρ = -0.6334;P < 0.001)。


作者还检查了蛋白质嵌入区域是否按照组织层次结构进行组织。作者利用PINNACLE的组织表示进行零样本检索组织层次结构,然后将组织本体论距离(tissue ontology distance)与组织嵌入距离(tissue embedding distance)进行比较。组织本体论距离被定义为两个组织节点到组织层次结构中最低共同祖先节点的最短路径长度之和,而组织嵌入距离是相应组织表示之间的余弦距离。作者预期这些距离之间存在正相关关系:根据组织层次结构节点距离越远,对应的组织表示越不同。正如假设的那样,潜在空间中的嵌入距离与相同组织的组织本体论距离正相关(Spearman’s ρ = 0.36;P = ;图3c),而组织嵌入距离的分布不能归因于随机效应(Kolmogorov-Smirnov双侧检验0.50;P < 0.001)。当组织本体论随机打乱时,嵌入空间中的距离相关性显著下降(Spearman’s ρ = 0.005;P = 0.349;图3c)。由于PINNACLE使用元图系统地将组织结构整合到细胞类型和蛋白质表示中,因此PINNACLE的所有表示都内在地反映了这种组织结构。


PINNACLE 增强了 PPI 的 3D 结构表示

蛋白质-蛋白质相互作用(PPI)依赖于蛋白质的三维结构构象和蛋白质作用的细胞类型背景。然而,现有基于三维分子结构的人工智能(AI)模型生成的蛋白质表示缺乏细胞类型背景信息。作者假设,结合细胞背景信息可以更好地区分结合蛋白质和非结合蛋白质(图3d)。由于分子的三维结构(包含精确的原子或残基水平接触信息)为PPI网络(总结蛋白质之间的二元相互作用)提供了互补知识,作者预计上下文感知的蛋白质相互作用网络能够提高区分不同细胞类型中结合蛋白质和非结合蛋白质的能力。由于目前没有具备匹配的结构生物学和基因组读数的大规模数据集来进行系统分析,作者集中研究了PD-1/PD-L1和B7-1/CTLA-4相互作用蛋白,这些蛋白是癌症免疫疗法中重要的免疫检查点蛋白相互作用者。


作者比较了上下文感知和无上下文的蛋白质表示,用于结合蛋白质(即PD-1/PD-L1和B7-1/CTLA-4)和非结合蛋白质(即其中一个结合蛋白质与RalB、RalBP1、EPO、EPOR、C3或CFH配对)。通过将这些蛋白质表示与PINNACLE的蛋白质表示拼接,作者将细胞类型背景纳入基于三维结构的蛋白质表示中(图3e)。无上下文的蛋白质表示是通过将基于三维结构的表示与PINNACLE在所有细胞类型背景下的蛋白质表示平均值拼接生成的。结合蛋白质和非结合蛋白质的上下文表示得分(通过余弦相似性计算)分别为0.9690 ± 0.0049和0.9571 ± 0.0127。使用PINNACLE的特定背景蛋白质表示(不包含三维结构信息),结合蛋白质和非结合蛋白质的得分分别为0.0385 ± 0.1531和0.0218 ± 0.1081。相比之下,使用无上下文表示时,结合蛋白质和非结合蛋白质的得分分别为0.9789 ± 0.0004和0.9742 ± 0.0078。此外,比较相互作用与非相互作用蛋白质之间得分差距,PINNACLE的上下文表示在PD-1/PD-L1和B7-1/CTLA-4中的得分差距分别为0.011和0.015(P = 0.0299),而无上下文表示在PD-1/PD-L1和B7-1/CTLA-4中的得分差距仅为0.003和0.006(图3f)。结合生物背景信息可以更好地区分特定细胞类型中的蛋白质相互作用和非相互作用蛋白质,这表明PINNACLE的上下文表示可以增强基于三维蛋白质结构的表示。建模涉及免疫检查点蛋白的上下文依赖相互作用,可以加深对这些蛋白在癌症免疫疗法中使用方式的理解。作者的基准测试结果进一步表明,结合背景信息可以改进蛋白质相互作用的三维结构预测。

编译 | 黄海涛

审稿 | 曾全晨

参考资料

Li, M. M., Huang, Y., Sumathipala, M., Liang, M. Q., Valdeolivas, A., Ananthakrishnan, A. N., ... & Zitnik, M. (2024). Contextual AI models for single-cell protein biology. Nature Methods, 1-12.

DrugAI
关注人工智能与化学、生物、药学和医学的交叉领域进展,提供“原创、专业、实例”的解读分享。
 最新文章