Nat. Methods | 单细胞蛋白生物学的上下文AI模型

学术 2024-08-29 00:02 韩国

DRUGAI

今天为大家介绍的是来自Marinka Zitnik团队的一篇论文。理解蛋白质功能和开发分子疗法需要解析蛋白质作用的细胞类型以及蛋白质之间的相互作用。然而，在不同生物学背景下建模蛋白质相互作用对现有算法来说仍然是个挑战。本文介绍了PINNACLE，一种几何深度学习方法，它生成上下文感知的蛋白质表示。利用多器官单细胞图谱，PINNACLE在上下文化的蛋白质相互作用网络上学习，生成394,760个蛋白质表示，这些表示来自24种组织的156种细胞类型背景。PINNACLE的嵌入空间反映了细胞和组织的组织结构，使得组织层次结构的零样本检索成为可能。预训练的蛋白质表示可以适应下游任务：例如，通过增强基于三维结构的表示来解析免疫肿瘤学的蛋白质相互作用，以及研究药物在不同细胞类型中的效果。PINNACLE在推荐类风湿性关节炎和炎症性肠病的治疗靶点方面优于最新模型，并且在预测能力上比无上下文模型更能准确定位细胞类型背景。PINNACLE根据其操作的背景调整输出的能力，为生物学中大规模的特定背景预测铺平了道路。

蛋白质在不同的生物背景中可以具有不同的作用。尽管几乎每个细胞都含有相同的基因组，但基因的表达和这些基因编码的蛋白质功能依赖于细胞和组织的背景。基因表达和蛋白质功能在健康和疾病状态之间也可以有显著差异。结合生物背景的方法可以改进蛋白质的表征，并提供精确的、特定背景的见解。然而，深度学习方法产生的蛋白质表示（或嵌入）是无背景的：每个蛋白质只有一个表示，这个表示来自于单一背景或跨多个背景的综合视图。这些方法为每个蛋白质生成一个表示，提供了综合摘要。无背景的蛋白质表示并未针对特定的生物背景（如细胞类型和疾病状态）进行定制。这些表示无法识别在不同细胞类型中变化的蛋白质功能，从而阻碍了对多效性和细胞类型特异性蛋白质角色的预测。

测量基因表达的单细胞测序技术为解决这一挑战铺平了道路。单细胞转录组图谱在许多细胞背景下测量活化的基因。通过基于注意力的深度学习，这些模型可以关注大量输入并学习每个背景中最重要的元素，可以利用单细胞图谱来增强驱动疾病进展的基因调控网络的映射，并揭示治疗靶点。然而，将蛋白质编码基因的表达整合到蛋白质相互作用网络中仍然是一个挑战。现有的算法，包括蛋白质表示学习，无法对蛋白质表示进行上下文化处理。

多尺度网络构建

图 1

生成有细胞类型上下文的蛋白质表征需要考虑相同背景的蛋白质相互作用网络。作者整理了一个上下文敏感的蛋白质互作组数据集，首先使用多器官单细胞转录组图谱，这个图谱包含来自15名供体的24个组织和器官样本（图1a）。作者通过评估每种专家注释的细胞类型相对于指定参考细胞集的平均基因表达，编译了该数据集中每种细胞类型的活化基因（见图1a）。在这里，“活化基因”被定义为在特定类型注释的细胞中平均表达水平高于数据集中其余细胞的基因。根据这些活化基因列表，作者从综合参考蛋白质相互作用网络中提取相应的蛋白质，并保留最大连接组件（图1a）。因此，作者得到了156个上下文感知的蛋白质相互作用网络，每个网络包含2530 ± 677个蛋白质，这些网络最大限度地类似于全局参考（global reference）蛋白质相互作用网络，同时具有高度的细胞类型特异性。作者的156个细胞类型背景的上下文感知蛋白质相互作用网络涵盖了62种不同生物规模的组织。

此外，作者构建了一个细胞类型和组织的网络（metagraph），用来建模细胞相互作用和组织层次结构。根据多器官转录组图谱提供的细胞类型注释，该网络包含156个细胞类型节点。作者根据显著的配体-受体（LR）相互作用在成对细胞类型之间加入边，并验证了这些相互作用对应的蛋白质在上下文感知的蛋白质相互作用网络中相比于空值分布具有富集性。利用测量细胞类型的组织信息，作者从24个组织节点开始，如果细胞类型来源于相应的组织，则在细胞类型节点和组织节点之间建立连接。接着，作者在组织层次结构中确定了24个组织节点的所有祖先节点，包括根节点，形成由父子关系互连的62个组织节点。因此，作者的数据集包括156个上下文感知的蛋白质相互作用网络和一个反映细胞类型和组织结构的元图。

模型部分

PINNACLE 是一种几何深度学习模型，能够基于不同细胞类型背景下的蛋白质相互作用生成蛋白质表示。PINNACLE在一组综合的上下文感知蛋白质相互作用网络上进行训练，并辅以一个捕捉细胞相互作用和组织层次结构的网络（图1b,c）。它生成的上下文蛋白质表示专门针对那些蛋白质编码基因被激活的细胞类型（图1d）。与无上下文模型不同，PINNACLE为每种蛋白质生成多个表示，每个表示都依赖于其特定的细胞类型背景。此外，PINNACLE还生成细胞类型背景和组织层次结构的表示（图1d,e）。这种方法确保了对蛋白质相互作用网络的多方面理解，考虑到蛋白质作用的多种背景。

在多尺度模型输入的基础上，PINNACLE通过优化统一的潜在表示空间来学习蛋白质、细胞类型和组织的拓扑结构。PINNACLE将不同的特定背景数据整合到一个上下文感知模型中（图1f），并在蛋白质、细胞类型和组织层次数据之间传递知识，以上下文化表示（图1g）。为了将细胞和组织结构融入这个嵌入空间，PINNACLE使用蛋白质、细胞类型和组织层次的注意力机制以及相应的目标函数（图1b,c）。从概念上讲，物理上相互作用的蛋白质对（即输入网络中由边连接的蛋白质）在嵌入空间中紧密相邻。类似地，蛋白质与其相应的细胞类型背景相邻，同时与不相关的背景保持相当的距离。这确保了在相同细胞类型背景下的相互作用蛋白质在嵌入空间中位置接近，但与其他细胞类型背景中的蛋白质分隔开。这种方法产生的嵌入空间准确地反映了蛋白质、细胞类型和组织之间关系的复杂性。

PINNACLE 通过一系列针对每个特定节点和边类型的注意力机制，在蛋白质、细胞类型和组织之间传播图神经网络的消息。蛋白质级别的预训练任务为蛋白质相互作用上的自监督链接预测和蛋白质节点上的细胞类型分类。这些任务使得 PINNACLE 能够构建一个包含上下文感知蛋白质相互作用网络拓扑和蛋白质细胞类型身份的嵌入空间。PINNACLE的细胞类型和组织特异性预训练任务完全依赖于自监督链接预测，促进了对细胞和组织结构的学习。细胞类型和组织的拓扑通过一个注意桥机制传递到蛋白质表示上，有效地将组织和细胞结构强加到蛋白质表示上。PINNACLE 的上下文化蛋白质表示捕捉到了上下文感知的蛋白质相互作用网络的结构。这些上下文化蛋白质表示在潜在空间中的区域排列反映了元图所代表的细胞和组织结构。这导致了在一个统一的细胞类型和组织特异性框架内对蛋白质的全面和特定背景的表示。

PINNACLE能够捕捉到细胞和组织的排列

图 2

作者展示了PINNACLE如何在嵌入空间中根据细胞类型背景定位蛋白质。首先，作者使用一种系统方法SAFE对PINNACLE的蛋白质嵌入区域的空间富集进行了量化。结果表明，PINNACLE的上下文蛋白质表示在嵌入空间中自组织，源自相同细胞类型背景的蛋白质表示在空间嵌入区域中富集（显著性截止值α = 0.05；图2）。

图 3

接下来，作者评估了嵌入区域，以确认它们是否按照细胞类型和组织身份分离，通过计算跨细胞类型背景的蛋白质表示之间的相似性来验证。同一细胞类型的蛋白质表示比不同细胞类型的蛋白质表示更相似（图3a）。相反，没有细胞或组织背景的模型无法捕捉跨细胞类型背景的蛋白质表示之间的差异（图3b）。此外，作者预期在多种细胞类型中起作用的蛋白质表示会很不同，反映出特定细胞类型的专门蛋白质功能。作者基于蛋白质在多少细胞类型中活跃来计算蛋白质表示的相似性（即，跨细胞类型背景的蛋白质表示的余弦相似性）。结果显示，蛋白质表示的相似性与其作用的细胞类型数量负相关（Spearman’s ρ = -0.9798；P < 0.001），而在关闭的细胞和组织元图的消融模型中，这种相关性较弱（Spearman’s ρ = -0.6334；P < 0.001）。

作者还检查了蛋白质嵌入区域是否按照组织层次结构进行组织。作者利用PINNACLE的组织表示进行零样本检索组织层次结构，然后将组织本体论距离（tissue ontology distance）与组织嵌入距离（tissue embedding distance）进行比较。组织本体论距离被定义为两个组织节点到组织层次结构中最低共同祖先节点的最短路径长度之和，而组织嵌入距离是相应组织表示之间的余弦距离。作者预期这些距离之间存在正相关关系：根据组织层次结构节点距离越远，对应的组织表示越不同。正如假设的那样，潜在空间中的嵌入距离与相同组织的组织本体论距离正相关（Spearman’s ρ = 0.36；P = ；图3c），而组织嵌入距离的分布不能归因于随机效应（Kolmogorov-Smirnov双侧检验0.50；P < 0.001）。当组织本体论随机打乱时，嵌入空间中的距离相关性显著下降（Spearman’s ρ = 0.005；P = 0.349；图3c）。由于PINNACLE使用元图系统地将组织结构整合到细胞类型和蛋白质表示中，因此PINNACLE的所有表示都内在地反映了这种组织结构。

PINNACLE 增强了 PPI 的 3D 结构表示

蛋白质-蛋白质相互作用（PPI）依赖于蛋白质的三维结构构象和蛋白质作用的细胞类型背景。然而，现有基于三维分子结构的人工智能（AI）模型生成的蛋白质表示缺乏细胞类型背景信息。作者假设，结合细胞背景信息可以更好地区分结合蛋白质和非结合蛋白质（图3d）。由于分子的三维结构（包含精确的原子或残基水平接触信息）为PPI网络（总结蛋白质之间的二元相互作用）提供了互补知识，作者预计上下文感知的蛋白质相互作用网络能够提高区分不同细胞类型中结合蛋白质和非结合蛋白质的能力。由于目前没有具备匹配的结构生物学和基因组读数的大规模数据集来进行系统分析，作者集中研究了PD-1/PD-L1和B7-1/CTLA-4相互作用蛋白，这些蛋白是癌症免疫疗法中重要的免疫检查点蛋白相互作用者。

作者比较了上下文感知和无上下文的蛋白质表示，用于结合蛋白质（即PD-1/PD-L1和B7-1/CTLA-4）和非结合蛋白质（即其中一个结合蛋白质与RalB、RalBP1、EPO、EPOR、C3或CFH配对）。通过将这些蛋白质表示与PINNACLE的蛋白质表示拼接，作者将细胞类型背景纳入基于三维结构的蛋白质表示中（图3e）。无上下文的蛋白质表示是通过将基于三维结构的表示与PINNACLE在所有细胞类型背景下的蛋白质表示平均值拼接生成的。结合蛋白质和非结合蛋白质的上下文表示得分（通过余弦相似性计算）分别为0.9690 ± 0.0049和0.9571 ± 0.0127。使用PINNACLE的特定背景蛋白质表示（不包含三维结构信息），结合蛋白质和非结合蛋白质的得分分别为0.0385 ± 0.1531和0.0218 ± 0.1081。相比之下，使用无上下文表示时，结合蛋白质和非结合蛋白质的得分分别为0.9789 ± 0.0004和0.9742 ± 0.0078。此外，比较相互作用与非相互作用蛋白质之间得分差距，PINNACLE的上下文表示在PD-1/PD-L1和B7-1/CTLA-4中的得分差距分别为0.011和0.015（P = 0.0299），而无上下文表示在PD-1/PD-L1和B7-1/CTLA-4中的得分差距仅为0.003和0.006（图3f）。结合生物背景信息可以更好地区分特定细胞类型中的蛋白质相互作用和非相互作用蛋白质，这表明PINNACLE的上下文表示可以增强基于三维蛋白质结构的表示。建模涉及免疫检查点蛋白的上下文依赖相互作用，可以加深对这些蛋白在癌症免疫疗法中使用方式的理解。作者的基准测试结果进一步表明，结合背景信息可以改进蛋白质相互作用的三维结构预测。

编译 | 黄海涛

审稿 | 曾全晨

参考资料

Li, M. M., Huang, Y., Sumathipala, M., Liang, M. Q., Valdeolivas, A., Ananthakrishnan, A. N., ... & Zitnik, M. (2024). Contextual AI models for single-cell protein biology. Nature Methods, 1-12.

http://mp.weixin.qq.com/s?__biz=MzU2ODU3Mzc4Nw==&mid=2247506494&idx=1&sn=3ac9578733bfad0916ee5c600a46dbd5

DrugAI

关注人工智能与化学、生物、药学和医学的交叉领域进展，提供“原创、专业、实例”的解读分享。

最新文章

AI2BMD登上Nature，以量子级精度推进蛋白质动力学

Nat. Comput. Sci. | 单步训练2个分子，主动深度学习远超传统筛选

Nat. Biotechnol. | 戴上启动帽，MIT王潇团队提出LEGO增强翻译能力

2024年上海交通大学溥渊国际青年科学家论坛

J. Chem. Inf. Model.｜利用化学语言模型导航超大虚拟化学空间

J. Pharm. Anal. | 化学自然语言引导基于扩散的生成式类药分子编辑

Nat. Mach. Intell. | CGN+CAN=CGN！Frad大尺度扰动分子提升属性预测

Nat. Commun. | 或为多领域带来启发？SymProFold准确预测对称蛋白质组装体

Nature | 蛋白质遗传结构很复杂？Ben Lehner使用加性能量模型得出相反结论！

Nat. Mach. Intell. | 宋江宁团队合作开发CD8+ T细胞受体识别抗原表位的预测新方法

礼来“三顾”口服小分子IL-17a抑制剂，DC-853成临床独苗，DC-806完成使命，退出舞台

全球首款间充质基质细胞药物获FDA批准开展临床试验

TPAMI | MVNA：自适应邻域感知的图卷积网络

Nat. Microbiol. | 加速版RoseTTAFold来了！RF2-Lite快速识别蛋白质-蛋白质相互作用

Nat. Genet. | 寻找基因-表型新关联！MILTON精准预测多种疾病

Angew. Chem. Int. Ed. | 通过荧光偏振和原位合成筛选抑制剂：加速药物发现的有效方法

Nat. Med. | 治疗罕见疾病，哈佛医学院提出TxGNN用于药物再利用

TPAMI | MVNA：自适应邻域感知的图卷积网络

Bioinf. | 双视图联合学习实现个性化药物协同预测性能的突破

J. Med. Chem. | 小分子药物研发的计算方法现状

J. Med. Chem. | DEL+AI，探索多样性“化学空间”

Cell |中山大学联手阿里云，LucaProt记录隐藏的RNA病毒圈

Nat. Biotechnol. | David Baker又一力作！ProteinGenerator蛋白序列、结构共设计

就在本周，10月27日第三届中国生物计算大会即将开幕！

Nat. Mach. Intell. | 基于提示学习的多性质分子优化方法

【Angew】来鲁华/张长胜团队在全原子蛋白质序列设计中取得新进展

Nat. Commun. | 开发深度学习联结自编码器实现多模态单细胞数据整合与插补工具

JCIM综述｜知识图谱嵌入技术在化学领域中的研究进展与应用

Nat. Methods | SCUBA-D无需预训练结构模型也能做好蛋白设计！秘诀是对抗性损失与序列扩散

MDGen：分子动力学轨迹的生成式建模

Nat. Mach. Intell. | 投毒！Scorpius揭示现有医学知识图谱存在巨大风险

Genome Biology | 一种用于肿瘤学多任务学习的可解释预训练多组学模型

Nat.Commun. | GearNet续作！GearBind模型助力抗体亲和力成熟

ICML2024｜知识感知的强化学习优化的蛋白质定向进化方法

Food Chem. | ChemSweet：人工智能驱动的下一代甜味剂快速筛选平台

中科院生物药国重室高薪诚聘核酸化学、核酸生物、AI生信方向博后

全球生物医药交易报告(2024第3季度)

Nucleic Acids Res. | 类器官与异种移植蛋白质组学数据与分析平台

西湖大学人工智能研究创新中心干细胞项目实习生招聘

第一届计算药剂学研讨会—制药4.0中的人工智能和建模

Nat. Commun. | 几何图学习助力酶功能预测，中大杨跃东团队提出GraphEC模型

Sci. Data | 德睿发布全球最大单性质ADMET开源数据集，大语言模型驱动

CADD筛选PROTAC新思路：利用非马尔科夫动力学模型发现亚稳态蛋白-蛋白界面

Nat. Catal. | 生成模型的妙用。RENAISSANCE精准解码细胞代谢

第二届AI药物研发算法大赛火热报名中，飞桨携手清华、Intel，探索药物研发新思路！

AI“横扫”诺奖，给AI制药带来什么启发？

德睿智药口服小分子GLP-1RA IIb期临床研究完成首剂量组给药

人工智能也可以通过思考来学习 | Cell Press科学新闻

议程公布！第三届中国生物计算大会，10.26-27日，苏州见（内含福利赠票）

荣誉授予人工智能！蛋白质设计和结构预测获2024年诺贝尔化学奖！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉