DRUGAI
今天为大家介绍的是来自david baker团队的一篇论文。识别细菌的蛋白质-蛋白质相互作用并预测这些复合物的结构,有助于理解致病机制和开发传染病的治疗方法。在此,作者开发了RoseTTAFold2-Lite,这是一种快速的深度学习模型,利用残基-残基的共进化和蛋白质结构预测,在蛋白质组范围内系统地识别和结构化表征蛋白质-蛋白质相互作用。利用这个流程,作者在19种人类细菌病原体中搜索了7800万对蛋白质,识别出1923个涉及必需基因的高置信度预测复合物,以及256个涉及毒力因子的复合物。这些复合物中有许多之前并不为人所知;作者对其中12个预测进行了实验验证,其中一半得到了确认。这些预测的相互作用涵盖了核心代谢和毒力途径,从转录后修饰到酸中和,再到外膜机制,有助于加深对这些重要病原体生物学的理解,并为设计对抗它们的药物提供了依据。
理解致病菌的生物学对于人类健康和治疗至关重要。蛋白质-蛋白质相互作用(PPIs)是生物过程的核心,但许多相互作用仍未被发现,尤其是对于非模式生物。高通量实验,如双杂交筛选和亲和纯化结合质谱法,已被用于在各种生物中识别PPIs。然而,这些方法可能无法揭示瞬时相互作用,并且在非生理条件下容易出现非特异性相互作用,导致实验结果不一致,假阳性和假阴性的比率较高。相互作用的蛋白质往往共同进化,因此可以利用氨基酸共同进化来评估两个蛋白质相互作用的可能性。从正交蛋白的配对多序列比对(pMSAs)中提取的蛋白质之间的共同进化信息已被用于系统地在原核生物中识别PPIs,其准确性与实验筛选相媲美。将共同进化与基于深度学习的结构预测方法相结合,进一步提高了PPI预测的准确性,使得在酵母和人类中进行大规模PPI预测成为可能。
作者着手系统地识别并结构表征致病菌中的蛋白质-蛋白质相互作用。作者选择了19种细菌致病菌,涵盖6个门(phyla,界门纲目科属种的“门”),是导致人类病原体相关死亡的主要原因。这些生物与皮肤感染(金黄色葡萄球菌)、胃肠道感染(艰难梭菌、幽门螺杆菌、单核细胞增生李斯特菌和鼠伤寒沙门氏菌)、呼吸系统感染(军团菌、结核分枝杆菌、铜绿假单胞菌和肺炎链球菌)、尿生殖道感染(沙眼衣原体和解脲支原体)以及鼠疫(鼠疫耶尔森菌)相关。对于这些生物中的大多数,大规模的实验筛选已经识别出必需基因和毒力因子;这些结果总结在《必需基因数据库》和《毒力因子数据库》中。作者关注必需基因和毒力因子,因为前者为药物开发提供了抑制基本细胞功能和治疗传染病的靶点,而后者可能解释了致病性的分子机制。比较分析显示,不同致病菌之间的必需基因集合有很大重叠,但每种致病菌仍然拥有约100个独特的必需基因。相比之下,毒力因子在不同物种间差异显著,这表明毒力机制的多样性,作者试图通过所选的系统发育多样的物种集来捕捉这一多样性。
用于全蛋白质组范围内PPI识别的计算流程
图 1
为了筛选出数亿对蛋白质之间的PPI,作者首先寻求在不降低准确性的前提下提高PPI识别的计算效率。作者之前开发了一个双轨RoseTTAFold(RF双轨)网络,这是RoseTTAFold的简化版本,能够根据氨基酸序列预测蛋白质的三维结构。尽管RF双轨并未经过建模蛋白复合物或区分相互作用与非相互作用蛋白的训练,该网络产生的残基-残基距离图使得在全蛋白质组范围内以远超蛋白质共同进化统计分析的准确率检测PPI成为可能。同样,作者和其他研究人员使用AlphaFold(AF)来评估在低准确性的大规模筛选中识别出的相互作用;然而,AF的计算成本限制了其在全蛋白质组范围内的应用。AF-multimer(AFmm)经过训练用于建模已知蛋白复合物的三维结构,因此,它倾向于预测非相互作用对之间的PPI,表现出比AF在区分真实PPI与随机对之间更差的性能(图1b,上部)。
作者假设,一个专门训练于相互作用和非相互作用蛋白质对的轻量级网络,能够在准确性和速度之间取得平衡,从而有助于全蛋白质组范围内的PPI筛选。作者通过引入架构改进,修订了原始的RoseTTAFold网络,以提高准确性并减少层数,从而实现大规模筛选所需的快速计算(图1a和补充方法)。作者使用以下组合训练了该网络:(1)PDB中的单体蛋白质结构,(2)UniRef50序列的AF模型,(3)从PDB中提取的成对蛋白复合物结构,以及(4)随机的非相互作用蛋白质对。这四种类型的训练数据按1:3:2:2的比例混合。该模型使用掩码语言模型损失、残基距离图预测损失(distogram prediction loss)、帧对齐点误差损失(frame-aligned point error loss)、准确性估计损失(accuracy estimation loss)、键几何损失(bond geometry loss)和范德华能损失(van der Waals energy loss)进行训练。对于负的相互作用示例,作者在帧对齐点误差计算时忽略了链间区域,并要求网络预测链间区域的残基距离图位于“非相互作用区”。作者将结果网络命名为RoseTTAFold2-Lite(RF2-Lite),因为它类似于RoseTTAFold2架构,但参数更少,这是由于作者通过分块减少了参数数量。RF2-Lite在相同精度下在区分真实PPI方面比之前的RF 2-track表现更好,RF2-Lite对真实PPI的召回率介于RF 2-track和AF之间(图1b,上部)。尽管准确性有所提高,RF2-Lite的速度仍与RF 2-track相当,而且它的计算时间比AF少约20倍(图1b,下部)。
作者将直接耦合分析(DCA)、RF2-Lite和AF相结合(图1c)来识别和建模相互作用的蛋白质,并将这一流程应用于19种人类致病菌。为了监控流程的性能,作者基于STRING蛋白质-蛋白质相互作用数据库的信息,组建了一组正控制和约700倍大的负集。
作者构建了一个包含44,871个代表性细菌蛋白质组/基因组(每个物种一个)的数据库,这些数据来自美国国家生物技术信息中心(NCBI),并使用互为最佳匹配的标准来为每个蛋白质组中的每个蛋白质识别一个同源物。作者对这些同源序列进行了比对,并针对19种致病菌中的每一对蛋白质,通过连接相同物种的序列,将它们的多序列比对(MSA)合并生成配对多序列比对(pMSAs)。作者去除了那些无法通过AF(在AFDB中的平均预测局部距离差(pLDDT)测试低于50)的单体结构被可靠建模的蛋白质,并根据深度和质量对pMSAs进行了筛选:在总共1.402亿对蛋白质中,作者选择了7790万对(56%)具有较高的单体结构和MSA质量的蛋白质对。作者使用DCA评估了所选蛋白质对的残基-残基共同进化,发现DCA筛选出的770万对(10%)高分蛋白质对包含了79%的正控制(图1d,上部)。
在这770万对蛋白质对中,作者最初关注于包括至少一个毒力因子(根据毒力因子数据库)的14万对“试点集”以及83万对必需基因(根据必需基因数据库)。作者通过使用OrthoMCL v.6.10对19个物种的蛋白质进行同源群聚类,去除了该集合中的冗余。如果一个蛋白质对的同源物在多个物种中存在,作者只选择具有最高DCA分数的一对,最终得到457,310个代表性的PPI候选对。
作者使用RF2-Lite从“试点集”识别出可信的PPI,并观察到在使用RF2-Lite接触概率阈值为0.74时,可以在95%的精确度下达到28%的召回率(图1d,中部)。作者研究了是否使用较低的RF2-Lite阈值(接触概率0.05)选择候选PPI(46,609对,约占10%)进行AF分析能够提高召回率。RF2-Lite → AF流程仅将召回率提高到29%,精确度保持在95%(图1d,下部),但这需要使用比仅依赖RF2-Lite检测PPI多三倍的计算资源。因此,AF在区分真实PPI与随机对中的贡献有限,但对于获取预测蛋白复合物的高质量三维结构仍然至关重要。
连续使用DCA(选择前10%)、RF2-Lite(阈值0.05)和AF(阈值0.9)共同将随机对的总数减少了近一万倍,最终从“试点集”得到了562个高度可信的预测。识别出的二元蛋白复合物包括涉及必需基因的461个蛋白复合物(图1e,左)和涉及毒力因子的115个蛋白复合物(图1e,右)。进一步研究这些相互作用可能有助于理解致病机制以及开发疾病预防和治疗策略。“试点集”预测的蛋白复合物中,绝大多数(19%)在PDB中没有实验三维结构(BLAST e ≤ 0.00001,两个蛋白的相同性≥50%且覆盖率≥50%),且根据STRING数据库,有一半的复合物缺乏可信的实验支持。
为了深入了解这些病原体的结构和功能,作者将RF2-Lite到AF的流程应用于额外的382万对涉及必需蛋白质和具有治疗意义的生物过程,例如外膜机械装置。此次搜索额外预测出了3051个PPI。为了便于后续研究,作者将所有可信的模型存储到ModelArchive并在补充数据1中提供了额外的元数据。对预测的PPI进行检查后,发现少数蛋白质(特别是铁氧还蛋白和鲁布氧还蛋白)与许多随机蛋白质之间存在预测的相互作用,可能构成少量的假阳性中心。在存储到ModelArchive之前,作者移除了涉及这些潜在假阳性中心的405个PPI。
在一篇论文中涵盖这些蛋白复合物三维结构所能揭示的生物学见解的哪怕一小部分都很困难。在接下来的章节中,作者首先描述了一部分预测结果的实验验证,然后重点介绍了一些通过识别假定的PPI和计算建模蛋白复合物所揭示的生物学见解的例子。
实验验证
作者选择了两组预测的相互作用进行实验特征化。作者倾向于选择那些之前没有实验证据或强功能关联的PPI,因为验证这些相互作用可能提供新的生物学见解。第一组基于统计方法(GREMLIN)选择,用于PPI检测,这在深度学习方法开发和应用之前进行。该组用于探讨统计方法(DCA和GREMLIN)与深度学习方法在PPI检测上的准确性。第二组从最终预测的3,613个PPI中选择,目的是评估当前整个流程的准确性。
作者使用以下标准选择了第一组数据集:(1)距离至少20 kb(至少有20个基因间隔),(2)在PDB中没有同源复合物,(3)未预测具有相同的分子功能,(4)未注释为同一生物途径的一部分,以及(5)在STRING数据库中支持度不高(综合得分低于800)。根据DCA和GREMLIN,所有11对蛋白质对显示出强烈的共同进化,但其中五对未被RF2-Lite或AF预测为相互作用、。作者使用细菌双杂交系统(B2H)结合定量β-半乳糖苷酶测定法来测量这11对蛋白质的相互作用。
尽管DCA和GREMLIN提供了强有力的支持,但RF2-Lite或AF未预测为相互作用的五对蛋白质在B2H测定中未显示相互作用的证据。在RF2-Lite或AF支持的六对蛋白质中,有两对检测到报告基因激活,表明存在相互作用:一对来自军团菌的是铁硫簇结合蛋白lpg2881(Uniprot: Q5ZRK0)与未鉴定蛋白lpg0371(Uniprot: Q5ZYK1);另一对来自铜绿假单胞菌的是核糖体沉默因子RsfS(PA4005;Uniprot: Q9HX22)与含有PhoH样蛋白结构域的YbeZ蛋白(PA3981;Uniprot: Q9HX38)(图2a)。
图 2
对于另外一对蛋白质,来自单核细胞增生李斯特菌的是核质关联蛋白lmo2703(Uniprot: Q8Y3X6)与信号识别颗粒蛋白Ffh(Uniprot: Q8Y695),由于仅表达一种蛋白时出现了假阳性报告基因激活,作者无法对其相互作用进行实验评估。其余三对蛋白质未能产生阳性的报告基因信号;然而,B2H测定的假阴性结果并不一定排除真实相互作用的存在,因为可能存在蛋白表达和融合蛋白折叠的失败,以及筛选对弱和瞬时相互作用的敏感性不足。
对于通过B2H测定验证的两种PPI,尚无已发表的数据直接支持这两种蛋白质之间的功能或物理相互作用。然而,在这两种情况下,现有证据间接表明这些相互作用可能在生物学上具有相关性。来自军团菌的蛋白质对(lpg2881–lpg0371;Q5ZRK0–Q5ZYK1)与Rnf电子传输复合体的蛋白质同源(RnfB具有53%的序列同一性,RnfH具有36%的序列同一性)。由于该物种似乎缺乏复合体的其他组分,这些蛋白质在军团菌中的功能尚不清楚,而且其中一个蛋白质lpg0371还与RatAB毒素-抗毒素模块的抗毒素组分同源。然而,在编码完整Rnf复合体的物种中,RnfB和RnfH直接相互作用。来自铜绿假单胞菌的相互作用对包括核糖体沉默因子RsfS和含有PhoH样蛋白结构域的YbeZ蛋白。在营养耗尽或静止相生长期间,RsfS与核糖体蛋白L14结合,最终阻止30S和50S核糖体亚基的结合并抑制翻译。这有助于适应低营养条件并促进静止期的生存。YbeZ的功能尚不完全清楚,但它与RNase YbeY相互作用,两种蛋白质都需要参与16S核糖体RNA的处理和成熟。作者发现YbeZ和RsfS相互作用,表明核糖体组装和核糖体亚基处理的调控可能在铜绿假单胞菌中是相互关联的。
第二组验证集是通过深度学习方法选择的,包括六对蛋白质,这些蛋白质对在PDB中缺乏同源蛋白复合物,在STRING数据库中的支持也很少(只有一对的STRING分数超过600),且在基因组中距离较远(有一半的情况基因间隔超过100个基因)。作者主要关注由球状结构域组成的蛋白质(非球状结构域残基比例低于20%),因为这类蛋白质更适合进行异源表达的测定。通过共免疫沉淀(Co-IP)测定,作者检测到六对蛋白质中的四对存在相互作用(图2b–e)。这些包括作者之前通过B2H验证的一对Q5ZRK0–Q5ZYK1、一对来自大肠杆菌的远端编码蛋白质对,以及两对来自铜绿假单胞菌的近端编码蛋白质对。大肠杆菌的UbiE在泛醌(辅酶Q)和甲萘醌(维生素K2)的生物合成中催化碳甲基转移反应,而YcaR是一种在多项蛋白质组学研究中被检测到差异表达的小蛋白质,但尚未赋予其功能。铜绿假单胞菌的PA4105–PA4106(Q9HWS3–Q9HWS2)是未表征的蛋白质,通过初级序列比较没有已知功能的同源物,但使用FoldSeek v.8搜索发现这些蛋白质与来自溶藻弧菌maculicola菌株的TglI和TglH在结构上相似,这些蛋白质形成的复合物催化从TglA–Cys中去除半胱氨酸β-亚甲基(β-CH2),这是天然产物3-硫代谷氨酸(3-thiaGlu)生物合成的一个步骤。铜绿假单胞菌的Q9HZ78–P72139是一种在B型脂多糖生物合成中必需的酰胺转移酶(WbpG, Q9HZ78)和一种预测的咪唑甘油磷酸合酶亚基(HisF2, P72139)。此前有研究提出HisF2与HisH2一起向WbpG输送氨,这一假设得到了作者相互作用发现的支持。PtsH–PtsN(Q9HVV2-Q9HVV4)对在STRING数据库中支持度最高(得分为959),但未能在Co-IP测定中产生阳性信号;PtsH是一种组氨酸磷酸化的磷载体蛋白,紧邻PtsN编码,PtsN是一种含有磷转移酶成分的氮调节蛋白,这两种蛋白质之间的相互作用可能是短暂的,因此难以通过Co-IP检测到。
这些实验数据支持了计算基准分析,表明深度学习方法在PPI发现中的准确性优于统计方法,能够识别出更多已知生物途径的组成部分,并加速对未知功能蛋白质的表征。在接下来的章节中,作者将概述深度学习方法预测的更大规模但尚未经过实验验证的相互作用集;为了展示这些数据所能带来的见解,作者将为选定的相互作用对和高阶组装提供生物学背景。
编译|黄海涛
审稿|王梓旭
参考资料
Humphreys, I. R., Zhang, J., Baek, M., Wang, Y., Krishnakumar, A., Pei, J., ... & Baker, D. (2024). Protein interactions in human pathogens revealed through deep learning. Nature Microbiology, 1-11.