病毒糖蛋白驱动包膜病毒的膜融合并决定宿主范围、组织向性和致病机制,对了解病毒的特性非常重要。作为一种非常重要的病毒科,黄病毒科这个庞大的病毒家族包括了丙型肝炎病毒、登革热病毒和寨卡病毒等病原体,以及许多人类、动物病毒和一些新发现的病毒。但是,人们对黄病毒科中的糖蛋白的了解仍然不足,许多黄病毒的糖蛋白尚未确定,而其中很多病毒的膜融合的分子机制仍未确定。
糖蛋白是黄病毒科病毒表型特征的重要决定因素之一,对于病毒入侵至关重要,影响宿主范围和溢出潜力,是宿主免疫反应的主要目标。然而,黄病毒科病毒中许多物种的糖蛋白尚未被鉴定和/或分类,由于序列差异很大,即使是最灵敏的基于序列的方法也无法解决这个问题,而经典结构生物学缺乏对足够物种进行采样的速度和可扩展性。这种知识差距限制了对分子机制的研究,阻碍了疫苗等干预措施的开发。
为解决这些问题,来自悉尼传染病研究所、MRC-格拉斯哥大学病毒研究中心、东京大学医学科学研究所和香港的健康数据发现实验室有限公司的研究团队进行合作,通过机器学习方法预测蛋白质结构,并增强了传统系统发育学,全面绘制黄病毒科的糖蛋白结构。
相关研究以「Mapping glycoprotein structure reveals Flaviviridae evolutionary history」为题,于2024年9月4日发表在《Nature》杂志上[1]。
一、背景和核心框架
黄病毒科是一个高度多样化有包膜的RNA病毒家族,对人类健康构成严峻威胁。现有重建该RNA病毒家族进化史的方法依赖于高度保守的病毒蛋白的系统发育分析[2]。尽管这些模型有较大实用性,但定义病毒生物学和发病机制的功能和特征通常由保守复制机制之外的高度发散序列编码,因此很难检测到深度序列同源性,使得这些模型难以开展可靠的多序列比对和系统发育分析。
为解决这一问题,Jonathon等人将系统发育分析与蛋白质结构预测相结合,以调查整个黄病毒科的糖蛋白。作者通过机器学习开展蛋白质结构预测以增强传统系统发育学,从而全面绘制黄病毒科的糖蛋白结构。这提供了整个家族的进化和基因组规模视角,揭示了定义黄病毒科内发现的多样化病毒学和生态学的分子特征。该模型主要包括以下几个模块:
(A)采用RdRp系统发育揭示黄病毒科内的主要谱系
(B)探究DENV-2 NS3晶体结构和ColabFold预测的多蛋白相应区域的结构
(C)展示MSA深度和预测置信度(pLDDT)的散点图,分析每个属或亚类中每个序列块的MSA深度
(D)使用散点图表示每个属或亚群中每个序列块的ColabFold和ESMFold的预测置信度
要了解黄病毒科分子特征的进化,需要正确衡量该科的系统发育和基因组多样性。为此,作者首先构建了一个全面的黄病毒序列数据集,经过聚类和手动整理后,该数据集包含458个具有完整编码序列的黄病毒基因组。然后作者为这些数据推断出一个稳健的科级系统发育树,并推断出该科的系统发育树共225个。
接着,作者使用其最佳拟合的RdRp系统发育支持将黄病毒科划分为三个不同的演化支:(1)正黄病毒/荆门病毒组;(2)由大基因组黄病毒和瘟病毒属成员组成的演化支;(3)帕金病毒属/丙型肝炎病毒演化支。无论该树是无根的,还是以番茄病毒科外群为根,瘟病毒和正黄病毒/荆门病毒组都聚集在一起并形成帕吉病毒/丙型肝炎病毒科演化支的姐妹群,其中正黄病毒/荆门病毒进化枝的分类单元数量最多,其次是培吉病毒/丙型肝炎病毒,而该研究中发现的所有新分类单元均属于大基因组黄病毒/猪瘟病毒进化枝。
作者然后使用机器学习预测蛋白质结构和探索黄病毒科的蛋白质功能。所有黄病毒都编码多聚蛋白,这些多聚蛋白经过水解后会成为熟释放出病毒组成蛋白,但是不完整的基因组注释和上广泛的序列分歧使得很难可靠识别所有物种中编码每种成熟蛋白质的区域。因此,作者采取了一种基因组不可知的方法,其中多聚蛋白编码序列被分成连续重叠的300个残基块,并通过两个领先的预测模型ColabFold-AlphaFold2(ColabFold)[3] 和ESMFold [4] 进行结构推断,为黄病毒科的蛋白质结构提供了全面的调查。
由于蛋白质结构预测尚未系统地应用于病毒学,作者首先评估了折叠性能。ColabFold 对许多病毒物种的表现非常出色,但它的准确性与指导结构推断的MSA的深度成正比,而浅MSA会产生低置信度预测。这对于大基因组黄病毒来说尤其成问题,因为它们的采样率很低,因此在序列数据库中代表性不足,导致MSA始终很浅。而ESMFold的结构推断由蛋白质语言模型驱动,不需要MSA,但是其准确度不如ColabFold。折叠置信度比较表明,在三个主要黄病毒科进化枝中,ColabFold的表现始终优于ESMFold。然而,对于大基因组黄病毒,ESMFold可以从ColabFold无法预测的序列中得出有用的预测,这对下游分析非常重要。
二、黄病毒科糖蛋白挖掘
为了进行基准测试,作者使用最先进的基于序列的方法进行比较。现有方法即使对高度保守的靶标也无法检测到深度同源性。相比之下,该文章使用Foldseek开展相关研究,其结果表现出了很强的灵敏度,尽管聚乙烯吡咯烷病毒/丙型肝炎病毒和瘟病毒E1之间的氨基酸序列同一性仅为10-15%,本文的方法仍能成功检测到它们之间明确的结构同源性。针对E1、猪细小病毒/丙型肝炎病毒和瘟病毒E2在结构上有所不同, Foldseek确定了它们相互的结构相似性,重点关注了E2的C端部分,其中序列同一性范围为8.5%至15%。E1和E2的分布几乎完全相关,这与机械相互依赖性一致。具体的分析结果如下所示:
作者将E糖蛋白的结构同源物映射到正黄病毒、正黄病毒样病毒、荆门病毒、大基因组黄病毒和瘟病毒样病毒物种,这些物种是经典瘟病毒属的基础。对于差异最大的序列,检测需要其ESMFold结构,这凸显了使用互补预测方法的价值。此外,一个值得注意的例外是在环境样本中发现的一组未知宿主的病毒,其中未鉴定出任何糖蛋白。
该实验分析结果表明对于大多数E糖蛋白同源物,预测的结构足以识别域II尖端的疏水融合环,该环插入宿主膜中,是II类融合机制的核心特征。然而,荆门病毒E同源物中没有融合环,表明这些病毒在机制上存在相当大的差异。因此作者在正黄病毒和一些正黄病毒样病毒中检测了prM伴侣糖蛋白,而prM的一个关键功能是在粒子成熟过程中阻塞E的融合环,这使得在其他进化枝中找到直系同源伴侣成为可能。
三、大型基因组黄病毒中的新型和获得性蛋白质
所提出的结构引导方法可以为不同和/或特征不明显的病毒提供新的见解。以Bole蜱病毒4(BTV4)为重点,作者检查了E糖蛋白同源物附近的多聚蛋白的N端部分。作者使用裂解位点预测来识别五个假定的蛋白质编码序列,使用三种方法预测蛋白质结构,即ESMFold、ColabFold和使用手动整理的MSA的 ColabFold方法,使用这些方法对每个大型基因组黄病毒中的序列生成的最高置信度模型的结果分析图如下图所示:
作者使用Foldseek研究了这些蛋白质结构在大型基因组黄病毒/瘟病毒进化枝中的分布情况,在整个大型基因组黄病毒中以及在蜘蛛和软骨鱼中发现的类似于瘟病毒的病毒中都检测到了BTV4 E糖蛋白的同源物,这些病毒属于经典瘟病毒属成员的基础。使用近端参考,即BTV4 E糖蛋白,作者提供了在瘟病毒起源时,E丢失和E1E2增加的证据。相比之下,假定的伴侣蛋白仅限于Bole蜱病毒亚进化枝,并且针对当前蛋白质数据库进行结构相似性搜索未发现同源物。因此,这些蛋白质可能是这些病毒特有的适应性特征。
由于BTV4 RNase T2在整个Bole蜱病毒亚进化枝中都有同源物,尤其是在瘟病毒属中,同源性与Erns核糖核酸酶相似。从系统发育上看,大型基因组黄病毒/瘟病毒Erns在病毒、细菌、植物和动物的同源RNase T2序列中形成了一个深分支。总之,这表明Erns起源于瘟病毒和大型基因组黄病毒的远祖,可能来自细菌RNase T2的单次水平基因转移。此外,Erns的分布与RdRp系统发育大致一致,这表明Erns在某些物种中持续保留,而在其他物种中则丢失,而不是在进化枝内进行遗传交换。此外,类巢病毒和类维尔加病毒的RNase T2的更多实例也嵌套在Erns树中,这表明基因转移到了其他RNA病毒中。
四、黄病毒科的进化史推断
该文章所建立的方法能够发现整个黄病毒科的糖蛋白,以及其他特征。为了更好地理解导致这种分子特征分布的进化事件,作者利用了一种利用结构保守性的方法来指导和增强传统的基于氨基酸的进化分析。这些分析揭示了共识水平的糖蛋白序列相似性,表明有共同的祖先,可以通过系统发育建模进行估计,具体的分析结果如下图所示:
(A)基于3Di的E结构系统发育,使用灵活的FATCAT49叠加的代表性结构,以西尼罗河病毒E蛋白的ColabFold模型为参考
(B)结合3Di和基于氨基酸的E1结构系统发育,比对表明E1螺旋发夹和跨膜结构域具有共识水平的同源性
(C)E2蛋白的3Di和基于氨基酸的结构系统发育图,提供了E2背层、茎和跨膜结构域的共识水平同源性
(D)黄病毒科的拟议进化史,说明性分支图显示了黄病毒科主要分支中关键蛋白质的获得和丢失事件
最佳E糖蛋白系统发育主要反映了RdRp树,其中来自正黄病毒、正黄病毒样病毒荆门病毒和大型基因组黄病毒的E同源物分布在各个亚支中。值得注意的是,蜘蛛瘟病毒样病毒中的E蛋白同源物属于大型基因组黄病毒糖蛋白支,类似于RdRp树拓扑。这再次表明E1E2 的获得往往伴随着E的丧失,是瘟病毒从大型基因组黄病毒的祖细胞中出现的决定性事件。
同时,E1和E2系统发育都表明尽管培吉病毒/丙型肝炎病毒和瘟病毒属组在RdRp系统发育中是并系的,它们具有共同的糖蛋白祖先。值得注意的是,温岭海鳗丙型肝炎病毒位于聚乙烯吡咯烷病毒/丙型肝炎病毒和瘟病毒属E1和E2进化枝的交叉点,与深远的祖先一致。根据该综合分析,作者提出了一个由定义蛋白质功能的得失所塑造的黄病毒科进化史。对数据最简约的解释是,正黄病毒/荆门病毒和大型基因组黄病毒/瘟病毒属进化枝起源于拥有E糖蛋白并进行依赖于帽子的翻译的祖先。相比之下,聚乙烯吡咯烷病毒/丙型肝炎病毒进化枝起源于拥有E1E2糖蛋白且缺乏MTase的祖先,依赖于IRES的翻译。
与谱系2相比,谱系1经历了广泛的多样化。荆门病毒中发生了基因组分割,其E糖蛋白同时出现分化,包括其典型融合环的明显丢失。正黄病毒获得了 prM,它是E糖蛋白的伴侣,可能源自宿主的伴侣蛋白。姊妹谱系产生了大型基因组黄病毒和瘟病毒分支,其中祖先物种从细菌中获得了RNase T2,这表明糖蛋白系统通过属间水平基因转移而发生转变。
五、结论
该研究利用蛋白质结构预测在100多个物种中发现了以前未知的糖蛋白,并揭示了丙型肝炎病毒、聚乙二醇病毒和瘟病毒中E1E2之间明确的结构和序列相似性,表明属间存在遗传交换。即使在基础物种中,E 糖蛋白和E1E2之间也缺乏同源性,这为聚乙二醇病毒/丙型肝炎病毒和瘟病毒组中存在新型融合机制提供了迄今为止最有力的证据。通过与宿主趋向性进行比较,作者发现E1E2与脊椎动物的感染密切相关,表明分子对病毒学生态位具有承诺。
除了生物学见解之外,该工作还表明蛋白质结构预测和结构引导的同源性搜索优于基于序列的黄金标准方法,为病毒的进化提供了前所未有的清晰度。虽然基于AlphaFold的方法提供了无与伦比的准确性,但基于蛋白质语言模型的系统可能更有能力探索宏转录组学揭示的“病毒暗物质”。总之,该研究提供了一种新的最先进的方法来了解整个病毒圈中蛋白质功能的多样性和分布。
参考文献
[2]Neufeldt C J, Cortese M, Acosta E G, et al. Rewiring cellular networks by members of the Flaviviridae family[J]. Nature Reviews Microbiology, 2018, 16(3): 125-142.
[3]Mirdita M, Schütze K, Moriwaki Y, et al. ColabFold: making protein folding accessible to all[J]. Nature methods, 2022, 19(6): 679-682.
[4]Song Y, Yuan Q, Chen S, et al. Accurately predicting enzyme functions through geometric graph learning on ESMFold-predicted structures[J]. Nature Communications, 2024, 15(1): 8180.
目前已有1000+人关注加入我们