DRUGAI
今天为大家介绍的是来自Tea Pavkov-Keller团队的一篇论文。自然界的对称性往往源于自组装过程,且具有多种功能。细胞表面层(S层)在许多细菌和古菌细胞中形成对称的晶格,发挥着促进细胞黏附、逃避免疫系统以及抵抗环境压力等重要作用。然而,由于S层的自组装特性和高度的序列多样性,其结构的实验表征具有挑战性。本研究介绍了SymProFold,该框架利用AlphaFold-Multimer的高精度预测,从蛋白质序列中推导出对称的组装体,重点关注二维S层阵列和球形病毒衣壳。该流程测试了这些系统中已知的所有对称操作(p1、p2、p3、p4和p6),并识别出最可能的组装对称性。预测的结构通过现有的细胞水平实验数据进行验证,此外使用了额外的晶体结构以确认多个SymProFold组装体的对称性和界面。总体而言,SymProFold框架能够准确预测与关键功能相关的对称蛋白质组装体,从而为在纳米技术、生物技术、医学、材料和环境科学等多个领域的应用提供了可能性。
对称性模式是从微观到宏观尺度普遍存在的基本特征。在分子层面上,对称性的驱动力是自组装,即个体组分通过相互作用自主组织成更大的有序结构。许多蛋白质具有对称结构,这对于它们的功能至关重要。
表面层(S层)是覆盖许多真细菌和古细菌菌株细胞包膜的二维多孔晶体蛋白阵列。S层由一个或多个(糖)蛋白亚基构成,这些S层蛋白(SLPs)通过熵驱动的过程自组装成高度灵活且动态的晶格,能够根据环境条件的变化进行结构适应。目前已知,S层具备多种功能,包括维持细胞稳定性、促进细胞黏附、充当分子筛并帮助适应渗透压应激。然而,每个S层的确切功能和组装特性仍不完全清楚。此外,S层为生成复杂的超分子组装体提供了独特的结构基础,具有广泛的应用潜力,特别是在纳米生物技术、生物仿生学、生物医学和合成生物学等领域。
传统的结构解析方法由于S层的超分子组装特性,通常难以获得完整组装的S层的原子分辨率结构。确定完整组装的S层结构仍然是一个挑战,目前仅有少数物种的S层实现了原子级别的解析。随着RoseTTAFold、AlphaFold2和AlphaFold-Multimer等结构预测程序的发展与精度的快速提升,这些工具正在弥补实验结构缺失与蛋白质相互作用之间的差距。在此,作者提出了SymProFold框架,该框架能够在不依赖对称性或寡聚状态等先验知识的情况下,仅凭序列信息作为输入,预测具有特定对称性和晶胞参数的完整组装蛋白质,相较其他方法更具优势。
模型部分
图 1
SymProFold的核心理念是结合S层中观察到的自然对称模式和寡聚体预测,以生成完整组装层的模型。整体工作流程概览如图1所示。
SymProFold使用fasta格式的序列文件作为输入,并通过AlphaFold-Multimer进行同源二聚体预测以检查其可预测性。同源二聚体的预测根据ipTM+pTM评分进行打分,评分的计算方法为ipTM得分的80%和pTM得分的20%。
接下来,需要在fasta文件中定义蛋白质的结构域,各结构域之间用换行符分隔。结构域边界可以手动设置,也可以使用自动化识别工具。两种方法都从使用AlphaFold预测全长蛋白质单体结构开始。在一个迭代过程中,小的结构域子部分会被合并,直到它们描述完整的结构域。初始的结构域子部分是通过局部次级结构的交联形成的链范围。通过分析接触面积、表面积及子部分序列长度之间的关系,相邻的结构域子部分会不断合并为更大的结构域子部分。当合并达到饱和状态时,迭代过程结束。在后处理步骤中,会为各结构域之间的连接区找到一个裁剪点,以最小化两个结构域之间的接触。在fasta文件中定义好结构域后,将生成一组五种不同的蛋白质子链,具体包括:全长序列、去除N端的子链、去除C端的子链、包含结构域前三分之一的子链,以及包含结构域后三分之一的子链。
对于每个子链,算法会启动不同的寡聚体预测(包括二聚体、三聚体、四聚体和六聚体)。每种预测会计算五个模型,并对生成的对称复合物进行评估和进一步处理。所有预测都要评估是否存在一个旋转对称轴,可以将寡聚体预测中的所有子链组分相互对齐,从而满足对称性要求。因此,算法会检查单体之间的夹角是否符合2、3、4或6倍旋转对称性,并且相关的旋转对称轴是否在允许的误差范围内(每个单体最大偏差5 Å)。具有ipTM+pTM评分≥0.20且单体之间存在界面的模型被视为对称复合物。每个复合物的旋转对称轴的阶数(k重)是根据其对称角度(2、3、4或6倍旋转对称轴)推导出来的。例如,某个SLP的子链的三聚体预测可能形成一个p6 S层,其旋转对称轴可以是3倍轴(Δφ = 120°)或6倍轴(Δφ = 60°)。在后者的情况下,6倍对称轴的特性由3个预测亚基来描述,而不是6个。
将来自两个不同聚类(对称轴)的对称复合物对进行测试,评估它们是否可能通过重叠区域的叠加形成重复的二维组装。至少一个结构域必须构成重叠区域。要测试的对称复合物对根据聚类中得分最高的指标选择。如果没有明确结果,可以测试来自不同聚类且ipTM+pTM评分较低的更多对称复合物对。对于一对对称复合物(A,B),首先将旋转对称阶数较高的对称复合物(A)在z方向对齐,然后通过重叠叠加补充相应数量的另一个复合物(B)的副本。对称复合物通过ChimeraX的matchmaker方法进行叠加。随后,将对称复合物B的旋转对称轴使用A和B之间的连接区作为支点对齐至z方向。接着,通过重叠叠加,用A的副本补充B,并对齐旋转对称轴。
组装好的S层叠加后,通过每个残基的平均分子间碰撞数和组装的弯曲评分进行评分。组装弯曲性通过对称复合物A和B的旋转对称轴之间的轴向倾斜来评估。弯曲评分是中心对称复合物A的轴与最近邻的对称复合物B的轴之间角度的均方根偏差(RMSD)。该评分经过标准化处理,使得0弧度(0°)的角度对应弯曲评分为0,π/2弧度(90°)的角度对应弯曲评分为1。将每个残基的平均碰撞数(公式(1))与弯曲评分(公式(2))相加,得到组合质量评分(公式(3))。
使用确定的晶胞参数创建一个精确的晶胞。为了获得最佳模型,可以通过调整对称复合物对来优化质量评分。最终输出为一个mmcif文件,其中包含原始晶胞、晶胞参数和用于生成对称配对的对称操作,从而得到完整组装的S层。
公式1、2、3
使用实验数据对模型进行评估
表 1
作者选取了来自革兰氏阳性菌(Gram-positive bacteria)、革兰氏阴性菌(Gram-negative bacteria)和古生菌的多种S层蛋白,并使用实验发表的数据验证计算的组装模型(表1)。SymProFold提取的组装模型的晶胞参数与文献值一致(表1)。若有实验显微数据可用,作者也将这些数据与模型进行了比较(图2)。
图 2
总体来看,作者的预测结果在结构域排列和组装方面与已发表的数据吻合,晶胞参数的平均差异为5%(表1)。SymProFold预测的S层组装模型揭示了实验研究中提供有限且不明确的详细结构信息。对于气单胞菌、萘假芽孢杆菌、深海嗜热菌、甲烷球菌、热球菌、还原硫热球菌和伏尔加杆菌的S层,目前尚无关于晶胞参数、结构或对称性的实验数据。然而,SymProFold对这些S层的预测显示出较高的输出评分,表明了这些S层可能的对称性和结构架构(图3)。
图 3
目前确认所提出组装体的原子级高分辨率实验数据非常稀少。基于作者对阿尔维绿芽孢杆菌和甲烷球菌的预测模型,作者设计了只包含形成四重轴或二重轴的结构域的构建体。作者成功获得了这两个构建体的晶体结构(PDB 9FS9; PDB 9FSA),并将其与预测模型进行了比较(图2G、H)。将晶体结构与SymProFold模型对齐后,发现高度相似,阿尔维绿芽孢杆菌的RMSD值为0.65 Å,甲烷球菌为1.38 Å,这进一步验证了作者的预测组装结果。最近,炭疽芽孢杆菌EA1和海洋氨氧化菌Nitrosopumilus maritimus的SLP高分辨率结构也公开了出来,而SymProFold框架预测的十分准确,高度一致。
编译 | 黄海涛
审稿 | 王梓旭
参考资料
Buhlheller, C., Sagmeister, T., Grininger, C., Gubensäk, N., Sleytr, U. B., Usón, I., & Pavkov-Keller, T. (2024). SymProFold: Structural prediction of symmetrical biological assemblies. Nature Communications, 15(1), 8152.