【Science】通过结构域分类探究蛋白质宇宙的结构多样性

学术   科学   2024-11-04 20:12   北京  
背景——

AlphaFold系列结构预测算法的出现极大地拓展了已知的蛋白质结构空间,其中AlphaFold2算法为超过2.14亿条蛋白序列提供了预测结构,构成了庞大的AlphaFold蛋白结构数据库(AFDB)。AFDB的数据规模对传统的结构域发现工具带来了挑战。近日,伦敦大学学院(UCL)的David T. Jones课题组运用深度学习方法,对AlphaFold蛋白结构数据库中的结构数据进行结构域检测和划分,构建了“结构域百科全书(The Encyclopedia of Domains,TED)。他们共检测到3.65亿个结构域,比基于序列的方法多检测出1亿个,其中77% 的非冗余结构域与已知超家族相似,极大地扩展了结构域空间的代表性。此外,他们还发现了超过 1 万个新的超家族间结构相互作用和上千个新折叠。

——主要结果——

1.识别AFDB中结构域的高通量方法

蛋白质结构域的识别分为基于序列和基于结构的两类方法。其中,Pfam和Gene3D是基于序列方法的代表。Pfam数据库是蛋白质家族的集合,每个蛋白质家族由多序列比对和隐马尔科夫模型(HMMs)描述文件表示。Gene3D是基于蛋白质序列的结构域预测数据库,通过利用CATH分类的信息,使用序列比对和HMMs来预测蛋白质序列中的结构域。CATH、ECOD、SCOP和SCOPe则是主要的基于结构的蛋白结构域分类方法。

在本研究中,作者组合了三种结构域识别方法和结构分类算法识别已知的结构域(图1A,B)。通过这一流程,作者在AFDB中识别到了共3.65亿个结构域,比基于序列的识别方法多出一亿多个(图1C)。其中,单结构域蛋白和多结构域蛋白的比例约为42:55(图1Di),其中多结构域蛋白最多由20个结构域组成。对TED-100数据集中的平均预测局部距离差异测试分数(pLDDT)分析表明,TED-100数据集中绝大多数数据的pLDDT都很高,仅2%的数据落于pLDDT<50%的区域(Low,图1Dii)。考虑到作者的结构域划分方法中并没有参考模型的残基pLDDT,所以作者认为良好的pLDDT分数分布显示出其方法有效地识别出了AFDB中折叠良好的区域内合理的结构域。

1. 整体工作流程

2.TED数据集的CATH分类

作者通过MMseqs2对TED-100 中的3.24亿个结构域按序列聚类,并使用快速结构搜索方法与 CATH 代表结构域进行比对,最终生成了约1.21亿个聚类。其中大多数聚类包含单独的序列(约8100万),而最大的非单例聚类包含12,847个结构域。

除了序列聚类,作者还使用Foldseek和Merizo-search对所有TED-100结构域进行搜索,并与 CATH SSG5结构域比对,为1.94亿个结构域分配了CATH超家族(H)标签,4600 万个结构域分配了拓扑(T)层级标签。通过将Foldseek 预测的超家族进行HMM验证,作者发现约 1.71 亿超家族标签可通过 HMM 超家族比对确认(88.54%),另有180万个结构域(0.95%)可以在折叠层面得到确认。而Foldseek的1180 万个折叠预测和2030万个超家族预测未得到HMM比对的确认,这表明通过结构聚类相较于基于HMM 的序列聚类,CATH 标签的结构域覆盖率能够提升15.4%。

3. AFDB中折叠(Fold)的分布情况

作者使用 CATH 层级对 TED 中的折叠分布进行了评估。图 2A 显示了每个类别(alpha、beta和 alpha/beta)的前100个CATH超家族。相比于Gene3D,这些超家族在 TED-100中显著富集(图2B)。其中,大部分折叠(61%)在所有生物域中都存在,表明它们具有重要作用。有些折叠出现在两个生物域中(18.5%),而另一些则仅在古菌、真核生物和细菌中存在,占比分别为0.5%、9%和11%。

比较CATH和TED-100数据集,作者发现在两个数据集中数量均位居前列的结构域包括:MFS泛底物转运蛋白样结构域、翻译因子和 FAD/NAD(P) 结合结构域。其中,在 TED 中显著富集的超家族包含典型的多药外排泵 AcrB。AcrB 是一种 RND 转运蛋白,构成细菌中的AcrAB-TolC外排泵的一部分,负责将抗生素等有害物质排出,从而助力抗生素抗性。此外,作者还分析了发现的新的超家族蛋白只属于某一生物域的频率(图2C)。作者通过PCA降维,对TED中的折叠在各个生物域中的出现频率进行分析,观察到各类折叠在生物域中的独特性。

图2.TED数据集的CATH分类

4.高对称性结构

作者在前述的构建TED数据集的过程中,识别到了 4100 万个无法关联至 CATH 超家族的序列聚类。作者对其中具有高内部对称性的结构进行了分析。其中一个典型例子是各种 WD40 β螺旋桨结构,它们被视为独特的结构域架构,但显然由重复的结构域样单元组成。为识别类似结构域,作者使用SymD程序计算Z分数,将对称性Z分数>9的所有聚类代表归为一个包含6433个高对称性新折叠聚类的类别。

在这些聚类中,作者发现了一些前所未见的架构,例如11叶β螺旋桨、封闭的α环状 11螺旋桨,以及6螺旋桨等(图3)。作者还发现了一类由循环重复组成的结构,沿轴向延伸形成高度重复且对称的结构,作者称之为“延展重复”。图3最下部分展示了一些这些结构的示例,其中一些在重复单元之间包含高度多样化和无序的环状区域。这些结构与近期其他研究中报道的β-螺旋状折叠相似。

图3.高对称性结构示例

5.结构域对的相互作用

相较于基于序列的结构域分析方法,通过对AFDB中的全链多域蛋白模型的分析能够提供对结构域间相互作用关系的刻画。TED中包含总计 27,280,057 个互作结构域对实例,分为13,771个互作超家族对 (ISPs)。相比之下,CATH 中的互作结构域对实例仅196,234 个。其中,大多数TED 中的ISPs 的相互作用几何多样性与CATH中一致,少部分(5.4%)在 TED 中表现出多样性的增强,CIO(相互作用方向保持性)评分增加了 0.3。也有少量的 ISPs(2.4%)在CATH中更具多样性。

图 4Ci 中展示了ISP集的互作关系,其中如果两个超家族之间观察到至少一次交互作用,就在其间绘制一条路径。TED数据集发现了众多新相互作用,尤其是在CATH类别2和 3(全β和α-β类别)之间。超家族互作网络有助于识别出与多个其他超家族的互作的“枢纽”超家族(图4Cii)。图4D展示了两个枢纽超家族示例,可以看出TED数据集揭示了许多之前在CATH中未观察到的互作模式。这为未来探索结构域间互作提供了新的线索。

图4. 互作超家族对 (ISPs)
——总结——

在该研究中,作者通过构建“结构域百科全书(TED)”,将 AFDB 中的结构细分为各个组成结构域,并通过 CATH 框架进行分类,从而扩充了结构数据。这不仅推进了结构与功能之间的关联研究,还为发现和重新定义新的折叠和结构域提供了线索,揭示了新的蛋白质折叠空间“暗区”。


[1] Andy M. Lau et al., Exploring structural diversity across the protein universe with The Encyclopedia of Domains. Science 386, 6721(2024). DOI: https://doi.org/10.1126/science.adq4946


作者:郭   政
审稿:顾仲晖
编辑:王丽莹

GoDesign
ID:Molecular_Design_Lab
( 扫描下方二维码可以订阅哦!)

点击阅读原文即可查看文献链接‍‍
  • Andy M. Lau et al.

 

GoDesign
关注化学、生命科学和药物研发等领域的科研进展,提供“原创、专业、接地气”的文献解读。
 最新文章