——主要结果——
1.识别AFDB中结构域的高通量方法
在本研究中,作者组合了三种结构域识别方法和结构分类算法识别已知的结构域(图1A,B)。通过这一流程,作者在AFDB中识别到了共3.65亿个结构域,比基于序列的识别方法多出一亿多个(图1C)。其中,单结构域蛋白和多结构域蛋白的比例约为42:55(图1Di),其中多结构域蛋白最多由20个结构域组成。对TED-100数据集中的平均预测局部距离差异测试分数(pLDDT)分析表明,TED-100数据集中绝大多数数据的pLDDT都很高,仅2%的数据落于pLDDT<50%的区域(Low,图1Dii)。考虑到作者的结构域划分方法中并没有参考模型的残基pLDDT,所以作者认为良好的pLDDT分数分布显示出其方法有效地识别出了AFDB中折叠良好的区域内合理的结构域。
2.TED数据集的CATH分类
除了序列聚类,作者还使用Foldseek和Merizo-search对所有TED-100结构域进行搜索,并与 CATH SSG5结构域比对,为1.94亿个结构域分配了CATH超家族(H)标签,4600 万个结构域分配了拓扑(T)层级标签。通过将Foldseek 预测的超家族进行HMM验证,作者发现约 1.71 亿超家族标签可通过 HMM 超家族比对确认(88.54%),另有180万个结构域(0.95%)可以在折叠层面得到确认。而Foldseek的1180 万个折叠预测和2030万个超家族预测未得到HMM比对的确认,这表明通过结构聚类相较于基于HMM 的序列聚类,CATH 标签的结构域覆盖率能够提升15.4%。
3. AFDB中折叠(Fold)的分布情况
比较CATH和TED-100数据集,作者发现在两个数据集中数量均位居前列的结构域包括:MFS泛底物转运蛋白样结构域、翻译因子和 FAD/NAD(P) 结合结构域。其中,在 TED 中显著富集的超家族包含典型的多药外排泵 AcrB。AcrB 是一种 RND 转运蛋白,构成细菌中的AcrAB-TolC外排泵的一部分,负责将抗生素等有害物质排出,从而助力抗生素抗性。此外,作者还分析了发现的新的超家族蛋白只属于某一生物域的频率(图2C)。作者通过PCA降维,对TED中的折叠在各个生物域中的出现频率进行分析,观察到各类折叠在生物域中的独特性。
4.高对称性结构
在这些聚类中,作者发现了一些前所未见的架构,例如11叶β螺旋桨、封闭的α环状 11螺旋桨,以及6螺旋桨等(图3)。作者还发现了一类由循环重复组成的结构,沿轴向延伸形成高度重复且对称的结构,作者称之为“延展重复”。图3最下部分展示了一些这些结构的示例,其中一些在重复单元之间包含高度多样化和无序的环状区域。这些结构与近期其他研究中报道的β-螺旋状折叠相似。
图3.高对称性结构示例
5.结构域对的相互作用
图 4Ci 中展示了ISP集的互作关系,其中如果两个超家族之间观察到至少一次交互作用,就在其间绘制一条路径。TED数据集发现了众多新相互作用,尤其是在CATH类别2和 3(全β和α-β类别)之间。超家族互作网络有助于识别出与多个其他超家族的互作的“枢纽”超家族(图4Cii)。图4D展示了两个枢纽超家族示例,可以看出TED数据集揭示了许多之前在CATH中未观察到的互作模式。这为未来探索结构域间互作提供了新的线索。
在该研究中,作者通过构建“结构域百科全书(TED)”,将 AFDB 中的结构细分为各个组成结构域,并通过 CATH 框架进行分类,从而扩充了结构数据。这不仅推进了结构与功能之间的关联研究,还为发现和重新定义新的折叠和结构域提供了线索,揭示了新的蛋白质折叠空间“暗区”。
[1] Andy M. Lau et al., Exploring structural diversity across the protein universe with The Encyclopedia of Domains. Science 386, 6721(2024). DOI: https://doi.org/10.1126/science.adq4946