导语 :AlphaFold蛋白质结构数据库(AFDB)[1, 2]提供了超过2.14亿个高质量预测的蛋白质结构,这些结构对理解蛋白质的功能与进化至关重要。然而,AFDB的庞大规模使得结构域的识别与分类变得困难,限制了其应用潜力。为此,本文开发了域百科全书(TED),旨在为AFDB中的蛋白质域提供系统的识别与分类资源。TED整合了深度学习与结构比较技术,识别了近3.65亿个域,涵盖超过100万个分类,显著扩展了AFDB的域检测能力,其中超过1亿个域是传统方法未能识别的。分析显示,77%的非冗余域与现有CATH域相似,验证了方法的有效性。此外,TED发现了AFDB中超过1万种新的超家族结构相互作用,扩展了已知的域超家族相互作用[4, 5]。TED揭示了数千种新折叠,显著扩展了已知折叠空间,并为未来的结构与功能分析提供了新的研究目标。对生命树上域分布的分析指向了一些重要的进化趋势,如某些折叠在所有超域中的高度保守性。通过识别高度对称和重复的域结构,TED促进了对AFDB结构多样性的理解,并展示了检测新变异的能力。本研究为蛋白质结构与功能提供了新见解,推动了生物信息学的前沿研究。TED作为全面资源,填补了传统方法的空白,为未来研究开辟了新的可能性,助力于理解蛋白质的复杂性与多样性。
原文链接:
https://www.science.org/doi/10.1126/science.adq4946
一、研究背景
AlphaFold蛋白质结构数据库(AFDB)是一项开创性的研究成果,涵盖超过2.14亿个UniProt序列,推动了蛋白质结构探索,对生命科学研究和结构基础的药物发现展现出巨大潜力。
尽管AFDB影响深远,但其庞大的数据规模使得传统工具难以应对,亟需新的策略和算法与计算硬件的协同。近期研究通过将AFDB模型划分为结构相似的蛋白质簇并分析其功能,推动了对AFDB的深入探索。
蛋白质域的发现可以通过基于序列和结构的方法实现,如Pfam和Gene3D。尽管基于序列的方法覆盖面广,但其检测能力有限,难以识别远缘亲属。相比之下,基于结构的分配提供了更高质量的域边界,但实验结构稀缺限制了其应用。
本研究对AFDB(版本4)进行了全面的域组成分析,涵盖来自超过2.14亿个蛋白质序列的3.65亿个假定域。域结构的识别通过三种自动解析方法的共识实现:Merizo、Chainsa和UniDoc,并利用Foldseek等结构比较方法,超过2.51亿个域被纳入CATH层级中。
二、研究方法
本研究的工作流程结合了三种先进的域解析方法和结构分类算法,以识别AFDB中的已知域结构(图1)。
图1:A. 总体工作流程 B. 全长目标的自动域解析
接下来我们将详细介绍图1工作流程中的三个部分。
2.1
数据集
本文的分析基于版本4的AlphaFold蛋白质结构数据库(AFDB),该版本包含214,683,829个UniProt序列的模型。为了避免过度代表偏差,大部分初步分析是在一个非冗余子集上进行的,该子集包含188,914,411个唯一的AFDB模型(TED-100)。在这些模型中,有38,944,835个目标是序列冗余的,而TED-100中包含13,175,417个目标(序列代表被选为排序列表中的第一个目标)。剩余的25,769,418个目标则独属于TED冗余数据集(TED-redundant)。
2.2
域分配
在AFDB中推导统一的域分配
TED-100和TED冗余数据集均经过了一种共识域解析工作流程,该流程利用了三种分割方法:Merizo、Chainsaw和UniDoc,并在其输出之间生成共识。每种方法均以AFDB模型的结构为基础,返回预测的域范围。对于UniDoc,由于其不对非域残基(NDRs)进行分类,模型首先通过Merizo解析以去除NDRs,然后使用UniDoc进行后续的域分割。总体而言,Merizo、Chainsaw和UniDoc分别识别出400,444,974、328,956,414和366,117,430个假定域区域,这一过程耗时数月,使用了伦敦大学学院的计算机集群。
2.3
域分类
使用Foldseek进行域分类
Foldseek经过基准测试,以评估在一个经过审核的CATH域集合上同源性和折叠分配的阈值。作者创建了一个包含3186个域的数据集,代表CATH类1至4,并按照30%的序列相似性进行聚类。利用遗传算法,作者确定了在98%精度水平下的CATH超家族(H级)和折叠(T级)匹配的阈值。对Foldseek的原始结果进一步后处理时,使用了H级和T级命中的自定义阈值。使用这些阈值,本文对所有324,389,697个中高置信度的域进行了扫描,结果在H级上获得了193,939,494次命中,在折叠级别上获得了16,026,530次命中。
域分类使用嵌入相似性
未被Foldseek匹配的域提交给内部的结构嵌入搜索方法(Merizo-search),以识别与CATH SSG5代表性数据集的匹配。Merizo-search使用一种名为Foldclass的深度学习方法将域结构编码为固定大小的嵌入。查询域通过Foldclass进行嵌入,然后与CATH域嵌入数据库进行比较,相似性通过余弦距离来确定。
TED-100域的序列聚类
TED-100域的序列使用MMseqs2进行聚类,强制要求序列相似性至少为50%,并且较短序列对较长序列的覆盖率至少为90%。然后,使用Foldseek和Foldclass方法识别的CATH标签填充序列簇。
2.4
新域识别
新域识别工作流程
本文的新域识别工作流程使用了几个过滤器,应用于未标记的CATH簇代表。首先,对41,879,858个域簇的代表进行评估,使用归一化回转半径和堆积密度。满足归一化回转半径<0.356和堆积密度>10.333的TED域被确定为球状域。若域包含的二级结构元素(SSE)少于六个,则不被视为新域。最终通过的数量为13,820,550。对剩余域应用plDDT过滤器,最终得到通过所有三个标准的8,612,318个簇,涵盖19,816,697个域。
过滤后的序列簇代表随后经受进一步的聚类和过滤。工作流程的下一步涉及使用Foldseek对剩余簇代表进行与PDB、CATH、ECOD和SCOPe域库的迭代搜索。
识别假定的新折叠
将剩余的240,674个候选簇视为可能的新域折叠的主要工作集进一步处理,旨在识别核心子集的域,这些域既是新颖的,又与良好折叠的蛋白质域的特征一致。首先分离出由高对称域组成的簇,通过SymD程序返回的Z得分识别具有高内部对称性的域,采用Z得分>9.0的阈值。
检测适当切割的新折叠域
本文重新训练了Foldclass网络的变体,以评估低对称簇的切割质量,识别脆弱的域切割。新的二元分类器版本根据分割质量对域进行评分,输出0到1之间的分数,指示切割的可能性。使用0.5的质量评分作为阈值,剔除不太可能正确切割的域。
剩余域通过Foldseek与CATH、ECOD和SCOPe数据库比较,采用TM得分阈值0.5和查询域覆盖率60%。最后,使用TM-align进行全面比较,确认7427个潜在的新域折叠。
通过计算每个候选域的嵌入向量与CATH、ECOD和SCOPe中k个最近邻(k=50)之间的均值欧几里得距离,对最终域列表按新颖性进行排序。
评估域间相互作用
本文定义域为相互作用,如果两个域之间至少有三个Cb原子(甘氨酸残基为Ca)在8 Å以内。相互作用模式的保守性使用相互作用方向保守性(CIO)度量进行评估。CIO得分为0表示完全保守,得分为1表示随机分布。本文评估了TED和CATH中共同存在的ISP的出现次数,使用log2(倍增变化)量化增强表达。
为了可视化CATH和TED中的ISP集合,本文使用层次边缘束缚图,并使用CATH层次结构作为虚拟公共根指南。本文分类每个超家族的ISP数量,分别为“小型”、“中型”或“大型”中心。
未建模序列的分析
AFDB排除了某些来自UniProt 2021_04版本的序列,因此这些序列未被TED覆盖。通过比较UniProt和AFDB的“accession_ids.csv”文件,本文发现共有10,749,213个序列未出现在AFDB中,其中5,304,757个序列被列为病毒。本文估算可能还有约5000万个结构域尚未被AFDB覆盖。
三、实验结果
在本研究中,3.1至3.8节探讨了通过高通量策略在AFDB中识别的TED结构域及其生物学意义。研究发现,TED识别了3.65亿个结构域,显著超过传统序列方法,且TED-100中单域与多域蛋白比例为42:55。在高对称结构分析中,识别出新颖折叠类型,展示了TED在新域发现中的潜力。此外,TED提供了丰富的域对相互作用数据,显著扩展了已知的相互作用集合。最后,研究还揭示了AFDB中冗余序列的结构多样性,强调了相同序列间的显著构象变化。这些结果展示了TED在蛋白质结构域识别和功能分析中的有效性。
3.1
高通量策略识别AFDB中的结构域
本文通过上述流程在AFDB中识别出总计3.65亿个“TED”结构域,比基于序列的方法多出1亿个。TED-100显示单域和多域蛋白质之间约42:55的比例,其中多域蛋白质的组成可达20个域。在TED-100中,仅有2.8%的目标(530万)缺乏可识别的域,而Gene3D和Pfam分别为33.9%(6410万)和26.2%(4940万)(图2)。这些目标要么完全由非域残基(NDRs)组成,要么在域分割方法中未达成共识。NDRs在古菌和细菌中约为10%,在真核生物中可高达30%。
图2:TED-100 中识别的单域和多域靶标的比例。(a) 根据 Gene3D、Pfam 和 TED 分配的域组成比较。(b) TED-100 分配按三个主要超界进行细分。
对TED-100的预测局部距离差异测试(plDDT)评分分析显示,大多数域评分为“非常高”至“高”,仅约2%落入最低评分等级。这表明本文的域识别流程有效地识别了AF2模型中良好折叠区域内的合理域。
3.2
TED域的CATH层级分类
TED-100中的3.24亿个域通过MMseqs2按序列聚类,并与CATH[6,7,8]代表性域比较,生成约1.21亿个聚类(50%序列同一性和90%最小覆盖率)。大多数聚类由单一序列组成(约8100万),最大非单一聚类包含12847个域。
使用Foldseek和Merizo-search对TED-100域进行CATH SSG5域搜索,使194百万域被赋予CATH超家族(H)标签,4600万域被标记为拓扑(T)级别。这些标签通过与更新的HMM库扫描进一步验证。约1.71亿个Foldseek的超家族预测得到确认(88.54%),而410万个Foldseek预测的CATH折叠匹配中,1600万可以通过HMM扫描验证。
聚类分为两类:7800万个聚类至少包含一个CATH标签成员,涵盖1.48亿个蛋白质;2600万个蛋白质在Pfam中没有域注释,3000万个在Gene3D中没有。剩余4100万个聚类没有CATH标签成员,可能是新折叠、极度分歧的亲属,或是错误模型,无法与已知折叠匹配。
3.3
TED对折叠表示的富集
本文使用CATH层级评估TED在AFDB中的组成,结果显示相较于Gene3D的基础序列命中,TED-100中各类别(α、β和α/β)的前100个CATH超家族显著富集(图3A)。这些折叠在生命树中的分布不均,大多数折叠(61%)在所有超界中共享,表明其生物学重要性。部分折叠在两个超界中存在(18.5%),而其他则相对排他性,分别在古菌、真核生物和细菌中仅有0.5%、9%和11%的CATH折叠。
图3:TED域的分类使用CATH层级
直接比较TED与CATH中的顶级超家族域计数,发现多个超家族在TED中排名前五,特别是与多药外排泵AcrB相关的超家族,显示出约1000倍的表示增加。
TED的结构搜索新增了18个古菌、1315个细菌和284个真核生物谱系的孔域超家族,这些在HMM搜索中未被捕捉到,可能揭示了细菌与真核生物之间的侧向基因转移等进化事件。
此外,TED还促进了对折叠在生命树不同分支中分布的研究。在193百万个带有超家族标签的TED域中,观察到一些折叠仅限于特定超界。相关发现通过主成分分析(PCA)进行了可视化。
3.4
高对称结构
通过TED工作流程,识别出4100万个无法与CATH超家族关联的序列聚类。对这些聚类的代表进行分析,识别未知域折叠。在审查时,意识到需要单独处理具有高内部对称性的重复结构。WD40β螺旋是一个例子,由域状单元的重复组成。使用SymD程序计算Z值,Z值大于9的聚类代表被归入6433个高对称性新折叠聚类。
在这些聚类中,发现了一些前所未见的结构,如11叶片β螺旋和封闭的α环状11螺旋推进器。此外,发现了一类由循环重复组成的结构,称为“突起重复”。这些域结构与β螺旋折叠空间中的其他螺旋折叠相似。
图4:高对称性域和突起重复的示例
3.5
新颖域及其在生命树中的分布
剩余的低对称性聚类通过Foldclass网络的变体进行评估,以识别低质量的域切分并评估新颖性。最终输出产生7427个假定域的聚类,显示这些域与任何已知折叠不同。通过基于密度的异常检测算法,本文对这些域按新颖性进行排名。超过四分之一的聚类对应于序列聚类级别的单体(1930个域),大多数新颖域来自细菌蛋白。
排名第一的新颖域是来自Candiatus Poseidoniales古菌的序列单体,其结构由成对的β链组成,形成闭合的扭曲发夹。该蛋白未在InterPro中记录,未有可用的基因本体(GO)术语。
图5:在TED中识别的新颖域集群示例
3.6
基于序列的新颖折叠和重复域的功能预测
本文使用基于序列的深度学习模型预测具有新颖折叠和重复的域的功能。结果显示,在假定的新颖折叠中,有1321个(7427中的18%)域分配了高置信度的GO术语,而在重复集中,有1419个(6433中的22%)域符合该标准。对预测具有锌结合和核酸结合功能的域进行检查,发现许多域包含合理的锌结合位点,部分构成锌指样超二级结构模体。对血红素结合特性的域进行分析,发现大多数域包含典型的血红素c结合模体。
明确的序列模体和与功能一致的结构特征表明这些新颖域可能具备预测的功能,需进一步研究验证其余预测功能的有效性。
图6:具有预测功能的新颖折叠
3.7
域对之间的相互作用
TED提供了探讨和比较域对配对相互作用的机会。TED包含27,280,057个相互作用域实例,分类为13,771个相互作用超家族对(ISPs),而CATH的相互作用域集仅包含196,234个实例。TED中ISPs实例数量的相对富集表明,大多数ISPs在TED中具有更多成员。
对于TED和CATH中共有的ISPs,评估了相互作用几何形状的多样性,发现大多数ISPs在TED中与CATH中的几何形状一致。TED中的大多数ISPs(10,701个)是独有的,未在CATH中观察到,而CATH中有2041个在TED中未见。
相互作用数据表明,TED大大扩展了已知域之间的相互作用集合。未来的工作将深入探讨这些相互作用数据,确定其在细胞过程中的功能角色,特别是个别蛋白的多域结构及其进化关系。
3.8
AFDB中冗余序列的结构
在AFDB中,总共有2.14亿个结构,其中近3900万个是其他蛋白质的确切序列重复(1300万个独特序列)。2600万个冗余蛋白组成TED冗余集。
这些冗余蛋白的AFDB模型之间存在差异,约42%的聚类(560万个)显示最大聚类RMSD超过1 Å。最大RMSD通常与域包装的变化有关,但在域折叠层面也可观察到变化。本文发现在链级别及AF2生成的PAE图中存在结构变异。
这一现象可能与不同MSA相关的蛋白质链替代构象有关。尽管输入的MSA应相同,但更大的差异超出了建模协议下模型预测后的放松步骤影响。
为进一步调查序列冗余聚类中的结构多样性,本文对TED冗余目标进行了域解析,识别出超过4000万个域,并从每个相同序列聚类中推导出一个共识结构。这使得能够研究相同序列间的域级构象变化,并识别出共识域的显著差异。
图7:AFDB中相同序列的结构多样性
四、总结
本文展示了一种通过将AFDB中的结构数据细分为组成域的方法,增强了数据的利用。这一方法使得通过CATH框架对结构分类成为可能,推动了结构与功能之间的关联,并有助于发现基于序列方法无法访问的折叠空间。与21个模型生物的数据集比较表明,TED工作流程识别出更多高质量的域,捕获了更多远程同源性。目前,TED为超过100万个分类群注释域,其中60万个已映射到TED-100中的CATH域,促进了更多的进化发现。
TED在AFDB中识别出超过1亿个域,覆盖范围远超基于序列的方法(如Gene3D和Pfam)。研究表明,原核蛋白中40%至65%由多个域组成,真核生物的比例更高,AFDB中单域与多域蛋白的比例约为42:55,明显高于Gene3D(29%)和Pfam(24%)。尽管AFDB中的结构质量一般较高,但庞大的数据规模意味着错误和异常是不可避免的。观察到相同序列的模型有时显著不同,可能与序列冗余副本有关。未来,TED将全面分析新折叠并将其纳入CATH层级,以更好地检测重复结构,并随着数据和用户需求的变化而不断发展。
参考文献
[1] M. Varadi et al., AlphaFold Protein Structure Database: Massively expanding the structural coverage of protein-sequence space with high-accuracy models. Nucleic Acids Res. 50, D439–D444 (2022). doi: 10.1093/nar/gkab1061; pmid: 34791371
[2] M. Varadi et al., AlphaFold Protein Structure Database in 2024: Providing structure coverage for over 214 million protein sequences. Nucleic Acids Res. 52, D368–D375 (2024). doi: 10.1093/nar/gkad1011; pmid: 37933859
[3] J. Durairaj et al., Uncovering new families and folds in the natural protein universe. Nature 622, 646–653 (2023). doi: 10.1038/s41586-023-06622-3; pmid: 37704037
[4] I. Barrio-Hernandez et al., Clustering predicted structures at the scale of the known protein universe. Nature 622, 637–645 (2023). doi: 10.1038/s41586-023-06510-w; pmid: 37704730
[5] A. Bateman et al., The Pfam protein families database. Nucleic Acids Res. 30, 276–280 (2002). doi: 10.1093/nar/30.1.276; pmid: 11752314
[6]I. Sillitoe et al., CATH: Increased structural coverage of functional space. Nucleic Acids Res. 49, D266–D273 (2021). doi: 10.1093/nar/gkaa1079; pmid: 33237325
[7]C. A. Orengo et al., CATH—A hierarchic classification of protein domain structures. Structure 5, 1093–1109 (1997). doi: 10.1016/S0969-2126(97)00260-8; pmid: 9309224
[8]T. E. Lewis et al., Gene3D: Extensive prediction of globular domains in proteins. Nucleic Acids Res. 46, D1282 (2018). doi: 10.1093/nar/gkx1187; pmid: 29194501
END
初稿|刘姝雅
复审|颜学明
终审|金耀初