Science | 蛋白结构域百科全书

学术   2024-11-02 23:59   北京  

伦敦大学学院(University College London)David T. Jones以及Christine A. Orengo等研究人员通过基于结构的策略对AlphaFold Protein Structure Database (AFDB)数据集[1]中超2.14亿种蛋白的结构域进行了系统的重挖掘和分类;相对基于序列的方法[2], [3]提升了对远源结构域以及全新结构域的解析能力,新发现上千种对称以及非对称的折叠/结构域类型,以及上万种结构域超家族之间的互作[4], [5]。

基于该方法构建的数据库,研究人员称之为The Encyclopedia of Domains (TED,结构域百科全书),将帮助人们增进对结构域结构、功能以及演化的理解[4]。

基于结构的方法系统重挖掘和分类AFDB中的蛋白结构域,并解析新型折叠/结构域[4]。

该项工作2024年11月1日发表在Science[4]。

Comment(s):

其中一个关键是不知道新发现的结构域有多大比例是预测错误造成的,后续需要分层(长度、新颖程度等)随机抽样实验验证。

参考文献:

[1] M. Varadi et al., “AlphaFold Protein Structure Database in 2024: providing structure coverage for  over 214 million protein sequences.,” Nucleic Acids Res., vol. 52, no. D1, pp. D368–D375, Jan. 2024, doi: 10.1093/nar/gkad1011.

[2] A. Bateman et al., “The Pfam protein families database.,” Nucleic Acids Res., vol. 30, no. 1, pp. 276–280, Jan. 2002, doi: 10.1093/nar/30.1.276.

[3] J. Lees et al., “Gene3D: a domain-based resource for comparative genomics, functional annotation  and protein network analysis.,” Nucleic Acids Res., vol. 40, no. Database issue, pp. D465-71, Jan. 2012, doi: 10.1093/nar/gkr1181.

[4] A. M. Lau et al., “Exploring structural diversity across the protein universe with The Encyclopedia of Domains,” Science (80-. )., vol. 386, no. 6721, p. eadq4946, Nov. 2024, doi: 10.1126/science.adq4946.

[5] I. Sillitoe et al., “CATH: increased structural coverage of functional space.,” Nucleic Acids Res., vol. 49, no. D1, pp. D266–D273, Jan. 2021, doi: 10.1093/nar/gkaa1079.

原文链接

https://www.science.org/doi/10.1126/science.adq4946

商务合作:mss@pku.edu.cn(要求:1. 过审核;2. 标题明确标注)


CNS导读
关注有广泛深远影响的顶刊工作 Rigorous \x26amp; Elegant Science for Everyone
 最新文章