伦敦大学学院(University College
London)David T. Jones以及Christine
A. Orengo等研究人员通过基于结构的策略对AlphaFold Protein Structure
Database (AFDB)数据集[1]中超2.14亿种蛋白的结构域进行了系统的重挖掘和分类;相对基于序列的方法[2], [3]提升了对远源结构域以及全新结构域的解析能力,新发现上千种对称以及非对称的折叠/结构域类型,以及上万种结构域超家族之间的互作[4], [5]。
基于该方法构建的数据库,研究人员称之为The Encyclopedia
of Domains (TED,结构域百科全书),将帮助人们增进对结构域结构、功能以及演化的理解[4]。
基于结构的方法系统重挖掘和分类AFDB中的蛋白结构域,并解析新型折叠/结构域[4]。
该项工作2024年11月1日发表在Science[4]。
Comment(s):
其中一个关键是不知道新发现的结构域有多大比例是预测错误造成的,后续需要分层(长度、新颖程度等)随机抽样实验验证。
[1] M.
Varadi et al., “AlphaFold Protein Structure Database in 2024: providing
structure coverage for over 214 million
protein sequences.,” Nucleic Acids Res., vol. 52, no. D1, pp. D368–D375,
Jan. 2024, doi: 10.1093/nar/gkad1011.[2] A.
Bateman et al., “The Pfam protein families database.,” Nucleic Acids
Res., vol. 30, no. 1, pp. 276–280, Jan. 2002, doi: 10.1093/nar/30.1.276.[3] J.
Lees et al., “Gene3D: a domain-based resource for comparative genomics,
functional annotation and protein
network analysis.,” Nucleic Acids Res., vol. 40, no. Database issue, pp.
D465-71, Jan. 2012, doi: 10.1093/nar/gkr1181.[4] A. M.
Lau et al., “Exploring structural diversity across the protein universe
with The Encyclopedia of Domains,” Science (80-. )., vol. 386, no. 6721,
p. eadq4946, Nov. 2024, doi: 10.1126/science.adq4946.[5] I.
Sillitoe et al., “CATH: increased structural coverage of functional
space.,” Nucleic Acids Res., vol. 49, no. D1, pp. D266–D273, Jan. 2021,
doi: 10.1093/nar/gkaa1079.https://www.science.org/doi/10.1126/science.adq4946商务合作:mss@pku.edu.cn(要求:1. 过审核;2. 标题明确标注)