相关研究以「Enzyme function prediction using contrastive learning」为题,于2023年3月30日发表 在《Science》杂志上,该工作在近一年内得到许多关注,多项后续的研究工作都成功发表在Nature、science正刊或者子刊等顶级期刊上,对计算生物领域产生了深远的影响。
图2:《Science》杂志上相关研究界面截图
论文链接:
https://www.science.org/doi/10.1126/science.adf2465
(B)在Price-149数据库上比较CLEAN与BLASTp、ProteInfer、DeepEC、DEEPre、CatFam、 ECPred等模型的预测表现:
(F) 与六种常用工具(BLASTp、ProteInfer、DeepEC、DEEPre、ECPred和COFACTOR)相比,CLEAN在内部整理的卤化酶数据集上的预测准确度,该数据集具有良好的多样性,涵盖11个不同的EC编号:
实验结果表明CLEAN在几个多标签准确度指标上表现最佳,它比以前基于机器学习开发的模型更加准确,可用于预测新发现的蛋白质的功能,尤其是功能未知的酶蛋白质。
(A)显示了36种已鉴定卤化酶的EC数值ID准确度热图:
(B)未表征蛋白质和阳性对照(PC)酶之间的序列同一性热图,其中带有绿色色标的彩条表示百分比:
(C)SAM氢氧化腺苷转移酶MJ1651-TTHA0338反应:
(D)未表征蛋白质 MJ1651、TTHA0338和阳性对照酶 PH0463的三维(3D)结构的结构叠加,对SsFlA、SalL和 ScFlA进行了相同的结构叠加,结果表明这些SAM结合酶的3D结构非常相似,而CLEAN可以准确区分它们的功能:
(E)SAM与卤素离子或H2O进行亲核取代,从而生成SsFlA:
生物实验在CLEAN对未鉴定卤化酶的功能预测结果展开,卤化酶在制药、农业生产、化学等领域中有广泛应用,迄今从UniProt中鉴定出的36种未完全注释的卤化酶涵盖了所有四种卤化酶。由于卤化酶的研究尚不足,蛋白质数据库中只有有限数量的卤化酶氨基酸序列可用,因此预测卤化酶功能仍是艰巨任务。
在这部分,研究人员从卤化酶类中选取了三种酶,这些卤化酶要么被标记为未表征和/或假设的蛋白质,要么在文献中有相互矛盾的注释。如上图所示,CLEAN为这三种卤化酶预测了新的EC数值,表明它们可能有与之前认为的不同的潜在功能,研究人员通过一系列生物实验证实了这三种卤化酶的功能,验证了CLEAN预测结果的准确性。
(A):2024年3月8日发表在《Science》杂志上的「Prophage proteins alter long noncoding RNA and DNA of developing sperm to induce a paternal-effect lethality」文章[5]使用CLEAN模 型对沃尔巴克氏体的原噬菌体编码的细胞质不相容因子A(CifA)的功能注释进行预测,并推导其体外RNase活性之间存在的因果关系,有效提高了噬菌体蛋白改变发育精子的长链非编码RNA和DNA的效率并诱导父系效应致死的研究效率:
(B):2024年1月23日发表在《PNAS》杂志上的「Methylation of ciliary dynein motors involves the essential cytosolic assembly factor DNAAF3/PF22」文章[6]使用CLEAN模型对对人 类DNAAF3和衣藻 PF22的一级序列进行对比和酶功能预测,并根据该预测结果将必需的组装因子DNAAF3确定为S-腺苷甲硫氨酸依赖性甲基转移酶的结构直系同源物。该文章证明动力蛋白重链,尤其是形成纤毛外臂的重链,在各种核苷酸结合位点内的关键残基和微管结合域螺旋上被甲基化,这些残基直接参与向低结合亲和力的转变:
综上所述,CLEAN是一种基于对比学习的新型酶功能预测机器学习算法,它比目前最先进的工具在酶功能预测上实现了更卓越的预测性能。
此外,它还能为研究不足的酶类可靠地注释EC编号,而其他算法因为无法克服酶蛋白数据不平衡问题而会做出错误预测。CLEAN可以成为预测酶功能的有力工具,促进代谢工程、功能基因组、药物等多个领域的发展,随后的生物实验验证也是该方法有效性的有力依据。因此,该模型能够成功发表在science上。
文献参考:
[1]Yu T, Cui H, LiJ C, et al. Enzyme function prediction using contrastive learning[J]. Science, 2023, 379(6639): 1358-1363.
[2]Rives A, Goyal S, Meier J, et al. Biological structure and function emerge from scaling unsupervised learning to 250 million protein sequences. bioRxiv[J]. 2019.
[3]Khosla P, Teterwak P, Wang C, et al. Supervised contrastive learning[J]. Advances in neural information processing systems, 2020, 33: 18661-18673.
[4]UniProt: the universal protein knowledgebase in 2021[J]. Nucleic acids research, 2021, 49(D1): D480-D489.
[5]Kaur R, McGarry A, Shropshire J D, et al. Prophage proteins alter long noncoding RNA and DNA of developing sperm to induce a paternal-effect lethality[J]. Science, 2024, 383(6687): 1111-1117.
[6]Sakato-Antoku M, Patel-King R S, BalsbaughJ L, et al. Methylation of ciliary dynein motors involves the essential cytosolic assembly factor DNAAF3/PF22[J]. Proceedings of the National Academy of Sciences, 2024, 121(5): e2318522121.
关注我!不错过任何AIMShare学术资讯!!
【注意:转载请联系本公众号获得授权。】如果您对我们的内容有任何疑问需要咨询或想要联系作者,可以备注“AIMS”联系课代表。也欢迎大家投稿!
目前已有1000+人关注加入我们