研究进展:北京大学崔庆华团队-生物信息学 | Nature Computational Science

文摘   2024-11-28 00:11   北京  

对于个体生存和发育来说,人类必需蛋白Human essential proteins (HEPs) 是不可缺少的。然而,鉴定人类必需蛋白HEP的实验方法,通常是昂贵的、耗时的和劳动密集型的。此外,现有计算方法,仅在细胞系水平上预测人类必需蛋白HEPs,但人类必需蛋白HEPs在活细胞系和动物模型中,各不相同。

今日,北京大学Boming Kang, Rui Fan,崔庆华Qinghua Cui等,在Nature Computational Science上发文,通过微调预训练的蛋白质语言模型,开发了基于序列的深度学习模型,蛋白质重要性计算器Protein Importance Calculator (PIC)。
这种蛋白质重要性计算器PIC,不仅大大优于现有预测人类必需蛋白HEPs方法,而且还提供了三个水平的综合预测结果:人、细胞系和小鼠。还定义了源自PIC蛋白质必需评分(Protein Essential Score),以量化人类蛋白质的重要性,并通过一系列生物学分析,验证了有效性。
还通过鉴定乳腺癌的潜在预后生物标志物和量化617,462种人类微蛋白的重要性,证明了蛋白质基本评分的生物医学价值。

Comprehensive prediction and analysis of human protein essentiality based on a pretrained large language model. 

基于预训练大语言模型的人类蛋白质重要性综合预测与分析。


图1: 整体工作流程。


图2: 蛋白质重要性计算器Protein Importance Calculator,PIC模型的消融研究。


图3: 蛋白质重要性计算器PIC模型的性能演示和比较。


图4: 蛋白质重要性计算器PIC模型产生的蛋白质必需评分PES生物学相关性。

文献链接
Kang, B., Fan, R., Cui, C. et al. Comprehensive prediction and analysis of human protein essentiality based on a pretrained large language model. Nat Comput Sci (2024).
https://doi.org/10.1038/s43588-024-00733-1
https://www.nature.com/articles/s43588-024-00733-1
本文译自Nature。
来源:今日新材料
声明:仅代表译者观点,如有不科学之处,请在下方留言指正!

推荐阅读
实验室 | 基础医学院生物信息学系崔庆华课题组

今日新材料
中国材料研究学会每日发布新材料最新动态。
 最新文章