Nature Computational Science丨崔庆华团队提出预测关键蛋白靶点的新型人工智能算法

学术   2024-12-01 10:13   福建  

确定关键蛋白靶点是阐明疾病发生发展机制以及探索疾病预防、诊断和治疗新策略的基础和前提。然而,使用CRISPR-Cas9等湿实验方法鉴定关键蛋白编码基因存在费时耗力的缺点,并且难以推广到人类全蛋白质组,所以亟需计算方法来快速准确预测人类全部蛋白质的重要性。现有的计算方法仅能在人源细胞系中预测蛋白质重要性,但是蛋白质重要性具有高变异性的特点,且蛋白质重要性在不同类型的细胞系之间也呈现出高异质性。这就要求在设计蛋白质重要性预测算法时,不仅需要提升算法的预测精度,而且需要考虑蛋白质重要性存在的变异性。


近年来,深度学习和大语言模型 (Large language model, LLM) 技术的快速发展为蛋白质重要性预测提供了新思路。近日,崔庆华课题组在Nature Computational Science发表题为Comprehensive prediction and analysis of human protein essentiality based on a pre-trained protein large language model的研究型文章,提出了基于预训练蛋白质语言模型(Protein language model, PLM)的蛋白质重要性预测算法PIC(Protein Importance Calculator)。结果表明,PIC算法相较于此前最先进的计算方法DeepCellEss获得显著性能提升(AUROC和AUPRC分别提升9.64%和10.52%)。除了具有优异的性能外,PIC算法是首个可以同时预测蛋白质在人体、人源细胞系和小鼠中的重要性评分的工具,能够为人类所有蛋白质的重要性进行综合的预测评估。在案例研究中,作者团队使用PIC算法成功预测了人类乳腺癌中的关键蛋白质靶点,并证明了其作为乳腺癌患者预后标志物的价值。最后,作者团队使用PIC算法首次为60多万个人类微蛋白(Human microproteins)的重要性进行了预测,这将为微蛋白的研究提供有力帮助。


北京大学基础医学院医学生物信息学系博士生康伯铭和樊锐(已于2024年7月毕业)为该论文的共同第一作者,崔庆华教授为通讯作者。本研究受到国家自然科学基金项目的支持。

原文链接:https://www.nature.com/articles/s43588-024-00733-1

制版人:十一


BioART战略合作伙伴

(*排名不分先后)

BioART友情合作伙伴
(*排名不分先后)

转载须知


【非原创文章】本文著作权归文章作者所有,欢迎个人转发分享,未经作者的允许禁止转载,作者拥有所有法定权利,违者必究。





BioArt

Med

Plants

人才招聘

会议资讯



近期直播推荐




BioArt
高屋建瓴,提供专家点评,引导学术争论,展现学术批评;诚心实意,关注科研生态,推广科研经验,倡导师生交流。
 最新文章