Nat. Commun. | ​蛋白质语言模型驱动的DNA-蛋白质结合预测

学术   2024-09-10 07:54   山东  

近日,湖南大学信息科学与工程学院彭绍亮教授课题组在国际顶级期刊Nature Communications发表了题为Improving prediction performance of general protein language model by domain-adaptive pretraining on DNA-binding protein的研究论文。该研究提出了基于大型通用蛋白质语言模型和领域自适应预训练的DNA结合蛋白语言模型ESM-DBP,系统地研究了如何从蛋白质初级序列出发有效地预测DNA结合蛋白质和残基这一生物信息学和人工智能领域的挑战性问题,探索发现了基于大型蛋白质语言模型的高质量表征学习技术,为研究复杂的DNA-蛋白质相互作用机制提供了新的研究思路。

蛋白质和DNA相互作用在大多数生命活动中起到基础性的作用。传统的基于生物湿实验研究蛋白质-DNA相互作用的方法周期长、费用高,成功率低。在过去的十年中,基于深度学习的技术已广泛应用于蛋白质-DNA相互作用预测的研究中。然而,这些方法大多严重依赖于训练数据集中有限的初级序列和高质量的多序列比对信息,从而限制了它们的泛化性和准确性。大规模蛋白质语言模型的出现为克服这些限制提供了一个重要的机会。然而,该研究组经过调研发现国内外研究者使用的通用蛋白质语言模型没有特别关注特定功能领域(比如DNA结合蛋白质)的知识且通常缺乏可解释性。为了缓解这些痛点,团队提出了DNA结合蛋白质领域自适应蛋白质语言模型ESM-DBP,主要通过在通用蛋白质语言模型的基础上使用海量的DNA结合蛋白质序列进行掩码预训练,并在DNA结合蛋白质相关的四个下游任务上系统地评估了ESM-DBP的预测性能。在多个基准测试集上和现有预测方法的比较展示了ESM-DBP优异的预测精度。ESM-DBP还展现了在只有少量相似的同源序列的蛋白质序列上较好的预测性能,远远超过通用蛋白质语言模型和国内外其他预测方法,为解决在机器学习在低同源蛋白上的功能预测精度低这一痛点提供了新的视角。

ESM-DBP研究框架


ESM-DBP在四个下游任务上优于现有的预测方法


此外,团队通过对预测模型的可解释性分析发现神经网络对于DNA结合域的高度关注,从而导致了ESM-DBP在DNA结合蛋白质预测任务上的高准确率,大大提示了蛋白质语言模型黑箱的可解释性。最后,在两个由ESM-DBP预测的DNA结合蛋白质(UniProt ID: E5RK24, K7EK85)上的CHIP-seq实验揭示了这两个蛋白质存在广泛的DNA结合作用,GO和KEGG分析表明这两个蛋白质参与了广泛的调控机制,进一步验证了ESM-DBP的有效性。

ESM-DBP在低同源蛋白上的出色表现


可解释性分析揭示了ESM-DBP对天然的DNA结合域的高度关注


两个ESM-DBP预测案例的CHIP-Seq分析


湖南大学博士研究生曾文武为该研究论文第一作者,湖南大学彭绍亮教授为论文通讯作者,湖南大学为该论文唯一完成单位。该研究受到国家自然科学基金、科技部重点研发计划、湖南省创新群体等项目的支持。国家超级计算长沙中心为该研究的开展提供了强大的算力支持。

参考资料

Zeng, W., Dou, Y., Pan, L. et al. Improving prediction performance of general protein language model by domain-adaptive pretraining on DNA-binding protein. Nat Commun 15, 7838 (2024). 

https://doi.org/10.1038/s41467-024-52293-7

DrugAI
关注人工智能与化学、生物、药学和医学的交叉领域进展,提供“原创、专业、实例”的解读分享。
 最新文章