蛋白质和DNA相互作用在大多数生命活动中起到基础性的作用,然而传统的基于生物湿实验研究蛋白质-DNA相互作用的方法周期长、费用高,成功率低,并严重依赖于训练数据集中有限的初级序列和高质量的多序列比对信息,极大限制了泛化性和准确性。
大规模蛋白质语言模型的出现为克服这些限制提供了一个重要的机会,但此前,国内外研究者使用的通用蛋白质语言模型没有特别关注特定功能领域(比如DNA结合蛋白质)的知识且通常缺乏可解释性。为缓解这些痛点,近日,湖南大学国家超算长沙中心副主任、信息科学与工程学院彭绍亮课题组自研人工智能蛋白质语言大模型:ESM-DBP,在DNA-蛋白质相互作用研究中取得重要进展。
ESM-DBP在四个下游任务上优于现有的预测方法
团队提出了基于大型通用蛋白质语言模型和领域自适应预训练的DNA结合蛋白语言模型ESM-DBP,系统地研究了如何从蛋白质初级序列出发有效地预测DNA结合蛋白质和残基这一生物信息学和人工智能领域的挑战性问题,探索发现了基于大型蛋白质语言模型的高质量表征学习技术,为研究复杂的DNA-蛋白质相互作用机制提供了新的研究思路。
研究成果以Improving prediction performance of general protein language model by domain-adaptive pretraining on DNA-binding protein为题,在国际顶级期刊Nature Communications上发表。湖南大学博士研究生曾文武为该研究论文第一作者,彭绍亮教授为论文通讯作者,湖南大学为该论文唯一完成单位。该研究受到国家自然科学基金、科技部重点研发计划、湖南省创新群体等项目的支持。
可解释性分析揭示了ESM-DBP对天然的DNA结合域的高度关注
彭绍亮教授主要研究方向包含高性能计算、大数据、生物信息、人工智能等多个领域,近日,美国斯坦福大学与国际权威学术出版社爱思唯尔(Elsevier)联合发布了第七版《全球前2%顶尖科学家榜单2024》,彭绍亮教授成功入选,充分展现了其个人的学术影响力。
全球前2%顶尖科学家榜单以Scopus数据库为依据,基于论文引用数、H因子、共同作者修正的HM因子、单独或第一作者论文引用数等6项指标,根据“生涯影响力”和“年度影响力”,从全球近700万名科学家中遴选出世界排名前2%的科学家,分为22个领域和176个细分子领域,为科学家长期科研表现提供了一个衡量指标,能够更客观、更真实地反映科学家的影响力。
彭绍亮,国家重大人才工程第一层次,2023年湖南省首届“湘江榜样”(10位),2023年度湖南省数字化十大杰出人物。出版专著8部,发表学术论文200余篇,论文引用9000余次,授权发明专利50余项。
这一重要研究进展,是学校在科研创新方面实力的体现。作为国家重点建设的“千年学府、百年名校”,湖南大学在科教兴国、人才强国大战略中勇担重任、屡创辉煌,一直致力于培养具有创新精神和实践能力的高素质人才。
相信未来,湖南大学将继续加强人才培养和科研创新工作,为国家的科技进步和社会发展培养更多优秀人才,为实现中华民族伟大复兴的中国梦贡献更多智慧和力量。
1.牢记嘱托加油干|千年学府使命惟新
2.大科城里的深海设备,亮相中国国际矿业大会
3.中南大学创新创业项目国家级数量位居全国高校第一!
来 源|湖南大学
编 辑|实习编辑 郑璐畅