Nat. Commun. | 蛋白质语言模型驱动的DNA-蛋白质结合预测

学术 2024-09-10 07:54 山东

近日，湖南大学信息科学与工程学院彭绍亮教授课题组在国际顶级期刊Nature Communications发表了题为Improving prediction performance of general protein language model by domain-adaptive pretraining on DNA-binding protein的研究论文。该研究提出了基于大型通用蛋白质语言模型和领域自适应预训练的DNA结合蛋白语言模型ESM-DBP，系统地研究了如何从蛋白质初级序列出发有效地预测DNA结合蛋白质和残基这一生物信息学和人工智能领域的挑战性问题，探索发现了基于大型蛋白质语言模型的高质量表征学习技术，为研究复杂的DNA-蛋白质相互作用机制提供了新的研究思路。

蛋白质和DNA相互作用在大多数生命活动中起到基础性的作用。传统的基于生物湿实验研究蛋白质-DNA相互作用的方法周期长、费用高，成功率低。在过去的十年中，基于深度学习的技术已广泛应用于蛋白质-DNA相互作用预测的研究中。然而，这些方法大多严重依赖于训练数据集中有限的初级序列和高质量的多序列比对信息，从而限制了它们的泛化性和准确性。大规模蛋白质语言模型的出现为克服这些限制提供了一个重要的机会。然而，该研究组经过调研发现国内外研究者使用的通用蛋白质语言模型没有特别关注特定功能领域（比如DNA结合蛋白质）的知识且通常缺乏可解释性。为了缓解这些痛点，团队提出了DNA结合蛋白质领域自适应蛋白质语言模型ESM-DBP，主要通过在通用蛋白质语言模型的基础上使用海量的DNA结合蛋白质序列进行掩码预训练，并在DNA结合蛋白质相关的四个下游任务上系统地评估了ESM-DBP的预测性能。在多个基准测试集上和现有预测方法的比较展示了ESM-DBP优异的预测精度。ESM-DBP还展现了在只有少量相似的同源序列的蛋白质序列上较好的预测性能，远远超过通用蛋白质语言模型和国内外其他预测方法，为解决在机器学习在低同源蛋白上的功能预测精度低这一痛点提供了新的视角。

ESM-DBP研究框架

ESM-DBP在四个下游任务上优于现有的预测方法

此外，团队通过对预测模型的可解释性分析发现神经网络对于DNA结合域的高度关注，从而导致了ESM-DBP在DNA结合蛋白质预测任务上的高准确率，大大提示了蛋白质语言模型黑箱的可解释性。最后，在两个由ESM-DBP预测的DNA结合蛋白质(UniProt ID: E5RK24, K7EK85)上的CHIP-seq实验揭示了这两个蛋白质存在广泛的DNA结合作用，GO和KEGG分析表明这两个蛋白质参与了广泛的调控机制，进一步验证了ESM-DBP的有效性。

ESM-DBP在低同源蛋白上的出色表现

可解释性分析揭示了ESM-DBP对天然的DNA结合域的高度关注

两个ESM-DBP预测案例的CHIP-Seq分析

湖南大学博士研究生曾文武为该研究论文第一作者，湖南大学彭绍亮教授为论文通讯作者，湖南大学为该论文唯一完成单位。该研究受到国家自然科学基金、科技部重点研发计划、湖南省创新群体等项目的支持。国家超级计算长沙中心为该研究的开展提供了强大的算力支持。

参考资料

Zeng, W., Dou, Y., Pan, L. et al. Improving prediction performance of general protein language model by domain-adaptive pretraining on DNA-binding protein. Nat Commun 15, 7838 (2024).

https://doi.org/10.1038/s41467-024-52293-7

http://mp.weixin.qq.com/s?__biz=MzU2ODU3Mzc4Nw==&mid=2247506643&idx=1&sn=2f76998df6669d0cf40b5b3757957ca7

DrugAI

关注人工智能与化学、生物、药学和医学的交叉领域进展，提供“原创、专业、实例”的解读分享。

Bioinformatics | ChatMol：基于自然语言进行交互式的分子发现

Nat. Commun. | 利用统计学驱动的图网络准确预测蛋白质功能

Nat. Methods | 利用几何深度学习预测蛋白质与DNA结合特异性

Nat. Commun. | 基于单序列快速准确预测蛋白质结构、适应度与稳定性变化

DrugMAP 2.0: 面向所有药物的“药物-分子相互作用图谱”

Drug. Discov. Today. | 深度生成模型探索类药物化学空间前沿

大语言模型如何助力药物开发? 哈佛George Church Lab最新综述

Nat. Commun. | 少样本逆向设计：针对耐药菌的HDP模拟聚合物

Chai-1:突破性的多模态基础模型，解锁生命分子相互作用

Nat. Commun. | 利用transformer模型将质谱数据序列翻译成肽段序列

Nat. Commun. | Stability Oracle：一个基于结构的图transformer框架，用于识别稳定突变

Nat. Commun. | 蛋白质语言模型驱动的DNA-蛋白质结合预测

Nat. Commun. | AGILE平台：一种基于深度学习的加速LNP开发用于mRNA递送的方法

Science | PhAI：一种解决晶体学相位问题的深度学习方法

第六届全国生物医学数据挖掘与计算学术会议通知（第一轮）

Nat. Commun. | 揭示不同癌症类型中髓系细胞的多样性和作用

Nat. Commun. | 基于上下文感知的几何深度学习用于蛋白质序列设计

Nat. Mach. Intell. | 突破对接瓶颈：ColabDock革新蛋白质-蛋白质结构预测

Nucleic Acids Res. | PROTAC-DB 3.0：具有扩展药物代谢动力学参数的PROTAC更新数据库

Nat. Chem. Biol. | 临床前药物发现中的机器学习

Brief. Bioinform.｜属性引导的原型网络用于少样本分子性质预测

Nat. Commun. | 双裂解Pre-F三聚体，hMPV疫苗新希望！

抗体药物研发：创新策略与知识产权保护的深度对话

Sci. China Life Sci. | 甘草查尔酮D通过靶向STING寡聚化改善炎症性疾病

Adv. Sci. | 构象系综增强的通用分子表征促进基于配体的药物发现

Sci. China Life Sci. | 发现天然产物脓毒酸A靶向于SHP-2的磷酸化ITSM识别位点

Nucleic Acids Res. | 时隔3年重大升级！DDInter2.0—全面更新的药物相互作用数据库

Brief. Bioinform | 李诗良/李洪林团队开发基于保留机制的小分子pKa值预测AI方法GR-pKa

Nat. Comput. Sci. | SPARROW：在分子设计中考量合成成本

Nat. Commun. | EasIFA: 基于多模态深度学习技术的高效和准确的酶催化活性位点注释方法

Nat. Commun. | 通过异质图学习从空间解析的转录组数据剖析肿瘤微环境

Nat. Methods | 单细胞蛋白生物学的上下文AI模型

Angew. Chem. Int. Ed. | 大数据训练下学习反应机理

解开分子结构：用于化学的多模态光谱数据集

报告免费领取 | 特应性皮炎深度解析：药物开发、专利分析与风险评估

Nat. Mach. Intell. | 糖肽串联质谱预测推动糖蛋白质组学研究

西湖大学人工智能研究创新中心药物建模小组招收实习生

Nat. Chem. Biol. | 虚拟筛选库扩展的建模

ICLR 2024｜基于化学反应标注的人在回路逆合成路径预测算法

Chem. Sci. | 贝叶斯框架融合多种高水平生物表征预测新颖靶标

PNAS | AlphaFold2结合超级计算加速生物物理学发现

今晚19:00！李子青/周耀旗/朱山风/张文彬/傅晓智Cell Press Live：蛋白质结构与功能预测及设计

Nat. Commun. | Uni-Mol+解析量子化学属性预测的全新突破

J. Cheminform. | 用最短哈密顿环度量分子多样性

Nat. Commun. | 基于迭代字符串编辑模型的逆合成预测

综述：大语言模型与自主智能体在化学中的应用

Nat. Commun. | 戴琼海/邓岳团队构建多模态融合的深度生成模型soScope，可高分辨率表征复杂组织结构

Nat. Mach. Intell. | 对32,111份AI模型卡片的系统分析描述了AI领域的文档实践

Nat. Commun. | SchNet4AIM：从真实空间的化学描述符中学习可解释性

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

Nat. Commun. | ​蛋白质语言模型驱动的DNA-蛋白质结合预测

Nat. Commun. | 蛋白质语言模型驱动的DNA-蛋白质结合预测