AI蛋白质语言模型与结构信息的创新整合:EasIFA引领酶学新时代

学术 2024-10-30 21:00 北京

独家整理，盗用必究

在生物化学和生物技术领域,酶的活性位点注释一直是一个极具挑战性的任务。准确识别酶的活性位点对于药物发现、疾病研究、酶工程和合成生物学等多个领域都至关重要。然而,目前的自动注释算法在速度和准确性之间存在显著的权衡,限制了它们在大规模实际应用中的表现。

近日,浙江大学等机构的研究人员在Nature Communications上发表了题为"Multi-modal deep learning enables efficient and accurate annotation of enzymatic active sites"的研究论文,提出了一种名为EasIFA的新型酶活性位点注释算法。该算法融合了来自蛋白质语言模型和3D结构编码器的潜在酶表征,并通过多模态交叉注意力框架将蛋白质水平信息与酶促反应知识对齐。

论文链接:https://www.nature.com/articles/s41467-024-51511-6

EasIFA算法的创新点

EasIFA算法的主要创新点包括:

结合了蛋白质语言模型(PLM)和3D结构编码器,生成更全面的酶结构信息描述。
开发了基于原子距离感知注意力机制的轻量级图神经网络,在更广泛的有机化学反应数据集上进行自监督预训练,以表示相对有限的酶反应信息。
设计了基于注意力机制的可解释信息交互网络,将酶表征与其催化的生化反应表征相结合,用于活性位点注释任务。

EasIFA的架构设计

EasIFA的整体架构如下图所示:

该图展示了EasIFA模型的整体架构,包括化学反应的图注意力表示(左上分支)、酶的PLMs-Structure融合表示分支(右上分支)、酶-反应信息交互网络(中间),以及两种类型的多层感知器残基活性预测器(底部)

EasIFA的主要组成部分包括:

酶的序列和结构融合表示分支:该分支包含三个计算阶段:基于PLM的序列嵌入阶段、使用GearNet的嵌入阶段,以及节点表示线性变换阶段。
反应的原子距离感知全局注意力交互表示分支:该分支包括两个子分支,分别使用MPNN表示底物(反应物)和产物的分子图。
基于注意力机制的酶-反应信息交互网络:该网络使用注意力机制将反应信息整合到酶的图形表示中。
多层感知器残基活性注释网络:该网络包括二分类和多分类版本,分别用于预测氨基酸残基是否为活性位点以及预测残基的活性类型。

EasIFA的性能评估

研究人员在SwissProt E-RXN ASA数据集上对EasIFA进行了全面的性能评估,并与其他主流算法进行了比较。结果表明,EasIFA在注释质量和速度方面都显著优于现有方法。

该表展示了EasIFA与基线模型在SwissProt E-RXN ASA测试集上的性能比较

从表中可以看出:

在活性位点定位注释任务中,EasIFA展现出卓越的精确度、召回率、假阳性率(FPR)、F1分数和Matthews相关系数(MCC)。
在活性位点类型注释任务中,EasIFA-ESM/EasIFA-SaProt在"催化位点"的召回率上与专门的AEGAN模型相当,但FPR显著降低,表明减少了假阳性的数量。
在酶结合位点识别任务中,EasIFA-ESM/EasIFA-SaProt的性能明显优于Schrodinger-SiteMap。
与BLASTp相比,EasIFA在F1分数上高出10.15%,在MCC上高出0.1012。

为了更清晰地展示EasIFA模型和基线方法在不同序列同一性水平的测试样本上的预测能力,研究人员使用CD-HIT将测试集分为五个子集,每个子集与训练集中的酶序列具有不同的序列同一性水平:0~40%、40~50%、50~60%、60~70%和70~80%。

这些图分别展示了EasIFA和基线方法在不同序列同一性水平的测试子集上的F1分数、MCC、召回率和FPR比较

从图中可以看出:

EasIFA-ESM-bin、EasIFA-SaProt-bin和BLASTp的预测性能在所有序列同一性区间内都显著优于AEGAN和Schrodinger-SiteMap。
随着序列同一性的降低,这些算法的性能也有所下降,但EasIFA的下降幅度较小。
在0~40%序列同一性子集中,EasIFA-SaProt-bin与BLASTp在F1分数和MCC上的差距分别扩大到15.23%和0.1629。
EasIFA在所有序列同一性区间内都保持显著较低的假阳性率,始终优于BLASTp和其他基线方法。

EasIFA的推理速度

研究人员还比较了各算法在大规模注释任务中的计算能力。结果如下表所示:

该表展示了EasIFA与基线算法在SwissProt E-RXN ASA测试集上的推理速度比较

从表中可以看出:

EasIFA算法具有出色的推理速度,平均只需0.144秒(EasIFA-ESM-bin)即可完成一个酶的活性位点注释。
与AEGAN相比,EasIFA的推理效率提高了约1300倍。
与使用整个SwissProt作为知识库的BLASTp相比,EasIFA的速度快约10倍。

这些结果凸显了EasIFA算法在注释质量和推理效率方面的优势。

消融实验

为了评估各种因素对酶活性位点注释的影响,研究人员进行了一系列消融实验。实验结果如下表所示:

该表展示了EasIFA不同变体在SwissProt E-RXN ASA测试集上的性能比较

主要发现包括:

纳入反应分支信息显著提高了EasIFA模型的预测性能,F1分数提高了3.79%,MCC提高了0.0388,AUPRC提高了0.0375。
从头训练的反应分支(EasIFA-RS-bin)表现不佳,说明在有限的酶反应集上准确表示反应可能具有挑战性。
使用RXNFP替换反应表示(EasIFA-RXNFP-bin)的性能接近于不包含反应表示分支的EasIFA-E-bin。
去除GearNet酶表示(EasIFA-NG-bin)导致性能下降,但计算负载减少,推理速度加快。
将序列表示更改为SaProt(EasIFA-SaProt-bin)略微提高了召回率,但其他指标略有下降。

这些结果表明,反应信息、预训练的反应表示和3D结构信息对EasIFA的性能都有重要影响。

案例研究

研究人员还展示了EasIFA在实际酶活性位点注释中的应用案例。以下是两个典型例子:

该图展示了EasIFA模型在测试集中对两种酶的活性位点注释结果可视化

左侧展示了EasIFA对蛋白酪氨酸磷酸酶(UniProt ID: Q4G0W2, EC Number: 3.1.3.48)的注释结果。EasIFA准确预测了第103位的半胱氨酸残基作为活性位点,这与UniProt数据库中的记录一致。

右侧展示了EasIFA对肉毒碱N-甲基转移酶(UniProt ID: P53934, EC Number: 2.1.1.22)的注释结果。EasIFA不仅准确识别了UniProt中记录的所有底物结合位点,还发现了一个潜在相关但未在UniProt中注释的位点(ASN274)。

这些案例突出了EasIFA在识别不同类型酶的活性位点方面的准确性和潜力。

知识库迁移实验

为了解决不同酶催化位点数据库之间的差异问题,研究人员开发了一种知识库迁移方案。他们使用在SwissProt E-RXN ASA数据集上预训练的EasIFA算法,通过迁移学习对MCSA E-RXN CSA数据集进行建模。结果如下表所示:

该表展示了EasIFA-ESM-bin、EasIFA-SaProt-bin与基于序列相似性的算法BLASTp在MCSA E-RXN CSA数据集上的性能比较

主要结果包括:

EasIFA-SaProt-bin在MCSA E-RXN CSA数据集上取得了最佳性能,精确度为66.59%,召回率为65.32%,F1分数为61.33%,MCC为0.6295。
相比之下,BLASTp方法在这个数据集上表现较差,最高F1分数仅为22.99%,MCC为0.2394。
引入3D结构数据(Foldseek)显著增强了EasIFA在不同数据空间之间迁移知识的能力。
在这个样本变异性较大的数据集上,EasIFA算法显示出明显优于基于序列对齐的BLASTp方法的优势。

这些结果表明,EasIFA能够有效地将从大规模粗略注释数据中学到的知识迁移到高质量的小规模数据集上,展现了良好的适应性和迁移能力。

作为人工设计酶催化位点监测工具的潜力探索

随着蛋白质设计和酶工程的重大进展,越来越多的人工蛋白质和酶被创造出来。这些人工设计的酶可能具有与天然酶完全不同的结构模式,为预测它们的性质带来了挑战。为了探索EasIFA在这一领域的潜力,研究人员开发了一个工作流程,使EasIFA算法能够注释落在天然酶分布之外的酶的催化位点。

该图展示了EasIFA对人工设计的4-α-葡聚糖转移酶(左)和脱氧核糖磷酸醛缩酶(右)结构的活性位点注释结果

从图中可以看出,EasIFA成功识别了这些人工酶的关键催化位点:

对于4-α-葡聚糖转移酶,EasIFA准确识别了关键的三联催化位点,并发现了一个可能相关的额外位点(Asp93)。
对于脱氧核糖磷酸醛缩酶,EasIFA准确识别了ASP35-LYS61-LYS82的三元活性位点。

这些结果表明,通过适当的数据增强过程,EasIFA能够成功识别人工酶的活性位点,这对当前的其他算法来说是一个挑战。

可解释性信息交互网络的注意力权重可视化

EasIFA模型中酶-反应信息交互网络的注意力机制提供了很高的可解释性。研究人员通过分析MCSA E-RXN CSA验证集中的一些案例,识别出专门关注关键酶-反应相互作用的注意力层和头。

该图展示了酶-反应信息交互网络中注意力权重的可视化

图中展示了半胱氨酸裂解酶的注释结果(左)和活性位点在底物分子上的权重可视化(右)。中间显示了整个半胱氨酸裂解反应,突出了反应中心。值得注意的是,His144在L-半胱氨酸两性离子的反应中心,特别是氨基组,表现出很高的注意力权重。这与酶的催化机制相一致,突显了His144在去质子化L-半胱氨酸两性离子氨基中的关键作用。由于L-半胱氨酸两性离子的对称结构,EasIFA模型关注反应中心的两侧。然而,值得注意的是,该模型的交互网络对水分子的关注较少,这在其他样本中也观察到了类似的趋势。

这种可视化方法不仅提供了EasIFA预测结果的直观解释,还为深入理解酶催化机制提供了新的视角。

EasIFA网络服务器

为了使EasIFA更易于使用,研究人员开发了一个网络服务器(http://easifa.iddd.group)。该服务器不仅支持传统的酶结构和相应酶催化反应方程输入来注释催化活性位点,还提供了一个自动化工作流程,可以从UniProt检索酶结构和催化化学反应方程,然后使用EasIFA自动注释酶的活性位点。

主要功能包括:

用户可以直接输入反应SMILES或在JSME分子编辑器中绘制相应的酶催化反应。
用户可以上传并预览酶结构。
结果界面显示酶的序列结构,不同类型的催化活性位点氨基酸残基用不同颜色标记。
提供交互式酶结构查看界面,不同类型的活性位点用不同颜色标记。
显示催化反应方程和活性氨基酸残基的详细信息。
支持从UniProt ID开始的预测工作流程,自动检索酶的结构数据和相应的催化反应数据进行预测。

EasIFA的基于结构的预测速度非常快,在GPU支持下只需几秒钟即可注释一个酶的活性位点。从UniProt开始的预测取决于EasIFA部署服务器的网络环境,通常在一分钟内就可以完成一个UniProt ID下的酶及其所有催化反应组合的注释。

讨论与展望

EasIFA算法的成功开发为酶活性位点注释领域带来了新的突破。它不仅在注释质量和速度方面显著优于现有方法,还展现了良好的可解释性和迁移能力。以下是EasIFA的几个关键优势和潜在应用:

高效准确的注释:EasIFA在SwissProt E-RXN ASA数据集上的表现显著优于主流算法(如BLASTp、AEGAN和SiteMap),同时注释速度比AEGAN快1300倍,比使用整个SwissProt作为知识库的BLASTp快10倍。这使得EasIFA能够满足大规模酶注释任务的需求。
多模态深度学习架构:EasIFA融合了蛋白质语言模型、3D结构编码和反应信息,通过多模态交叉注意力框架实现了更全面的酶表征。这种方法不仅提高了注释准确性,还为理解酶结构-功能关系提供了新的视角。
知识迁移能力:EasIFA展示了从大规模粗略注释数据库到小规模精细注释数据库的知识迁移能力。这为解决不同酶催化位点数据库之间的差异问题提供了新的思路,有助于扩展酶反应催化机制数据库的知识域。
人工设计酶的活性位点预测:通过适当的数据增强策略,EasIFA能够将从天然酶中学到的活性位点知识扩展到更广泛的人工酶领域。这对于酶工程和蛋白质设计领域具有重要意义,可能为设计具有特定功能的新型酶提供指导。
高可解释性:EasIFA的酶-反应信息交互网络通过注意力机制提供了高度可解释的结果。这不仅有助于验证预测结果,还为深入理解酶催化机制提供了新的工具。
易用性:EasIFA网络服务器的开发使得该算法可以被更广泛的研究人员使用,无需复杂的计算环境即可进行高质量的酶活性位点注释。

未来的研究方向可能包括:

进一步优化EasIFA的反应表示方法,以更好地捕捉复杂的酶催化反应机制。
扩展EasIFA的应用范围,如预测新酶的潜在催化功能,或辅助设计具有特定催化活性的人工酶。
结合实验验证,深入探究EasIFA预测的新颖活性位点的功能意义。
探索将EasIFA与其他蛋白质功能预测方法集成,以提供更全面的酶功能注释。
研究如何利用EasIFA的预测结果来指导药物设计,特别是针对酶靶点的抑制剂开发。

总的来说,EasIFA为酶活性位点注释领域带来了一种高效、准确、可解释的新方法。它不仅可以减轻研究人员的工作负担和成本,还有望推动药物设计、疾病机制阐明和酶工程等多个领域的进展。随着深度学习和生物信息学技术的不断发展,我们可以期待看到更多类似EasIFA这样的创新算法,为生命科学研究带来新的突破。

高颜值免费 SCI 在线绘图(点击图片直达)

最全植物基因组数据库IMP (点击图片直达)

往期精品(点击图片直达文字对应教程)

机器学习

http://mp.weixin.qq.com/s?__biz=MzI5MTcwNjA4NQ==&mid=2247583568&idx=1&sn=36809388835f490b675920849c8cdb5d

生信宝典

学生信最好的时间是十年前，其次是现在！10年经验分享尽在生信宝典！

最新文章

分子生物学既能重构物种的演化规律，还能洞察人类的生老病死

第二轮邀请 | 人工智能时代的微生物学研究暨湖北省生物信息学会—微生物信息学专委会2024年学术年会

微生物组-扩增子16S分析和可视化(2025.4)

科研夫妻档数十项研究遭质疑，校方已展开调查

Nat Mach Intell |熊旭深课题组/熊磊合作开发mRNA翻译组语言模型并解析复杂遗传疾病

Nature Microbiology | 中国海洋大学张晓华团队揭示多种海洋细菌中广泛存在的新型甲基转移酶

经典入门 | 高级转录组分析和R数据可视化（2024.12）

浙江大学熊旭深课题组诚聘生信/AI方向副研/博后/科助/管理员

武汉站 | 超强嘉宾阵容亮相！与30+大咖近距离交流对话，学术氛围、期待值拉满！

荐书 - 科研论文配图绘制指南 - 基于 R 语言

AI蛋白质语言模型与结构信息的创新整合:EasIFA引领酶学新时代

微生物组-宏基因组分析专题研讨会 (2024.11，线下+线上)

Nature Communications | 基于ESMFold预测结构的几何图学习以准确预测酶功能

GPB | 机器学习技术驱动植物AI育种

生信入门一对一，数据操作带你飞

Advanced Science | 中国农科院作科所揭示荞麦属植物黄酮类合成新基因簇参与调控高海拔适应的分子机制

JIPB | 封面故事：菠萝参考基因组：T2T 组装与“铂金级”基因结构注释

微生物组-宏基因组分析专题研讨会 (2024.11，线下+线上)

iMeta | 黄小罗/戴俊彪等开发 DNA 数据存储用户友好型平台：Storage-D

微生物组-扩增子16S分析和可视化(2025.4)

85后获得诺奖，硬要反思，我们应当反思什么？

iMeta | 高颜值高被引绘图网站ImageGP 2.0在线发表

Pangene：李恒开发泛基因图谱构建工具——探索群体基因组时代研究新方向

Nature Climate Change｜“过犹不及”——我国科学家解析玉米育种过程中高温耐受和雄穗弱化间的博弈规律

微生物组-宏基因组分析专题研讨会 (2024.11，线下+线上)

Science｜David Baker团队设计1500万种新型大环化合物，为人工智能药物研发开辟新天地

曹晓风院士等点评 | 植物科学领域再发nature主刊：清华大学方晓峰团队发现凝聚体可以内陷和切割细胞内膜

经典入门 | 高级转录组分析和R数据可视化（2024.12）

iMeta 讲座11 | 刘永鑫-iMeta期刊介绍和高影响力文章(研究/方法/综述)特点

南开大学孙宝发研究员生物信息学课题组博士招生

生信入门一对一，数据操作带你飞

经典回顾，1000+基因组 | 陈玲玲教授团队综述植物端粒到端粒（T2T）基因组研究进展

《细胞》：周斌团队建立体内细胞衰老的谱系示踪及功能研究技术

微生物组-扩增子16S分析和可视化(2025.4)

北大高歌教授综述：生物信息与大语言模型

2024年第五届植物代谢国际会议第一轮通知

生信入门一对一，数据操作带你飞

华大去噪算法登Cell子刊封面！助力获取高质量时空转录组数据

iMeta | 北大深圳医院桂耀庭组揭示弱精子症患者精浆微生态的动态变化及核心代谢物十六酰胺的作用机制

微生物组-宏基因组分析专题研讨会 (2024.11，线下+线上)

青年科学家在纠结什么？韩启德、窦贤康、潘建伟、施一公对谈

生信入门一对一，数据操作带你飞

多组学与整合生物学专委会成功举办第十三届全国生物信息学和系统生物学学术大会分会场论坛

iMeta | 最全可视化韦恩图和集合图工具EVenn使用手册

NC|进化信息机器学习增强了预测基因与表型关系的能力

视频 | 如何解读和在线绘制进化树并添加属性注释？

微生物组-宏基因组分析专题研讨会 (2024.11，线下+线上)

Nature Methods | 中国科大在蛋白质从头设计方法研究中取得重要进展

iMeta | 华北理工宋小明组开发植物激素相关基因数据库PHGD

生信入门一对一，数据操作带你飞

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉