AI大模型助力蛋白质设计：ESM-scan工具让氨基酸突变预测更简单高效

学术 2024-12-22 21:00 北京

极客苦工独家整理，盗用必究

近年来，深度学习在蛋白质结构预测和设计领域取得了革命性进展。然而，预测特定位点突变对蛋白质稳定性和功能的影响仍然是一个未解决的挑战。本文介绍了一个新型工具ESM-scan，它利用ESM语言模型来快速高效地预测氨基酸突变的影响。

研究背景与意义

蛋白质是生命活动的核心执行者，其功能高度依赖于氨基酸序列。即使单个氨基酸的改变都可能对蛋白质的功能产生深远影响。传统的突变影响预测方法主要有以下几类：

基于能量计算的方法：如Eris、FoldX和Rosetta-ddG等，这些方法结合能量计算、进化信息和统计分析。虽然取得了一定成功，但需要用户具备大量专业知识。
早期机器学习方法：展现出良好的预测能力，但往往过度拟合训练数据，难以泛化到新蛋白质。
深度学习模型：如AlphaFold系列，可以自主学习未标记数据，更好地捕捉氨基酸对蛋白质稳定性和功能的非线性贡献。

ESM-scan工具的技术原理

ESM-scan基于ESM语言模型家族，利用零样本预测器来扫描整个蛋白质序列，寻找潜在的有益氨基酸替换。其核心技术原理如下：

掩码标记推理：在掩码语言模型推理中，每个残基基于其序列上下文被赋予概率分数。相同上下文中单个残基的改变会产生不同的分数，用于估计突变的影响。
分数范围解释：推理值范围标记了突变的三种可能结果：

显著正值：表示增强适应度
轻微正负值：表示中性影响
显著负值：表示降低适应度

论文图1展示了ESM-scan在三个基准数据集上的预测准确性对比结果，以及PTEN表达数据的Matthews相关系数映射。

性能评估与基准测试

研究团队使用三个独立数据集对ESM-scan进行了全面评估：

数据集1：来自Tsuboyama等人的工作，包含500多个氨基酸序列的高通量筛选数据。ESM分数与实验测量的ΔΔG值相关系数达到0.44。
数据集2：包含PTEN的表达水平和活性数据。ESM-scan在预测蛋白质丰度方面表现出色（R=0.48），与Rosetta ΔΔG（R=0.49）相当。在功能预测方面，ESM-scan的表现（R=0.56）优于其他方法。
数据集3：来自SKEMPI和ZEMu数据库，包含近900个蛋白质-蛋白质界面突变的ΔΔG记录。

实际应用案例：MsLadC蛋白研究

为了验证ESM-scan的实用性，研究团队选择了一个具有挑战性的测试案例：来自甲基化细菌的蓝光激活双鸟苷酸环化酶MsLadC。

论文图2展示了MsLadC的测试案例，包括晶体结构示意图、ESM-scan得分热图，以及R218位点突变的预测结果比较。

关键发现包括：

ESM-scan准确预测了抑制位点中高度保守残基的重要性。
预测分数与实验观察到的多个性质相关，包括：

蛋白质溶解度
辅因子结合
酶活性

工具成功指导了突变体的选择，帮助获得了可表达且功能性的蛋白质变体。

工具优势与局限性

ESM-scan的主要优势：

用户友好：

在线界面简单直观
无需复杂设置
计算资源需求低

快速高效：

推理时间短
适合初步筛选
最小化开销

功能完整：

可进行全序列扫描
提供直观可解释的结果
支持高级用户自定义

局限性：

在蛋白质-蛋白质界面突变预测方面表现欠佳
对某些实验设置的预测准确度可能较低
需要根据具体案例调整阈值

技术展望与应用前景

ESM-scan为蛋白质工程领域提供了一个强大的工具：

功能预测：

能准确推断氨基酸突变的影响
尤其适合进化和功能洞察相互交织的情况

应用场景：

指导蛋白质功能改造
降低实验成本
加速蛋白质工程研究

未来发展：

可能与结构预测工具结合
进一步提升预测准确度
扩展应用范围

工具获取与使用

ESM-scan已在Hugging Face平台开源，用户可通过以下链接访问：https://huggingface.co/spaces/thaidaev/zsp

性能评估脚本和其他资源可在以下地址获取：gitlab.tugraz.at/D5B8E35025578B91/esm-scan

总结

ESM-scan代表了AI语言模型在蛋白质工程领域的一个重要应用。它通过简单易用的界面，为研究人员提供了快速评估氨基酸突变影响的工具。尽管存在一些局限性，但其在功能预测方面的优异表现使其成为蛋白质工程领域的有力助手。未来，随着深度学习技术的进步和更多实验数据的积累，类似工具的准确性和应用范围有望进一步扩大。

这项研究不仅展示了机器学习在生物学领域的应用潜力，也为蛋白质工程提供了一个实用的解决方案。研究团队开源的工具和数据将有助于推动整个领域的发展，为后续研究提供重要参考。

Q&A环节：

Q1: ESM-scan是如何利用掩码语言模型进行突变影响预测的？

ESM-scan的核心技术基于ESM语言模型的掩码预测机制。具体工作原理如下：

序列编码与掩码：首先，将蛋白质序列转换为标记序列。对于要预测突变影响的位置，使用特殊的[MASK]标记替换原始氨基酸。数学表示为：

对于序列，在位置的掩码操作可表示为：

上下文表示学习：模型通过Transformer架构学习序列中每个位置的上下文化表示。对于位置，其表示向量计算如下：

其中，是该位置的隐藏状态向量。

突变评分计算：对于某个位置的突变，模型计算条件概率：

最终的突变影响分数通过比较原始氨基酸和突变氨基酸的概率得到：

Q2: ESM-scan如何处理蛋白质序列中的长程依赖关系？

长程依赖关系是蛋白质序列分析中的关键挑战。ESM-scan通过以下机制处理这一问题：

多头自注意力机制：使用Transformer的多头自注意力来捕捉不同尺度的相互作用。对于序列中的任意两个位置和，注意力分数计算如下：

其中：

分别是查询、键和值矩阵
是注意力头的维度
多头注意力通过并行计算多个注意力头来增强模型的表示能力

位置编码：为了保持序列位置信息，模型使用正弦位置编码：

这使得模型能够考虑氨基酸在序列中的相对位置关系。

Q3: ESM-scan的评分系统是如何校准和解释的？

ESM-scan的评分系统经过精心设计，以提供可靠且可解释的突变影响预测：

分数校准：原始的对数概率分数通过以下步骤进行标准化：

其中：

是训练集上的平均分数
是标准差

阈值确定：通过分析PTEN数据集，研究发现评分阈值与表达水平存在明显关联：

ESM分数 > -6.5：表示突变体可能保持野生型样的表达
ESM分数 < -6.5：表示可能导致表达水平降低

这个阈值的确定基于Matthews相关系数（φ）的最大化：

Q4: 在预测多聚体蛋白质突变效应时，ESM-scan采用了什么策略？

多聚体蛋白质的突变效应预测涉及更复杂的考虑因素：

序列拼接策略：对于多聚体，ESM-scan采用特殊的序列处理方法：

其中：

是单体序列
是25个甘氨酸的连接序列

整体评分计算：多聚体的突变影响分数计算考虑了多个组分：

其中权重和是根据训练数据优化得到。

Q5: ESM-scan如何平衡预测准确性和计算效率？

ESM-scan在设计时特别考虑了计算效率和预测准确性的平衡：

模型选择：使用"esm2_t33_650M_UR50D"模型作为默认配置，这是基于以下优化目标：

其中是根据具体应用场景可调整的权重参数。

批处理优化：对于大规模突变扫描，采用高效的批处理策略：

通过优化批大小来最大化吞吐量：

计算复杂度分析：对于长度为的序列，单个突变的计算复杂度为：

其中：

是模型维度
是Transformer层数

这种设计使得ESM-scan能够在普通硬件上高效运行，同时保持较高的预测准确性。例如，对于典型的300残基蛋白质，完整的突变扫描（所有可能的单点突变）可以在几分钟内完成。

Q6: ESM-scan是如何处理蛋白质功能预测中的非线性关系的？

在蛋白质功能预测中，氨基酸之间的相互作用往往呈现复杂的非线性关系。ESM-scan通过以下机制来处理这一问题：

残差连接与层归一化：每个Transformer层的输出通过残差连接和层归一化进行处理：

其中非线性变换包括：

前馈网络（FFN）使用两层变换：

上下文敏感的表示学习：对于序列中的每个位置，其最终表示是所有层的综合结果：

其中：

是第层的隐藏状态
是学习得到的层权重
是总层数

Q7: ESM-scan在处理不同长度蛋白质序列时如何保持预测性能的一致性？

序列长度变化是蛋白质分析中的一个重要挑战。ESM-scan采用了几种策略来确保预测性能的稳定性：

动态注意力窗口：对于长序列，使用滑动窗口注意力机制：

其中：

是窗口大小
是序列位置

序列分块处理：长序列被分成重叠的块进行处理：

每个块的大小为，重叠区域大小为。最终预测通过加权平均合并：

其中权重基于位置在块中的中心性计算。

Q8: ESM-scan如何整合进化保守性信息来提高预测准确性？

ESM-scan通过多种方式利用进化信息来增强预测能力：

隐式进化信息建模：模型在预训练阶段学习到的权重包含了进化信息。对于位置，其保守性分数计算为：

其中：

是氨基酸字母表
是位置处氨基酸的预测概率

突变影响评分修正：最终的突变影响分数考虑了保守性信息：

其中是一个可调节的权重参数。

Q9: 在功能域预测中，ESM-scan如何处理结构域之间的相互作用？

对于多结构域蛋白质，ESM-scan采用特殊的处理策略：

结构域注意力机制：引入结构域感知的注意力计算：

其中是结构域掩码矩阵：

跨域信息整合：通过特殊的聚合机制整合不同结构域的信息：

其中：

是结构域集合
是结构域权重
是结构域特定的表示

Q10: ESM-scan如何处理和评估预测的不确定性？

不确定性量化对于可靠的突变影响预测至关重要：

模型不确定性估计：使用集成方法估计预测的不确定性：

其中：

是集成模型的数量
是第个模型的预测
是平均预测

置信度评分：为每个预测计算置信度分数：

其中和是根据验证数据集优化的参数。

异常检测：使用统计方法检测异常预测：

预测被标记为异常如果：

这些技术细节展示了ESM-scan在处理复杂蛋白质分析问题时的深度考虑。通过综合运用多种先进的机器学习技术，ESM-scan能够提供准确且可靠的突变影响预测。这些设计不仅确保了预测的准确性，还提供了预测结果的可解释性和可靠性评估，这对于实际应用中的决策制定至关重要。

https://onlinelibrary.wiley.com/doi/10.1002/pro.5221

高颜值免费 SCI 在线绘图(点击图片直达)

最全植物基因组数据库IMP (点击图片直达)

往期精品(点击图片直达文字对应教程)

机器学习

生信宝典

学生信最好的时间是十年前，其次是现在！10年经验分享尽在生信宝典！

Cell | 华中农业大学严建兵团队解析玉米籽粒脱水机制，为宜机收玉米品种培育找到新“钥匙”

微生物组-宏基因组分析专题研讨会 (2025.5.9，线下+线上)

AI大模型助力蛋白质设计：ESM-scan工具让氨基酸突变预测更简单高效

Nature子刊：崔庆华团队开发新型AI算法，实现人类蛋白质重要性的预测分析

新课上线 | 单菌基因组组装、注释、遗传表征、分子分型、系统进化和传播溯源

iMetaOmics期刊第1卷第2期封面：同一健康

中国学者都“不够格”！2024年全球最具影响力的10大撤稿/诚信事件正式发布：起步都是顶刊/10篇文章以上学术不端

iMetaOmics | 江苏省农科院植物细菌团队-解析中国梨火疫菌特征及溯源分析

生信入门一对一，数据操作带你飞

Nature：培育冠状病毒的新方法引发关注

iMeta期刊版面费减免截止2024年12月31日，欢迎投稿

微生物组-扩增子16S分析和可视化(2025.4)

iMeta 高被引论文66篇(12月更新版)

经典入门 | 高级转录组分析和R数据可视化（2024.12）

NC 幽门螺杆菌基因组计划通过分析全球完整基因组深解析幽门螺杆菌种群结构

新课上线 | 单菌基因组组装、注释、遗传表征、分子分型、系统进化和传播溯源

微生物组-宏基因组分析专题研讨会 (2025.5.9，线下+线上)

经典入门 | 高级转录组分析和R数据可视化（2024.12）

新课上线 | 单菌基因组组装、注释、遗传表征、分子分型、系统进化和传播溯源

某副教授相亲100多场总结出来的经验，网友：建议开源，发表论文...

平台已完成维护，恢复正常使用！百万次使用的高颜值在线绘图平台ImageGP系列教程

Science重磅论文 | 仅有两个作者，3个图，研究揭示植物如何实现防御和生长的平衡

Nature Communications | 基因组所王丽团队提出植物次生代谢物含量调节新机制

生信入门一对一，数据操作带你飞

Nature Communications：利用自然语言处理揭示微生物基因奥秘

微生物组-扩增子16S分析和可视化(2025.4)

NBT：人类肠道培养细菌的1520个基因组

经典入门 | 高级转录组分析和R数据可视化（2024.12）

Nature | 美国河流微生物基因组数据库（GROWdb）

新课上线 | 单菌基因组组装、注释、遗传表征、分子分型、系统进化和传播溯源

NAR | 香港城市大学李帅成课题组连续推出三大生物信息学数据库，全面解析微生物组学研究关键要素

Nature子刊：邵斌团队实现首个生成式DNA大语言模型——破译并生成病毒基因组

微生物组-宏基因组分析专题研讨会 (2025.5.9，线下+线上)

《Science》指出总环的同行评审过程（外审环节）被操纵，总环深陷学术欺诈风波

探秘中华本草前世今生大型系列纪录片《本草流芳》开播

新课上线 | 单菌基因组组装、注释、遗传表征、分子分型、系统进化和传播溯源

iMeta | 最全可视化韦恩图和集合图工具EVenn使用手册

Nature Genetics | 中国农业大学徐明良团队揭示玉米广谱数量抗性的分子机制

生信入门一对一，数据操作带你飞

iMeta 讲坛17 | 程全-论文发表：知己知彼

中国林科院经济林研究所2025年招聘启事（河南省郑州市）

单菌基因组组装、注释、遗传表征、分子分型、系统进化和传播溯源

中国林科院经济林研究所2025年招聘启事（河南省郑州市）

JAFC丨广西科学院谢能中研究员团队通过多糖基化途径促进苦味未成熟罗汉果中甜味剂罗汉果苷的生物合成

微生物组-扩增子16S分析和可视化(2025.4)

经典入门 | 高级转录组分析和R数据可视化（2024.12）

Nature Genetics | 基因组所周永锋团队建立葡萄全基因组选择育种体系

10 件令大学老师难受的事件排行，你最难受哪件？

收藏！2020-2024国家杰青、优青及首届杰青延续名单全汇总

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉