Science | 蛋白质工程领域的重大突破—AI模型设计六种性能更优蛋白质

文摘 2024-12-24 17:00 广东

人工智能（AI）蛋白质设计正在走向“更快、更好、更强”。美国麻省总医院布莱根分院和贝斯以色列女执事医疗中心团队开发了一款名为EVOLVEpro的AI工具，被认为是蛋白质工程领域的一项重大突破。团队在最新一期《科学》杂志上展示了通过该工具设计的6种具有不同用途的蛋白质，证明了EVOLVEpro能够提高蛋白质的稳定性、精确度及效率。

蛋白质工程的概念由来已久，但随着AI和大型语言模型的兴起，这一领域正在经历深刻的变革。蛋白质语言模型能够理解蛋白质的“语法”，通过分析庞大的基因组数据库中的蛋白质序列，提出改进蛋白质的具体建议。类似于最新的大型语言模型，EVOLVEpro作为一层额外的功能，能够在作出回应前进行深入的推理和思考。

团队使用EVOLVEpro对6种蛋白质进行了设计。结果显示，经过EVOLVEpro优化的两种单克隆抗体对目标的黏附力增强了30倍；微型CRISPR核酸酶执行基因编辑的效率提升了5倍；用于基因编辑的蛋白质在向基因组不同位置插入序列的能力提高了两倍；Bxb1整合酶在将DNA片段植入细胞以实现可编程基因整合的效率增加了4倍；而用于RNA合成的T7 RNA聚合酶，在准确复制RNA方面的能力更是提升了100倍。

研究示意图。源：Medical Xpress网站

团队指出，这款工具的最大优势在于它不受自然进化限制。借助AI，他们可以根据特定需求优化蛋白质，创造出性能更佳、速度更快、强度更高的蛋白质，使其更有效地与目标结合，进而改善治疗方法或增强其功能性。

该技术意味着人类不仅能设计出与自然产物相媲美的蛋白质，还将具有应对自然未曾遇到过的挑战的能力，包括开发更加精准的抗体来治疗自身免疫疾病或癌症，以及研发更为有效的病毒疫苗，或是培育营养价值更高或具备更强二氧化碳吸收能力的作物。

总编辑圈点

蛋白质工程，就是利用基因工程手段对蛋白质进行改造，以获得性质和功能更加完善的蛋白质分子。蛋白质是生命活动的主要承担者，在整个生命系统中发挥着关键作用。不过，它们并非孤立存在。蛋白质与各类小分子化合物组合，调节各种生理过程。此次，AI再次在蛋白质设计领域大显身手，它设计出六种更厉害的蛋白质，不仅能正常工作，而且比天然蛋白质更能满足特定需求。“更快、更好、更强”的蛋白质，能够帮助人类应对更多挑战。

来源：科技日报

基因编辑应用

Gene Editing Applications

基因编辑（gene editing），又称基因组编辑或基因组工程，通过对特定DNA片段进行敲除、插入等方式，实现对目标基因组区域的“任意编辑”，该技术被形象地称为“基因剪刀”。

基因编辑技术的发展历经了第一代的ZFNs（锌指核酸酶）技术到第二代的TALENs（转录激活因子效应物）技术，再到目前应用最广的CRISPR-Cas技术，并且该技术在2020年获诺贝尔化学奖。由于该技术具有合成简单、周期短、操作灵活、效率高等优点，现在备受人们关注。

诚如诺贝尔奖委员会的官方颁奖词所言：“借助（基因编辑）技术，研究人员可以非常精准地改变动物、植物、和微生物的DNA。CRISPR/cas9基因剪刀彻底改变了分子生命科学，为植物育种带来了新机遇，有望催生创新性癌症疗法，并可能使治愈遗传性疾病这一人类梦想美梦成真。”基因编辑技术在基因研究、基因治疗、基因调控和遗传改良等方面展示出了巨大的潜力，可广泛应用于抗体验证、靶点验证与确认、通路分析、疾病模型、生物标志物发现等领域。

在生物科技领域，蛋白质结构设计一直是一个极具挑战性的课题。近期，来自剑桥大学等机构的研究团队发表了一篇重要论文，展示了如何利用深度生成模型来设计蛋白质结构，并提供了全面的验证方法。这项研究不仅展示了AI在蛋白质设计领域的潜力，更重要的是建立了一套完整的评估框架。让我们深入解析这项突破性的研究。

研究背景与意义

过去60年间，蛋白质设计从一个看似不可能的任务发展到今天可以完全人工设计和合成的水平。然而，由于蛋白质折叠的非线性复杂性以及功能对微小变化的敏感性，精确设计仍然需要投入大量资源。随着蛋白质结构数据库的快速增长，基于深度生成模型的从头设计方法展现出了巨大潜力。

本研究的主要创新点在于：

提出了一个完整的深度生成模型pipeline，用于早期从头蛋白质设计
通过结构相似性验证了生成样本的功能相关性
创新性地应用结构系统发育分析揭示进化关系
通过分子动力学模拟和蛋白质-配体对接验证了样本的稳定性和功能潜力

技术方法深度解析

基础模型架构

研究采用了两种3D刚体生成方法：评分匹配(Score Matching, SM)和流匹配(Flow Matching, FM)。这两种方法都在SE(3)空间中生成单体蛋白质骨架。

论文图1A显示了蛋白质骨架和二面角示意图。

在数学表示上，每个氨基酸残基i ∈ [1, N]的骨架原子组[N, Cα, C, O]i被表示为一个刚性变换(frame) Ti，其中：

其中R是旋转矩阵(属于SO(3))，x是平移向量(属于R³)。

评分匹配(SM)方法

SM方法通过以下SDE描述前向过程：

其中和是布朗运动。

流匹配(FM)方法

FM方法通过优化目标：

其中是目标向量场，是神经网络近似。

模型验证与评估

研究团队在四个重要的蛋白质家族上评估了这些方法：

β-内酰胺酶
细胞色素c
绿色荧光蛋白(GFP)
Ras蛋白

论文图2展示了不同蛋白质家族的系统发育树分析结果，清晰地显示了生成样本与天然蛋白质的进化关系。

结构稳定性验证

研究采用了多个指标评估生成结构的稳定性：

骨架原子RMSD
残基波动(RMSF)
回转半径(Rg)
势能

论文图3展示了分子动力学模拟过程中这些稳定性指标的分布情况。

功能验证

研究通过蛋白质-配体对接实验验证了生成结构的功能性：

β-内酰胺酶与青霉素的结合
细胞色素c与血红素c的结合
Ras蛋白与GTP/GDP的结合

论文图4展示了生成结构与配体的对接结果，证实了生成样本具有合理的结合位点和结合能。

研究发现与创新点

结构保守性： 尽管序列相似性较低，生成的样本在结构上与实验结构高度相似，并保留了关键功能残基。
方法特点比较：

SM方法更好地捕捉保守区域，生成的结构更刚性
FM方法提供更大的灵活性、多样性和新颖性

功能验证： 生成的结构展示了与天然蛋白质类似的配体结合特性和构象变化。

局限性与未来展望

研究也指出了当前方法的一些局限性：

未完全考虑构象动力学、水分子相互作用和熵的影响
生成过程与实际蛋白质合成模拟存在差异
可解释性有限，影响下游分析和工业应用

技术实现细节

模型实现采用了复杂的网络架构，包含：

嵌入模块： 处理残基索引和时间步信息
多层网络： 使用4层网络结构，每层包含不变点注意力(IPA)机制
SE(3)不变性： 通过投影矩阵实现平移不变性

代码实现和数据集可在以下地址获取： https://github.com/ECburx/PROTEVAL

结论

这项研究不仅推进了AI辅助蛋白质设计的发展，更重要的是提供了一个全面的评估框架，为未来的研究提供了重要参考。研究表明，深度生成模型在保持功能性的同时，可以生成具有新颖性的蛋白质结构，这对药物开发和生物技术领域具有重要意义。

Q&A环节：深入解析蛋白质结构生成模型的技术细节

Q1: 研究中使用的SE(3)分解方法的数学原理是什么？为什么要将SE(3)分解为SO(3)和R³空间？

SE(3)分解的核心思想是将蛋白质骨架的刚体变换分解为旋转和平移两个独立的部分。从数学角度来看，SE(3)可以表示为SO(3)和R³的半直积，即SE(3) ≅ SO(3) ⋉ R³。对于每个残基i，其变换矩阵可以表示为：

其中是3×3旋转矩阵，是平移向量。这种分解的优势在于：

简化计算：可以分别处理旋转和平移，减少计算复杂度
物理意义明确：旋转矩阵描述骨架的方向，平移向量描述位置
便于优化：可以分别对旋转和平移应用不同的优化策略

Q2: 评分匹配(Score Matching)方法中的前向过程和反向过程是如何实现的？其数学原理是什么？

评分匹配方法的核心是通过随机微分方程(SDE)描述蛋白质结构的生成过程。前向过程通过以下SDE描述：

对应的反向过程为：

这里的关键是条件评分的估计，通过神经网络s(θ,t,·)实现：

Q3: 流匹配(Flow Matching)方法是如何实现蛋白质结构的生成的？其与评分匹配方法的主要区别是什么？

流匹配方法通过构建连续向量场来实现结构生成。其核心优化目标是：

对于SO(3)上的流，定义为：

其中向量场由以下方程给出：

与评分匹配方法相比，流匹配方法的主要区别在于：

直接建模转换路径，而不是通过评分函数
无需估计概率密度梯度
训练更稳定，计算复杂度更低

Q4: 研究中使用的蛋白质骨架表示方法有什么特点？如何保证生成结构的物理合理性？

蛋白质骨架表示采用了AlphaFold中的刚体群表示方法。对于每个氨基酸残基i，其主链原子[N, Cα, C, O]i组成一个刚体群。理想化坐标[N*, Cα*, C*]通过刚体变换Ti得到实际坐标：

为保证物理合理性，研究采用了多个约束：

二面角分布约束：

原子间距约束：

Q5: 研究中使用的多层网络架构是如何设计的？神经网络如何保证SE(3)不变性？

网络架构包含嵌入模块和多层变换网络。对于维度为Dh的节点嵌入和De的边嵌入，首先构建特征：

网络的核心组件包括：

不变点注意力(IPA)机制：处理空间注意力
Transformer层：处理链结构相互作用
投影矩阵P：确保SE(3)不变性

SE(3)不变性通过以下方式实现：

移除质心：
旋转不变性：通过SO(3)上的布朗运动保证
条件生成：通过网络实现

每一层的输出都保持SE(3)不变性，最终输出预测帧。

这种架构设计确保了生成的蛋白质结构具有物理合理性，同时保持了足够的灵活性来生成多样化的结构。网络的SE(3)不变性保证了生成结构的空间一致性，而多层结构允许捕获不同尺度的结构特征。

Q6: 研究中提到的最优传输(Optimal Transport)条件是如何应用于蛋白质结构生成的？其数学原理是什么？

最优传输方法的核心是寻找最小化两个分布之间2-Wasserstein距离的映射。对于分布p1和p0，其数学表达为：

其中Π是所有具有边缘分布p1和p0的联合概率测度集合。在流匹配方法中，通过设置：

并使用均值为的高斯条件概率路径，得到：

这种方法的优势在于：

保证了生成路径的平滑性
提供了更稳定的训练过程
减少了计算复杂度

Q7: 研究中使用的氨基酸序列预测方法是如何工作的？如何确保预测序列的功能相关性？

序列预测采用了基于ProteinMPNN的方法。对于每个生成的骨架，算法通过以下步骤进行：

预测10个候选序列
使用EMSfold进行建模
通过TMscore评估与原始骨架的匹配度：

其中，是对齐残基数，是原子位置偏差，是长度相关的归一化因子。

为确保功能相关性，研究还采用了Rate4Site方法计算每个位置的进化率：

其中是位置i的进化率，和是均值和标准差。

Q8: 研究中的结构系统发育分析是如何实现的？Qscore和3Di字母表方法的原理是什么？

结构系统发育分析使用两种方法：Qscore和3Di字母表。Qscore的计算公式为：

其中：

是对齐残基数
和是比较结构的残基数
RMSD是原子位置均方根偏差
（设为4Å）平衡RMSD和的贡献

3Di字母表方法将蛋白质三级相互作用编码为20个状态的字母表，通过：

编码保守核心区域
简化结构对齐
降低假阳性率

距离矩阵计算使用1-Qscore作为距离度量：

Q9: 分子动力学模拟中如何评估生成结构的稳定性？具体的评估指标和计算方法是什么？

研究使用多个指标评估结构稳定性：

骨架原子RMSD：
残基波动(RMSF)：
回转半径(Rg)：

模拟条件包括：

NVT系综（常温常容）
NPT系综（常温常压）
310K模拟温度
1 atm压力

Q10: 蛋白质-配体对接实验中如何评估生成结构的功能性？结合能计算方法是什么？

配体对接采用AutoDock Vina方法，主要评估指标包括：

结合自由能（ΔG）：

其中结合能函数包含多个项：

配体RMSD：

对接过程中的关键步骤：

定义搜索空间（80-110Å大小）
生成最多25个结合构象
能量差异阈值设为5 kcal/mol
详尽度设置为20

这些评估方法共同验证了生成结构的功能性，特别是：

结合位点的保守性
结合能的合理性
构象变化的一致性

这种全面的评估体系确保了生成结构不仅在几何上合理，而且具有潜在的生物学功能。研究结果表明，生成的结构能够形成与天然蛋白质类似的结合口袋，并表现出相似的配体结合特性。

主办单位

中国化工企业管理协会医药化工专业委员会

中科凯晟（北京）化工技术研究院

各有关单位：

蛋白质通常被称为生命的基石，它们几乎参与了细胞内的每一个过程，包括生长、分裂和修复。蛋白质是生命活动的体现者，其结构决定着功能。由线性氨基酸组成的蛋白质需要折叠成特定的空间结构才具有相应的生理活性和生物学功能。解析蛋白质的空间结构可以更准确地认识蛋白质的功能、功能的执行、及生物大分子间的相互作用。然而，随着人工智能及大数据的快速发展，蛋白质可以通过人工智能设计从而解锁更多的功能，这在食品学、医学和药学的发展(如多肽、酶、药物靶点的设计等）具有重要意义。因此，为了进一步挖掘蛋白质新功能与充分发挥人工智能在医药及生物领域的快速发展，协会决定于2024年12月27-29日在线上（小鹅通平台）举办“第二期基于AI的蛋白质结构解析与智能设计专题培训班。”届时将邀请行业内知名专家针对相关内容进行讲解与探讨。参会名额有限，望各有关单位积极转发或组织相关人员尽快报名参加。现将有关事项通知如下：

一、时间地点

直播平台：小鹅通在线直播平台

12月27日：下午15：00-15：30平台网络及设备测试

12月28日-29日：上午9：00-12：00，下午14：00-17：00培训课程

二、会议主要交流内容

第一天

上午下午

9:00-12:00 13:30-16:30

《结合AI的蛋白质结构解析与预测》

1.蛋白质结构的重要性、结合AI的蛋白质结构解析方法与实践（3h）；

1.1 蛋白质结构AI预测软件介绍，优缺点、精度、适用条件(陈荣昌 30min)。

1.2 AI时代的结构解析特点和流程( SPA、结晶、NMR技术方案选择依据，AI带来的便利性,基本流程介绍)--杨银龙 60min

1.3 AI时代服务于结构解析的蛋白样品制备(程洪金 60min)

1.3.1表达方案制定依据、表达体系选择、质粒标签选择。

1.3.2经典案例。

2.结合AI的蛋白质结构预测、优化途径与实践（3h）。

2.1 AI模型对于结构解析的帮助，带来的好处。AI蛋白质预测软件使用 alphafold2 ,alphafold3使用。

2.2 AI模型用于结构解析案例实际操作（晶体 prfaH）

2.3 AI模型用于结构解析案例实际操作（SPA 烟草花叶病毒）

2.4晶体结构质量的评价指标、PDB数据提交等数据发表

杨老师，山东第一医科大学硕士研究生，在蛋白表达纯化，晶体培养和结构解析方面拥有丰富科研经验，目前在青云瑞晶担任项目经理一职。曾参与多个国家基金项目的申请和开展，学习期间主要从事细菌和病毒致病蛋白的结构和功能研究，后续在清华大学药学院学习药物功能研究和真核蛋白表达纯化。先后参与发表Cell Reprot论文2篇，Cancer Immunology Research论文1篇，Nucleic Acids Research论文1篇。

程老师，硕士毕业于天津科技大学制药工程专业。曾就职于潍坊制药厂、青岛汉唐生物科技有限公司。全面负责苏州青云瑞晶表达纯化部门工作，主要从事重组蛋白的表达与纯化工作，掌握大肠杆菌、昆虫细胞、哺乳动物细胞、酵母细胞等多种表达系统蛋白的表达，熟练掌握各种纯化方式(亲和纯化、离子柱及分子筛纯化)。熟悉整个靶标蛋白的获得及制备流程，从基因到蛋白表达纯化，再到晶体结构功能研究，整个领域不仅掌握了相关的致病机理，还从微观原子结构进行解释。累计完成150余个靶点蛋白的评估方案制定及制备，为下游结构解析提供支持。累计交付蛋白CRO客户100+以上。熟练使用 SnapGene ，Geneious，Pymol 等分子结构相关软件。熟练使用Origin，office，PS，Ai 等作图办公软件。

傅老师，毕业于美国东北大学。曾就职于默克集团，上海维亚生物公司。现于青云瑞晶全面负责X-ray晶体学结构解析工作，有丰富的蛋白质结构解析经验,每年处理大分子晶体数据2000+，交付精修大分子晶体结构500+，精通用计算机脚本搭建结构解析管线，精通结构解析相关软件phenix、coot、 CCP4、XDS、 CrysAlisPro、DIALS及pymol。精通aphlafold2、aphlafold3、schrodinger、MOE等软件的使用。在处理多晶、孪晶、tNCS等数据积累了丰富的经验。精通特殊模型搭建(共价修饰)及PDB数据提交，成功帮助客户提交PDB结晶50+。精通Cryosparc、relion软件。

陈老师，博士，苏州青云瑞晶生物科技有限公司，结构生物学负责人。毕业于中国科学院生物物理研究所结构生物学专业，师从叶克穷教授从事RNA蛋白质复合物的结构生物学研究。从2009年开始蛋白质RNA复合物的结构生物学研究，有10年以上的蛋白质表达纯化及结构解析经验。在Elife、Nature Communication、Angewandte、Nucleic Acids Research等杂志发表多篇文章。在北京大学深圳研究生院、北京生命科学研究所和北京大学化学与分子工程学院均进行过研究工作。在北京大学化学与分子工程学院博士后工作期间，解析了重要疾病靶点和小分子的结构，积累了丰富经验。

第二天

上午下午

9:00-12:00 13:30-16:30

《数据驱动的功能蛋白挖掘与工程化》1.3h

1.数据驱动的合成生物学技术。

2.基因编辑工具的介绍。

3.工具酶的挖掘与改造。

4.蛋白材料的设计与改造。

姚老师，浙江大学杭州国际科创中心“百人计划”研究员，合成生物学研究所副所长。聚焦数据驱动的基因编辑技术、蛋白设计与进化技术，基于遗传多样性的暗物质挖掘与进化技术，并应用于生物医药和化学工程等领域。共主持科研项目13项（包括国家重点研发计划课题，国家自然科学基金项目等6项国家级项目），共发表SCI论文50篇。近5年，以通讯作者在Nature Chemical Biology, Advanced Functional Materials等期刊发表SCI论文30篇。申请国家发明专利10件。联合国内医药上市公司和领军企业实现技术产业化1项。担任Science合作期刊BioDesign Research编委等学术职务。

《人工智能在酶蛋白设计中的应用》1.7h

1.开场 (10分钟)：概述课程涵盖的工具及其在蛋白质工程中的重要性

2.工具概览及安装 (15分钟)

(1)介绍将使用的工具：简要介绍ESM模型、ProteinMPNN、MutCompute、MLDE、CLADE等

(2)工具的获取与安装：如何下载和安装这些工具、基本的系统要求和配置注意事项

3.使用蛋白质语言模型 (20分钟)

(1)ESM模型使用基础：如何配置和启动ESM模型、输入数据的格式和准备

(2)实作演示：演示如何用ESM预测蛋白质结构

4.基于结构优化算法的设计 (20分钟)

(1)ProteinMPNN和MutCompute：基本工作流程和使用场景

(2)实作演示：通过案例展示如何用ProteinMPNN进行蛋白质设计、运用MutCompute优化酶的活性和稳定性

5.监督学习算法在酶工程中的应用 (20分钟)

(1)MLDE和CLADE概述：讲解核心原理、应用范围、基本工作流程

(2)实作演示：演示如何通过MLDE进行酶功能优化、CLADE的实际使用案例

6.结尾与问答环节 (15分钟)

(1)总结工具使用技巧

归纳不同工具的最佳使用场景和优劣势

(2)互动问答

解答学员在工具使用过程中的常见问题。

于老师，男，浙江大学“百人计划”研究员，博士生导师，浙大杭州国际科创中心合成生物学研究所副所长。本科、硕士毕业于天津大学，博士毕业于英国伦敦大学学院。主要研究方向包括蛋白质工程、酶分子智能设计等，在PNAS，Angew Chem Int Edit等期刊发表40余篇论文，授权发明专利5项，主持及承担国家自然科学基金项目、国家重点研发计划“合成生物学”重点专项、浙江省尖兵领雁项目等。担任英国皇家化学学会会员，中国生物工程学会合成生物学分会青年工作组委员等，兼任BioDesign Research期刊青年编委，Science Advances, Nature Communications, ACS Catalysis等杂志审稿人。

江老师，女，国家“启明计划”博士后海外引才专项人才，主要从事理论与计算化学、计算生物学、蛋白质智能设计等相关研究。本科、博士均毕业于英国诺丁汉大学。已在Journal of Chemical Theory and Computation，The Journal of Physical Chemistry C，Bioresources and Bioprocessing，Advanced Synthesis & Catalysis等杂志发表论文6篇论文，申请发明专利2项，主持国家博士后海外引才专项项目，参与国家重点研发计划“合成生物学”重点专项，担任中国化学会会员，担任Nature Communications杂志审稿人。

1）基于AI的功能蛋白挖掘与评估（包括ESP、DLKcat、UniKP、SoluProt、Rasp等）；

2）基于蛋白预训练模型的突变评估及案例解析（包括ESM-1v、ESM-IF1、LigandMPNN等）；

3）基于小样本实验数据的蛋白改造及案例解析（包括ProtLGN、FSFP、EVOLVEPro等）；

4）蛋白从头设计及案例解析（包括多种生成模型）

廖老师，中国科学院天津工业生物技术研究所研究员。主要围绕工业生物大数据智能分析展开研究，开发核心的数据库、算法和工具。构建糖基转移酶数据库pUGTdb、大肠杆菌代谢调控图谱ERMer等系列数据库；发展新一代蛋白功能预测算法HDMLF、酶挖掘与评估工具REME等系列AI算法。近年来在Nucleic Acids Research、Science Advances、Molecular Plant、Research等国内外高水平期刊发表文章50余篇，引用2000余次。主持基金委交叉重点专项、中国科学院战略性先导专项课题等多项国家级、省部级项目.

三、参会对象

1.蛋白质工程领域科研单位专家及学者；

2.医学、药学及食品学院校及企业蛋白质功能开发负责人；

3.生物及化工工程领域从业工作者。

四、会议费用

4000元/单位，可投屏全员观看（含5个直播链接、2本资料、1个月有效期回放）

五、汇款账号

户名: 中科凯晟（北京）化工技术研究院

开户行: 中国工商银行北京玉泉路支行

账号: 020 006 300 920 008 7710

六、报名回执表

图科学实验室Graph Science Lab

分享有关图理论、图表示学习、图神经网络、图+交叉学科（生物、化学、物理 ...）、图+交叉算法（DL、RL、NLP、CV ...）最新科研资讯、论文、开源工具、招生/招聘、会议/竞赛、课程/书籍。秉持文理兼修，也分享人文作品。欢迎持续关注。