Cell Systems | Genesis探索“暗物质“蛋白折叠，折叠蛋白成功率结果鼓舞人心

学术 2024-11-18 00:02 韩国

DRUGAI

今天为大家介绍的是来自Bruno E. Correia团队的一篇论文。De novo蛋白质设计探索了未被进化采样的全新序列和结构空间，以生成新型蛋白质。De novo设计的主要挑战在于构建“可设计”的结构模板，以引导序列搜索朝着目标结构发展。作者提出了一种卷积变分自编码器，称为Genesis，它可以学习蛋白质结构的模式。作者将Genesis与trRosetta结合，用于为一组蛋白质折叠设计序列，结果发现Genesis能够为五种天然蛋白质折叠和三种新型折叠（即所谓的“暗物质”折叠）重构出像天然蛋白那样的距离分布和角度分布，展示了其广泛适用性。作者通过蛋白酶抗性表征这些设计蛋白的稳定性，实验的折叠蛋白成功率结果使人备受鼓舞。Genesis可以在几分钟内探索蛋白质折叠空间，不受蛋白质拓扑结构的限制。该方法解决了骨架设计的问题，表明小型神经网络可以有效地学习蛋白质的结构模式。

进化是一个缓慢且渐进的过程，只探索了可能的蛋白质序列空间中的极小部分。在许多情况下，自然序列会折叠成三维（3D）结构，并可归类为有限的蛋白质折叠类型。为了探索能够折叠成明确3D构象的新序列，且这些序列可能具有新的功能，作者们开发了de novo蛋白质设计策略。大多数基于结构的de novo蛋白质设计方法依赖于两步过程：（1）首先确定蛋白质折叠并生成相应的骨架，接着（2）搜索适合该骨架的氨基酸（aa）序列。机器学习（ML）技术已经被用于帮助这两个步骤。

尽管最近取得了一些成功，鲁棒的de novo设计仍然具有挑战性。de novo设计中的一个长期挑战是在骨架生成阶段，物理上不合理的构象会导致无法在实验中折叠的序列。可设计的骨架应表现出最佳的二级结构配置，使其能够打包成三级构象，并且可以使用20种天然氨基酸实现。研究发现，符合某一蛋白质结构的能量上有利的序列数量和种类，与骨架的可设计性相关。然而，定量描述可设计性仍是一个未解决的问题，因为它包含了一些难以测量的特性，例如折叠特异性或类似天然的结构排列，因此很难针对这种特性进行优化。

最近，深度神经网络（DNNs）的进展，加上大规模蛋白质序列和结构数据集的可用性，使得从序列中高精度预测结构成为可能。结构预测网络可以“反向”用于蛋白质设计任务。例如，transform-restrained Rosetta（trRosetta）或AlphaFold（AF）网络可以通过从目标结构反向传播梯度到序列，来进行固定骨架设计。反向应用结构预测方法，可以在整个序列和结构空间隐式优化，即寻找最低能量序列，同时最大化目标结构相对于其他构象的概率，从而提高折叠的特异性。

虽然在生成中大型新蛋白质折叠方面非常强大，但许多DNNs在生成自然界中未见过的小型新蛋白质结构域时遇到挑战，即具有新构象或SSE（二级结构元素）连接方式的结构域。例如，基于trRosetta的“幻化”通常会生成与蛋白质数据库（PDB）中的骨架具有超过0.6 TM评分的蛋白质骨架，表明它主要是重复现有的折叠。这些现象说明，计算机生成最终能够在实验中发挥作用的小型新蛋白质结构域仍然是一个具有挑战性的任务。

模型部分

图 1

作者提出了一种方法，首先将蛋白质折叠表示为字符串格式，并将其投射到三维空间作为草图（图1A）。为了改进草图的可设计性，作者提出了一个卷积变分自编码器（VAE），称为Genesis，用于将草图的距离和方向编码为一个紧凑的潜在表示，该表示可以进行采样，并随后解码为类似天然的距离和方向概率。精炼后的距离和方向概率作为目标模板，用于指导trRosetta生成符合模板约束的新骨架和序列（图1A）。值得一提的是，其他基于距离和方向的序列设计工具，例如AF或RosettaFold，也可以替代trRosetta使用。

Genesis的泛化能力

为了测试Genesis的泛化能力，作者根据蛋白质的结构分类（SCOPe定义）将数据分为训练集和测试集。与图1B中显示的天然蛋白质结构相比，草图在成对距离和方向图上表现出显著差异，因此将草图转换为类似天然的骨架具有挑战性。这主要是因为在草图中，SSEs（1）在没有考虑任何物理约束的情况下被简单地分层排列，且（2）环结构不存在，被模拟为连接两个SSE的直线位置上的随机残基。

作者随机从训练集中选择了273种多样化的全α、全β和混合α/β折叠，并在流程的不同模块上进行了消融研究，如图1C所示。作者比较了Genesis单独使用、trRosetta单独使用，以及Genesis-trRosetta结合框架的表现，使用self-consistent TM-score进行评估，例如，将设计序列的结构预测与目标天然折叠进行对齐。

Genesis-trRosetta改进了每个SCOPe类别的结构折叠恢复能力，并能够生成多个骨架，其中位TM评分超过0.5（图1C）。对于全α拓扑结构，单独使用Genesis或trRosetta的框架的中位TM评分分别约为0.25和0.6，而完整的Genesis-trRosetta协议的中位TM评分达到0.75（图1C）。对于全β和混合α/β折叠，单独使用的框架的中位TM评分都低于0.5，只有少数采样的骨架的TM评分接近0.5（图1C）。使用完整的Genesis-trRosetta框架时，大约40%到50%的采样骨架的TM评分超过0.5，最佳恢复的TM评分约为0.75（图1C）。

作者进一步研究了序列长度是否对蛋白质在50到128个残基之间存在依赖性（图1D）。结果显示，相比完整的Genesis-trRosetta，削弱后的模型表现较差，且长度在110至120个残基的折叠似乎具有更高的恢复率（图1D）。许多TM-score较低的折叠难以用草图来定义，例如全β蛋白质如右手β螺旋折叠、α/β螺旋桨或β棱柱，它们由大约打包成类似棱柱的三层β片组成。

接下来，作者测试了Genesis-trRosetta框架是否能够恢复未包含在训练集中的折叠结构（图1E和图1F）。作者使用Genesis-trRosetta框架对18个测试结构的骨架进行了采样，这些结构包括草图和未在训练集中包含的SCOPe家族。结果显示，Genesis-trRosetta能够生成全α、全β和混合α/β结构的骨架，其TM评分在0.5到0.8之间，表明该框架能够泛化到训练集之外（图1E和图1F）。

总而言之，这些结果表明，Genesis-trRosetta流程增强了低分辨率蛋白质草图的骨架可设计性，生成的序列被预测能够采用目标折叠。此外，该流程还显示出对训练集中不存在的蛋白质形状具有良好的泛化能力。

大规模从头设计天然拓扑结构

为了展示Genesis-trRosetta的de novo设计框架，作者设计了五种不同的拓扑结构。首先，作者采样了一个两层混合α/β的泛素样折叠，其中四条β链与一个螺旋打包在一起，以及一个三层混合α/β的Rossmann折叠，中央有四条β链，两侧各有两个螺旋打包在一起。接下来，作者挑战了该框架，设计了两个不同的两层β夹心结构，即免疫球蛋白（Ig）样折叠和果冻卷折叠。最后，设计了采用Top7折叠的序列，Top7最初被提出为一种自然界中不存在的新折叠，但它与一些自然存在的折叠具有显著的相似性。

作为评估折叠可设计性的指标，作者使用相对接触顺序(relative contact order)来衡量这些折叠中结构接触的局部性。接触顺序被定义为蛋白质折叠结构中接触残基之间的平均序列分离度。重要的是，接触顺序高的蛋白质通常比接触顺序低的蛋白质折叠速度慢，且设计难度较大。泛素样、Rossmann和Top7折叠的接触顺序约为0.15，表明局部接触较多。另一方面，Ig样和果冻卷折叠的结构接触非局部性较强，接触顺序分别为约0.20和0.26。

图 2

对于每种拓扑结构，作者事先并不了解可以成功组装成可设计骨架的二级结构和环长度分布。因此，作者采用了“探索-利用”策略，并进行了两阶段的采样方法：（1）首先在“候选搜索阶段”中采样了20到30种二级结构和环长度组合，以生成具有潜在可设计长度组合的候选模板；（2）满足自一致性结构预测指标的候选模板进入“生产阶段”，在该阶段生成了大约20,000个序列及其对应的3D模型（图2A）。

为了评估de novo设计流程的性能，作者根据模型与AF预测之间的自一致性TM评分和AF的pLDDT评分，从中选择了250个设计（每个折叠50个）（图2A、图2B）。排列好基因片段，使用特定的引物和载体进行扩增和准备，然后在酵母表面筛选这些设计，通过蛋白水解消化实验来评估它们的折叠情况。酵母库用不同浓度的蛋白酶处理，并通过深度测序分析折叠和未折叠的设计。

每个设计都计算了针对胰蛋白酶和糜蛋白酶的折叠评分（消化抗性），通过监测酵母表面被消化掉一半的样本所需的酶量来估计设计的稳定性。任何计算出的评分超过10 mM的，都显示为>10 mM，因为这是检测的上限。作者的实验中测量到的蛋白酶抗性范围很广。根据蛋白酶抗性，将设计分为三组进行分析：高抗性（H）、中抗性（M）和低抗性（L）（图2C和图2D）。每种折叠类型至少有一个高度抗消化的设计，有些折叠类型的高抗性和中抗性设计比其他折叠类型更多（图2C和图2D）。此外，作者还测试了为这些设计折叠选择的天然蛋白质序列的稳定性。结果发现，天然序列在实验中表现出高到中等的消化抗性，这表明作者的设计与天然蛋白质序列相当，也证明了实验能够有效识别天然蛋白质是折叠状态的。

整体趋势（图2E）显示，在每种折叠类型中，只有一小部分设计具有高度抗性（约占设计的5%到10%），其中Top7折叠的高折叠设计比例最高，这表明这种折叠可能能够容纳大量不同序列而不影响其稳定性。作者选择了两个天然的β夹心折叠，它们对计算设计方法尤其具有挑战性，这被认为是由于折叠中的非局部接触所导致的。根据折叠评估，这些折叠的成功率并未降低，Ig样折叠和果冻卷折叠中分别有20%和15%的设计属于中等折叠类别（图2E）。总体而言，这些结果表明，作者的设计方法即使面对通常认为难度较高的折叠类型也取得了成功。

图 3

接下来，作者对一些中度和高度抗消化的设计进行了生化表征。作者获得了44个设计的合成基因，并在大肠杆菌中表达和纯化。每种折叠类型的一个设计的表征数据如图3所示。

对于泛素样折叠，作者测试了5个设计，其中3个在溶液中表现出单分散性，并通过圆二色光谱确认其折叠状态=。其中两个设计在溶液中表现出预期的单体形式（ubi_1和ubi_2），另一个为二聚体（ubi_3）（图3）。Genesis-trRosetta模型与AF模型的比较显示出高度一致性，均方根偏差（RMSD）均低于1.5埃。

对于Ig样折叠，作者尝试表达了11个设计，其中2个能够纯化并成功折叠。设计igl_1显示出两种寡聚体形式，而igl_2在溶液中表现为二聚体（图3）。这两个设计的圆二色谱特征与天然的Ig样折叠相似，并且具有热稳定性。Genesis-trRosetta模型与AF模型的RMSD在1.8到2.5埃之间，表明两者之间有很好的一致性。

接着，作者尝试设计了具有非局部SSE连接的果冻卷折叠。表达了10个设计，但只有jelly_1在溶液中表现出单分散性并成功折叠（图3）。该设计在溶液中为二聚体，具有β片层的圆二色谱特征，并且表现出较高的热稳定性（图3B至3D）。这一折叠的设计在整个尝试中成功率最低，突显了具有非局部接触的拓扑结构设计难度较大。

接下来，作者测试了设计流程在Rossmann折叠上的表现。在9个设计中，有3个在溶液中成功折叠，其中2个为单体，另一个为二聚体（图3）。AF的预测结果与Genesis-trRosetta流程模型一致，RMSD在1.9到2.6埃之间。

最后，作者尝试设计了Top7，在9个设计中有3个是可溶的并成功折叠，所有设计都表现出较高的热稳定性，其中两个为二聚体，剩下一个为单体（图3）。AF的预测结果与Genesis-trRosetta流程也高度一致，RMSD在1.6到2.0埃之间。

总而言之，作者展示了其计算流程能够设计各种类型的折叠，包括那些具有丰富β二级结构和非局部接触的具有挑战性的拓扑结构。作者采用了高通量筛选方法来监测每种折叠约50个设计的稳定性，通过此测试，50个设计中有10到20个对蛋白酶消化具有抗性，表明它们具有结构稳定性或已折叠。每种折叠的几个设计进一步被纯化并进行了生化表征，显示它们在溶液中保持折叠状态并且稳定。

“暗物质折叠”的探索

图 4

de novo蛋白质设计方法的最终目标之一是生成自然界中不存在的蛋白质折叠，且这些折叠可能具备新的功能。作者试图测试其基于天然蛋白质结构数据训练的框架是否能够泛化到自然折叠分布之外。为此，作者尝试采样未包含在训练集中的蛋白质折叠，这些折叠在自然界中极少或根本不存在。此前，Taylor和同事通过计算分析了三层混合α/β折叠空间中未探索的区域，利用符合天然蛋白质结构约束的Ca轨迹，例如SSE的旋向和环连接性。作者进一步缩小了候选集，排除了那些在同一层上混合二级结构类型、SSE不连贯、松散堆积或环交叉的不可设计Ca轨迹。最终，作者选择了三个不同的折叠，使用Genesis-trRosetta方法进行设计（图4A）。

第一个新型折叠（drk1）具有一个中央的三股β片层，两侧各有两个螺旋。顶部的螺旋通过中间的β股和侧边的β股相连，底部的螺旋通过另一侧的β股相连（图4A顶部）。第二个新型折叠（drk2）是一个三层折叠，中央层有一个四股β片层，每侧各有两个螺旋。该折叠与drk1相似，但顶部和底部螺旋与中央β片层的连接方式不同（图4A中部）。第三个新型折叠（drk3）由一个五到四股的β片层构成，上面夹着两到三个螺旋，底部则有一个单螺旋。该折叠在四个连续的β股和顶部的三个螺旋之间“卷曲”，最后一个β股与底部的螺旋相连，后者与整个β片层紧密结合（图4A底部）。

对于新型折叠的设计，作者采用了与天然折叠相同的策略。作者使用Genesis-trRosetta框架，基于不同的草图（环和SSE长度有所变化）进行序列采样，收集了2到5个可设计的候选模板。接着，对每个新型折叠的候选模板进行了进一步的采样。作者用AF预测所有采样序列的结构，并将预测的结构与Genesis-trRosetta模型进行了比较。有趣的是，很多新型折叠设计的中位TM评分在0.5或更高，中位RMSD在3.7埃或更低（图4B）。因此，许多Genesis生成的设计与其相应的AF模型一致（图4B和图4C）。基于AF的pLDDT和TM评分，作者选择了最优的74个设计进行进一步实验验证。每个新型折叠的设计都通过酵母展示的蛋白酶消化测试（如前所述）进行验证。与天然折叠类似，这些设计显示出不同程度的消化抗性，每种折叠至少有一个设计表现出对蛋白酶消化的高度抗性（图4D到图4F）。作者在大肠杆菌中表达和纯化了排名最高的设计，并进一步对其进行了生化表征（图5A）。

图 5

对于drk1折叠，作者尝试了26个设计，并成功表达和纯化了8个。其中7个设计在溶液中表现出单分散的二聚体形式，具有预期的混合α/β圆二色谱图谱，并且热稳定性非常高，即使在非常高的温度下也未显示出向非折叠状态的转变（图5）。Genesis模型与AF模型之间的RMSD在1.9到4埃之间，显示生成的模型与预测模型高度一致。图5中展示的drk1_1在溶液中为明确的二聚体，热稳定性高，且Genesis模型与AF模型非常接近，RMSD为2.26埃。对于drk2折叠，作者共测试了34个设计，其中16个成功表达并纯化。在这些纯化的设计中，4个在溶液中呈现为单体，圆二色谱显示出混合α/β特征。所有设计都表现出良好的热稳定性。AF模型与Genesis模型一致，RMSD在1.9到3埃之间。例如，设计drk2_5是其中一个单体，其自一致性RMSD为2.38埃（图5）。最后，对于drk3折叠，作者测试了14个设计，其中3个成功表达并可纯化。drk3_3在溶液中表现为预期的单体形式，而drk3_1和drk3_2则为二聚体或小寡聚体（图5）。Genesis-trRosetta模型与AF模型的比较显示出高度一致性，RMSD在1.5到2.5埃之间。

总而言之，Genesis-trRosetta流程不仅能够生成天然折叠，还可以生成进化过程中未曾采样的新型折叠。所有新型darkfolds跨越了三层，具有混合的α/β二级结构元素（SSEs）。通过对酵母进行高通量的酶抗性测试，作者成功识别出74个设计中有27个是可溶的，并且通过圆二色谱（CD）测量显示它们具有正确的二级结构倾向。这表明，Genesis-trRosetta框架能够泛化到未包含在训练集中的新型折叠，表明它已经学会了足够的结构模式，能够引导骨架生成和序列搜索，即使对于自然界中尚未发现的折叠也是如此。

编译|黄海涛

审稿|王梓旭

参考资料

Harteveld Z, Van Hall-Beauvais A, Morozova I, Southern J, Goverde C, Georgeon S, Rosset S, Defferrard M, Loukas A, Vandergheynst P, Bronstein MM, Correia BE. Exploring "dark-matter" protein folds using deep learning. Cell Syst. 2024 Oct 4:S2405-4712(24)00270-9.

http://mp.weixin.qq.com/s?__biz=MzU2ODU3Mzc4Nw==&mid=2247507487&idx=2&sn=350a27d9738801ccea84e1d7c5847e26

DrugAI

关注人工智能与化学、生物、药学和医学的交叉领域进展，提供“原创、专业、实例”的解读分享。

Cell Systems | Genesis探索“暗物质“蛋白折叠，折叠蛋白成功率结果鼓舞人心

Trends Pharmacol Sci. | 计算策略的集成与联用推动抗菌肽智能研发

Nat. Commun. | 使用CADD针对AcpS设计全新抗生素家族，实验效果显著！

美国佛罗里达大学计算机系/药物化学系AI制药课题组诚招全奖博士

分子表征从「图」到「视频」，1.2亿帧、200万分子，湖大分子视频基础模型登Nature子刊

《卫生健康行业人工智能应用场景参考指引》发布，推动“人工智能+”在卫生健康领域创新发展

香港科技大学（广州）人工智能学域助理教授戴恩炎招收AI for Protein 全奖Ph.D. 及 Intern

J. Chem. Inf. Model. | 基于MoE的解离动力学模型助力设计“长效药”

NeurIPS 2024 | WKM: 增强智能体规划的世界知识模型

Protenix: AlphaFold3的再现 – ByteDance AML AI4Science团队

Google DeepMind 开源 AlphaFold 3

世界糖尿病日特别直播：后司美时代“减脂增肌”前沿靶点与药物研究

Equitorch: 基于pyg的模块化等变图神经网络包

Nat. Commun. | 迈向医学大语言模型！上海交通大学团队构建数据集与评估基准

Science | 通过结构域分类探究蛋白质宇宙的结构多样性

NCS+NC｜湖南大学DrugAI实验室同一天发表两项重要成果

PNAS | 在AlphaFold 2上升级，佐治亚理工学院团队预测SARS-CoV-2刺突蛋白RBD的抗体表现

首个！四大高校联合推出药物研发大语言模型Y-Mol，性能全面领先LLaMA2

BMC biology | 多源提示的大语言模型药物重定位框架DrugReAlign

AI2BMD登上Nature，以量子级精度推进蛋白质动力学

Nat. Comput. Sci. | 单步训练2个分子，主动深度学习远超传统筛选

Nat. Biotechnol. | 戴上启动帽，MIT王潇团队提出LEGO增强翻译能力

2024年上海交通大学溥渊国际青年科学家论坛

J. Chem. Inf. Model.｜利用化学语言模型导航超大虚拟化学空间

J. Pharm. Anal. | 化学自然语言引导基于扩散的生成式类药分子编辑

Nat. Mach. Intell. | CGN+CAN=CGN！Frad大尺度扰动分子提升属性预测

Nat. Commun. | 或为多领域带来启发？SymProFold准确预测对称蛋白质组装体

Nature | 蛋白质遗传结构很复杂？Ben Lehner使用加性能量模型得出相反结论！

Nat. Mach. Intell. | 宋江宁团队合作开发CD8+ T细胞受体识别抗原表位的预测新方法

礼来“三顾”口服小分子IL-17a抑制剂，DC-853成临床独苗，DC-806完成使命，退出舞台

全球首款间充质基质细胞药物获FDA批准开展临床试验

TPAMI | MVNA：自适应邻域感知的图卷积网络

Nat. Microbiol. | 加速版RoseTTAFold来了！RF2-Lite快速识别蛋白质-蛋白质相互作用

Nat. Genet. | 寻找基因-表型新关联！MILTON精准预测多种疾病

Angew. Chem. Int. Ed. | 通过荧光偏振和原位合成筛选抑制剂：加速药物发现的有效方法

Nat. Med. | 治疗罕见疾病，哈佛医学院提出TxGNN用于药物再利用

TPAMI | MVNA：自适应邻域感知的图卷积网络

Bioinf. | 双视图联合学习实现个性化药物协同预测性能的突破

J. Med. Chem. | 小分子药物研发的计算方法现状

J. Med. Chem. | DEL+AI，探索多样性“化学空间”

Cell |中山大学联手阿里云，LucaProt记录隐藏的RNA病毒圈

Nat. Biotechnol. | David Baker又一力作！ProteinGenerator蛋白序列、结构共设计

就在本周，10月27日第三届中国生物计算大会即将开幕！

Nat. Mach. Intell. | 基于提示学习的多性质分子优化方法

【Angew】来鲁华/张长胜团队在全原子蛋白质序列设计中取得新进展

Nat. Commun. | 开发深度学习联结自编码器实现多模态单细胞数据整合与插补工具

JCIM综述｜知识图谱嵌入技术在化学领域中的研究进展与应用

Nat. Methods | SCUBA-D无需预训练结构模型也能做好蛋白设计！秘诀是对抗性损失与序列扩散

MDGen：分子动力学轨迹的生成式建模

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉