BioEmu|生物分子仿真器
非常兴奋地看到Frank Noé的预印版论文,生物分子仿真器BioEmu。这个工作是使用生成式深度学习,对蛋白平衡态的系综构象进行可扩展的仿真 。下面一起来认识一下BioEmu吧!
After revolutions in protein sequence+structure, determining function reliably+efficiently is still unsolved. In particular: (i) different structures (“conformations”), (ii) different binding configurations with other molecules, (iii) probabilities+rates at given temperature, pH…
在蛋白结构预测的革命之后,可靠和高效地预测其功能仍是一个未解决的问题。特别是:(i)不同的结构构象,(ii)与其他分子结合的构象变化,(iii)在给定温度和pH值下的下的概率和速率……
We can predict (i-iii) with molecular dynamics (MD) simulation, or experimental measurements. But these methods are not scalable. E.g., brute-force simulation of dissociation of 2 small proteins is unaffordable. This is the infamous sampling problem, a 70-year old challenge.
可以通过分子动力学(MD)模拟或实验测量来预测(i)不同的结构(构象)、(ii)与其他分子的不同结合构象、以及(iii)在给定温度和pH值下的概率和速率。但这些方法并不具备可扩展性。例如,对两个小蛋白的解离进行暴力模拟是不切实际的。这就是臭名昭著的采样问题,一个70年来的挑战。
编者补充:如果2个分子结合(bound)发生在50毫秒,那么MD需要消耗1年的GPU时间,才能观察到该分子的结合过程(下图
)。所以不具备可拓展性。
Introducing Biomolecular Emulator (BioEmu). We build on#AlphaFold2
evoformer representation of protein sequence, then sample 3D structures from equilibrium ensemble with diffusion model. From this sample, we can compute states, probabilities and understand mechanisms.
于是我们开发了生物分子仿真器(BioEmu)。它基于#AlphaFold2
的evoformer对蛋白序列进行表示(下图
Single representation & Pair Representation),然后使用扩散模型从平衡态系综中采样3D结构。从这些采样的构象中,可以应用到计算状态、概率并理解机制。
编者补充:这里的扩散模型的打分模型(score model),是基于#AlphaFold2
的IPA模块。
The big challenge: in contrast to protein structure prediction (PDB, CASP), there is no good training or test set for our problem, even hardly any benchmarks! Changing this is an important part of our mission.
面临的巨大挑战是:与蛋白质结构预测(PDB, CASP)不同,我们的问题甚至没有一套好的训练或测试数据集,几乎没有任何基准测试!改变这一点是我们使命中的一个重要部分。
We combine the strengths of different datasets and try to mitigate their weaknesses. We pretrain on a processed AlphaFoldDB, incentivizing to sample diverse structures. Then we finetune on loads of processed MD simulation data and experimental protein stabilities.
我们结合了不同数据集的优势,并试图减轻它们的弱点。我们在处理过的AlphaFoldDB上进行预训练,鼓励采样多样化的结构。然后我们在大量的处理过的分子动力学模拟数据和实验蛋白质稳定性数据上进行微调。
First a basic test: can we qualitatively sample different functionally relevant structures? We define a benchmark with ~100 proteins in 3 classes of conformational changes. Class 1: Domain motions. Success defined if samples are <3A RMSD to references. Success ratio ~80%.
首先进行一个基本测试:我们能否定性地采样出不同功能的相关结构? 我们收集一个包含约100种蛋白质的数据集进行测试,这些蛋白数据可以分为3类构象变化。
类别1:蛋白结构域的运动。如果采样结果与参考结构的均方根偏差(RMSD)小于3埃,即视为成功。从下图
可见,针对蛋白结构域运动,预测成功率约为80% 。
Class 2: Local unfolding. Part of protein unfolds/detaches to interact with sth else, or reveal a binding site. Model needs to be able to predict the relative stability of different structure elements to sample the right structures. Success ratio 70-80%.
类别2:蛋白结构局部解折叠。蛋白结构的一小部分解折叠,脱离以与其他物质相互作用,这样或许会暴露一个结合位点。模型需要能够预测不同结构区域的相对稳定性,以采样到正确的结构。从下图
可见,针对蛋白结构局部解折叠,预测成功率为70-80% 。
Class 3: Cryptic pockets – ligand binding site is formed that isn’t present in apo (ligand-free) state. Can be local or a large-scale rearrangement. On average ~70% success probability, but interestingly works much better for bound (holo) than for apo. Something to improve on.
类别3:隐秘口袋。隐秘口袋是指配体结合位点在没有配体(apo态)时口袋不存在。这需要蛋白结构局部的或者大规模的重排。从下图
可见,针对口袋发现任务,平均成功率约为70% ,但有趣的是,在结合配体(holo状态)的情况下比在无配体(apo状态)的情况下工作得更好。这是需要改进的地方。
Quantiative evals: do we sample equilibrium or just something that wiggles? 1st test: fine-tune a model on only 11D.E.SHAW
fast-folding proteins & test on the 12th. Agrees in free energy landscapes, sampled structures and secondary structure content. Error < 1 kcal.
定量评估:我们采样的是平衡态,还是仅仅是会随机摆动的东西?
第一次测试:仅在11个D.E.SHAW (http://D.E.SHAW
)快速折叠蛋白质上微调模型,并在12个蛋白体系上进行测试。在自由能景观(下图中间
)、采样的3D结构(下图左
)和二级结构(下图右
)内容上达成一致。误差小于1千卡/摩尔。
BioEmu’s inference cost (Minutes to hours on one GPU) is negligible compared to MD (GPU-years). Errors within the range of differences between MD forcefields. If we can keep up similar quality across the proteome, this throughput will change the field.
BioEmu的推理成本:在单个GPU上需要几分钟到几小时(下图顶部
),与分子动力学(MD)相比微不足道(MD需要跑很多年)。
误差也在分子动力学力场之间的差异范围内(下图底部
)。如果我们能在蛋白质组学中保持类似的质量,这种吞吐量将改变这个领域。
Much larger test set. Simulated 1100 CATH domains (protein structure building blocks), up to 100 microseconds MD for each. Train on the full training set, test on best-converged systems. Qualitative agreement in free energies, good agreement in structures+2ndary structure content.
更大的测试集:模拟了1100个CATH结构域(蛋白质结构的构建块),每个进行了高达100微秒的分子动力学模拟。在完整的训练集上进行训练,在最佳收敛的系统上进行测试。在自由能景观(下图中间
)、采样的3D结构(下图左
)和二级结构(下图右
)内容上有良好的一致性。
The trend is your friend. A model only trained on CATH demonstrates that adding more training data keeps reducing the error and predicting more conformations. The fully-trained BioEmu model is below 1 kcal/mol.
Scaling Law:仅在CATH上训练的一个模型表明,增加更多的训练数据可以持续降低误差(下图左
),并预测更多的构象(下图右
)。完全训练好的BioEmu模型的误差低于1千卡/摩尔(下图粉色
)。
A zero-shot prediction that is super hard to sample with MD: a big intrinsically disordered protein (IDP) like Complexin II. Different answers depending on MD forcefield. BioEmu - not traind on IDPs - looks reasonable, agrees with experimental evidence and is super fast.
一种用分子动力学(MD)极难采样的零样本预测:一个大型的内在无序蛋白(IDP),如复合体II(Complexin II)。不同的MD力场会给出不同的答案。BioEmu没有在IDP上训练过,但得到了看起来是合理的且与实验证据一致(下图右
),并且速度极快。
Experimental validation is the ultimate arbiter. To fine-tune on experimental data without structures, we develop property-prediction fine-tuning (PPFT), an efficient method to fine-tuned diffusion or flow-matching models on quantities that can be computed from the distribution.
实验验证是最终的仲裁者。为了在没有结构的实验数据上进行微调,我们开发了属性预测微调(PPFT),这是一种高效的方法,可以在可以从分布中计算出的数量上对扩散或流匹配模型进行微调。
We use PPFT in order to fine-tune on data from @grocklin’s MEGAscale protein stability dataset. This is from directly counting folded/unfolded states in the BioEmu ensemble. Prediction errors <0.8 kcal/mol, correlation 0.65 – compares well with black-box methods.
我们使用PPFT在MEGAscale蛋白质稳定性数据集上进行微调。这是直接从BioEmu集合中计算折叠/未折叠状态得出的蛋白稳定性ΔG。预测误差小于0.8千卡/摩尔,相关性大于0.65,与黑盒方法相比表现良好。
Sanity checks: (1) Sample very stable proteins. Check, they stay folded. (2) Sample unstable proteins (IDPs). Check, they’re unfolded although we haven’t trained on unfolded IDP data. Radius of gyration correlates with experimental data, although overestimated.
合理性检查:(1)采样非常稳定的蛋白质。检查,它们保持折叠状态(下图左
)。(2)采样不稳定的蛋白质(IDPs,下图右
)。检查,它们是未折叠的,尽管我们没有在未折叠的IDP数据上进行训练。与实验数据相关(紫色线),尽管有所高估。
Since we predict properties by sampling a structure ensemble, we can use the BioEmu output like MD: Do analyses and reveal structure-property correlations. For example, by which mechanism do some mutants destabilize the fold?
由于我们通过采样结构系综来预测属性,我们可以像使用分子动力学(MD)一样使用BioEmu的输出:进行分析并揭示结构-属性相关性。例如,通过哪种机制,一些突变体会破坏蛋白质的折叠稳定性?
编者补充:下图
是通过分析突变体的各种二级结构在序列上丰富度,来确定蛋白突变体对结构、对稳定性的影响。
Please credit the exceptional team at@MSFTResearch
AI for Science. I am privileged to be working with them:@All
.
文献
[1]. Lewis S, Hempel T, Luna J J, et al. Scalable emulation of protein equilibrium ensembles with generative deep learning[J]. bioRxiv, 2024.
[2].https://x.com/FrankNoeBerlin/status/1864943710607151444
AI4Protein 2024 大事件
感谢读者的投票,帮助我们了解AI4Protein领域的2024!
本投票结果,将在2024年的最后一天推送在公众号文章。
进群交流
进群请认真填写问卷!
广告勿扰,广告勿扰!
往期合集
干货文章|线上报告|蛋白设计|综述|Binder|Co-design|Benchmark|AF3|David Baker|ESM|MaSIF|结构预测|语言模型|骨架生成|逆向折叠|抗体设计|多肽设计|酶设计|稳定性|药物设计
关注我们
死磕自己,愉悦大家
专注于AI蛋白相关的论文解读&学术速运