BioEmu｜生物分子仿真器

文摘 2024-12-08 17:13 广东

BioEmu｜生物分子仿真器

非常兴奋地看到Frank Noé的预印版论文，生物分子仿真器BioEmu。这个工作是使用生成式深度学习，对蛋白平衡态的系综构象进行可扩展的仿真。下面一起来认识一下BioEmu吧！

After revolutions in protein sequence+structure, determining function reliably+efficiently is still unsolved. In particular: (i) different structures (“conformations”), (ii) different binding configurations with other molecules, (iii) probabilities+rates at given temperature, pH…

在蛋白结构预测的革命之后，可靠和高效地预测其功能仍是一个未解决的问题。特别是：（i）不同的结构构象，（ii）与其他分子结合的构象变化，（iii）在给定温度和pH值下的下的概率和速率……

We can predict (i-iii) with molecular dynamics (MD) simulation, or experimental measurements. But these methods are not scalable. E.g., brute-force simulation of dissociation of 2 small proteins is unaffordable. This is the infamous sampling problem, a 70-year old challenge.

可以通过分子动力学（MD）模拟或实验测量来预测（i）不同的结构（构象）、（ii）与其他分子的不同结合构象、以及（iii）在给定温度和pH值下的概率和速率。但这些方法并不具备可扩展性。例如，对两个小蛋白的解离进行暴力模拟是不切实际的。这就是臭名昭著的采样问题，一个70年来的挑战。

编者补充：如果2个分子结合（bound）发生在50毫秒，那么MD需要消耗1年的GPU时间，才能观察到该分子的结合过程（下图）。所以不具备可拓展性。

Introducing Biomolecular Emulator (BioEmu). We build on#AlphaFold2 evoformer representation of protein sequence, then sample 3D structures from equilibrium ensemble with diffusion model. From this sample, we can compute states, probabilities and understand mechanisms.

于是我们开发了生物分子仿真器（BioEmu）。它基于#AlphaFold2的evoformer对蛋白序列进行表示（下图Single representation & Pair Representation），然后使用扩散模型从平衡态系综中采样3D结构。从这些采样的构象中，可以应用到计算状态、概率并理解机制。

编者补充：这里的扩散模型的打分模型（score model），是基于#AlphaFold2的IPA模块。

The big challenge: in contrast to protein structure prediction (PDB, CASP), there is no good training or test set for our problem, even hardly any benchmarks! Changing this is an important part of our mission.

面临的巨大挑战是：与蛋白质结构预测（PDB, CASP）不同，我们的问题甚至没有一套好的训练或测试数据集，几乎没有任何基准测试！改变这一点是我们使命中的一个重要部分。

We combine the strengths of different datasets and try to mitigate their weaknesses. We pretrain on a processed AlphaFoldDB, incentivizing to sample diverse structures. Then we finetune on loads of processed MD simulation data and experimental protein stabilities.

我们结合了不同数据集的优势，并试图减轻它们的弱点。我们在处理过的AlphaFoldDB上进行预训练，鼓励采样多样化的结构。然后我们在大量的处理过的分子动力学模拟数据和实验蛋白质稳定性数据上进行微调。

First a basic test: can we qualitatively sample different functionally relevant structures? We define a benchmark with ~100 proteins in 3 classes of conformational changes. Class 1: Domain motions. Success defined if samples are <3A RMSD to references. Success ratio ~80%.

首先进行一个基本测试：我们能否定性地采样出不同功能的相关结构？ 我们收集一个包含约100种蛋白质的数据集进行测试，这些蛋白数据可以分为3类构象变化。

类别1：蛋白结构域的运动。如果采样结果与参考结构的均方根偏差（RMSD）小于3埃，即视为成功。从下图可见，针对蛋白结构域运动，预测成功率约为80% 。

Class 2: Local unfolding. Part of protein unfolds/detaches to interact with sth else, or reveal a binding site. Model needs to be able to predict the relative stability of different structure elements to sample the right structures. Success ratio 70-80%.

类别2：蛋白结构局部解折叠。蛋白结构的一小部分解折叠，脱离以与其他物质相互作用，这样或许会暴露一个结合位点。模型需要能够预测不同结构区域的相对稳定性，以采样到正确的结构。从下图可见，针对蛋白结构局部解折叠，预测成功率为70-80% 。

Class 3: Cryptic pockets – ligand binding site is formed that isn’t present in apo (ligand-free) state. Can be local or a large-scale rearrangement. On average ~70% success probability, but interestingly works much better for bound (holo) than for apo. Something to improve on.

类别3：隐秘口袋。隐秘口袋是指配体结合位点在没有配体（apo态）时口袋不存在。这需要蛋白结构局部的或者大规模的重排。从下图可见，针对口袋发现任务，平均成功率约为70% ，但有趣的是，在结合配体（holo状态）的情况下比在无配体（apo状态）的情况下工作得更好。这是需要改进的地方。

Quantiative evals: do we sample equilibrium or just something that wiggles? 1st test: fine-tune a model on only 11D.E.SHAW fast-folding proteins & test on the 12th. Agrees in free energy landscapes, sampled structures and secondary structure content. Error < 1 kcal.

定量评估：我们采样的是平衡态，还是仅仅是会随机摆动的东西？

第一次测试：仅在11个D.E.SHAW (http://D.E.SHAW)快速折叠蛋白质上微调模型，并在12个蛋白体系上进行测试。在自由能景观（下图中间）、采样的3D结构（下图左）和二级结构（下图右）内容上达成一致。误差小于1千卡/摩尔。

BioEmu’s inference cost (Minutes to hours on one GPU) is negligible compared to MD (GPU-years). Errors within the range of differences between MD forcefields. If we can keep up similar quality across the proteome, this throughput will change the field.

BioEmu的推理成本：在单个GPU上需要几分钟到几小时（下图顶部），与分子动力学（MD）相比微不足道（MD需要跑很多年）。

误差也在分子动力学力场之间的差异范围内（下图底部）。如果我们能在蛋白质组学中保持类似的质量，这种吞吐量将改变这个领域。

Much larger test set. Simulated 1100 CATH domains (protein structure building blocks), up to 100 microseconds MD for each. Train on the full training set, test on best-converged systems. Qualitative agreement in free energies, good agreement in structures+2ndary structure content.

更大的测试集：模拟了1100个CATH结构域（蛋白质结构的构建块），每个进行了高达100微秒的分子动力学模拟。在完整的训练集上进行训练，在最佳收敛的系统上进行测试。在自由能景观（下图中间）、采样的3D结构（下图左）和二级结构（下图右）内容上有良好的一致性。

The trend is your friend. A model only trained on CATH demonstrates that adding more training data keeps reducing the error and predicting more conformations. The fully-trained BioEmu model is below 1 kcal/mol.

Scaling Law：仅在CATH上训练的一个模型表明，增加更多的训练数据可以持续降低误差（下图左），并预测更多的构象（下图右）。完全训练好的BioEmu模型的误差低于1千卡/摩尔（下图粉色）。

A zero-shot prediction that is super hard to sample with MD: a big intrinsically disordered protein (IDP) like Complexin II. Different answers depending on MD forcefield. BioEmu - not traind on IDPs - looks reasonable, agrees with experimental evidence and is super fast.

一种用分子动力学（MD）极难采样的零样本预测：一个大型的内在无序蛋白（IDP），如复合体II（Complexin II）。不同的MD力场会给出不同的答案。BioEmu没有在IDP上训练过，但得到了看起来是合理的且与实验证据一致（下图右），并且速度极快。

Experimental validation is the ultimate arbiter. To fine-tune on experimental data without structures, we develop property-prediction fine-tuning (PPFT), an efficient method to fine-tuned diffusion or flow-matching models on quantities that can be computed from the distribution.

实验验证是最终的仲裁者。为了在没有结构的实验数据上进行微调，我们开发了属性预测微调（PPFT），这是一种高效的方法，可以在可以从分布中计算出的数量上对扩散或流匹配模型进行微调。

We use PPFT in order to fine-tune on data from @grocklin’s MEGAscale protein stability dataset. This is from directly counting folded/unfolded states in the BioEmu ensemble. Prediction errors <0.8 kcal/mol, correlation 0.65 – compares well with black-box methods.

我们使用PPFT在MEGAscale蛋白质稳定性数据集上进行微调。这是直接从BioEmu集合中计算折叠/未折叠状态得出的蛋白稳定性ΔG。预测误差小于0.8千卡/摩尔，相关性大于0.65，与黑盒方法相比表现良好。

Sanity checks: (1) Sample very stable proteins. Check, they stay folded. (2) Sample unstable proteins (IDPs). Check, they’re unfolded although we haven’t trained on unfolded IDP data. Radius of gyration correlates with experimental data, although overestimated.

合理性检查：（1）采样非常稳定的蛋白质。检查，它们保持折叠状态（下图左）。（2）采样不稳定的蛋白质（IDPs，下图右）。检查，它们是未折叠的，尽管我们没有在未折叠的IDP数据上进行训练。与实验数据相关（紫色线），尽管有所高估。

Since we predict properties by sampling a structure ensemble, we can use the BioEmu output like MD: Do analyses and reveal structure-property correlations. For example, by which mechanism do some mutants destabilize the fold?

由于我们通过采样结构系综来预测属性，我们可以像使用分子动力学（MD）一样使用BioEmu的输出：进行分析并揭示结构-属性相关性。例如，通过哪种机制，一些突变体会破坏蛋白质的折叠稳定性？

编者补充：下图是通过分析突变体的各种二级结构在序列上丰富度，来确定蛋白突变体对结构、对稳定性的影响。

Please credit the exceptional team at@MSFTResearch AI for Science. I am privileged to be working with them:@All.

文献

[1]. Lewis S, Hempel T, Luna J J, et al. Scalable emulation of protein equilibrium ensembles with generative deep learning[J]. bioRxiv, 2024.

[2].https://x.com/FrankNoeBerlin/status/1864943710607151444

AI4Protein 2024 大事件

感谢读者的投票，帮助我们了解AI4Protein领域的2024！

本投票结果，将在2024年的最后一天推送在公众号文章。

进群交流

进群请认真填写问卷！

广告勿扰，广告勿扰！

往期合集

干货文章｜线上报告｜蛋白设计｜综述｜Binder｜Co-design｜Benchmark｜AF3｜David Baker｜ESM｜MaSIF｜结构预测｜语言模型｜骨架生成｜逆向折叠｜抗体设计｜多肽设计｜酶设计｜稳定性｜药物设计

关注我们

死磕自己，愉悦大家

专注于AI蛋白相关的论文解读&学术速运

AI4Protein

读书破万卷juǎn，专注于AI蛋白相关的学术搬运。

最新文章

Seminar｜多模态生成式蛋白质基础模型

蛋白质功能-序列空间压缩

David Baker｜变构蛋白设计

BioEmu｜生物分子仿真器

RFdiffusion进化史

Seminar｜AI辅助从头酶设计

David Baker｜RFpeptides设计环肽

文章合集

David Baker｜设计含β-strand的Binder

David Baker｜设计IDP的Binder

再看Binder设计

清华大学卢磊课题组招聘化学、生物、计算等方向的博士后与科研助理

Sci. Adv｜语言模型Pro-PRIME设计高稳定性高活性蛋白

直播预告｜去噪蛋白语言模型DePLM助力蛋白进化

读论文时如何辨别出“好东西”

Science｜语言模型 EVOLVEpro 帮助各种蛋白实现定向进化

Nat. Mach. Intell.｜蛋白设计工具预测突变热稳定性

Science｜基因语言模型Evo

GLM｜基因组语言模型的学习笔记

Seminar｜结构感知的蛋白语言模型 SaProt

AlphaFold3 最全食用指南

AlphaFold3 性能速度 & 机器配置

AlphaFold3 的输出的理解

AlphaFold 3 安装指南

AlphaFold 3 权重申请指南

AlphaFold3 的输入

AlphaFold3 开源啦！！！

香港科技大学（广州）人工智能学域助理教授戴恩炎招收AI for Protein 全奖Ph.D. 及 Intern

Foldseek 有何妙用？

RSO｜超越RFdiffusion的蛋白设计方法？

DPLM｜扩散语言模型是多才多艺的蛋白学习者

RSO｜超越RFdiffusion的蛋白设计方法？

AF3｜复现进展

钟博子韬｜2024诺贝尔化学奖解读

BindCraft｜一站式设计高亲和力Binder

Pallatom｜线上报告

PROPREMAB｜预测抗体可开发性的机器学习框架

从零开始造抗体：诺奖技术引领的生物医药新革命！

2024年诺贝尔化学奖，刚刚颁发给了蛋白设计和结构预测

AI蛋白“相关”国内的公司

AI蛋白海内外课题组汇总

Binder设计大赛的结果启示

参数有效微调在蛋白质语言模型中的应用

图解AF3

简述酶的定向进化🦍

ProTrek | 融合多模态信息的蛋白质工具

ProteinBench｜蛋白基础模型最全面BenchMark

蛋白结构和序列的联合设计🤔

AlphaProteo｜从头设计高亲和力Binder蛋白

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉