Boltz-1:让生物分子交互建模更普及

学术   2024-11-19 00:01   韩国  

DRUGAI

理解生物分子间的相互作用是推动药物发现和蛋白质设计等领域进步的基础。MIT Jameel Clinic 很高兴宣布发布 Boltz-1,一款旨在精准建模复杂生物分子相互作用的开源深度学习模型。Boltz-1 结合了模型架构创新、速度优化和数据处理的突破性进展,能够在预测生物分子复合物三维结构方面达到与 AlphaFold3 相当的精度,并在多项多样化基准测试中表现出与最新商业模型媲美的性能,树立了结构生物学领域商业可及工具的新标杆。这款模型通过在 MIT 开源许可下开放训练和推理代码、模型权重以及训练数据,旨在促进全球协作,加速科学发现,为研究人员提供一个强大的建模基石,同时推动生物分子建模的普及和发展,为开源结构生物学树立新的标准。


生物分子间的相互作用驱动了几乎所有的生物机制,而理解这些相互作用的能力是开发新型治疗方法和发现疾病驱动因素的关键。2020年,AlphaFold2 展示了深度学习模型在单链蛋白结构预测方面可达到实验级精度。然而,对于在三维空间中建模生物分子复合物的关键问题仍然悬而未解。


近年来,研究界在解决这一关键问题方面取得了显著进展。特别是深度生成模型在建模不同生物分子间的相互作用方面表现出色,例如 DiffDock 显著超越了传统的分子对接方法,而最近的 AlphaFold3 在预测任意生物分子复合物方面达到了前所未有的精度。


Boltz-1,首个完全商业化可用的开源模型,能够达到与 AlphaFold3 相当的精度。通过在 MIT 许可下免费提供训练和推理代码、模型权重、数据集和基准测试,Boltz-1 旨在为全球研究人员、开发者和机构提供支持,助力他们使用该模型进行实验、验证和创新。Boltz-1 基于通用的深度学习框架,结合了以下创新:

  • 新算法能够更高效、更稳健地匹配多序列比对(MSA),在训练时裁剪结构,并基于用户定义的结合口袋进行条件预测;

  • 在架构中的表示流动、扩散训练和推理过程中进行了改进;

  • 重构了置信度模型,包括架构组件的优化以及将任务重新定义为模型主干层的微调。

将 Boltz-1 的性能与其他公开可用的模型进行了基准对比。实验结果表明,Boltz-1 在多种结构和指标上表现与最新商业模型相当。


数据

Boltz-1 的数据管道专注于高效处理蛋白质、配体和核酸的输入,并通过多序列比对(MSA)和分子构象进行增强,同时采用创新的算法提升数据质量和模型性能。关键点如下:

数据来源与处理

  • 训练数据来自截至 2021-09-30 的 PDB 数据,过滤标准包括分辨率低于 4.5 Å、去除冲突链和重复序列等。

  • MSA 使用 ColabFold 构建,分子构象通过 RDKit 预计算生成。


验证集与测试集构建

  • 基于序列相似性和分子排除条件构建标准化数据集。最终验证集包含 553 个结构,测试集包含 593 个结构,用于确保模型在多样性和复杂性上的泛化性能。


算法创新

  • 高密度 MSA 配对算法:通过分类信息进行 MSA 配对,平衡配对信号和序列冗余。

  • 统一裁剪算法:结合空间裁剪和连续裁剪的优点,随机化裁剪策略提高训练多样性。

  • 稳健的口袋条件化算法:通过单一模型处理部分指定的口袋信息,支持实际场景中的灵活性和多样性。


训练管道

  • 总训练步数为 68k,分阶段调整裁剪大小和数据来源,显著减少训练时间。

通过这些优化,Boltz-1 在效率、灵活性和泛化能力上均优于传统方法,为全原子结构预测树立了新的基准。


模型设计与优化

架构修改

MSA 模块优化

调整了 MSAModule 的操作顺序,使单体和配对表示的更新能够互相传递信息。修改后的顺序更好地利用了 MSATransition 中的单体表示,直接传播到配对表示中。


Transformer 层改进

将原始模型的操作顺序修改为分步更新(即首先添加 AttentionPairBias,再添加 ConditionedTransitionBlock),解决了缺少残差连接和梯度回传复杂性的问题,同时提升了训练效果。


训练与推理过程

Kabsch 扩散插值

改进了 AlphaFold3 的刚性对齐过程,通过每一步插值时加入 Kabsch 算法,减少去噪损失的偏差。该方法能更可靠地从噪声结构推导出真实结构。


扩散损失加权

使用 EDM 框架的损失加权公式,优化扩散过程中不同噪声水平的权重分配,使模型对全数据集的训练更稳定。


置信度模型

架构优化与初始化

置信度模型从主干架构继承组件,初始化时使用主干权重,并增加基于逆扩散轨迹的时间条件化模块,改进了置信度预测的精度。


特征增强

将扩散过程中的最终表示聚合后与主干表示结合,增加了模型对分子间距离的表征能力。


计算优化

序列局部原子表示

优化 AtomAttentionEncoder 和 Decoder,使注意力计算局限于相邻的序列空间,利用 GPU 高效实现稀疏注意力,显著降低计算开销。


注意力偏置共享与缓存

注意力偏置在扩散过程中不依赖特定输入或扩散时间步,优化后仅需一次计算并在整个逆扩散轨迹中共享,大幅减少推理计算成本。


对称性校正

提出了分层的贪婪算法,解决链和原子排列的对称性问题,在计算资源有限的情况下实现高效校正。


Boltz-1 在 AlphaFold3 的基础上,通过架构调整、扩散过程改进、置信度模型优化和计算资源优化,显著提升了全原子分子建模的效率和性能。关键创新点包括改进的 MSA 模块、序列局部注意力机制,以及新的置信度训练方法。优化后的模型在资源需求显著降低的同时,仍能在结构预测任务中达到或超过最先进模型的性能。


结果

研究人员在两个基准数据集上评估了 Boltz-1 的性能最新 PDB 结构组成的多样化测试集,另一个是 CASP15,社区范围内的蛋白质结构预测竞赛,其中首次引入了 RNA 和配体结构的评估。这些基准数据集包含蛋白质复合物、核酸和小分子等多样化结构,是评估 Boltz-1 等预测任意生物分子结构模型的理想测试平台。

基准数据集

CASP15:筛选了以下条件下的目标:

  • 未被竞赛取消;

  • 具备 PDB ID 可获取晶体结构;

  • 化学计量信息中的链数量与提供的链数量一致;

  • 残基总数不超过 2000。最终保留 76 个结构。

测试集:移除含有共价结合配体的结构(当前版本的 Chai-1 公共库无法设置这些配体),同时排除任何导致两种方法在 A100 80GB GPU 上超内存的结构。最终评估了 CASP15 中 72 个结构和测试集中 520 个结构。


基线方法

研究人员将 Boltz-1 的性能与 Chai-1 进行对比。Chai-1 是最近发布的 AlphaFold3 的第一个复现版本,采用独占商业许可,被证明在多个基准测试中与 AlphaFold3 的结果一致。运行 Chai-1 时,我们使用了 200 个采样步骤、10 次回收循环,并生成 5 个输出,与 Boltz-1 保持一致。MSA 的预计算序列上限为 16384。


评价标准

  • 研究人员采用多项公认的指标评估模型在多样化生物分子和结构上的表现,包括:

  • 全原子 LDDT 中位数:衡量局部结构的准确性;

  • TM-score 中位数:衡量全局结构质量;

  • DockQ 成功率平均值:预测良好蛋白质-蛋白质相互作用的比例(DockQ > 0.23);

  • 蛋白质-配体界面 LDDT 中位数:评估配体与结合口袋的交互质量(CASP15 的官方配体评估指标);

  • 口袋对齐 RMSD 小于 2 Å 的配体比例:常用的分子对接精度衡量标准。

这些指标通过 OpenStructure 工具计算,其中 LDDT-PLI、DockQ 和配体 RMSD 成功率覆盖了所有蛋白质-蛋白质及蛋白质-配体界面。为公平对比,让 Chai-1 和 Boltz-1 各生成 5 个样本,并评估每项指标的最佳预测结果。


结果

总体性能

在 CASP15 和测试集上的全原子 LDDT 和 TM-score 中位数表明,两种模型在一般生物分子结构预测中的准确性相当。针对 CASP15 RNA 目标,Chai-1 的 LDDT 中位数为 0.41,TM-score 中位数为 0.31,而 Boltz-1 分别为 0.54 和 0.31。


蛋白质-蛋白质相互作用

两种方法在蛋白质-蛋白质相互作用预测中的表现相近。Chai-1 在测试集上略胜一筹,而 Boltz-1 在 CASP15 上表现更优。


蛋白质-配体界面

在配体相关指标上,两种模型在测试集上的表现相当,但 Boltz-1 在 CASP15 上表现出显著优势,特别是在面对具有高度多样性和挑战性的配体相关目标时。然而,CASP15 的配体相关目标仅有 15 个,共 58 个配体,这可能限制了结果的统计意义。


结论

研究人员介绍了 Boltz-1,首个完全商业化可用的开源模型,在预测生物分子复合物三维结构方面达到了与 AlphaFold3 相当的精度。为实现这一目标,复现并扩展了 AlphaFold3 的技术报告,在模型架构、数据整理、训练和推理流程中引入了多项创新。通过实验验证,Boltz-1 在多样化测试集和 CASP15 基准测试中的表现与当前最先进的结构预测方法 Chai-1 相当。


Boltz-1 的开源发布标志着在普及先进生物分子建模工具方面迈出了重要一步。通过 MIT 许可免费提供训练与推理代码、模型权重及数据集,研究人员旨在支持研究人员和组织利用 Boltz-1 进行实验和创新。我们希望 Boltz-1 能成为研究人员的基础平台,促进合作,推动我们对生物分子相互作用的集体理解,加速药物设计、结构生物学等领域的突破性进展。


参考资料

  • https://github.com/jwohlwend/boltz

  • https://gcorso.github.io/assets/boltz1.pdf

  • https://jclinic.mit.edu/boltz-1

DrugAI
关注人工智能与化学、生物、药学和医学的交叉领域进展,提供“原创、专业、实例”的解读分享。
 最新文章