Boltz-1：让生物分子交互建模更普及

学术 2024-11-19 00:01 韩国

DRUGAI

理解生物分子间的相互作用是推动药物发现和蛋白质设计等领域进步的基础。MIT Jameel Clinic 很高兴宣布发布 Boltz-1，一款旨在精准建模复杂生物分子相互作用的开源深度学习模型。Boltz-1 结合了模型架构创新、速度优化和数据处理的突破性进展，能够在预测生物分子复合物三维结构方面达到与 AlphaFold3 相当的精度，并在多项多样化基准测试中表现出与最新商业模型媲美的性能，树立了结构生物学领域商业可及工具的新标杆。这款模型通过在 MIT 开源许可下开放训练和推理代码、模型权重以及训练数据，旨在促进全球协作，加速科学发现，为研究人员提供一个强大的建模基石，同时推动生物分子建模的普及和发展，为开源结构生物学树立新的标准。

生物分子间的相互作用驱动了几乎所有的生物机制，而理解这些相互作用的能力是开发新型治疗方法和发现疾病驱动因素的关键。2020年，AlphaFold2 展示了深度学习模型在单链蛋白结构预测方面可达到实验级精度。然而，对于在三维空间中建模生物分子复合物的关键问题仍然悬而未解。

近年来，研究界在解决这一关键问题方面取得了显著进展。特别是深度生成模型在建模不同生物分子间的相互作用方面表现出色，例如 DiffDock 显著超越了传统的分子对接方法，而最近的 AlphaFold3 在预测任意生物分子复合物方面达到了前所未有的精度。

Boltz-1，首个完全商业化可用的开源模型，能够达到与 AlphaFold3 相当的精度。通过在 MIT 许可下免费提供训练和推理代码、模型权重、数据集和基准测试，Boltz-1 旨在为全球研究人员、开发者和机构提供支持，助力他们使用该模型进行实验、验证和创新。Boltz-1 基于通用的深度学习框架，结合了以下创新：

新算法能够更高效、更稳健地匹配多序列比对（MSA），在训练时裁剪结构，并基于用户定义的结合口袋进行条件预测；
在架构中的表示流动、扩散训练和推理过程中进行了改进；
重构了置信度模型，包括架构组件的优化以及将任务重新定义为模型主干层的微调。

将 Boltz-1 的性能与其他公开可用的模型进行了基准对比。实验结果表明，Boltz-1 在多种结构和指标上表现与最新商业模型相当。

数据

Boltz-1 的数据管道专注于高效处理蛋白质、配体和核酸的输入，并通过多序列比对（MSA）和分子构象进行增强，同时采用创新的算法提升数据质量和模型性能。关键点如下：

数据来源与处理

训练数据来自截至 2021-09-30 的 PDB 数据，过滤标准包括分辨率低于 4.5 Å、去除冲突链和重复序列等。
MSA 使用 ColabFold 构建，分子构象通过 RDKit 预计算生成。

验证集与测试集构建

基于序列相似性和分子排除条件构建标准化数据集。最终验证集包含 553 个结构，测试集包含 593 个结构，用于确保模型在多样性和复杂性上的泛化性能。

算法创新

高密度 MSA 配对算法：通过分类信息进行 MSA 配对，平衡配对信号和序列冗余。
统一裁剪算法：结合空间裁剪和连续裁剪的优点，随机化裁剪策略提高训练多样性。
稳健的口袋条件化算法：通过单一模型处理部分指定的口袋信息，支持实际场景中的灵活性和多样性。

训练管道

总训练步数为 68k，分阶段调整裁剪大小和数据来源，显著减少训练时间。

通过这些优化，Boltz-1 在效率、灵活性和泛化能力上均优于传统方法，为全原子结构预测树立了新的基准。

模型设计与优化

架构修改

MSA 模块优化

调整了 MSAModule 的操作顺序，使单体和配对表示的更新能够互相传递信息。修改后的顺序更好地利用了 MSATransition 中的单体表示，直接传播到配对表示中。

Transformer 层改进

将原始模型的操作顺序修改为分步更新（即首先添加 AttentionPairBias，再添加 ConditionedTransitionBlock），解决了缺少残差连接和梯度回传复杂性的问题，同时提升了训练效果。

训练与推理过程

Kabsch 扩散插值

改进了 AlphaFold3 的刚性对齐过程，通过每一步插值时加入 Kabsch 算法，减少去噪损失的偏差。该方法能更可靠地从噪声结构推导出真实结构。

扩散损失加权

使用 EDM 框架的损失加权公式，优化扩散过程中不同噪声水平的权重分配，使模型对全数据集的训练更稳定。

置信度模型

架构优化与初始化

置信度模型从主干架构继承组件，初始化时使用主干权重，并增加基于逆扩散轨迹的时间条件化模块，改进了置信度预测的精度。

特征增强

将扩散过程中的最终表示聚合后与主干表示结合，增加了模型对分子间距离的表征能力。

计算优化

序列局部原子表示

优化 AtomAttentionEncoder 和 Decoder，使注意力计算局限于相邻的序列空间，利用 GPU 高效实现稀疏注意力，显著降低计算开销。

注意力偏置共享与缓存

注意力偏置在扩散过程中不依赖特定输入或扩散时间步，优化后仅需一次计算并在整个逆扩散轨迹中共享，大幅减少推理计算成本。

对称性校正

提出了分层的贪婪算法，解决链和原子排列的对称性问题，在计算资源有限的情况下实现高效校正。

Boltz-1 在 AlphaFold3 的基础上，通过架构调整、扩散过程改进、置信度模型优化和计算资源优化，显著提升了全原子分子建模的效率和性能。关键创新点包括改进的 MSA 模块、序列局部注意力机制，以及新的置信度训练方法。优化后的模型在资源需求显著降低的同时，仍能在结构预测任务中达到或超过最先进模型的性能。

结果

研究人员在两个基准数据集上评估了 Boltz-1 的性能最新 PDB 结构组成的多样化测试集，另一个是 CASP15，社区范围内的蛋白质结构预测竞赛，其中首次引入了 RNA 和配体结构的评估。这些基准数据集包含蛋白质复合物、核酸和小分子等多样化结构，是评估 Boltz-1 等预测任意生物分子结构模型的理想测试平台。

基准数据集

CASP15：筛选了以下条件下的目标：

未被竞赛取消；
具备 PDB ID 可获取晶体结构；
化学计量信息中的链数量与提供的链数量一致；
残基总数不超过 2000。最终保留 76 个结构。

测试集：移除含有共价结合配体的结构（当前版本的 Chai-1 公共库无法设置这些配体），同时排除任何导致两种方法在 A100 80GB GPU 上超内存的结构。最终评估了 CASP15 中 72 个结构和测试集中 520 个结构。

基线方法

研究人员将 Boltz-1 的性能与 Chai-1 进行对比。Chai-1 是最近发布的 AlphaFold3 的第一个复现版本，采用独占商业许可，被证明在多个基准测试中与 AlphaFold3 的结果一致。运行 Chai-1 时，我们使用了 200 个采样步骤、10 次回收循环，并生成 5 个输出，与 Boltz-1 保持一致。MSA 的预计算序列上限为 16384。

评价标准

研究人员采用多项公认的指标评估模型在多样化生物分子和结构上的表现，包括：
全原子 LDDT 中位数：衡量局部结构的准确性；
TM-score 中位数：衡量全局结构质量；
DockQ 成功率平均值：预测良好蛋白质-蛋白质相互作用的比例（DockQ > 0.23）；
蛋白质-配体界面 LDDT 中位数：评估配体与结合口袋的交互质量（CASP15 的官方配体评估指标）；
口袋对齐 RMSD 小于 2 Å 的配体比例：常用的分子对接精度衡量标准。

这些指标通过 OpenStructure 工具计算，其中 LDDT-PLI、DockQ 和配体 RMSD 成功率覆盖了所有蛋白质-蛋白质及蛋白质-配体界面。为公平对比，让 Chai-1 和 Boltz-1 各生成 5 个样本，并评估每项指标的最佳预测结果。

结果

总体性能

在 CASP15 和测试集上的全原子 LDDT 和 TM-score 中位数表明，两种模型在一般生物分子结构预测中的准确性相当。针对 CASP15 RNA 目标，Chai-1 的 LDDT 中位数为 0.41，TM-score 中位数为 0.31，而 Boltz-1 分别为 0.54 和 0.31。

蛋白质-蛋白质相互作用

两种方法在蛋白质-蛋白质相互作用预测中的表现相近。Chai-1 在测试集上略胜一筹，而 Boltz-1 在 CASP15 上表现更优。

蛋白质-配体界面

在配体相关指标上，两种模型在测试集上的表现相当，但 Boltz-1 在 CASP15 上表现出显著优势，特别是在面对具有高度多样性和挑战性的配体相关目标时。然而，CASP15 的配体相关目标仅有 15 个，共 58 个配体，这可能限制了结果的统计意义。

结论

研究人员介绍了 Boltz-1，首个完全商业化可用的开源模型，在预测生物分子复合物三维结构方面达到了与 AlphaFold3 相当的精度。为实现这一目标，复现并扩展了 AlphaFold3 的技术报告，在模型架构、数据整理、训练和推理流程中引入了多项创新。通过实验验证，Boltz-1 在多样化测试集和 CASP15 基准测试中的表现与当前最先进的结构预测方法 Chai-1 相当。

Boltz-1 的开源发布标志着在普及先进生物分子建模工具方面迈出了重要一步。通过 MIT 许可免费提供训练与推理代码、模型权重及数据集，研究人员旨在支持研究人员和组织利用 Boltz-1 进行实验和创新。我们希望 Boltz-1 能成为研究人员的基础平台，促进合作，推动我们对生物分子相互作用的集体理解，加速药物设计、结构生物学等领域的突破性进展。

参考资料

https://github.com/jwohlwend/boltz
https://gcorso.github.io/assets/boltz1.pdf
https://jclinic.mit.edu/boltz-1

http://mp.weixin.qq.com/s?__biz=MzU2ODU3Mzc4Nw==&mid=2247507497&idx=1&sn=e0ed197bbb3c0c1926007a96b9355698

DrugAI

关注人工智能与化学、生物、药学和医学的交叉领域进展，提供“原创、专业、实例”的解读分享。

最新文章

Trends Pharmacol. Sci. | 利用计算科学推进PROTAC药物发展

Nat. Comput. Sci. | 前瞻性分析：牛津大学团队展望小分子药物发现的未来

Brief. Bioinform. | 基于肿瘤免疫微环境数学建模和强化学习的免疫检查点抑制剂（ICI）联合化疗决策优化

Nat. Methods | 新算法利用空间转录组数据构建肿瘤的“空间进化图谱”

Artif. Intell. Chem. | 人工智能推动化学发展的二十种方式

报告免费领取 | 热门减肥增肌靶点调研及非临床研究策略报告

Nat. Biotechnol. | 透视疾病突变：揭示蛋白质相互作用网络中的全组学级别扰动

英伟达发布BioNeMo平台，加速全球生物制药与科学产业数字化升级

Boltz-1：让生物分子交互建模更普及

Nat. Mach. Intell. | 蛋白质语言模型也能预测热稳定性？滑铁卢大学团队亲测！

从理想变为现实，从中国走向世界：国产AI药物发现软件MolProphet的成长故事

Cell Systems | Genesis探索“暗物质“蛋白折叠，折叠蛋白成功率结果鼓舞人心

Trends Pharmacol Sci. | 计算策略的集成与联用推动抗菌肽智能研发

Nat. Commun. | 使用CADD针对AcpS设计全新抗生素家族，实验效果显著！

美国佛罗里达大学计算机系/药物化学系AI制药课题组诚招全奖博士

分子表征从「图」到「视频」，1.2亿帧、200万分子，湖大分子视频基础模型登Nature子刊

《卫生健康行业人工智能应用场景参考指引》发布，推动“人工智能+”在卫生健康领域创新发展

香港科技大学（广州）人工智能学域助理教授戴恩炎招收AI for Protein 全奖Ph.D. 及 Intern

J. Chem. Inf. Model. | 基于MoE的解离动力学模型助力设计“长效药”

NeurIPS 2024 | WKM: 增强智能体规划的世界知识模型

Protenix: AlphaFold3的再现 – ByteDance AML AI4Science团队

Google DeepMind 开源 AlphaFold 3

世界糖尿病日特别直播：后司美时代“减脂增肌”前沿靶点与药物研究

Equitorch: 基于pyg的模块化等变图神经网络包

Nat. Commun. | 迈向医学大语言模型！上海交通大学团队构建数据集与评估基准

Science | 通过结构域分类探究蛋白质宇宙的结构多样性

NCS+NC｜湖南大学DrugAI实验室同一天发表两项重要成果

PNAS | 在AlphaFold 2上升级，佐治亚理工学院团队预测SARS-CoV-2刺突蛋白RBD的抗体表现

首个！四大高校联合推出药物研发大语言模型Y-Mol，性能全面领先LLaMA2

BMC biology | 多源提示的大语言模型药物重定位框架DrugReAlign

AI2BMD登上Nature，以量子级精度推进蛋白质动力学

Nat. Comput. Sci. | 单步训练2个分子，主动深度学习远超传统筛选

Nat. Biotechnol. | 戴上启动帽，MIT王潇团队提出LEGO增强翻译能力

2024年上海交通大学溥渊国际青年科学家论坛

J. Chem. Inf. Model.｜利用化学语言模型导航超大虚拟化学空间

J. Pharm. Anal. | 化学自然语言引导基于扩散的生成式类药分子编辑

Nat. Mach. Intell. | CGN+CAN=CGN！Frad大尺度扰动分子提升属性预测

Nat. Commun. | 或为多领域带来启发？SymProFold准确预测对称蛋白质组装体

Nature | 蛋白质遗传结构很复杂？Ben Lehner使用加性能量模型得出相反结论！

Nat. Mach. Intell. | 宋江宁团队合作开发CD8+ T细胞受体识别抗原表位的预测新方法

礼来“三顾”口服小分子IL-17a抑制剂，DC-853成临床独苗，DC-806完成使命，退出舞台

全球首款间充质基质细胞药物获FDA批准开展临床试验

TPAMI | MVNA：自适应邻域感知的图卷积网络

Nat. Microbiol. | 加速版RoseTTAFold来了！RF2-Lite快速识别蛋白质-蛋白质相互作用

Nat. Genet. | 寻找基因-表型新关联！MILTON精准预测多种疾病

Angew. Chem. Int. Ed. | 通过荧光偏振和原位合成筛选抑制剂：加速药物发现的有效方法

Nat. Med. | 治疗罕见疾病，哈佛医学院提出TxGNN用于药物再利用

TPAMI | MVNA：自适应邻域感知的图卷积网络

Bioinf. | 双视图联合学习实现个性化药物协同预测性能的突破

J. Med. Chem. | 小分子药物研发的计算方法现状

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉