微软华人领衔AI²BMD登Nature，AI生物分子模拟双突破！继AlphaFold后又一里程碑

科技 2024-11-07 19:12 北京

新智元报道

编辑：静音

【新智元导读】最近，微软研究院开发的AI²BMD登上了Nature。这是生物分子动力学（MD）模拟中，继经典MD和量子力学之后，首个成功地兼顾了模拟效率和精度的开创性方法！AlphaFold之后，AI在生化科学领域带来的革新仍在继续。

一个月前，诺贝尔化学奖颁给了AlphaFold，给全世界带来了一场认知地震。

人们开始意识到，近年来，AI在解析蛋白质结构与设计方面的应用进展迅速。凭借AlphaFold和其他前沿算法，研究人员能够以惊人的速度预测和分析蛋白质的三维结构，破解了这个长期以来困扰生物学界的难题。

如今，AI在静态晶体蛋白质结构的预测上已达到实验精度——这是一个巨大的突破。但它的潜力远不止于此。科学家们正努力将AI的力量拓展至动态表征和分子相互作用的模拟领域。

最近，微软研究院开发的AI²BMD（AI-based ab initio biomolecular dynamics system，基于AI的从头算生物分子动力学系统）在Nature上发表，这一进展代表着在分子动力学模拟领域的显著突破。

论文地址：https://www.nature.com/articles/s41586-024-08127-z

效率精度两不误

生物世界的本质在于分子及其相互作用的动态变化。理解生物分子的动态和相互作用对于解读生物过程的机制以及开发生物材料和药物至关重要。然而，通过实验捕捉这些真实的运动几乎是不可能的。

生物分子动力学（MD）模拟是一种结合物理定律和数值模拟的方法，旨在应对理解生物分子动态的挑战，其有效性依赖于模拟的精度和效率。

MD模拟大致可以分为两类：经典MD和量子力学。

经典MD侧重于模拟的效率。经典MD采用了对分子系统的简化表示，能够在较长时间的构象变化上实现快速模拟。该方法于2013年获得诺贝尔奖。不过，尽管速度快，经典MD的准确性却相对较低。

量子力学则侧重于模拟的精度。量子力学方法如密度泛函理论（DFT）提供了从基础原理出发的精确计算。DFT在1998年获得诺贝尔奖，但其计算成本过高，难以处理大型生物分子系统。

为此，微软研究院一直在开发高效的方法，目标是实现具有从头算精度的生物分子模拟。经过四年的研究，AI²BMD诞生了，它能够以从头算精度高效地模拟大型生物分子，真正实现了效率精度两不误。

与标准模拟技术相比，它在生物分子模拟中实现了一个此前难以达到的精度与计算成本的平衡——AI²BMD在精度上超越了经典模拟，但其计算成本远低于DFT的要求，速度上更是快了几个数量级。

这一方法有望为生物分子建模，尤其是在蛋白质-药物相互作用等需要高精度的场景中，提供新的动力。

基于AI的从头算生物分子动力学模拟

AI²BMD能够高效地以从头算精度模拟各种全原子蛋白质，并通过极化力场明确模拟溶剂环境。

AI²BMD的流程图

AI²BMD采用了一种通用的蛋白质分片方法，将蛋白质分割为重叠的单元，从而创建了一个包含2000万快照的数据集，这是DFT级别中规模最大的数据库。

在该研究团队此前设计的ViSNet的基础上，他们使用机器学习训练了AI²BMD的势能函数。ViSnet是一种通用分子几何建模基础模型，已在《Nature Communication》上发表，并已集成到PyTorch Geometry库中。

AI²BMD利用基于ViSNet的势能函数，在每一步模拟中计算蛋白质的能量和原子力，达到从头算的精度。

通过高效的AI²BMD系统，进行了几百纳秒的动力学模拟，展示了其高效探索肽和蛋白质构象空间的能力。在这一过程中，AI²BMD推导出了与核磁共振实验一致的精确3J耦合值，并展示了蛋白质的折叠和展开过程。

通过对动力学和热力学的综合分析，AI²BMD在蛋白质折叠自由能等方面表现出与实验数据的高度一致性，同时展现了与经典MD不同的现象。

蛋白质分片方法

蛋白质由20种氨基酸构成，每种氨基酸都有一个通用的主链（由Cα、C、O、N和H组成）和一个不同的侧链（称为R基）。

二肽是指在其N端和C端分别封端了Ace和Nme基团的氨基酸。鉴于氨基酸是蛋白质的基本单元，这些二肽便被作为分片的基本单元。

二肽的结构

该研究团队基于二肽设计了一种通用的蛋白质分片方法，并据此训练了AI²BMD势能函数，从而确保了对所有蛋白质的泛化能力。

在该方法中，采用滑动窗口技术对多肽链进行切割，因此Ace-Nme片段充当两个相邻二肽之间的重叠区域。

对于多肽链的末端Cα原子，会根据其连接的C-H键长和Cα的连接方向，为其添加额外的氢原子。如果第一个或最后一个氨基酸是甘氨酸，则仅根据C–H键长添加一个连接到Cα的氢原子。如果下一个氨基酸是脯氨酸，则还根据N–H键长添加一个连接到N的氢原子，其中该N与Cδ相连。

然后，为了精确调整氢原子的位置，采用有限记忆Broyden-Fletcher-Goldfarb-Shanno拟牛顿算法来优化添加的氢原子的位置。其它部分则保持不变。

通过蛋白质分片方法，所有蛋白质可以转换为21种蛋白质单元（即20种二肽和1个Ace-Nme），这大幅减少了蛋白质单元的特定类型数量，便于数据集构建和模型训练，帮助探索完整的构象空间，避免了势能面上的空白区域，从而提升了MD模拟的泛化性、效率和稳健性。

蛋白质单元数据集

AI²BMD蛋白质单元数据集的生成过程涉及对蛋白质的基本结构单元——二肽——进行全面的构象采样。

首先，生成了初始的20种二肽和1个Ace-Nme单元，并通过旋转关键化学键（称为二面角）来捕获不同的分子形态。

每一种构型经过几何优化，确保结构合理后用于后续的从头算分子动力学（AIMD）模拟。

在模拟中，研究人员采集了大量的分子形态，并重新计算每种构型的能量和作用力，以用于机器学习模型的训练。

整个数据集涵盖了约2000万个构象，全面捕获了蛋白质单元的构象空间，为AI²BMD提供了可靠的数据支持，以实现高效而准确的分子模拟。

ViSNet作为AI²BMD的势函数

ViSNet是一种通用的几何深度学习模型，能够以原子坐标和原子序数为输入，预测势能、原子力以及多种量子化学性质。

如上图a中所示，ViSNet模型由一个嵌入块和多个堆叠的ViSNet块组成，最后接一个输出块。原子序数和坐标输入嵌入块，随后进入ViSNet块以提取和编码几何表示。这些几何表示随后通过输出块用于预测分子的能量和力。

上图b中展示了ViSNet块的结构，包括一个消息块和一个更新块。这些模块协同工作，构成了称为ViS-MP的向量标量交互消息传递机制。通过ViS-MP传递的丰富几何信息由运行时几何计算模块以线性复杂度提取。

对于每种蛋白质单元，ViSNet被训练为一个能量守恒的势能模型，能够通过预测的势能梯度导出原子间的作用力。

研究人员将蛋白质单元数据集随机分为训练集、验证集和测试集，并在不同类型的蛋白质上进行了训练和验证。训练时使用了多种优化技术来提高模型的准确性和稳定性，并利用了GPU集群进行高效的训练。

AI²BMD模拟程序

为了使用AI²BMD的势能进行模拟，该研究团队设计了一个基于原子模拟环境的AI驱动MD模拟程序。该模拟程序支持云环境，可以将计算结果定期保存到云存储，以应对长时间计算中可能出现的断点。

程序启动时，初始蛋白质结构被输入到预处理模块，在该模块中添加溶剂和离子，并对结构进行弛豫。

然后，整个模拟系统进入MD循环，即程序的核心逻辑组件。在MD循环的每次迭代中，蛋白质首先通过蛋白质分片模块被分解为片段，随后被分配到不同的计算服务器上进行能量和力的计算。

分片后的蛋白质片段会被工作调度器分配到不同的服务器上。用户可以根据系统规模和计算需求，调整调度策略，以最大化GPU的利用率，或平衡各GPU上的计算负载。

分片后的蛋白质片段和溶剂原子以异步方式发送到不同进程中的计算服务器。其中，ViSNet服务器负责基于AI的蛋白质片段计算，溶剂服务器负责溶剂分子的计算。

各服务器完成计算后，能量和力的结果会汇总并用于更新整个系统。

MD模拟的大突破

AI²BMD在分子动力学（MD）模拟领域实现了显著的突破，具体体现在以下几个方面：

（1）从头算精度：AI²BMD引入了一种可推广的「机器学习力场」，即一个机器学习模型，用于模拟原子和分子间相互作用，实现了全原子蛋白质动态模拟的从头算精度。

不同蛋白质在AI²BMD与分子力学（MM）之间能量计算误差的评估

（2）解决泛化问题：AI²BMD首次解决了机器学习力场在蛋白质动态模拟中的泛化难题，展示了多种蛋白质的稳健从头算MD模拟。

（3）通用兼容性：AI²BMD将量子力学（QM）建模从小的局部区域扩展到整个蛋白质结构，且无需任何蛋白质的先验知识。这一突破消除了QM和MM计算之间的潜在不兼容性，同时加速了QM区域的计算数个数量级，使得全原子蛋白质的近似从头算计算成为可能。因而，AI²BMD为众多后续应用铺平了道路，为复杂生物分子动态表征提供了全新的视角。

（4）速度优势：AI²BMD比DFT和其他量子力学方法快了几个数量级，支持含有超过一万个原子的蛋白质的从头算计算，使其成为跨学科领域中最快的AI驱动MD模拟程序之一。

AI²BMD、DFT及其他AI驱动模拟软件的时间消耗比较

（5）多样的构象空间探索：在AI²BMD和MM进行的蛋白质折叠与解折模拟中，AI²BMD能够探索更多MM无法检测的构象空间。因此，AI²BMD在药物-靶点结合、酶催化、变构调控、固有无序蛋白等过程中，提供了更多研究蛋白质灵活运动的机会。这种能力更贴合湿实验数据，并为生物机制检测和药物开发提供了更全面的解释和指导。

AI²BMD从展开结构开始折叠Chignolin蛋白，比分子力学（MM）达到更小的能量误差，并探索了MM无法检测到的更多构象区域

（6）实验一致性：AI²BMD优于QM/MM混合方法，并在包括J耦合、焓、热容、折叠自由能、熔点温度和pKa计算在内的不同生物应用场景中，表现出与湿实验的高度一致性。

AI²BMD的潜能

AI²BMD提出的框架旨在解决机器学习力场在应用中的精度、稳健性和泛化局限。

通过考虑蛋白质的基本结构——即氨基酸链段，AI²BMD在模拟不同蛋白质系统时具备高度的通用性、适应性和多功能性。这种方法提升了能量和力的计算精度，以及动力学和热力学性质的估算精度。

AI²BMD可以在解决科学难题方面发挥作用，并在药物发现、蛋白质设计和酶工程等生物医学研究领域推动新的发展。

在2023年首届全球AI药物研发大赛中，AI²BMD成功预测出一个可与SARS-CoV-2主蛋白酶结合的化合物。其精准的预测超过了所有其他参赛者，夺得冠军，展示了其在加速现实世界药物研发方面的巨大潜力。

作者介绍

Tong Wang

Tong Wang是微软研究院AI4Science部门的高级研究员。他获得清华大学博士学位，并在哈佛大学进行过博士访问研究。

他的研究专注于算法设计及其在分子动力学模拟、量子模拟、计算机辅助药物发现和蛋白质结构预测中的应用。

在《Nature Machine Intelligence》《Nature Communications》《Cell Research》等高影响力期刊上，Wang作为第一作者和通讯作者发表了一系列论文，并持有多项中国和美国专利。他同时是Nature系列期刊的审稿人及ACS出版社的荣誉审稿人。

Wang曾带领团队赢得首届全球AI药物研发大赛和NIPS2022 OGB大规模挑战赛的冠军。此外，他还是中国生物信息学学会的委员。

Bin Shao

Bin Shao是微软亚洲研究院的高级首席研究经理，领导计算生物学组。他于2010年7月从复旦大学获得博士学位后加入微软。

他的研究兴趣包括计算生物学、计算化学、分子动力学、机器学习以及并行图处理。其研究成果已在顶级会议和期刊上发表。

由Bin及其团队开发的Microsoft Graph Engine，支持着众多微软产品和服务的运行，例如Microsoft Satori知识图谱、必应搜索、MSN、Xbox和认知服务。

参考资料：

https://www.microsoft.com/en-us/research/blog/from-static-prediction-to-dynamic-characterization-ai2bmd-advances-protein-dynamics-with-ab-initio-accuracy/

http://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&mid=2652537065&idx=2&sn=8ae273f49af82b505c7360e7d2b8615d

新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

最新文章

周鸿祎黑客短剧震撼首秀，直接带火纳米搜索！搜学写创，开启AI搜索3.0时代

数字孪生心脏全球首次实现0.84秒超实时模拟！智源突破计算极限，180倍性能提升

代码模型自我进化超越GPT-4o蒸馏！UIUC伯克利等提出自对齐方法 | NIPS 2024

当AI创造AI，就是库兹韦尔「奇点」临近时？人类正处于自我改进AI爆炸边缘

招人！新智元邀你勇闯ASI之巅

十年再登巅峰！刚刚，Ilya和GAN之父斩获NeurIPS 2024时间检验奖

AI卷翻科研！DeepMind 36页报告：全球实验室被「AI科学家」指数级接管

AI造芯Nature论文遭围攻，谷歌发文硬刚学术抹黑！Jeff Dean怒怼：你们连模型都没训

不是RNN的锅！清华团队深入分析长上下文建模中的状态崩溃，Mamba作者点赞

一文看尽Meta开源大礼包！全面覆盖图像分割、语音、文本、表征、材料发现、密码安全性等

招人！新智元邀你勇闯ASI之巅

Sora半夜泄露3小时，物理效果惊人！奥特曼急拔网线，艺术家抗议被白嫖

逃回大厂！谷歌天才科学家Yi Tay——639天创业血泪史

打破LLM数据孤岛！Anthropic革命性MCP让大模型解锁全网数据，AGI要来了？

AI视频两巨头开战！Runway秒生现实大片，Luma动嘴创作电影

「学术版ChatGPT」登场！Ai2打造科研效率神器OpenScholar，让LLM帮你搞定文献综述

揭示Transformer「周期建模」缺陷！北大提出新型神经网络FAN，填补周期性特征建模能力缺陷

UC伯克利：给大模型测MBTI，Llama更敢说但GPT-4像理工男

招人！新智元邀你勇闯ASI之巅

GAN之父新冠后惊传罹患双重顽疾！听力减退心动过速，全网求医

OpenAI怒斥Scaling撞墙论！o1已产生推理直觉潜力巨大

指令跟随大比拼！Meta发布多轮多语言基准Multi-IF：覆盖8种语言，超4500种任务

世界模型挑战赛，单项奖金10000美元！英伟达全新分词器助力下一帧预测

招人！新智元邀你勇闯ASI之巅

Claude 3.5两小时暴虐50多名专家，编程10倍速飙升！但8小时曝出惊人短板

新晋AI编程神器干翻Cursor！首创实时感知无限用，估值12.5亿华人初创震惊AI界

扩散模型=进化算法！生物学大佬用数学揭示本质

招人！新智元邀你勇闯ASI之巅

美国教授痛心：UC伯克利GPA 4.0计算机本科生，毕业即失业？ML博士直呼太卷后悔转行

英特尔错失AI芯片浪潮，从放弃收购英伟达开始

一只暹罗猫竟是论文作者！谷歌学术20岁，创始人首次公开最魔幻学术故事

招人！新智元邀你勇闯ASI之巅

续命Scaling Law？世界模型GPT-4o让智能体超级规划，OSU华人一作

5年浴火，800余岁巴黎圣母院重生！马斯克激动转发，AI数字建模创奇迹

首个可保留情感的音频LLM！Meta重磅开源7B-Spirit LM，一网打尽「音频+文本」多模态任务

机器人训练数据不缺了！英伟达团队推出DexMG：数据增强200倍

招人！新智元邀你勇闯ASI之巅

全面进攻谷歌！OpenAI被曝打造浏览器，已挖Chrome创始大牛

预定下一个诺奖级AI？谷歌量子纠错AlphaQubit登Nature，10万次模拟实验创新里程碑

宝可梦GO「偷家」李飞飞空间智能？全球最强3D地图诞生，150万亿参数解锁现实边界

OpenAI薪酬大曝光！奥特曼身价145亿，年薪只有55万

世界最大AI Agent生态系统！微软推出全新「自主AI智能体」，10万企业工作流被改变

招人！新智元邀你勇闯ASI之巅

OpenAI看好的方向，文心智能体技术抢先爆发！

「全球最严榜单」，阶跃拿下中国TOP 1！杀入世界前五，超过GPT-4o紧跟o1-mini

收敛速度最高8倍，准确率提升超30%！华科发布MoE Jetpack框架 | NeurIPS 2024

405B大模型也能线性化！斯坦福MIT最新研究，0.2%训练量让线性注意力提分20+

招人！新智元邀你勇闯ASI之巅

美国AI曼哈顿计划793页文件曝光！全力研发AGI，十大战略直指中国

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉