AI2BMD登上Nature，以量子级精度推进蛋白质动力学

科技 2024-11-07 13:24 中国

（本文阅读时间：10分钟）

编者按：随着人工智能在蛋白质研究中的重要性日益提升，预测静态的蛋白质晶体结构已不再是难题。然而，如何在原子级别精确刻画蛋白质动态变化仍是一项亟需解决的挑战。微软研究院科学智能中心王童研究员及其团队，历时四年研究推出的基于 AI 的分子动力学模拟系统 AI²BMD，对蛋白质等生物大分子进行量子级精度的全原子模拟，实现了比经典模拟更高的精度，和比密度泛函理论更快的速度，为包括生物分子建模等在内的生物研究提供了新的可能性。

“所有生物体的行为都可以通过原子的颤动和摆动来理解。”正如诺贝尔物理学奖得主 Richard Feynman 的名言所说，生物世界的本质是原子永不停歇的运动过程。探索生物分子的运动过程以及分子之间的相互作用，对于破译生命活动背后的机理以及设计和发现新的药物、疫苗以及生物材料都至关重要。

近年来，随着深度学习技术的发展和 GPU 算力的飞速提升，人工智能在蛋白质研究领域扮演着越来越重要的角色。2024年的诺贝尔化学奖就授予了蛋白质结构预测和蛋白质设计的研究。尽管通过计算手段预测静态的蛋白质晶体结构已经接近或达到生物学实验解析的精度，但如何利用 AI 在原子级别精确地刻画蛋白质动态变化的行为是一项仍需解决且更为困难的挑战。

日前，微软研究院科学智能中心（Microsoft Research AI for Science）王童研究员及其团队，历时四年在人工智能驱动的分子动力学模拟研究中取得了重要进展，其成果已通过长文（Article）的形式在世界顶级科学杂志《自然》（《Nature》）正刊在线发表。

长文链接：

https://www.nature.com/articles/s41586-024-08127-z

GitHub 链接：

https://github.com/microsoft/AI2BMD

AI驱动的分子动力学模拟

分子动力学（Molecular Dynamics，简称 MD）是模拟分子和原子在真实生物细胞中运动的技术手段。动力学模拟一般以1飞秒（10-15秒）为一步模拟，通过数亿以至数千亿步的模拟，反映细胞中蛋白质分子的时空运动过程。历经半个多世纪的发展，分子动力学模拟可以分为两类：经典模拟（Classic MD Simulation）和量子模拟（Quantum Simulation）。

经典模拟以牛顿力学作为力场来驱动原子和分子的运动，具有速度快、适用性广等特点。半个多世纪以来，经典模拟被广泛应用于蛋白质等生物大分子的动态研究中，并于2013年获得诺贝尔化学奖。然而，采用牛顿力场的经典模拟，力场的准确性欠缺，且无法模拟分子成键断键等电子迁移的行为，在高精度的自由能计算、药物虚拟筛选、生物化学反应等方面捉襟见肘。

与经典模拟相对的是以密度泛函理论（Density Functional Theory，简称 DFT）为代表的量子模拟方法，该方法采用量子力学力场，对原子的运动描述可达到从头计算的精度。凭借其完备的理论基础和在计算化学领域的广泛应用，1998年密度泛函理论获得了诺贝尔奖。但由于极高的计算代价，量子模拟既无法直接应用于蛋白质等生物大分子的研究，又无法进行长时间的模拟仿真。

如何打破经典模拟和量子模拟之间的技术瓶颈，实现对蛋白质等生物大分子量子级精度的全原子模拟，是该领域半个多世纪以来的一大挑战。

为了解决这一重大挑战，微软研究院科学智能中心的研究员们设计了基于 AI 的分子动力学模拟系统 AI²BMD (AI powered ab initio biomolecular dynamics)。该系统以从头计算的精度（即量子级的精度）高效地对各类蛋白质进行了全原子模拟仿真。这一创新在生物分子模拟中实现了一种此前标准模拟技术无法达成的权衡——比经典模拟具有更高的准确性，其计算成本虽然高于经典模拟，但计算速度领先 DFT 和其他量子力学方法数个数量级。AI²BMD 有望在生物分子建模中解锁更多新的能力，特别是在如蛋白质与药物相互作用这种需要进行高精度计算的研究过程中。

AI 驱动的分子动力学模拟动画演示

深入AI²BMD技术创新

分子动力学模拟最重要的组件之一是力场的构建。在模拟的每一步中，力场计算分子的能量和每个原子所受的力，从而驱动整个分子的运动。经典模拟采用牛顿力场，量子模拟采用量子力学力场。要构建 AI 驱动的分子动力学模拟，最大挑战是深度学习模型的泛化性，即在已知分子上训练的模型对各类未知蛋白质分子的能量和力的预测准确性。为此，研究团队设计了一种基于蛋白片段的、可泛化的分割技术，将各类蛋白质分子分割成21种通用的蛋白质片段。数据集的构建和模型的训练全都基于通用蛋白质片段进行，从而实现对各类蛋白质分子的通用解决方案（如图1）。

图1：AI²BMD 技术流程图

基于蛋白质通用分割方案，研究团队进一步构建了包含二千多万条数据、目前世界上最大的量子级精度蛋白质片段数据集 Protein Unit Dataset（https://github.com/microsoft/AI2BMD）。研究员们选取了此前研发的通用分子几何结构建模的网络模型 ViSNet，并在 Protein Unit Dataset 上对其进行训练，来作为 AI²BMD 的力场。考虑到分子模拟的效率问题，研究团队提出了一种全新的主从式架构（client-server），通过对 CPU 和 GPU 的动态调度，该架构可以将每步模拟时间压缩至数十毫秒量级。研究员们利用 AI²BMD 对各类蛋白的动力学和热力学进行了分析，分析结果展现了比经典模拟在蛋白质折叠自由能计算、构象空间探索等多个方面更好的结果。

生物分子模拟的技术创新

AI²BMD 在如下几个方面展示了与此前蛋白质分子经典模拟不同的创新性变化：

量子级精度：AI²BMD 通过可泛化“机器学习力场”——一种通过机器学习模型构建的原子和分子之间相互作用的模型，实现了量子级精度的全原子蛋白质动力学模拟。

图2：AI²BMD 和经典动力学模拟对不同蛋白质能量计算的误差对比

泛化性：AI²BMD 首次解决了机器学习力场在模拟蛋白质动力学方面的泛化挑战，展示了对各种蛋白质全原子模拟的鲁棒性。

全原子模拟的兼容性：相比于结合量子模拟和经典模拟的混合模拟技术，AI²BMD 将量子级精度的计算拓展到了整个蛋白质分子上，且不需要任何关于蛋白质的先验知识。这消除了蛋白质的量子模拟和经典模拟计算之间潜在的不兼容性，并将量子模拟区域的计算速度提高了几个数量级，使全原子蛋白质的近从头计算更接近现实。因此，AI²BMD 为许多下游应用铺平了道路，并为表征复杂生物分子动力学提供了新的视角。

高效性：AI²BMD 比 DFT 和其他量子模拟的速度快几个数量级。AI²BMD 支持超过1万个原子的蛋白质的量子级精度计算，使其成为众多学科领域中最快的 AI 驱动的分子动力学模拟程序之一。

图3：AI²BMD 与 DFT 以及其他 AI 驱动的动力学模拟软件速度的比较

构象探索的多元性：不同于经典模拟，AI²BMD 不会对键长、键角、二面角等施加任何约束。如图4，在用 AI²BMD 和经典模拟分别模拟蛋白质折叠和去折叠的过程中，AI²BMD 探索了经典模拟无法检测到的更多可能的构象空间。因此，AI²BMD 为研究药物靶标结合过程中蛋白质的柔性运动、酶催化、变构调节、内在无序蛋白等提供了更多的机会和可能。

图4：AI²BMD 与经典模拟在蛋白 Chignolin 折叠过程的模拟表现

生物实验的一致性：与经典模拟和混合模拟相比，AI²BMD 在J-耦合、焓变、热容、折叠自由能、熔化温度和 pKa 等指标上都展现出了与生物学实验更高的一致性。

应用与展望

在生物分子模拟中实现量子级精度是极具挑战性的，但它在揭示生物系统的奥秘以及设计新型生物材料和药物方面具有巨大潜力。这一突破证明了 AI for Science 的远见，即利用人工智能的能力革新科学探索。AI²BMD 实现了机器学习力场在分子动力学模拟应用中准确性、稳定性和泛化性等方面的平衡，在提升能量和原子受力计算精度的同时，AI²BMD 也带来对蛋白质各类性质更为准确的计算和估计。

AI²BMD 一个关键的应用场景是药物发现中高精度的靶点蛋白和药物分子之间的结合能计算。在2023年首届全球人工智能药物开发竞赛中，AI²BMD 和其 AI 力场 ViSNet 准确识别出了与新冠病毒多个靶点相结合的潜在药物分子，在所有任务中都取得了最佳预测，赢得了冠军。

2022年，微软研究院还与全球健康药物研发中心（ Global Health Drug Discovery Institute, 简称 GHDDI）展开合作，将人工智能技术应用于药物设计。GHDDI 是盖茨基金会、北京市政府和清华大学联合成立的非营利机构，旨在研发用于治疗对中低收入国家（LMIC）造成严重影响的结核病和疟疾等疾病的药物。微软研究院正在与 GHDDI 密切合作，希望通过 AI²BMD 和其他人工智能技术加速药物发现过程。

AI²BMD 不仅推进了对科学问题的研究，还促进了药物发现、蛋白质设计和酶工程等领域的新的生物医学研究。利用 AI²BMD 准确、高效地表征蛋白质的动态特性正在推动科学技术创新发展，激发科学界对生物机理探索的广泛兴趣。

AI²BMD 研究团队主要成员

你也许还想看：

http://mp.weixin.qq.com/s?__biz=MzAwMTA3MzM4Nw==&mid=2649502437&idx=1&sn=2fddd3f98f0e0e02cfe3426993e49972

微软亚洲研究院

微软亚洲研究院，专注科研26年，盛产黑科技

最新文章

Rust自动形式化证明、LLMs图模式理解、机械臂动作模仿

科学匠人 | 对话松下康之：以具身智能突破人工智能与物理世界的边界

对话《Nature》论文作者，揭秘AI2BMD背后的故事

近实时的全球碳预算，揭示2023年陆地碳汇能力锐减

AI2BMD登上Nature，以量子级精度推进蛋白质动力学

MarS：生成式基座模型时代的通用金融市场模拟引擎

明天直播 | ECCV 2024精选论文分享

如何泛化AI的深度推理能力？

简单而强大：DIFF Transformer降噪式学习，开启模型架构新思路

科学匠人 | 刘海广：发挥“生物多样性”法则的力量，寻找科学的新答案

VIS 2024最佳论文 | VisEval：推动自然语言生成可视化的全新评估框架

从预测风暴到设计分子：人工智能基础模型如何加速科学发现

ECCV上新 | 精选计算机视觉领域6篇前沿论文

Data Formulator：使用prompt就能轻松完成数据可视化

为什么你的LLMs玩不转外部知识？RAG分类学助你诊断！

守护记忆：多模态大模型为认知障碍患者带来全新的训练方法

科研上新 | 金融模型、LLMs结构化剪枝、多模态对齐、AI芯片深度学习编译器

开源工具RD-Agent：让研究与开发过程更智能

VALL-E 2，大幅提升语音大模型的稳健性与自然度

微软亚洲研究院2025校园招聘正式开启！

跨越模态边界，探索原生多模态大语言模型

明天直播 | ACL 2024精选5篇论文直播分享

代码摘要、生成、翻译、修复全覆盖... WaveCoder开启代码智能新篇章

集成大语言模型与产业数据智能，迈向“产业基础模型”

Microsoft Research Forum第四期来了！一起来看多模态模型的最新技术进展与应用

星跃计划 | 微软亚洲研究院北京+温哥华联合科研项目上新，聚焦大语言模型！

开启因果发现新范式！解密复杂系统的核心机制

微软亚洲研究院多项创新技术，弥合大模型低比特量化与终端部署间鸿沟

顶尖高校优秀学子齐聚微软亚洲研究院新星科技节，论道科研！

如何理解和探索大模型的多语言能力？

执业医师转型人工智能研究员，王子龙说“跨”才是关键

ACL上新 | 6篇精选论文带你看最新LLMs进展

周二直播 | AI for Science最新论文分享

USENIX ATC 2024最佳论文 | 微软如何提升云AI基础设施的可靠性

图像解码器；多头混合专家网络；视觉模型美学对齐；医学视觉任务适应基准

大语言模型应用如何实现端到端优化？

LSR-MP：突破分子模拟瓶颈，探索知识引导的AI范式

明天直播 | ICML 2024精选论文分享

nnScaler：重塑深度学习并行策略，大幅提升训练效率

ICML 2024 | 微软亚洲研究院邀你共聚机器学习领域盛会

完全激活稀疏大模型，Q-Sparse突破LLM推理效能

数据驱动模型提升电动汽车电池退化预测准确率

ProbTS：时间序列预测的统一评测框架

你应该知道的10个AI术语

实习 | 微软亚洲研究院“明日之星”开放岗位

脑启发设计：人工智能的进化之路

以智能化为舵手，引领现代计算机系统架构新航向

构建负责任且大规模的生成式人工智能的七个启示

AI赋能天气：微软研究院发布首个大规模大气基础模型Aurora

CVPR上新 | 从新视角合成、视频编解码器、人体姿态估计，到文本布局分析，微软亚洲研究院精选论文

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉