MDGen：分子动力学轨迹的生成式建模

学术 2024-10-21 08:44 韩国

——简介——

如何高效采样蛋白质的多种结构一直是计算结构生物学领域的一大难点。通常此类问题通过分子模拟（包括MC采样和MD采样）来解决，同时配合各种增强采样算法提高效率。近年来，得益于GPU算力的进步，各种基于深度学习的构象生成算法被提出，但大都直接生成离散的构象系综，无法生成具有时间顺序的构象变化轨迹。2024年9月，MIT CSAIL研究所Tommi Jaakkola课题组的Bowen Jing等人开发了基于流匹配（flow matching）的基于关键帧的分子动力学模拟轨迹生成模型MDGen [1]。该模型可以基于给定的单一构象生成类似于分子动力学模拟轨迹的具有时间信息的连续变化构象系综，同时也能对于动态轨迹进行结构补全（即inpainting）。

——方法——

MDGen利用3000条三肽和1900多条单链蛋白的分子动力学模拟轨迹（各100 ns）进行训练，其关键在于对分子动力学模拟轨迹的特征工程，以便利用神经网络模型进行建模，基本逻辑如下图1所示。类似于已有的大量蛋白质结构深度学习模型，MDGen将单个残基作为token，但在sequence维度之外增加一个时间维度。作者并没有直接使用蛋白质SE(3)模型常用的residue frame进行残基建模，而是使用残基相对于关键帧的位移和旋转信息进行建模，具体的tokenize方法如下所示：

在给定K个关键帧的情况下，每个残基使用7K+14维的特征向量表示。同时，作者使用了目前生成模型领域较为常用的流匹配模型，具体的网络架构使用了在时序深度学习领域表现较好的Scalable Interpolant Transformer（SiT）网络架构。考虑到MD轨迹中的帧数可能很大（如100 ns的轨迹按10 ps一帧进行保存，则会产生10,000帧），作者将SiT架构中的时序attention部分更换为Hyena架构，用于以更低计算复杂度代替传统的Transformer。

作者将训练好的模型应用在了4个下游任务上：前向模拟（Forward Simulation）、路径预测（Interpolation）、轨迹插帧（Upsampling）、动态修补（Inpainting）。其具体原理如图1所示：

图1. MDGen的应用场景（左）和实现方法（右）

——结果——

作者随后对MDGen的四种下游任务进行了测试。对于Forward Simulation任务，作者使用第一帧作为参考，训练模型向后生成10 ns的轨迹。在生成时，模型对每个肽段迭代生成100 ns的轨迹，并和真实轨迹进行比较。作者比较的标准主要有：（1）生成轨迹与MD轨迹的结构分布是否匹配，（2）是否能捕捉动态内容，（3）是否能在更短的时间内遍历采样空间。作者采用对扭转角和TICA的降维分量计算Jensen-Shannon散度（JSD）的方法来衡量结构分布的匹配程度，结果如图2所示：

图 2. Forward Simulation的采样结果。（A）MD（橙）与模型生成（蓝）的6种扭转角的分布。（B、C）TICA降维得到的自由能景观分布。（D）通过MSM构建的亚稳态相关性。（E）沿TICA的最慢独立分量的实际去相关时间。（F）扭转角的去相关时间相关性（蓝），不同亚稳态对之间的通量矩阵相关性（橙）。（G）MD和模型生成的丙氨酸四肽构象对比。

作者通过马尔可夫状态模型（MSM）分别得到了真实轨迹和生成轨迹的亚稳态分布，并发现模型很好地捕捉到了状态的相对排序，且很少遗漏重要状态或对稀有状态赋予较高的权重。此外，通过比较轨迹中每个扭转角的去相关时间，可以发现生成轨迹和MD轨迹具有较高的一致性（图2F）。作者认为这一结果说明了模型能够区分缓慢和快速弛豫的扭转势垒。最后，作者表明模型能够在约60秒的GPU时间内生成等效于100 ns的轨迹，而MD模拟则需要约3小时的GPU时间，强调了模型生成相比于MD模拟的速度优势。

对于给定前后构象的变构过程采样任务（interpolation / transition path sampling），作者在训练时给定前后构象为关键帧，并使模型产生中间的1 ns构象。在测试时，作者挑选轨迹中两个肽段分离最远的状态，并产生1000个中间构象。最终的评估结果如图3所示：

图 3. interpolation的测试结果

作者对生成的轨迹和MD轨迹分别构建MSM亚稳态，并将100 ns的轨迹MSM亚稳态结果作为参考标准。如图3所示，生成的路径比从任何少于100 ns的重复MD MSM中采样的路径具有更高的可能性，而100 ns正是参考MD模拟的长度。此外，MDGen的路径集合在访问状态的分布上与参考MD MSM的JSD表现最佳，并且具有最高比例的有效非零概率路径。

对于轨迹插帧（upsampling）任务，作者将10 ps间隔的轨迹插帧至100 fs。通过比较扭转角的自相关函数：

的分布（该函数自变量为间隔时间Δt），可以评估的模型性能，具体如图4所示：

图 4. 左图：扭转角的自相关函数（直线代表100 fs-timestep MD，小点代表100 fs-timestep生成结果，大点代表下采样的10 ps-timestep结果）。右图：自相关函数对对数时间尺度的负导数。

作者随后探讨了基于动力学轨迹的补全任务，即在轨迹中遮去一部分结构，让模型进行修补（inpainting）。不同于常规的蛋白设计，作者评估了针对四肽（遮去中间两个残基，保留末端残基）的toy model，在给定观测到的残基构象转变的情况下，设计在相应马尔可夫状态的肽段残基类型，结果如表1所示：

表 1. MDGen和baseline模型在序列恢复率上的比较

此外，作者展示了MDGen在较大蛋白的系综生成任务上的效果，并和已有的系综生成模型AlphaFlow进行比较。在此任务中，作者使用ATLAS数据集的轨迹进行针对单链蛋白的训练。此时由于残基数目大大增加，作者生成250帧、时间步为400 ps的样本，使单个样本能够模拟100 ns的ATLAS参考轨迹，具体生成性能如表2：

表 2. MDGen在单链蛋白上的结构系综生成性能

可见，MDGen精确度介于AlphaFlow和MSA下采样（MSA subsampling）之间，但每生成一个结构的速度比二者快几个数量级。图5是一个案例蛋白的MD轨迹系综与MDGen生成系综的可视化结果，其中，相似的RMSF图像也说明MDGen除了能较好的复现结构，也能较好的复现结构的某些动力学性质。

图 5. （上）MDGen生成的6UOF_A蛋白和MD模拟的系综（下）RMSF数据

——小结——

相比已有的蛋白构象系综生成模型，MDGen能够直接生成MD轨迹。但就目前而言，MDGen只能对短轨迹的小肽进行生成，同时仅对扭转角、降维数据等评价指标进行了分析，尚未提到生成的构象在能量上是否合理，是否存在一些原子碰撞等。同时，作者在文中提到，MDGen受限于关键帧，无法直接从序列开始采样，且依赖关键帧的准确度。

笔者认为MDGen的主要贡献如下：1. 将类似于视频生成的训练流程和网络架构思路引入到MD轨迹中，并很好的和结构深度学习结合起来。2. 提出了4种下游任务，启发了这类模型的应用前景。3. 此类任务此前缺乏很好的评测流程，作者提出的很多评测项目都具有相当程度的创新性与合理性。

参考文献：

[1] Jing B, Stärk H, Jaakkola T, et al. Generative Modeling of Molecular Dynamics Trajectories[J]. arXiv preprint arXiv:2409.17808, 2024.

作者：穆俊羲

审稿：王宇哲

编辑：王宇哲

GoDesign

ID：Molecular_Design_Lab

（扫描下方二维码可以订阅哦！）

http://mp.weixin.qq.com/s?__biz=MzU2ODU3Mzc4Nw==&mid=2247507278&idx=2&sn=8f34833c623034a2ac028e4ffb55de5e

DrugAI

关注人工智能与化学、生物、药学和医学的交叉领域进展，提供“原创、专业、实例”的解读分享。

Cell Systems | Genesis探索“暗物质“蛋白折叠，折叠蛋白成功率结果鼓舞人心

Trends Pharmacol Sci. | 计算策略的集成与联用推动抗菌肽智能研发

Nat. Commun. | 使用CADD针对AcpS设计全新抗生素家族，实验效果显著！

美国佛罗里达大学计算机系/药物化学系AI制药课题组诚招全奖博士

分子表征从「图」到「视频」，1.2亿帧、200万分子，湖大分子视频基础模型登Nature子刊

《卫生健康行业人工智能应用场景参考指引》发布，推动“人工智能+”在卫生健康领域创新发展

香港科技大学（广州）人工智能学域助理教授戴恩炎招收AI for Protein 全奖Ph.D. 及 Intern

J. Chem. Inf. Model. | 基于MoE的解离动力学模型助力设计“长效药”

NeurIPS 2024 | WKM: 增强智能体规划的世界知识模型

Protenix: AlphaFold3的再现 – ByteDance AML AI4Science团队

Google DeepMind 开源 AlphaFold 3

世界糖尿病日特别直播：后司美时代“减脂增肌”前沿靶点与药物研究

Equitorch: 基于pyg的模块化等变图神经网络包

Nat. Commun. | 迈向医学大语言模型！上海交通大学团队构建数据集与评估基准

Science | 通过结构域分类探究蛋白质宇宙的结构多样性

NCS+NC｜湖南大学DrugAI实验室同一天发表两项重要成果

PNAS | 在AlphaFold 2上升级，佐治亚理工学院团队预测SARS-CoV-2刺突蛋白RBD的抗体表现

首个！四大高校联合推出药物研发大语言模型Y-Mol，性能全面领先LLaMA2

BMC biology | 多源提示的大语言模型药物重定位框架DrugReAlign

AI2BMD登上Nature，以量子级精度推进蛋白质动力学

Nat. Comput. Sci. | 单步训练2个分子，主动深度学习远超传统筛选

Nat. Biotechnol. | 戴上启动帽，MIT王潇团队提出LEGO增强翻译能力

2024年上海交通大学溥渊国际青年科学家论坛

J. Chem. Inf. Model.｜利用化学语言模型导航超大虚拟化学空间

J. Pharm. Anal. | 化学自然语言引导基于扩散的生成式类药分子编辑

Nat. Mach. Intell. | CGN+CAN=CGN！Frad大尺度扰动分子提升属性预测

Nat. Commun. | 或为多领域带来启发？SymProFold准确预测对称蛋白质组装体

Nature | 蛋白质遗传结构很复杂？Ben Lehner使用加性能量模型得出相反结论！

Nat. Mach. Intell. | 宋江宁团队合作开发CD8+ T细胞受体识别抗原表位的预测新方法

礼来“三顾”口服小分子IL-17a抑制剂，DC-853成临床独苗，DC-806完成使命，退出舞台

全球首款间充质基质细胞药物获FDA批准开展临床试验

TPAMI | MVNA：自适应邻域感知的图卷积网络

Nat. Microbiol. | 加速版RoseTTAFold来了！RF2-Lite快速识别蛋白质-蛋白质相互作用

Nat. Genet. | 寻找基因-表型新关联！MILTON精准预测多种疾病

Angew. Chem. Int. Ed. | 通过荧光偏振和原位合成筛选抑制剂：加速药物发现的有效方法

Nat. Med. | 治疗罕见疾病，哈佛医学院提出TxGNN用于药物再利用

TPAMI | MVNA：自适应邻域感知的图卷积网络

Bioinf. | 双视图联合学习实现个性化药物协同预测性能的突破

J. Med. Chem. | 小分子药物研发的计算方法现状

J. Med. Chem. | DEL+AI，探索多样性“化学空间”

Cell |中山大学联手阿里云，LucaProt记录隐藏的RNA病毒圈

Nat. Biotechnol. | David Baker又一力作！ProteinGenerator蛋白序列、结构共设计

就在本周，10月27日第三届中国生物计算大会即将开幕！

Nat. Mach. Intell. | 基于提示学习的多性质分子优化方法

【Angew】来鲁华/张长胜团队在全原子蛋白质序列设计中取得新进展

Nat. Commun. | 开发深度学习联结自编码器实现多模态单细胞数据整合与插补工具

JCIM综述｜知识图谱嵌入技术在化学领域中的研究进展与应用

Nat. Methods | SCUBA-D无需预训练结构模型也能做好蛋白设计！秘诀是对抗性损失与序列扩散

MDGen：分子动力学轨迹的生成式建模

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉