【深度学习】MDGen：分子动力学轨迹的生成式建模

学术科学 2024-10-18 00:00 北京

——简介——

如何高效采样蛋白质的多种结构一直是计算结构生物学领域的一大难点。通常此类问题通过分子模拟（包括MC采样和MD采样）来解决，同时配合各种增强采样算法提高效率。近年来，得益于GPU算力的进步，各种基于深度学习的构象生成算法被提出，但大都直接生成离散的构象系综，无法生成具有时间顺序的构象变化轨迹。2024年9月，MIT CSAIL研究所Tommi Jaakkola课题组的Bowen Jing等人开发了基于流匹配（flow matching）的基于关键帧的分子动力学模拟轨迹生成模型MDGen [1]。该模型可以基于给定的单一构象生成类似于分子动力学模拟轨迹的具有时间信息的连续变化构象系综，同时也能对于动态轨迹进行结构补全（即inpainting）。

——方法——

MDGen利用3000条三肽和1900多条单链蛋白的分子动力学模拟轨迹（各100 ns）进行训练，其关键在于对分子动力学模拟轨迹的特征工程，以便利用神经网络模型进行建模，基本逻辑如下图1所示。类似于已有的大量蛋白质结构深度学习模型，MDGen将单个残基作为token，但在sequence维度之外增加一个时间维度。作者并没有直接使用蛋白质SE(3)模型常用的residue frame进行残基建模，而是使用残基相对于关键帧的位移和旋转信息进行建模，具体的tokenize方法如下所示：

在给定K个关键帧的情况下，每个残基使用7K+14维的特征向量表示。同时，作者使用了目前生成模型领域较为常用的流匹配模型，具体的网络架构使用了在时序深度学习领域表现较好的Scalable Interpolant Transformer（SiT）网络架构。考虑到MD轨迹中的帧数可能很大（如100 ns的轨迹按10 ps一帧进行保存，则会产生10,000帧），作者将SiT架构中的时序attention部分更换为Hyena架构，用于以更低计算复杂度代替传统的Transformer。

作者将训练好的模型应用在了4个下游任务上：前向模拟（Forward Simulation）、路径预测（Interpolation）、轨迹插帧（Upsampling）、动态修补（Inpainting）。其具体原理如图1所示：

图1. MDGen的应用场景（左）和实现方法（右）

——结果——

作者随后对MDGen的四种下游任务进行了测试。对于Forward Simulation任务，作者使用第一帧作为参考，训练模型向后生成10 ns的轨迹。在生成时，模型对每个肽段迭代生成100 ns的轨迹，并和真实轨迹进行比较。作者比较的标准主要有：（1）生成轨迹与MD轨迹的结构分布是否匹配，（2）是否能捕捉动态内容，（3）是否能在更短的时间内遍历采样空间。作者采用对扭转角和TICA的降维分量计算Jensen-Shannon散度（JSD）的方法来衡量结构分布的匹配程度，结果如图2所示：

图 2. Forward Simulation的采样结果。（A）MD（橙）与模型生成（蓝）的6种扭转角的分布。（B、C）TICA降维得到的自由能景观分布。（D）通过MSM构建的亚稳态相关性。（E）沿TICA的最慢独立分量的实际去相关时间。（F）扭转角的去相关时间相关性（蓝），不同亚稳态对之间的通量矩阵相关性（橙）。（G）MD和模型生成的丙氨酸四肽构象对比。

作者通过马尔可夫状态模型（MSM）分别得到了真实轨迹和生成轨迹的亚稳态分布，并发现模型很好地捕捉到了状态的相对排序，且很少遗漏重要状态或对稀有状态赋予较高的权重。此外，通过比较轨迹中每个扭转角的去相关时间，可以发现生成轨迹和MD轨迹具有较高的一致性（图2F）。作者认为这一结果说明了模型能够区分缓慢和快速弛豫的扭转势垒。最后，作者表明模型能够在约60秒的GPU时间内生成等效于100 ns的轨迹，而MD模拟则需要约3小时的GPU时间，强调了模型生成相比于MD模拟的速度优势。

对于给定前后构象的变构过程采样任务（interpolation / transition path sampling），作者在训练时给定前后构象为关键帧，并使模型产生中间的1 ns构象。在测试时，作者挑选轨迹中两个肽段分离最远的状态，并产生1000个中间构象。最终的评估结果如图3所示：

图 3. interpolation的测试结果

作者对生成的轨迹和MD轨迹分别构建MSM亚稳态，并将100 ns的轨迹MSM亚稳态结果作为参考标准。如图3所示，生成的路径比从任何少于100 ns的重复MD MSM中采样的路径具有更高的可能性，而100 ns正是参考MD模拟的长度。此外，MDGen的路径集合在访问状态的分布上与参考MD MSM的JSD表现最佳，并且具有最高比例的有效非零概率路径。

对于轨迹插帧（upsampling）任务，作者将10 ps间隔的轨迹插帧至100 fs。通过比较扭转角的自相关函数：

的分布（该函数自变量为间隔时间Δt），可以评估的模型性能，具体如图4所示：

图 4. 左图：扭转角的自相关函数（直线代表100 fs-timestep MD，小点代表100 fs-timestep生成结果，大点代表下采样的10 ps-timestep结果）。右图：自相关函数对对数时间尺度的负导数。

作者随后探讨了基于动力学轨迹的补全任务，即在轨迹中遮去一部分结构，让模型进行修补（inpainting）。不同于常规的蛋白设计，作者评估了针对四肽（遮去中间两个残基，保留末端残基）的toy model，在给定观测到的残基构象转变的情况下，设计在相应马尔可夫状态的肽段残基类型，结果如表1所示：

表 1. MDGen和baseline模型在序列恢复率上的比较

此外，作者展示了MDGen在较大蛋白的系综生成任务上的效果，并和已有的系综生成模型AlphaFlow进行比较。在此任务中，作者使用ATLAS数据集的轨迹进行针对单链蛋白的训练。此时由于残基数目大大增加，作者生成250帧、时间步为400 ps的样本，使单个样本能够模拟100 ns的ATLAS参考轨迹，具体生成性能如表2：

表 2. MDGen在单链蛋白上的结构系综生成性能

可见，MDGen精确度介于AlphaFlow和MSA下采样（MSA subsampling）之间，但每生成一个结构的速度比二者快几个数量级。图5是一个案例蛋白的MD轨迹系综与MDGen生成系综的可视化结果，其中，相似的RMSF图像也说明MDGen除了能较好的复现结构，也能较好的复现结构的某些动力学性质。

图 5. （上）MDGen生成的6UOF_A蛋白和MD模拟的系综（下）RMSF数据

——小结——

相比已有的蛋白构象系综生成模型，MDGen能够直接生成MD轨迹。但就目前而言，MDGen只能对短轨迹的小肽进行生成，同时仅对扭转角、降维数据等评价指标进行了分析，尚未提到生成的构象在能量上是否合理，是否存在一些原子碰撞等。同时，作者在文中提到，MDGen受限于关键帧，无法直接从序列开始采样，且依赖关键帧的准确度。

笔者认为MDGen的主要贡献如下：1. 将类似于视频生成的训练流程和网络架构思路引入到MD轨迹中，并很好的和结构深度学习结合起来。2. 提出了4种下游任务，启发了这类模型的应用前景。3. 此类任务此前缺乏很好的评测流程，作者提出的很多评测项目都具有相当程度的创新性与合理性。

参考文献：

[1] Jing B, Stärk H, Jaakkola T, et al. Generative Modeling of Molecular Dynamics Trajectories[J]. arXiv preprint arXiv:2409.17808, 2024.

作者：穆俊羲

审稿：王宇哲

编辑：王宇哲

GoDesign

ID：Molecular_Design_Lab

（扫描下方二维码可以订阅哦！）

http://mp.weixin.qq.com/s?__biz=MzU3MjcyMzI5Mg==&mid=2247492974&idx=1&sn=d45f25a16cd9622075db35fcae15d1ea

GoDesign

关注化学、生命科学和药物研发等领域的科研进展，提供“原创、专业、接地气”的文献解读。

最新文章

【分子设计】抑制剂变降解剂可以多简单？

上海交通大学沈琦课题组诚聘博士后

【Science】通过结构域分类探究蛋白质宇宙的结构多样性

诺和诺德 | 缓释低血糖的葡萄糖敏感型胰岛素

中科院生物药国重室高薪诚聘核酸化学、核酸生物、AI生信方向博后

【深度学习】MDGen：分子动力学轨迹的生成式建模

美国爱荷华州立大学化学系张寓安教授课题组招聘启事

北京大学成都前沿交叉生物技术研究院公共技术平台介绍

看见PDB—生物大分子可视化的50年历程（中）

【Angew】来鲁华/张长胜团队在全原子蛋白质序列设计中取得新进展

PHGDH/SYK——连接抗真菌免疫和丝氨酸代谢的纽带

看见PDB——生物大分子可视化的50年历程（上）

报名即将截止 | 核素药物产业深度聚焦峰会，扬帆核素蓝海，共逐下一个百亿赛道！

减肥与代谢病药领域顶尖盛会！MDD代谢病与减肥药物开发论坛携手40+行业领袖！

CNS药物领域唯一千人盛会！ICNS 2024 第四届中枢神经系统药物深度聚焦论坛

减肥与代谢病药领域顶尖盛会！MDD代谢病与减肥药物开发论坛携手40+行业领袖！

CNS药物领域唯一千人盛会！ICNS 2024 第四届中枢神经系统药物深度聚焦论坛

报名倒计时1周 | 国内唯一！自免药物开发盛会！聚焦类风湿关节炎、银屑病、系统性红斑狼疮等重点疾病领域！

【本实验室进展】当我们讨论计算机辅助逆合成设计时我们在讨论什么

报名即将截止| 国内唯一！自免药物开发盛会！聚焦类风湿关节炎、银屑病、系统性红斑狼疮等重点疾病领域！

【分子设计】雷帕霉素类似物库筛选分子胶水

人工智能赋能生物医药的未来产业画卷！AIBC2024最新日程发布 (第四版)

赋能生物医药的AI技术力量集体亮相！AIBC2024最新日程发布 (第三版)

蛋白拆分和模块化重组的生物学应用

AIBC2024｜人工智能与生物医药生态大会最新日程（第二版）

电院沈红斌、袁野团队在转录调控RNA速度估计生物信息学研究取得新进展

AIBC2024丨人工智能与生物医药生态大会日程发布

Chem. Sci. | 来鲁华、裴剑锋团队开发基于扩散模型的柔性分子对接方法

聚焦6月！赋能生物医药的AI技术力量集体亮相AIBC

【靶向降解】E3连接酶KLHDC2的小分子配体设计及应用

Nature | 代谢酶进化中分形几何的出现

爱因斯坦医学院生物化学系杨为课题组招聘博士后

【分子设计】超能打的RAS-multi抑制剂登上Nature！

【报名倒计时1周】第四届I-RNA 2024核酸药物千人峰会震撼来袭！

爱因斯坦医学院生化系杨为课题组招聘博士后

【分子设计】我们离理性设计分子胶还有多远

【报名即将截止】第四届I-RNA 2024核酸药物千人峰会震撼来袭！

AIBC千人大会，一网打尽人工智能在生物医药领域的最新进展！

InSilico Medicine在Nature子刊公开INS018_055结构，AI的设计够惊艳吗？

刚刚获批，首款NASH治疗药物resmetirom的药物设计

【一图看懂】2023年获FDA批准的小分子新药及药物设计思路

【解读】2024年2月FDA批准上市的药物

关于举办“第三期新酶设计及酶技术应用专题培训班”的通知

【药物设计】PDB中蛋白-小分子配体相互作用的系统性分析

报名即将截止 | 2024第六届小分子新药千人大会

【有机合成】2024年了，多臂老虎机还能发正刊——反应条件的优化

【深度学习】Str2Str：基于分数模型的zero-shot蛋白质构象采样方法

报名即将截止 | 2024第六届小分子新药千人大会

报名即将截止 | 100%专注小分子新药&多肽药物！SIT 2024第六届小分子新药千人大会震撼来袭

【药物开发】药价贵的背后，是临床试验支出的剧烈膨胀

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉