【深度学习】Str2Str：基于分数模型的zero-shot蛋白质构象采样方法

学术科学 2024-03-05 09:02 北京

——简介——

如何高效采样蛋白质尤其是天然无规蛋白质（IDP）的多种结构一直是计算结构生物学领域的一大难点。通常，此类问题是通过分子模拟（包括MC采样和MD采样）来解决，同时配合各种增强采样算法提高效率。近年来，得益于GPU算力的进步，各种基于深度学习的增强采样和构象生成算法被提出，但大都需要针对某一体系预先的MD轨迹数据，没有办法直接从序列生成具有多样性的构象。2024年1月，来自蒙特利尔大学Mila研究院Jian Tang课题组的Jiarui Lu等人开发了基于分数模型蛋白质zero-shot构象采样模型Str2str[1]。该工作目前在ICLR2024上作为Poster发布。该模型通过输入蛋白序列和结构（例如使用AlphaFold预测的结构），在一个分数模型上加噪再去噪，从而采样新的构象。该工具不同于之前的AI辅助增强采样方法和构象生成方法，不需要对结构提前进行MD采样，大大扩展了模型的使用范围。

——方法——

Str2str全称structure to structure，其基本逻辑如下图1所示：先利用蛋白质序列-结构数据集训练一个具有平移旋转等变性的分数模型；之后针对某一输入的蛋白序列通过结构预测模型如AlphaFold2等预测一个初始结构；将结构按一定步数不完全加噪；利用训练好的模型对结构进行去噪；最后得到的结构即为生成后的新结构。

图1. Str2str的运行逻辑

这个先不完全加噪再去噪的过程被作者称为forward-backward过程（FB），具体公式如下：

其中，Tδ取值在0到T之间，并且可以通过控制其大小，来达到控制生成构象集合（ensemble）的结构多样性的目的。

在训练时，分数模型的随机微分方程（SDE）如下所示：

其中dt是时间步，dw是布朗运动项。

为了更好的训练效果，作者仿照AlphaFold2的处理方法来表征蛋白结构：将蛋白质按氨基酸为单位划分为主链“frame”以及侧链各种扭转角。其中，对于蛋白主链的表征定义如下：

其中，X_global代表蛋白的笛卡尔坐标，X_local代表在“frame”参考系下的坐标。T^frame可分解为一个旋转项R^frame和一个平移项v^frame。而对于侧链，则仿照AF2的侧链对照表处理，本推文暂不赘述。

至于去噪的神经网络架构，作者使用了一个更改后的IPA网络，被作者命名为DenoisingIPA，如下图所示：

图2. DenoisingIPA的网络架构

可见，基本与AF2中的IPA模块相同，其中Si张量来源于positional encoding和分数模型的Time step encoding。此外，作者在其中加入了一个pair representation的transition模块，类似于AF2的Evoformer中所使用的edge transition模块，如下：

值得注意的是，不同AF2的IPA模块，这个架构中其实并没有嵌入序列信息，所以其实蛋白序列的唯一作用是在一开始通过AF2或ESMFold等工具预测初始结构。

在训练过程中，作者是用了两种loss函数来保证训练效果。其一是正常分数模型的loss函数：

与正常分数模型训练过程不同的是，由于在实际使用时，并不需要用到全部的扩散步数，因此可以只对0到Tm的区间算loss，其中Tm是一个提前设定的超参数，0<Tm<T。

另一种loss被称为Auxiliary Loss，由主链MSEloss：

和原子距离图损失distogram loss：

这两种loss在t<T/4时被计算。

最后，总loss如下：

其中，作者将alpha和beta取值为0.25。

——结果——

之后，作者对Str2str的效果进行了benchmark。Benchmark的对象主要包括AF2-RVAE、EigenFold、idpGAN等。评价标准主要包括：1.有效性：包括原子clash和化学键键长。2.保真度：两两距离分布的JS散度（JS-PwD）和tICA降维图上的最近组分（JS-TIC）以及回旋半径Rg分布的JS散度（JS-Rg）。3.多样性：包括RMSD和TM-score的MAE。

Benchmark结果如下表1所示，其中PF表示使用概率流进行采样的结果：

表1. Str2str的benchmark结果

可见，与之前的EigenFold和idpGAN相比，Str2str不仅在有效性和保真度上有优势，在多样性上超过之前的方法很多，同时和MD的结果进行比较也能发现，单从采样效率上讲，Str2str的似乎媲美几十us级的MD采样。

除了量化的benchmark之外，作者对很多MD采样领域比较著名的case进行了具体的分析，包括很多的fast-folding蛋白如：BPTI、Trp-cage等。其中BPTI的tICA结果如下所示：

图3. BPTI的benchmark结果

可见，Str2str的生成结果和长时间MD更类似，而其他方法则和短MD的结果更为类似，体现了Str2str更高的采样效率。

Trp-cage的contact-map分布图如下图所示：

图4. Trp-cage的benchmark结果

和BPTI的结果类似，Str2str展现了更类似于长时间MD的采样效率。

其他各种case的contact-map结果如下如所示：

图5. 各种fast-folding蛋白的benchmark结果

此外，作者还统计了在不同去噪步数的选取情况下Str2str的表现，展现了模型可以通过参数控制生成结果多样性的特点，如下图所示：

图6. 不同T_delta下的ensemble生成结果

比较有意思的一点是随着T_delta的增大,模型似乎能更容易采样到不同的构象。下图的tICA结果也说明了这一点：

图7. 不同T_delta下的WW domain ensemble生成结果和MD结果比较

——小结——

Str2str的提出不仅为我们提供了一种高效的AI采样方法，同时这种不完全加噪方式也为将扩散模型迁移到flow上提供了一些启示。此外，据作者言，这种不完全加噪再去噪的过程实际上暗合MC采样或MD采样中跨越势能垒的过程，同样引人深思。

图8. Str2str与常规采样方法的能垒跨越过程类比

当然，就目前而言基于AI的增强采样方法仍然任重道远：比如，Str2str的结果显示，采样结构的比例和MD存在较大差距，这说明模型整体对于玻尔兹曼分布的感知还不足，只能作为初始结构采样器使用。其次，文章展现的都是一些fast-folding的蛋白，对于真正类coil的IDP蛋白缺乏足够的case study。

参考文献：

Lu, Jiarui, et al. "Str2str: A score-based framework for zero-shot protein conformation sampling." The Twelfth International Conference on Learning Representations. 2024.

作者：穆俊羲

审稿：王宇哲

编辑：黄志贤

GoDesign

ID：Molecular_Design_Lab

（扫描下方二维码可以订阅哦！）

http://mp.weixin.qq.com/s?__biz=MzU3MjcyMzI5Mg==&mid=2247492389&idx=1&sn=3a5fee5e49380e63e64c722f1949357e

GoDesign

关注化学、生命科学和药物研发等领域的科研进展，提供“原创、专业、接地气”的文献解读。

最新文章

【分子设计】抑制剂变降解剂可以多简单？

上海交通大学沈琦课题组诚聘博士后

【Science】通过结构域分类探究蛋白质宇宙的结构多样性

诺和诺德 | 缓释低血糖的葡萄糖敏感型胰岛素

中科院生物药国重室高薪诚聘核酸化学、核酸生物、AI生信方向博后

【深度学习】MDGen：分子动力学轨迹的生成式建模

美国爱荷华州立大学化学系张寓安教授课题组招聘启事

北京大学成都前沿交叉生物技术研究院公共技术平台介绍

看见PDB—生物大分子可视化的50年历程（中）

【Angew】来鲁华/张长胜团队在全原子蛋白质序列设计中取得新进展

PHGDH/SYK——连接抗真菌免疫和丝氨酸代谢的纽带

看见PDB——生物大分子可视化的50年历程（上）

报名即将截止 | 核素药物产业深度聚焦峰会，扬帆核素蓝海，共逐下一个百亿赛道！

减肥与代谢病药领域顶尖盛会！MDD代谢病与减肥药物开发论坛携手40+行业领袖！

CNS药物领域唯一千人盛会！ICNS 2024 第四届中枢神经系统药物深度聚焦论坛

减肥与代谢病药领域顶尖盛会！MDD代谢病与减肥药物开发论坛携手40+行业领袖！

CNS药物领域唯一千人盛会！ICNS 2024 第四届中枢神经系统药物深度聚焦论坛

报名倒计时1周 | 国内唯一！自免药物开发盛会！聚焦类风湿关节炎、银屑病、系统性红斑狼疮等重点疾病领域！

【本实验室进展】当我们讨论计算机辅助逆合成设计时我们在讨论什么

报名即将截止| 国内唯一！自免药物开发盛会！聚焦类风湿关节炎、银屑病、系统性红斑狼疮等重点疾病领域！

【分子设计】雷帕霉素类似物库筛选分子胶水

人工智能赋能生物医药的未来产业画卷！AIBC2024最新日程发布 (第四版)

赋能生物医药的AI技术力量集体亮相！AIBC2024最新日程发布 (第三版)

蛋白拆分和模块化重组的生物学应用

AIBC2024｜人工智能与生物医药生态大会最新日程（第二版）

电院沈红斌、袁野团队在转录调控RNA速度估计生物信息学研究取得新进展

AIBC2024丨人工智能与生物医药生态大会日程发布

Chem. Sci. | 来鲁华、裴剑锋团队开发基于扩散模型的柔性分子对接方法

聚焦6月！赋能生物医药的AI技术力量集体亮相AIBC

【靶向降解】E3连接酶KLHDC2的小分子配体设计及应用

Nature | 代谢酶进化中分形几何的出现

爱因斯坦医学院生物化学系杨为课题组招聘博士后

【分子设计】超能打的RAS-multi抑制剂登上Nature！

【报名倒计时1周】第四届I-RNA 2024核酸药物千人峰会震撼来袭！

爱因斯坦医学院生化系杨为课题组招聘博士后

【分子设计】我们离理性设计分子胶还有多远

【报名即将截止】第四届I-RNA 2024核酸药物千人峰会震撼来袭！

AIBC千人大会，一网打尽人工智能在生物医药领域的最新进展！

InSilico Medicine在Nature子刊公开INS018_055结构，AI的设计够惊艳吗？

刚刚获批，首款NASH治疗药物resmetirom的药物设计

【一图看懂】2023年获FDA批准的小分子新药及药物设计思路

【解读】2024年2月FDA批准上市的药物

关于举办“第三期新酶设计及酶技术应用专题培训班”的通知

【药物设计】PDB中蛋白-小分子配体相互作用的系统性分析

报名即将截止 | 2024第六届小分子新药千人大会

【有机合成】2024年了，多臂老虎机还能发正刊——反应条件的优化

【深度学习】Str2Str：基于分数模型的zero-shot蛋白质构象采样方法

报名即将截止 | 2024第六届小分子新药千人大会

报名即将截止 | 100%专注小分子新药&多肽药物！SIT 2024第六届小分子新药千人大会震撼来袭

【药物开发】药价贵的背后，是临床试验支出的剧烈膨胀

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉