力闻｜力文所参与的蛋白质语言模型解释性工作于PNAS发表

学术 2024-11-02 12:00 浙江

稿件来源

雅克

近日，MIT Ovchinnikov课题组的研究取得重大进展，于PNAS上发表了一篇关于蛋白质大模型学习机制的论文。

此项研究，曾在著名蛋白质设计社区Rosetta Common进行过内部分享，主要探讨了解释蛋白质语言模型预测蛋白质结构的机理，特别是采用了创新的无监督Jacobian共进化提取方法。

该方法在与传统线性模型和监督学习大模型的对比中展示了卓越性能。文章还通过掩码分析揭示了ESM2模型在进行接触预测时，如何通过识别片段配对来学习序列间的共进化依赖。

这一方法不仅强调了理解蛋白质大模型基本机制的重要性，而且通过可视化大模型的无监督共进化信息，为评估和设计大模型提供了更高的可靠性，对未来大模型的分析应用具有潜在的重要价值。

背景

至今，蛋白质结构预测领域已经经历了显著的进步，特别是以AlphaFold2为典型的模型，它采用多重序列比对（MSA）作为输入，在同源序列信息丰富的情况下，能够实现高精度的蛋白质结构预测。

为了解决依赖MSA的限制，一系列基于大模型的预测方法相继被提出，这些方法能够仅从单一蛋白质序列中预测其结构，例如依赖于语言模型ESM2的ESMFold。

然而，尽管这些蛋白质语言模型在结构预测方面取得了成果，其具体的预测机制还未完全明确。目前，关于这些模型是真正理解了蛋白质折叠的内在物理机制，还是主要依靠序列间的共进化信息进行预测的问题，在学术界仍然存在广泛的讨论和争议。

在探讨蛋白质结构预测的现有问题时，本研究提出了三个主要假设：首先，ESM2可能在物理层面上学习到了蛋白质折叠的能量函数；其次，语言模型可能记忆了特定的蛋白质结构模式，并依此进行预测；最后，ESM2可能已经掌握了基于序列motif和序列间关系的配对依赖关系。

针对第一个假设，Ovchinnikov团队在AF2Rank论文中曾有过对AlphaFold模型学习局部势能能力的探讨，AlphaFold显示出在不依赖MSA的情况下对蛋白质构象进行有效打分的能力。然而，对于ESM2是否具备相似能力，本研究持保留态度。

这种怀疑主要基于两个观察：首先，ESMFold论文中指出，模型性能与其训练集中序列近邻数量呈现高度相关性；其次，本研究发现ESM2在预测同源异构体序列结构时出现误差，推测这可能是由于模型错误地应用了共进化信息。

基于以上观察，本研究倾向于认为，大模型在蛋白质结构预测中的学习模式可能实际上更接近第三个假设，即基于序列motif和序列间关系的配对依赖关系。这一点对于理解和优化蛋白质结构预测模型的机制至关重要。

研究方法

本研究首先系统地构建了一个蛋白质异构体数据集，该数据集包括从已发表的文献中收集的18个异构体序列及其对应的全长蛋白质序列。

接着，作者采用了多种结构预测方法对这些异构体序列进行了结构预测。

为了探索大模型中共进化信息的提取机制以及实现可解释性，文章采用了研究梯度的方式，即分析对输入的信息微小扰动。这种方法对于大模型来说，梯度的步长十分重要，小步长难以对于ESM2的输出产生影响，而增加步长可提高预测接触图的准确度，改变氨基酸类型则可获得最佳效果。

因此，本研究采用了Categorical Jacobian方法。该方法通过对每个氨基酸残基进行突变为其他氨基酸的操作，计算这些变化对模型输出logits的影响，从而提取共进化信息。

如图所示，这种方法本质上利用正向传播来提取模型中的二阶梯度依赖关系，并通过APC（Average Product Correction）方法去除偏差，进而将这些依赖关系转化为接触图信号。此方法与语言模型自身额外参数实现的接触预测（即ESM contact-regression head）、以及从MSA（多重序列比对）构建的马尔可夫随机场（MRF）或多元高斯模型中提取的共进化权重相比，属于一种完全无监督的提取方式。

在上述分析方法的基础上，本文进一步进行了多个掩码实验，以深入探究大模型如何提取共进化信息：

对Jacobian预测为有接触的位点附近的氨基酸残基进行序列掩码，观察模型在逐步解开附近序列时接触预测的恢复情况。
针对二级结构相关分析，选择距离较远的二级结构片段对，进行相似的序列掩码实验，观察模型在逐步解开两侧序列时接触预测的恢复情况。
调整语言模型的编码，包括起始结束编码、位置编码等，以观察整体信息对于局部共进化信息提取的影响。

通过这些实验，本研究旨在揭示大模型在蛋白质结构预测中的工作机制，特别是它们如何处理和利用共进化信息。

探索结果

本研究首先分析了蛋白质语言模型在对蛋白异构体的结构预测问题，这些模型倾向于将异构体预测为完整蛋白质结构中的某个特定片段，从而导致不合理的预测结果。

如图所示的肌红蛋白异构体例子中，AF2、OmegaFold和ESMFold等三种结构预测模型均能很好地将异构体与全长蛋白质中相应的片段对齐。

然而，这些预测中多个疏水残基被暴露在一个裂隙中，而在完整形式的肌红蛋白结构中，这样的裂隙是不存在的。

这种现象在其他的异构体案例中也有所体现。基于这些观察，作者推断ESM2等模型在结构预测时主要依赖共进化信息，而不是基于整体的势能函数进行预测。

这一发现对于理解蛋白质语言模型在结构预测中的工作机制具有重要意义，同时也提示我们在处理异构体结构预测时需要考虑到这种模型的局限性。

本研究中采用了Categorical Jacobian方法来提取蛋白质语言模型中的共进化信息，并发现该方法在仅使用单序列作为输入的情况下表现出色。

在ESM2模型中，利用Jacobian方法提取的共进化权重在预测蛋白质间接触点的精度上优于传统的线性模型，并且与在ESM2上专门训练的接触预测头所预测的接触精度相当。此外，Jacobian方法的性能与模型的参数量密切相关。

如上图所示，文章对比了使用Jacobian方法和线性模型提取的接触图，结果表明两种方法提取的共进化信息在一致性上有较高的相似度。

这种比较为我们提供了一种无监督的方式来评估语言模型在提取共进化信息方面的效能。总体而言，Jacobian方法为理解和评估蛋白质语言模型在共进化信息处理上提供了一个有效的工具。

为了理解共进化信息如何被提取出来的以及这个过程中什么信息最重要，本文对不同间隔的已知二级结构片段配对之外的序列信息使用了3种策略进行掩码处理，包括解开目标配对的周围氨基酸，随机解开掩码，以及在目标配对周围以外随机随机解开掩码。

通过序列掩码实验，本文发现：

逐步解开接触点附近的掩码比起随机解开掩码，更有利于模型提取出接触的共进化信息。无论是对于单个片段还是对于相隔较远的二级结构片段，当给予其接触位点附近残基时，均可有效提回复接触预测。
当上下文长度提升至某个阈值时，回复率会迎来突变式提升。以淀粉结合蛋白 SusD为例，模型无法通过周围13个残基预测位置225-421的𝛼-螺旋之间的接触，但是在周围14个残基时就可以。该现象具有普适性，对于不同间隔的配对片段，至少有64%在增加周围一个残基后，回复率突然提升了 0.5 以上。
另外上图C的蓝色方框中出现了一些额外的接触信息，这些区域位于掩码区，本身是不包含氨基酸类型信息的，这也许额外挖掘出了蛋白中的基序信息。

总体来说，本文的实验结果表明ESM2模型在预测接触时依赖于局部序列上下文的信息，而不是依赖于完整的蛋白质fold信息。

语言模型学习到的主要是基序片段的配对信息，其中的序列长度大约在20-40个残基范围内。尽管如此，不能完全排除语言模型可能学习到了一些整体fold信息的可能性。

另外本文基于前文提到的假设3，即大模型学习到了配对依赖关系，展望了未来蛋白大模型的开发，想要学到全部共进化信息，大概需要 20000（UniProt的家族数量）* C(256，2) （序列平均长度中的氨基酸对数量）* 20*20 （氨基酸对的可能性） = 2610亿的参数，这个数量和目前最大的蛋白大模型只有2.6倍之差，ESM2-3B模型可以被粗略认为学到了平均4对的相互作用信息，蛋白大模型开发未来可期。

力评

本研究深入探讨了蛋白质大模型的可解释性，这是理解模型如何学习和预测蛋白质结构的关键。

计算机科学中的可解释性研究方法，如Grad-CAM、特征分析、注意力分析等，已经在揭示模型内部工作机制方面取得了显著进展。特别是早期的研究已经开始将注意力机制与蛋白质的接触图、结合位点等结构特征联系起来。

Jacobian分析方法则从蛋白质的二阶信息和梯度角度出发，提供了另一种解释模型工作机制的视角。与传统的计算机方法相比，经过去除偏差的Jacobian方法提供了更高的可读性和直观性。

此外，蛋白质大模型的可解释性分析不仅揭示了模型的当前短板，也为未来的研究指明了方向。

例如，大模型中包含的片段信息如何服务于整体蛋白质fold，同一家族中不同构象是如何通过片段信息进行学习的，如何更高效地利用大模型进行蛋白质评估和设计等，以及如何更有效改进大模型架构。

综上所述，本研究不仅对当前的蛋白质模型提供了深入的理解，也为未来在蛋白质设计和模型优化方面的研究提供了新的视角和方法。

文献链接

Protein language models learn evolutionary statistics of interacting sequence motifs, Zhidian Zhang, Hannah K Wayment-Steele, Garyk Brixi, Haobo Wang, Matteo Dal Peraro, Dorothee Kern, Sergey Ovchinnikov, bioRxiv 2024.01.30.577970;

2024丨力文所

EXPLORE EVOLUTION

DECIPHER LIFE

©️ 力文所原创内容，未经许可转载必究。

欢迎给力文所LEVINTHAL公众号标星

在文末右下角点击在看

给本文作者 点赞

http://mp.weixin.qq.com/s?__biz=MzIwMzg3MDk2MQ==&mid=2247515351&idx=2&sn=7ec1606255bb53b33e3a43d24c88d48c

遇见生物合成

1）简述国内外合成生物学与天然产物生物合成相关研究进展，解读最新文献资讯；2）简述学术界那些事，偶尔情怀主义；3）化学与生物学的完美碰撞；4)高校与研究所那些事。

深圳先研院石一鸣组NPR封面｜自然“战场”启发活性分子的发现和改造

天工所吴信组在高效降解木质素的生物资源挖掘和代谢网络解析方面取得新进展

天津大学罗云孜组/上海药研所叶阳团队Nat Comm｜开发链霉菌内源I-E 型 CRISPR-Cas 系统用于天然产物的开发

浙江大学李永泉组ACS Synth. Biol 补骨脂酚在酵母中的从头合成

微生物研究所尹文兵团队Bioresource Technology | 受邀发表丝状真菌底盘开发研究进展综述

丹麦技术大学丁玲组Nat Com | 一种新型抗真菌分子Alligamycin A

PNAS | 定量解构肿瘤微环境：DeSide助力多种肿瘤内细胞丰度的精准预测

西湖大学王雅婕团队与孙立成团队合作开发生物电化学系统实现从CO2到C2+高附加物的合成

AlphaFlod3终开源

杨建明组Bioresource Technology｜通过优化蛋白合成和分泌途径优化将葡萄糖酸和CO2转化为α-淀粉酶

中科院过程所生物药制备与递送国重室陈瑶团队高薪诚聘合成生物学、生物催化等交叉科学博后

瞿旭东/张郑宇/王斌举合作PNAS｜揭示核碱基驱动催化复杂化学反应的新颖P450过氧化物酶

江大陈坚团周景文组Nat Rev Bioeng | 微生物细胞工厂：细胞培养肉低成本与高品质的驱动力

西湖大学张骊駻组Chem. Sci.｜模块型聚酮天然产物挖掘的代谢-基因组学策略

天工所郑平/王猛合作Trends in Biotech | 谷氨酸棒杆菌全基因组规模筛选工业生产相关渗透压/氨基酸产量等功能元件

NCB：CEMPS杨晟团队开发出能高效利用秸秆糖的酵母并成功商业化

神舟十八号从太空带回34.6公斤科学实验样品

上海有机所刘文组Nat Syn：一类新型Ⅱ型聚酮合成酶体系——打破40年来对II型PKSs延伸单元单一性认知

JNP新主编｜Dr Bradley Moore

西南大学邹懿组Angew｜明星分子(−)-Vinigrol的生物合成

ACS Catal｜医科院药物所訾佳辰与中大巫瑞波组解析狼毒大戟中半日花烷衍生型二萜药效物质的形成机制

JACS｜刘天罡/鲁丽团队揭示艾蒿中高效驱虫成分艾蒿醇

微生物所尹文兵/北大罗春雄合作Adv Sci|定量表征的真菌次级代谢相关基因调控回路助力新天然产物的发现

力闻｜力文所参与的蛋白质语言模型解释性工作于PNAS发表

专家点评Nature | 胡政/贺雄雷/何真团队合作揭示早期肿瘤从多克隆至单克隆转变的演化新模式

Cell子刊Joule｜天津大学李锋/宋浩团队：电遗传技术助力异丁醇电发酵接近理论产率！

Cell｜雷晓光/李毓龙/陈煜合作阐明胆汁淤积瘙痒分子机制，开辟肝病治疗新途径

北京大学林文翰/范爱丽组JACS｜基因组挖掘与生物合成研究助力真菌DMOA来源杂萜分子的高效定向发现

合成细胞国际联盟成立

中国科学院合成细胞国际科学计划启动

南大戈惠明/焦瑞华/史净合作JACS | 细菌来源新颖I/II型PKS杂合芳香聚酮的挖掘

西南大学牛国清组JAFC｜基于 tnaC的色氨酸生物传感器构建及其在紫色杆菌素动态合成中的应用

Chemical Reviews｜林世贤/张帅合作总结蛋白质脂化修饰的合成生物学研究

江南大学倪晔/许国超组Nat Comm｜机器学习增强羧酯酶的立体选择性发散进化

Nat Commun| 浙江大学医学院王健博团队联合暨南大学张志民、周洋团队解析糖基转移酶化学选择性机制及打造糖基化平台的研究

Nature Communications｜哺乳动物活细胞内可编程重构RNA调控网络的人工基因线路

江南大学聂尧组NPR综述文章｜天然产物合成中的Fe(II)和2-酮戊二酸依赖型双加氧酶：反应多样性的分子见解

山大方诩教授组Carbohyd Polym｜非粮生物质高效转化制备高纯度γ-环糊精

天津*第二届高级酶工程与酶技术应用大会

中国农大杨新玲组JAFC封面 | 从生态学角度创制绿色蚜虫行为控制剂，合理平衡分子的‘高效性’与‘安全性’

西南大学牛国清组ACS SynBio｜链霉菌鼠李糖诱导表达系统的创制与应用

浙工大郑裕国团队柳志强组ACS Catal | 改造羰基还原酶高效不对称生物合成手性芳香族邻氨基醇

Nat Commun｜中科院化学所敖宇飞/北师大申林合作建立酰胺水解酶立体选择性预测模型

北大李志远组合作eLife 铁载体基因序列到化学结构解析

Nat. Comm.｜表面展示酶的工程菌群催化半纤维素高效转化高值产品和电能

木质纤维素整合生物加工技术研究进展│Engineering Microbiology 综述

江南大学陈坚团队刘龙组ME｜脂滴中重构后角鲨烯途径实现酿酒酵母高效合成7-脱氢胆固醇

庐山植物园药用植物次生代谢研究组招聘（2024）

江南大学陈坚团队刘龙组ME｜脂滴中重构后角鲨烯途径实现酿酒酵母高效合成7-脱氢胆固醇

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉