参数有效微调在蛋白质语言模型中的应用

文摘 2024-09-30 21:33 重庆

参数有效微调在蛋白质语言模型中的应用
PLM with PEFT
自然语言处理和蛋白质语言模型有很多共通之处，例如他们都是在处理序列数据，都需要进行单词/氨基酸的嵌入表示，都需要关注上下文信息，都可以拆分成预训练任务和下游任务等。今天介绍一篇来自微软 AI for Good Research Lab的文章《Democratizing protein language models with parameter-efficient fine-tunin》，这篇文章通过将自然语言处理中使用的参数有效微调（parameter-efficient fine-tuning (PEFT)）方案——LoRA 移植到蛋白质语言模型上来降低微调蛋白质语言模型所需要的资源。
关键词
深度学习｜蛋白语言模型 PLM｜PEFT

引言
LoRA（Low-Rank Adaptation）方法
在2020年Armen Aghajanyan et al.发表的工作Intrinsic Dimensionality Explains the Effectiveness of Language Model Fine-Tuning中，作者通过在GLUE基准测试中的MRPC和QQP数据集上计算不同预训练模型的内在维度，展示了使用预训练表示时，常见自然语言任务可以用非常少的参数学习。
完整的微调模型公式
LoAR 微调的公式
其中是模型参数，在完整微调过程中使用预训练好的权重来初始化模型，然后通过最大化条件语言模型来更新；而在LoRA微调过程中则使用相对小的参数来进行优化。
在实际的使用中，对于预训练权重，可以通过地址分解来表示其更新。其中远小于。在训练时被冻结，A和B为可训练参数。对于一个512512的权重矩阵，如果设置r为8，则所需要调整参数的数量从262144降低到了8192。
LoRA原理图

结果
在这篇文章中，作者向大型预训练语言模型引入了PEFT方法，显著展示了在两个重要的蛋白质组学任务——同源聚合物对称性预测和蛋白质-蛋白质相互作用（PPI）预测上，性能与传统的微调方法具有竞争力或更优。
下游任务性能的比较
作者比较了不进行微调（MLP）、传统微调（FT）和使用参数有效微调（PEFT）在同源聚合物对称性预测和PPI预测上显示出的性能差异。在同源聚合物对称性预测任务上，FT方案和PEFT方案得到了相近的性能，而直接使用MLP分类则性能较差。
在PPI预测的任务上直接使用MLP分类的性能反而达到了最好（AUPR = 0.684），表面了蛋白质语言模型在简单下游任务中的有效性。
LoRA的性能优势
在同样微调层数的情况下，使用PEFT方案可以减少约50%的显存。
不同参数对LoRA性能的影响
过低的r值可能会导致微调效果的下降，但是总体来说，对于r值的选择不是严格的。
LoRA对预训练模型注意力的影响
作者以上表中PPI预测的模型为目标，可视化了五个LoRA适配层的注意力，并对所有头部进行了平均，图A显示了预训练模型对NADH脱氢酶1β亚复合物亚基1（图C）的注意力。注意力集中在对角线上。相比之下，在使用LoRA权重进行PEFT后，注意力在蛋白质的长度上更加分散（图B）。通过计算这些注意力值的样本Pearson相关性发现经过微调（FT）后，对角线的相关性有所降低（图D），并计算了每一次得分差异的分布（图E）

讨论
这篇文章提出使用的参数有效微调来进行蛋白质语言模型的微调，可以减少微调蛋白质语言模型的成本。值得注意的是，虽然在使用参数有效微调的方案需要微调层数达到12层才可以实现常规微调8层的效果，但是当面对非常大参数的模型时，参数有效微调可以为计算资源不那么充分的个人或者课题组提供一种解决问题的方案。同时文章也提示了笔者，自然语言处理在很多方法上都走在蛋白质语言模型的前面，对于蛋白质语言模型的处理，可以更多的参考自然语言处理的成熟方案。

文献代码
Sledzieski, Samuel, et al. "Democratizing protein language models with parameter-efficient fine-tuning." PNAS 121.26 (2024): e2405840121.
Github: https://github.com/microsoft/peft_proteomics*

往期文章
蛋白设计｜综述｜Benchmark｜AF3｜David Baker｜ESM｜MaSIF｜结构预测｜语言模型｜骨架生成｜逆向折叠｜抗体设计｜多肽设计｜酶设计｜稳定性｜药物设计

关注我们
死磕自己，愉悦大家
专注于AI蛋白相关的论文解读&学术速运

AI4Protein

读书破万卷juǎn，专注于AI蛋白相关的学术搬运。

最新文章

Seminar｜多模态生成式蛋白质基础模型

蛋白质功能-序列空间压缩

David Baker｜变构蛋白设计

BioEmu｜生物分子仿真器

RFdiffusion进化史

Seminar｜AI辅助从头酶设计

David Baker｜RFpeptides设计环肽

文章合集

David Baker｜设计含β-strand的Binder

David Baker｜设计IDP的Binder

再看Binder设计

清华大学卢磊课题组招聘化学、生物、计算等方向的博士后与科研助理

Sci. Adv｜语言模型Pro-PRIME设计高稳定性高活性蛋白

直播预告｜去噪蛋白语言模型DePLM助力蛋白进化

读论文时如何辨别出“好东西”

Science｜语言模型 EVOLVEpro 帮助各种蛋白实现定向进化

Nat. Mach. Intell.｜蛋白设计工具预测突变热稳定性

Science｜基因语言模型Evo

GLM｜基因组语言模型的学习笔记

Seminar｜结构感知的蛋白语言模型 SaProt

AlphaFold3 最全食用指南

AlphaFold3 性能速度 & 机器配置

AlphaFold3 的输出的理解

AlphaFold 3 安装指南

AlphaFold 3 权重申请指南

AlphaFold3 的输入

AlphaFold3 开源啦！！！

香港科技大学（广州）人工智能学域助理教授戴恩炎招收AI for Protein 全奖Ph.D. 及 Intern

Foldseek 有何妙用？

RSO｜超越RFdiffusion的蛋白设计方法？

DPLM｜扩散语言模型是多才多艺的蛋白学习者

RSO｜超越RFdiffusion的蛋白设计方法？

AF3｜复现进展

钟博子韬｜2024诺贝尔化学奖解读

BindCraft｜一站式设计高亲和力Binder

Pallatom｜线上报告

PROPREMAB｜预测抗体可开发性的机器学习框架

从零开始造抗体：诺奖技术引领的生物医药新革命！

2024年诺贝尔化学奖，刚刚颁发给了蛋白设计和结构预测

AI蛋白“相关”国内的公司

AI蛋白海内外课题组汇总

Binder设计大赛的结果启示

参数有效微调在蛋白质语言模型中的应用

图解AF3

简述酶的定向进化🦍

ProTrek | 融合多模态信息的蛋白质工具

ProteinBench｜蛋白基础模型最全面BenchMark

蛋白结构和序列的联合设计🤔

AlphaProteo｜从头设计高亲和力Binder蛋白

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉