参数有效微调在蛋白质语言模型中的应用
PLM with PEFT
自然语言处理和蛋白质语言模型有很多共通之处,例如他们都是在处理序列数据,都需要进行单词/氨基酸的嵌入表示,都需要关注上下文信息,都可以拆分成预训练任务和下游任务等。今天介绍一篇来自微软 AI for Good Research Lab的文章 《Democratizing protein language models with parameter-efficient fine-tunin》,这篇文章通过将自然语言处理中使用的参数有效微调(parameter-efficient fine-tuning (PEFT))方案——LoRA 移植到蛋白质语言模型上来降低微调蛋白质语言模型所需要的资源。
关键词
深度学习|蛋白语言模型 PLM|PEFT
引言
LoRA(Low-Rank Adaptation)方法
在2020年Armen Aghajanyan et al.发表的工作Intrinsic Dimensionality Explains the Effectiveness of Language Model Fine-Tuning中,作者通过在GLUE基准测试中的MRPC和QQP数据集上计算不同预训练模型的内在维度,展示了使用预训练表示时,常见自然语言任务可以用非常少的参数学习。
完整的微调模型公式
LoAR 微调的公式
其中是模型参数,在完整微调过程中使用预训练好的权重来初始化模型,然后通过最大化条件语言模型来更新;而在LoRA微调过程中则使用相对小的参数 来进行优化。
在实际的使用中,对于预训练权重,可以通过地址分解来表示其更新。其中远小于。在训练时被冻结,A和B为可训练参数。对于一个512512的权重矩阵,如果设置r为8,则所需要调整参数的数量从262144降低到了8192。
结果
在这篇文章中,作者向大型预训练语言模型引入了PEFT方法,显著展示了在两个重要的蛋白质组学任务——同源聚合物对称性预测和蛋白质-蛋白质相互作用(PPI)预测上,性能与传统的微调方法具有竞争力或更优。
下游任务性能的比较
作者比较了不进行微调(MLP)、传统微调(FT)和使用参数有效微调(PEFT)在同源聚合物对称性预测和PPI预测上显示出的性能差异。在同源聚合物对称性预测任务上,FT方案和PEFT方案得到了相近的性能,而直接使用MLP分类则性能较差。
在PPI预测的任务上直接使用MLP分类的性能反而达到了最好(AUPR = 0.684),表面了蛋白质语言模型在简单下游任务中的有效性。
LoRA的性能优势
在同样微调层数的情况下,使用PEFT方案可以减少约50%的显存。
不同参数对LoRA性能的影响
过低的r值可能会导致微调效果的下降,但是总体来说,对于r值的选择不是严格的。
LoRA对预训练模型注意力的影响
作者以上表中PPI预测的模型为目标,可视化了五个LoRA适配层的注意力,并对所有头部进行了平均,图A显示了预训练模型对NADH脱氢酶1β亚复合物亚基1(图C)的注意力。注意力集中在对角线上。相比之下,在使用LoRA权重进行PEFT后,注意力在蛋白质的长度上更加分散(图B)。通过计算这些注意力值的样本Pearson相关性发现经过微调(FT)后,对角线的相关性有所降低(图D),并计算了每一次得分差异的分布(图E)
讨论
这篇文章提出使用的参数有效微调来进行蛋白质语言模型的微调,可以减少微调蛋白质语言模型的成本。值得注意的是,虽然在使用参数有效微调的方案需要微调层数达到12层才可以实现常规微调8层的效果,但是当面对非常大参数的模型时,参数有效微调可以为计算资源不那么充分的个人或者课题组提供一种解决问题的方案。同时文章也提示了笔者,自然语言处理在很多方法上都走在蛋白质语言模型的前面,对于蛋白质语言模型的处理,可以更多的参考自然语言处理的成熟方案。
文献代码
Sledzieski, Samuel, et al. "Democratizing protein language models with parameter-efficient fine-tuning." PNAS 121.26 (2024): e2405840121.
Github: https://github.com/microsoft/peft_proteomics*
往期文章
蛋白设计|综述|Benchmark|AF3|David Baker|ESM|MaSIF|结构预测|语言模型|骨架生成|逆向折叠|抗体设计|多肽设计|酶设计|稳定性|药物设计
关注我们
死磕自己,愉悦大家
专注于AI蛋白相关的论文解读&学术速运