力文所是一家专注于蛋白质设计,干湿实验结合的科技型企业。我们致力于将AI蛋白质设计和湿实验验证相互融合,推动蛋白质设计在工业应用中的落地。
Lésign®是公司自主研发和持续打造的智能化蛋白设计平台,利用先进的人工智能算法,制定快速、稳定、准确的设计方案,实现对蛋白质的设计和改造。
今天,Lésign®平台正式发布AI模型新成员──LéxTm-SSR,以及一套蛋白质设计下游任务预测的新范式。本次发布的LéxTm-SSR模型就是基于该范式训练所得,用于预测突变对蛋白质热稳定性的影响。经过多个项目湿实验验证,该模型预测准确率已达到工业应用水平。
01
Lésign®
新品发布介绍
基于序列结构的特征表示空间和其中蕴含的共进化作用可以预测蛋白功能理化特性,通过微调这个特征表示空间可以适应不同的下游任务,如酶活性、结合能力、热稳定性、蛋白质表达量等预测任务。这就是下游任务预测新范式的核心思想。
LéxTm-SSR模型就是在这种新范式下训练的。蛋白质序列与结构的表示(Representation of Protein Sequence and Structure),简称为SSR (S: Sequence; S: Structure; R: Representation)。
通过低秩适应的高效微调,让这个表示适用于多种下游任务,为解决蛋白质设计下游问题赋能,这类适配模型我们统称为SSRAdaptor。本次发布的模型是将这种适配能力应用于突变序列热稳定性的预测,因此我们称为ThermoSSRAdaptor,简称LéxTm-SSR。
02
LéxTm-SSR:
微调表示空间适应下游任务
随着深度学习的发展,AlphaFold2等使用大量自然序列训练的掩码语言模型能通过从同源序列中学习提取大量的氨基酸共进化相互作用,从而高效表征序列和结构之间的关系。但目前AlphaFold2模型并不能很好地将这些大自然的进化信息映射到蛋白质的理化特性。
AlphaFold2中以Evoformer为编码器的模型结构,可将输入多条同源自然序列信息中的系统发育信息和共进化信息进行高效解耦,并以单体表征(Single representation )和成对表征(Pair representation)进行编码,序列结构表征空间(SSR space)信息非常丰富,应用于其他蛋白质设计相关的下游任务。但传统深度学习的直接微调方式效果并不理想,基于结构预测模型的预训练序列结构表征空间是具有偏好的,在没有充分对模型参数调整的情况下,无法高效准确地提取下游任务特有的表示信息。鉴于Evoformer等编码器中已经充分训练了序列共进化信息提取的能力。
我们基于LoRA的思路,通过灵活的自定义低秩分解规则,可对AlphaFold2中的Evoformer进行微调训练,充分复用同源序列中提取共进化层面的表征信息,相对于原始的构架,SSRAdaptor具有显著的优势:
LoRA微调的方式极大减少需要训练的参数,提升训练效率,同时充分利用矩阵的可合并性特点,在模型推理方面达到“零增耗”。
在多任务推理过程中,预训练权重(Pre-train weigths)可以在各个下游任务中共享,通过切换较少的可训练参数(Trainable weights),可以高效实现不同下游任务的预测功能。
全新的MSA表征提取模块,克服了原始Evoformer中,同源序列特征维度高,需要消耗巨大显存的问题,通过力文所特有的共进化信息解耦算法,不再需要对同源序列进行“下采样”操作,可同时使用数千条MSA进行网络推理训练,能更加完整地使用自然序列中的共进化信息,达到更高的预测准确度。
极低训练成本,仅为预训练模型的0.01%,低至2天就能针对性地对客户数据进行微调,在专项项目中的预测性能超越预训练大模型,实现高效交付。
基于SSRAdaptor构架下,力文所可对已知空间进行微调和改造,适用于蛋白质设计的其他下游任务,为了测试LéxTm-SSR的高效微调能力:我们将下游任务聚焦在预测多点突变对蛋白质热稳定性的影响上。
突变造成的热稳定性变化的数据指标称为∆∆G或ddG,常见的公开数据集有Fireprot、Megascale、S669、cDNA等。LéxTm-SSR模型除了使用公开的数据集以外,还包含了力文所内部中通量筛选实验的突变数据,通过专有的数据清洗和划分模块,充分平衡单点和多点突变的数据比例,采用更科学的方式进行数据的划分和模型的训练,使得模型能在更多工业改造的场景中准确预测。
将LéxTm-SSR模型相较其他模型在S669公开热稳定性评价数据集上取得了明显优势,预测上具有良好的相关性。通过LéxTm-SSR模型,可以对能提高热稳定性的优势突变进行筛选,用于对蛋白质热稳定性的改造,加速工业用途酶的商业化落地过程。
03
LéxTm-SSR:
助力多个酶制剂项目落地
洗涤剂添加酶和饲料添加酶通常需要在高温条件下进行预处理和发挥作用,如果热稳定性差,酶在高温下容易失活,无法达到应有的催化效果。力文所与相关行业头部企业进行战略合作,LéxTm-SSR模型目前成功助力多个酶制剂项目加速商业化落地,通过适配性微调的AI模型和力文所的高效干湿一体化流程筛选,仅在1个月内即可得到对酶性质有显著提升的优势突变共计30余个。
我们对LéxTm-SSR模型预测的优势突变进行实验验证,对比野生型酶酶制剂序列,AI共进化信息指导设计的酶突变体在热稳定性、表达量、活性均得到了显著提升了。
同时,我们在湿实验中对比了LéxTm-SSR模型和ThermoMPNN模型预测突变能力,LéxTm-SSR不仅在多个位点成功将命中有效突变,同时成功筛选到的突变位点数量高于行业常用的ThermoMPNN模型,在相关性上看,LéxTm-SSR的对蛋白质理化性质提升的相关性更优,尤其是预测排名靠前的突变,准确率高。
因此,LéxTm-SSR系列模型不仅在理论层面上具有极高的效率和极低的开发成本,还能以更准确地方式获取有效突变,使得湿实验筛选的准确率和效率大大提高,极大地节省了实验成本。
洗涤剂酶
饲料添加酶
04
展望
对于LéxTm-SSR模型的商业成功应用,我们看到了可挖掘的价值,并在后续更多项目的实践中将下游任务预测新范式应用到更多任务中,如蛋白质功能预测、酶活预测等。拓展Lésign®平台的功能,丰富模型库,寻找更多的应用落脚点。以模型为项目服务,项目优化模型为出发点。
力文所始终坚持共进化AI算法+湿实验的理念,通过应用模型来改进模型,通过数据结果来反馈模型,形成干湿实验闭环,同时建立丰富的高通量多突数据库,不断增强现有模型设计多点突变的性能和鲁棒性。
2024丨力文所
EXPLORE EVOLUTION
DECIPHER LIFE
©️ 力文所原创内容,未经许可转载必究。
欢迎给力文所LEVINTHAL公众号 标星
在文末右下角点击 在看
给本文作者 点赞