力文所是一家专注于蛋白质设计,干湿实验结合的科技型企业。我们致力于将AI蛋白质设计和湿实验验证相互融合,推动蛋白质设计在工业应用中的落地。
Lésign®是公司自主研发和持续打造的智能化蛋白设计平台,利用先进的人工智能算法,制定快速、稳定、准确的设计方案,实现对蛋白质的设计和改造。
力文所持续深耕蛋白质生成式设计,今日Lésign®平台正式发布AI模型新成员──Pallatom,Pallatom模型从全原子结构出发进行采样,可以得到比骨架生成模型更加合理的蛋白质序列和结构,创新的模型构架和原子表征形式未来得以支持ligand小分子配体、DNA、RNA和非标准氨基酸,将解锁全原子蛋白设计新范式。
01
Lésign®
新品发布介绍
生成式扩散模型在AI的各个应用领域取得了长足的进步。在蛋白质设计方面,应用扩散模型进行蛋白质骨架生成已经非常成熟,但是,目前蛋白质生成模型还是使用“二阶段”处理的方式,存在一定的限制,如高维空间序列采样困难或受限于基于骨架的序列设计模型的性能。
对于直接生成蛋白质全原子结构还面临了一些重要挑战:
蛋白质全原子结构包括骨架原子和侧链原子。针对标准氨基酸,骨架原子的数量和类型是确定的,但侧链原子的数量和类型并不一致,扩散过程中原子数量和类型会发生变化;
在优化过程中,蛋白质侧链原子一旦确定,氨基酸的类型就可以确定了,换言之,侧链类型无法与主链的变化相呼应,最终得到的侧链序列无法编码当前的蛋白质结构,这是一个“先有鸡还是先有蛋”的问题。
为解决这一难题,最近,力文所团队在bioRxiv上发布了Pallatom模型,模型名称来源于概率分布P(all-atom),表示直接从样本空间学习全原子结构规律分布,强调了骨架结构和侧链原子自洽性。开发人员通过巧妙的模型设计,使Pallatom具备强大的生成性能,精准的实验结果,展示了这一方案的合理性和可行性,准确的侧链原子分布体现出了模型充分考虑了侧链氨基酸性质如疏水性、极性、氢键、盐桥等特性的分布,这些特性在蛋白质的功能中发挥着非常重要的作用。
具体算法详情请参考Biorxiv:
https://www.biorxiv.org/content/10.1101/2024.08.16.608235v1
02
Pallatom
构架解读
1、模型构架创新在哪?
Pallatom模型是一个全原子扩散模型,能够端到端地精准生成蛋白质全原子结构,我们在架构上为蛋白质全原子生成做了适配性设计,基于双轨轨道信息层次的扩散模型框架,分别在氨基酸层次和原子层次进行信息交流和融合,在解码器中采用穿梭式的方法传递该原子表征信息辅助解码;
主体模型主要分为2个模块,原子编码器以及序列原子解码器,在编码器层中,我们采用了类似3层AtomTransformer将原子类型以及坐标信息进行编码。在解码器层,最小的解码单元由1层AtomTransformer和1层"反序"的 PairFormer组成。通过迭代的8层解码器,可以对原子, single和pair表征进行充分地更新。
2、解码器的工作原理?
编码器输入的特征包括了加噪坐标、位置编码以及丙氨酸的标准构象信息等原子及氨基酸层级的特征,编码后的原子表征和single,pair表征一起输入到解码器中进行多轮迭代。
穿梭式解码是Pallatom解码器的重要特性之一:
在解码器的每次信息更新过程中,编码器的原子表征以穿梭式的方式与每个单元的single和pair表征信息分别进行融合,该巧妙设计可以在非旋转等变的网络构架中,维持中间变量的全局旋转性,从而稳定表征和训练;
我们将上一个单元的pair信息以attention bias形式输入到single中,同时single表征又被用于下一单元中更新原子表征,实现了自条件的穿梭性;
为了解决pair信息的更新问题,当前单元去噪的坐标随即被以距离矩阵的形式更新pair表征。在下一单元中用更新的信息以及原始的原子特征共同解码出坐标更新。
图A: 模型主网络架构,图B: AtomDecoder架构。
3、何为atom14 表征?
“如何表示原子数量可变的系统?” atom14表征方法可以回答这个问题,它避免了同时设计序列和结构所产生的冲突,具体如下:
20种氨基酸的构象全部简化为丙氨酸形式的单一骨架构象,每种氨基酸统一为 14 个原子,多出来的原子则为“幽灵 ”原子。
为避免虚拟原子泄漏信息,我们巧妙地将“幽灵”原子放在Ca原子坐标上,并使得原子系统更加符合 “物理”分布。随着网络的去噪,侧链原子逐渐从骨架中心向侧链空间增长。
具有14个原子的虚拟氨基酸在扩散过程中自身携带了骨架的结构信息,又可以被序列信息指导演变为任意一种标准氨基酸形成对应的侧链信息。atom14方法因为不具备残基类型信息,无法在去噪坐标中识别构象相似的残基,如 CYS 和 SER,因此我们巧妙地训练了一个 “可视化”头,根据全原子坐标预测相应的氨基酸类型,实现序列和主链侧链的共设计。
4、Pallatom构架具备高度可扩展性
目前Pallatom构架完全能支持扩展更多形式的原子表征,我们正在计划未来几个月中开发更加通用的模型架构,扩展系统支持配体、DNA和非天然氨基酸,并进一步增强模型在设计大型、复杂系统方面的能力(如抗体复合物和自组装材料)。
03
Pallatom
强劲的性能
Pallatom设计的de novo蛋白质展示出了一种高度有序的侧链分布,这种分布使得蛋白质的结构更加紧密和稳定。具体来说,这些蛋白质的疏水侧链通过内聚作用,形成了一个稳定的疏水核心。这种核心有助于维持蛋白质的整体结构稳定性。此外,蛋白质表面被亲水性极性残基所覆盖,这些残基能够与周围的水分子相互作用,进一步增强了蛋白质在水溶液中的溶解性和稳定性。
目前,针对全原子蛋白质生成问题,Pallatom在CO-DESIGN 1评估中的表现显著超越了先前的其他方法。具体而言,我们的研究表明,由Pallatom生成的蛋白质序列在与目标蛋白质骨架结构的匹配度上显著优于由ProteinMPNN生成的序列。这一结果表明,Pallatom在精确捕捉和再现蛋白质结构方面具有明显的优势。
Pallatom的优越性能源于其在序列设计过程中对结构和序列间相互关系的深刻理解。这种理解使得Pallatom能够生成更符合自然蛋白质特征的序列,确保在全原子水平上实现更高的匹配度和结构保真度。与ProteinMPNN相比,Pallatom不仅能生成与目标结构高度一致的序列,还在一定程度上提高了蛋白质的稳定性和功能性。
通过对不同长度的蛋白质进行采样分析,我们发现蛋白质的折叠类型呈现出相对平衡的分布。这一发现为小型binder的设计提供了一个具有发展潜力的起点,意味着在设计过程中可以更灵活地选择合适的折叠类型以满足特定需求。
此外,较长的蛋白质在折叠类型的多样性和复杂性方面表现出更高的新颖性,这为设计具有更复杂功能和结构的新型蛋白质开辟了新的可能性。
这一结果表明,不同长度的蛋白质在设计中的应用各具优势。短链蛋白质因其折叠类型的平衡性,适合作为小型、特异性较强的binder设计的基础。而长链蛋白质则因其在新颖性上的突出表现,为探索更复杂、更创新的蛋白质结构,如新酶设计等提供了重要的设计方向。
04
力评
力文所研发的Pallatom是一个端到端的全原子蛋白质生成模型,可以自洽地获得序列和结构之间的关系,从而实现了最先进的性能。优秀的模型架构,使得特征提取和结构生成变得更加高效。对全原子系统的表示方式,打破了氨基酸类型变化导致的障碍,以一种更加准确的方式表示全原子系统坐标。Pallatom模型在从头生成蛋白中表现出了强大的可设计性和多样性,为蛋白质设计开辟了新的道路。
2024丨力文所
EXPLORE EVOLUTION
DECIPHER LIFE
©️ 力文所原创内容,未经许可转载必究。
欢迎给力文所LEVINTHAL公众号 标星
在文末右下角点击 在看
给本文作者 点赞