PROPREMAB|预测抗体可开发性的机器学习框架
PROPERMAB是一个通过序列和结构层面的特征,整合用于预测抗体分子特性的机器学习框架。这个框架具有所需数据量小,易于定制新特征的优点。对于长期耕耘于单类结构保守分子(如抗体、某种特定酶等)的蛋白质晶体学课题组、大分子生物药企业都具有一定意义。即可以提前预测蛋白的生物物理属性,大致判断课题难度和开发潜力。
主要框架
这个框架通过序列获取两类特征:
一类为基于序列的特征,通过计算抗体的净电荷,电荷特征和CDR-H3长度来获取
另一类为基于结构的特征,这部分特征包括根据CHARMM36力场分配的部分电荷,使用FreeSASA包计算的溶剂可接触表面积,使用NanoShaper和APBS工具计算分子表面三角形网格表示,并基于此计算表面补丁的特征,以及抗体Fv结构域表面上电荷和芳香族残基的空间分布模式
结果
作者使用了包含135个单克隆抗体的疏水相互作用色谱(HIC)、保留时间(RT)的测量值的数据集,来分析特征与HIC RT之间的相关性。HIC是一种常用的蛋白质纯化技术。
HIC保留时间是指在HIC色谱过程中,蛋白质从色谱柱上洗脱所需的时间。这个时间的长短预示着蛋白质表面疏水性的强弱。表面疏水性更强的分子更可能发生聚集,并且纯化难度更高。经过整合的特征与HIC RT显示出更高的相关性(上图)。
使用了包含58个高浓度(150 mg/mL)IgG4单克隆抗体的粘度测量值的数据集进行粘度属性的预测。高粘度的抗体溶液在制造过程中可能更难处理,例如在过滤、灌装和储存过程中可能遇到问题(上图)。
在大数据集(OAS 数据库)上的训练表明了模型在大量数据的情况下依然有着较高的效率和效果(上图)。
讨论总结
这个工作对于专注于某类蛋白,且对蛋白量有较大需求(例如生产,结晶等)的企业和课题组都有一定意义。这同样也是这个工作的局限性,对于大多数只需要少量表达的蛋白,或者结构变化比较大的蛋白类,暂时没有快速预测结构的方法,这会导致框架中结构的数据难以获取。
另一方面,由于使用的机器学习方案,这个工作的可解释性相较于深度学习要更高,但是相对的,在这个工作中,特征的加入就需要更多的"理性"。
文献代码
Bian Li, Shukun Luo, Wenhua Wang, Jiahui Xu, Dingjiang Liu, Mohammed Shameem, John Mattila, Matthew Franklin, Peter G. Hawkins, Gurinder S. Atwal.bioRxiv 2024.10.10.616558; https://doi.org/10.1101/2024.10.10.616558 https://github.com/regeneronmpds/propermab
往期文章
蛋白设计|综述|Benchmark|AF3|David Baker|ESM|MaSIF|结构预测|语言模型|骨架生成|逆向折叠|抗体设计|多肽设计|酶设计|稳定性|药物设计
关注我们