PROPREMAB｜预测抗体可开发性的机器学习框架

文摘 2024-10-16 11:18 广西

PROPREMAB｜预测抗体可开发性的机器学习框架
PROPERMAB是一个通过序列和结构层面的特征，整合用于预测抗体分子特性的机器学习框架。这个框架具有所需数据量小，易于定制新特征的优点。对于长期耕耘于单类结构保守分子（如抗体、某种特定酶等）的蛋白质晶体学课题组、大分子生物药企业都具有一定意义。即可以提前预测蛋白的生物物理属性，大致判断课题难度和开发潜力。

主要框架
这个框架通过序列获取两类特征：
一类为基于序列的特征，通过计算抗体的净电荷，电荷特征和CDR-H3长度来获取
另一类为基于结构的特征，这部分特征包括根据CHARMM36力场分配的部分电荷，使用FreeSASA包计算的溶剂可接触表面积，使用NanoShaper和APBS工具计算分子表面三角形网格表示，并基于此计算表面补丁的特征，以及抗体Fv结构域表面上电荷和芳香族残基的空间分布模式

结果
作者使用了包含135个单克隆抗体的疏水相互作用色谱（HIC）、保留时间（RT）的测量值的数据集，来分析特征与HIC RT之间的相关性。HIC是一种常用的蛋白质纯化技术。
HIC保留时间是指在HIC色谱过程中，蛋白质从色谱柱上洗脱所需的时间。这个时间的长短预示着蛋白质表面疏水性的强弱。表面疏水性更强的分子更可能发生聚集，并且纯化难度更高。经过整合的特征与HIC RT显示出更高的相关性（上图）。
使用了包含58个高浓度（150 mg/mL）IgG4单克隆抗体的粘度测量值的数据集进行粘度属性的预测。高粘度的抗体溶液在制造过程中可能更难处理，例如在过滤、灌装和储存过程中可能遇到问题（上图）。
在大数据集（OAS 数据库）上的训练表明了模型在大量数据的情况下依然有着较高的效率和效果（上图）。

讨论总结
这个工作对于专注于某类蛋白，且对蛋白量有较大需求（例如生产，结晶等）的企业和课题组都有一定意义。这同样也是这个工作的局限性，对于大多数只需要少量表达的蛋白，或者结构变化比较大的蛋白类，暂时没有快速预测结构的方法，这会导致框架中结构的数据难以获取。
另一方面，由于使用的机器学习方案，这个工作的可解释性相较于深度学习要更高，但是相对的，在这个工作中，特征的加入就需要更多的"理性"。

文献代码
Bian Li, Shukun Luo, Wenhua Wang, Jiahui Xu, Dingjiang Liu, Mohammed Shameem, John Mattila, Matthew Franklin, Peter G. Hawkins, Gurinder S. Atwal.bioRxiv 2024.10.10.616558;
https://doi.org/10.1101/2024.10.10.616558
https://github.com/regeneronmpds/propermab

往期文章
蛋白设计｜综述｜Benchmark｜AF3｜David Baker｜ESM｜MaSIF｜结构预测｜语言模型｜骨架生成｜逆向折叠｜抗体设计｜多肽设计｜酶设计｜稳定性｜药物设计

关注我们

AI4Protein

读书破万卷juǎn，专注于AI蛋白相关的学术搬运。

最新文章

Seminar｜多模态生成式蛋白质基础模型

蛋白质功能-序列空间压缩

David Baker｜变构蛋白设计

BioEmu｜生物分子仿真器

RFdiffusion进化史

Seminar｜AI辅助从头酶设计

David Baker｜RFpeptides设计环肽

文章合集

David Baker｜设计含β-strand的Binder

David Baker｜设计IDP的Binder

再看Binder设计

清华大学卢磊课题组招聘化学、生物、计算等方向的博士后与科研助理

Sci. Adv｜语言模型Pro-PRIME设计高稳定性高活性蛋白

直播预告｜去噪蛋白语言模型DePLM助力蛋白进化

读论文时如何辨别出“好东西”

Science｜语言模型 EVOLVEpro 帮助各种蛋白实现定向进化

Nat. Mach. Intell.｜蛋白设计工具预测突变热稳定性

Science｜基因语言模型Evo

GLM｜基因组语言模型的学习笔记

Seminar｜结构感知的蛋白语言模型 SaProt

AlphaFold3 最全食用指南

AlphaFold3 性能速度 & 机器配置

AlphaFold3 的输出的理解

AlphaFold 3 安装指南

AlphaFold 3 权重申请指南

AlphaFold3 的输入

AlphaFold3 开源啦！！！

香港科技大学（广州）人工智能学域助理教授戴恩炎招收AI for Protein 全奖Ph.D. 及 Intern

Foldseek 有何妙用？

RSO｜超越RFdiffusion的蛋白设计方法？

DPLM｜扩散语言模型是多才多艺的蛋白学习者

RSO｜超越RFdiffusion的蛋白设计方法？

AF3｜复现进展

钟博子韬｜2024诺贝尔化学奖解读

BindCraft｜一站式设计高亲和力Binder

Pallatom｜线上报告

PROPREMAB｜预测抗体可开发性的机器学习框架

从零开始造抗体：诺奖技术引领的生物医药新革命！

2024年诺贝尔化学奖，刚刚颁发给了蛋白设计和结构预测

AI蛋白“相关”国内的公司

AI蛋白海内外课题组汇总

Binder设计大赛的结果启示

参数有效微调在蛋白质语言模型中的应用

图解AF3

简述酶的定向进化🦍

ProTrek | 融合多模态信息的蛋白质工具

ProteinBench｜蛋白基础模型最全面BenchMark

蛋白结构和序列的联合设计🤔

AlphaProteo｜从头设计高亲和力Binder蛋白

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉