浙大团队基于ML的抗菌肽筛选模型，可识别整个肽库空间发现新药

学术 2024-09-24 08:02 上海

作者 | 徐彦超

编辑 | ScienceAI

前言

近期，结合机器学习技术的相关研究在生物技术领域取得了巨大的成功。抗菌肽作为一个对抗细菌耐药性的潜在有效材料，其发掘与临床测试成为了研究的热点。其中，具有序列多样性的多肽分子构成了一个超大规模的潜在治疗药物的候选库。通过噬菌体、核糖体展示等高通量技术，可以实现条序列的功能识别。但是在最先进的实验技术的加持下，为发现新药而识别整个肽库空间仍然是一项艰巨的任务。

针对抗菌肽筛选任务，目前主流的方案有以下几种:

1. 在收集的数据集上进行模型训练，并在独立的测试集上进行测试以验证模型性能，固定参数并上线服务器，对用户上传的多肽序列进行抗菌性识别。

2. 收集特定的类型的抗菌肽数据，训练模型。使用领域先验知识在小范围内生成候选多肽搜索库(例如从特定的基因序列中生成或是针对已知抗菌序列片段进行截取或者扩增)，将训练好的模型在上面进行验证，选出其中最好的进行实际的湿实验。

3. 基于大规模蛋白质预训练模型，利用抗菌肽数据进行微调，针对不同下游任务训练不同的模型。

可以看到过往工作多基于已有功能肽，通过已知肽链上的增删的小幅度修改，实现小规模的区域性搜索。

因此，为什么不能从数据驱动的角度出发，将收集的有标签数据乃至整个搜索任务的数据集看作是一个整体，设计一整套实验框架呢？我们可以将不同模型完成的不同任务的特性，结合数据集本身的特点，组合成不同模块来实现筛选的过程。核心创新点不在于使用最先进的模型，也不在单点算法的改进，重点在于Data-centric的人工智能方法和多模型组合性的系统级工程来解决实际问题。

最终，我们实现了全球首个，对于功能肽（千亿量级）的巨大全库全局搜索解决方案。在长度为6-9的多肽上进行全局搜索，通过湿实验和活体实验，结果显示，筛选出的多肽的抗菌性能至少可以达到目前发现的，针对特定菌种的最好的抗菌肽的水平。

论文标题：Identification of potent antimicrobial peptides via a machine-learning pipeline that mines the entire space of peptide sequences

本文由浙江大学数据智能实验室、M3实验室与浙江大学高分子系MOE实验室合作完成。

发表于Nature BME上（2023 IF：29.2）

论文链接：https://www.nature.com/articles/s41551-022-00991-2

第一作者：黄俊杰、徐彦超

通讯作者：张鹏、赵俊博、计剑

第一单位：浙江大学

主要贡献点：

1. 基于数据驱动的思想，提出了结合经验判断、分类、排序和回归的任务组合形成的 pipeline(SMEP)，各任务对多肽进行多尺度的抗菌功能的识别，同时使用当前实验环境的数据对模型进行finetune，提高了模型对抗菌肽的预测能力。

2. 在长度为 6-9 的多肽全库上进行了测试，湿实验结果表明筛选出的抗菌肽的有效率达到了 98.2%，证明了整套模型的泛化性能。

3. 与之前的工作相比，本文提出的 pipeline 执行效率有了很大的提升，只需要约 19 天即可完成对 5000 亿级别的样本库的全扫描，并筛选出最佳的抗菌肽。

4. 弱人工干预，整体过程可以完全自动化完成，不需要领域专家的额外介入。

框架

提出了一个基于领域经验判断规则，使用分类、排序以及回归三大任务组成的一个全新的，基于机器学习的 pipeline (SMEP)，如图 1.a 所示，并在长度为 6-9 之间的多肽全库上（约 5000 亿样本）挖掘强效抗菌肽。

图 1

数据集的选择部分，我们融合了当前广泛使用的 APD，DADP，DBAASP 和 UniProt 等数据集，按照菌种收集了约 7660 条数据(同一条多肽的多条抗菌性记录使用均值处理，对不具有抗菌性的多肽统一赋一个极大值以示区分)。考虑到潜在的数据噪声问题，我们利用湿实验收集了额外的 67 条数据用于模型的微调。

针对整个流程框架，首先，我们需要借助领域专家的提供的一些基本条件，例如多肽序列整体的电荷性质以及氨基酸残基的排列规律（两亲性），进行第一步的筛选。这一步可以筛选掉约90%数据。

然后是第一步的分类模型阶段，我们目的是实现粗筛的一个过程。候选多肽库中存在的大量的非抗菌肽，我们希望通过训练一个分类器能够有效地过滤掉大量的非抗菌性肽，降低接下来的模块筛选的压力。这一步可以再筛选掉约 85% 的数据。

考虑到数据中存在的误差，直接使用一个回归模型来拟合抗菌性指标可能会引入额外的误差，但是使用多肽间相对的抗菌性能力高低进行的筛选则可以缓解这样的问题。因此我们在第二步引入了一个排序模型的模块，来筛选出最具有抗菌潜力的前 500 条抗菌肽。

最后，我们训练一个回归模型来精细预测 Top-500 抗菌肽具体的MIC指标的值，并从中选出最好的 Top-10 多肽进行湿实验验证。

实验解读

对于多肽序列的输入，我们使用了两种处理方式应对不同的模型。针对传统的机器学习模型，使用相关工具包，计算出多肽对应的物化性质的 676 维结构化特征。针对深度学习模型，我们使用了可训练的 128 维动态词向量作为序列的隐藏特征输入到模型中。

分类模型&排序模型

图 2

分类模型部分选用了传统的 XGBoost，随机森林模型以及 LSTM 和 CNN 两种深度学习模型进行比较，可以看到 XGBoost 在除了 Recall 指标上针对其他模型都有一定优势。并且考虑到设立这一模块的初衷，即筛选出具有抗菌性的多肽，因此筛选出样例的真阳性比例，即 precision 指标是我们更关心的，因此我们最终选用了 XGBoost 模型作为分类任务的模型。考虑到一致性的因素，我们在排序模块也使用了 XGBoost 模型。从图 2.d 中可以看出，排序模型对排名较靠前的抗菌肽有明显的聚集作用。

回归模型

图 3

回归模型部分，这里额外增加了梯度提升树，岭回归和集成模型作为候选的模型。指标部分，考虑到该任务的目的是准确预测抗菌性表现最佳的多肽的 MIC 指标，从而藉此准确选择出性能优异的抗菌肽，我们在 MSE 指标的基础上，额外增加了 Top-K MSE 指标来反映模型对目标抗菌肽的敏感程度。图 3.e 表明，LSTM 要显著优于剩下的若干模型，因此我们最终选择 LSTM 模型。

为了在回归模块中缓解之前提到的数据误差问题，我们利用额外的，重新测试的 67 条湿实验数据对 LSTM 回归模型进行了微调，使之预测结果更符合当前的实验条件。

消融实验

图 4

为了验证整个 pipeline 模块设计的合理性，我们分别删去其中的不同模块进行消融实验。其中 C 代表分类模块，R 代表回归和排序模块，I 代表微调的过程。从图 4.b 中可以看到，删除其中的任何模块都会导致预测出的多肽在湿实验上抗菌性结果的下降。

泛化性实验

图 5

在未对整体框架及模型权重进行修改的前提下，在七，八，九肽上执行该抗菌肽识别任务。图 5.a 显示了该框架极高的运算效率，可以在 19 天内完成对 5000 亿级别多肽库的筛选。图 5.c 表明，识别的 54 条多肽（共 55 条）具有抗菌性，识别成功率高达 98.2%。

序列相似性分析

图 6

全库搜索相对于小范围筛选的一个显著优势就是筛选出抗菌肽和已知抗菌肽间较低的相似性，也就是更"与众不同"，我们将训练数据和预测出的 55 条抗菌肽序列在不同物化指标的分布上进行了比较，显示出了较低的相似性。

总结

1. 本文是目前研究中第一个尝试在全库的条件下进行抗菌肽筛选的工作，并且湿实验证明了其有效性。

2. 整套 pipeline 的筛选架构方式指明了未来的一个潜在的研究方向，即基于数据驱动的思想，通过多层次任务的多步筛选来高效获得目标产物。

3. 对多肽或者蛋白质序列的发掘，使用多种层级的序列建模，并融合输入到模型中可能是一条缓解数据噪音，发掘序列潜在规律的一种有效方案。

通讯作者介绍

张鹏，浙江大学高分子系百人计划研究员。研究方向：1.高分子生物材料；2.蛋白质药物修饰；3.免疫工程；4.生物材料表界面。

赵俊博，浙江大学计算机学院百人计划研究员。研究方向：1.深度学习；2. AI+X；3.预训练大模型；4. Diffusion models。

计剑，浙江大学高分子系教授。研究方向：1.心血管医用材料和微创介入医用材料；2.医用材料的组织工程化设计；3.生物治疗用智能纳米微载体；4.新型固相基因传递体系的研究；5.仿生双亲聚合物的溶液和界面组装；6.层层组装构建生物相容性和生物功能性纳米层状超薄膜的研究。

人工智能 × [ 生物神经科学数学物理材料 ]

「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展。

欢迎关注标星，并点击右下角点赞和在看。

点击阅读原文，加入专业从业者社区，以获得更多交流合作机会及服务。

http://mp.weixin.qq.com/s?__biz=MzA4OTYzNDM5MA==&mid=2247608496&idx=1&sn=a59bf9e0be51ff7de1d17c80d023e1d3

KjFold

分享最新科研前沿动态；技术介绍及案例分析；科研福利发放

最新文章

重磅！智选纳米抗体精准结合毒性化合物

最新产品：一站式AI设计筛选互作蛋白平台

AI自主设计联动筛选：揭示植物免疫背后的蛋白互作之谜

JIPB | 山东大学刘树伟课题组解析TaWRKY55-TaPLATZ2模块调控小麦耐盐碱胁迫的分子机制

蛋白质的从头设计和定向改造

PBJ | 利用碱基编辑器靶向叶绿体基因成功培育抗嗪草酮除草剂植物

PBJ | OsTET5 通过调节水稻中的离子和活性氧的稳态来调控对盐胁迫的适应性

JIA专题｜棉花生物技术育种—山东省农业科学院棉花遗传育种创新团队：棉花黄萎病抗性关键基因挖掘及功能验证的研究

他山之石 Plant J｜敲除β-伴大豆球蛋白的亚基可以改变种子的蛋白质组成，并提高大豆的耐盐性

基于扩散模型小分子化合物与蛋白的对接算法：DiffDock

Nature重磅：三阴性乳腺癌治疗新策略——AKT抑制剂+EZH2抑制剂

中国农业科学｜中国农业科学院烟草研究所张成省课题组探析脂肪酸类天然产物2E,4E-癸二烯酸对烟草根际微生物群落的影响

邀请函丨第七届植物-生物互作国际会议

蛋白亲和力定向进化 ——利用ProteinMPNN与AlphaFold Multimer联合设计蛋白药物

DiffDock:高效收割分子对接

邀请函丨第七届植物-生物互作国际会议

DiffDock:高效收割分子对接

DiffDock:用扩散模型解决分子对接任务

蛋白亲和力定向进化 ——利用ProteinMPNN与AlphaFold Multimer联合设计蛋白药物

RoseTTAFoldNA模型测试项目：蛋白质-核酸对接评估

连发两篇Nature，该研究组在小麦基因组研究中取得重大进展

PBJ | 华中农大王满囷团队解析水稻挥发物S-柠檬烯防御褐飞虱的分子机理

JIPB | 河南农业大学玉米生物技术团队发现玉米生长和抗病平衡调控新机制

文献分享：ProteinMPNN工具改善蛋白质表达、稳定性和功能

蛋白亲和力定向进化 ——利用ProteinMPNN与AlphaFold Multimer联合设计蛋白药物

纳米抗体亲和力定向进化 ——利用ProteinMPNN与AlphaFold Multimer联合设计纳米抗

猪瘟纳米抗体的创新突破 —— 科晶生物以AI技术守护养殖业安全

纳米抗体亲和力定向进化 ——利用ProteinMPNN与AlphaFold Multimer联合设计纳米抗

蛋白亲和力定向进化 ——利用ProteinMPNN与AlphaFold Multimer联合设计蛋白药物

JIPB | 华中农业大学邓秀新院士团队揭示CitZAT4调控乙烯诱导温州蜜柑橙色果皮形成的分子机制

基于AlphaFold-Multimer的多模态蛋白互作智选平台

蛋白设计|通过ProteinMPNN提高蛋白质表达、稳定性和功能

浙大团队基于ML的抗菌肽筛选模型，可识别整个肽库空间发现新药

NC | 浙江大学周杰教授团队整合ATAC-seq和RNA-seq挖掘调控番茄耐冷性的WRKY34并证明其分子作用机制和遗传变异

蛋白亲和力定向进化 ——利用ProteinMPNN与AlphaFold Multimer联合设计蛋白药物

蛋白设计|通过ProteinMPNN提高蛋白质表达、稳定性和功能

纳米抗体亲和力定向进化 ——利用ProteinMPNN与AlphaFold Multimer联合设计纳米抗

猪瘟纳米抗体的创新突破 —— 科晶生物以AI技术守护养殖业安全

必看！分子模拟的基础知识

基于AlphaFold-Multimer的多模态蛋白互作智选平台

蛋白设计|通过ProteinMPNN提高蛋白质表达、稳定性和功能

RoseTTAFoldNA模型测试项目：蛋白质-核酸对接评估

RoseTTAFold2NA ｜ RoseTTAFold蛋白结构预测后续 - 精准预测蛋白-核酸复合体

精准高通量核酸筛选互作蛋白模型 PK DNA/RNA-Pull Down

ESMFold免费在线服务：高效预测蛋白质结构的革命性工具

JIPB | 南京农业大学王源超课题组提出大豆锈病菌防治新策略

JIPB | 东北农业大学陈庆山/武小霞/杨明亮研究团队利用GRF3-GIF1嵌合蛋白构建高效大豆转化体系

JIPB | 中国农业大学李继刚课题组揭示ABI4调控蓝光信号转导的分子机制

JIPB丨安徽农业大学生命科学学院李培金团队揭示DMNT和TMTT在吸引亚洲玉米螟行为中的新功能

bioRxiv|利用AlphaFold_Multimer和ProteinMPNN迭代循环设计出具有高亲和力的蛋白结合物

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉