定向进化是蛋白质优化的基石,是利用自然突变过程来增强蛋白质功能。现有的机器学习辅助定向进化(MLDE)方法通常依赖于数据驱动的策略,经常忽略生化领域的深刻领域知识。 在本文中,我们为 MLDE 引入了一种新的知识感知强化语言模型 (KnowRLM)。构建氨基酸知识图(AAKG)来表示氨基酸之间复杂的生化关系。我们进一步提出了一种基于蛋白质语言模型 (PLM) 的策略网络,该网络通过使用动态滑动窗口机制在 AAKG 上优先随机游走迭代地对突变体进行采样。对新的突变体进行主动采样,以微调适应度预测器作为奖励模型,为知识感知策略提供反馈。最后,我们以主动学习方法优化整个系统,该方法模拟实践中的生物设置。
KnowRLM 的优势在于它能够利用来自知识图谱的上下文氨基酸信息,从而从蛋白质序列的统计模式和氨基酸的生化特性中获得优势。大量实验表明,与现有方法相比,KnowRLM 在更有效地识别高适应度突变体方面的优越性能。
在本文中,我们为 MLDE 引入了一种新的知识感知强化语言模型 (KnowRLM)。构建氨基酸知识图(AAKG)来表示氨基酸之间复杂的生化关系。我们进一步提出了一种基于蛋白质语言模型 (PLM) 的策略网络,该网络通过使用动态滑动窗口机制在 AAKG 上优先随机游走迭代地对突变体进行采样。对新的突变体进行主动采样,以微调适应度预测器作为奖励模型,为知识感知策略提供反馈。最后,我们以主动学习方法优化整个系统,该方法模拟实践中的生物设置。
论文题目:
Knowledge-aware Reinforced Language Models for Protein Directed Evolution
论文链接:
https://openreview.net/forum?id=MikandLqtW
代码链接:
https://github.com/HICAI-ZJU/KnowRLM
一、方法
首先,我们根据氨基酸的性质构建了氨基酸的知识图,捕获了氨基酸之间复杂和相互关联的关系。在此基础上,我们提出了一种知识感知策略,通过AAKG上的优先随机游走来预测突变位点和类型。最后,奖励模型(即突变体的适应度预测器)提供了对 KAP 的反馈。我们以主动学习的方式优化 KnowRLM,识别的突变体由预言机注释并用于微调适应度预测器。现有的知识源要么不包含氨基酸级别的信息,要么缺乏结构化关系。为了填补这一空白,我们构建了一个以氨基酸为中心的知识图谱(AAKG)。
知识感知策略旨在对适应度最高的最优突变体进行采样,这是通过使用 PLM 和 AAKG 预测突变位点和突变氨基酸类型来实现的,如图 2 所示。在突变位点预测模块,给定一个类似于 EvoPlay 的野生型蛋白质序列,在每个时间步 t,我们进行单点突变。我们首先使用 PLM 和多层感知 (MLP) 来预测 n 个候选位点最可能的突变位点。在氨基酸类型预测模块,在确定突变位点 后,我们考虑适当的氨基酸突变体。氨基酸突变的过程被概念化为在AAKG上从一个氨基酸节点导航到另一个氨基酸节点,为了将PLM中的统计规律与AAKG中的理化性质对齐,我们利用PLM中的位置敏感氨基酸嵌入作为AAKG中的节点嵌入。
二、实验
本研究对 MLDE 方法的评估采用多方面的方法来确保对模型性能进行全面评估。归一化折扣累积增益 (NDCG)由于其在排名相关问题中的相关性而成为主要指标,NDCG 评估突变体的预测和实际适应度值之间的相关性。除了 NDCG 之外,评估模型的有效性涉及分析组合集的均值和最大适应度值,其中包括采样过程生成的样本和预测阶段识别的排名靠前的突变体。
这些指标共同提供了对模型能力的全面看法,不仅包括它能够识别最高适应度突变体(最大值),还包括考虑的整个突变体集的整体适应度水平(平均值)。我们对我们的方法相对于五种复杂的基线方法进行了广泛的比较分析,包括 MLDE、ftMLDE、CLADE、CLADE2.0和 EvoPlay。
作者:王钰皓 来源:公众号【ZJUKG】
扫码观看!
“AI技术流”原创投稿计划
TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。
投稿内容
// 最新技术解读/系统性知识分享 //
// 前沿资讯解说/心得经历讲述 //
投稿须知
稿件需要为原创文章,并标明作者信息。
我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励
投稿方式
发送邮件到
melodybai@thejiangmen.com
或添加工作人员微信(yellowsubbj)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。