设计分子的合成反应途径是有机合成的一个基本方面,对生物医学、制药和材料工业等各个领域具有重要意义。反合成分析是开发合成路线最广泛使用的方法。它包括使用既定反应将分子迭代地分解成更简单、更容易合成的前体。CASP利用计算方法预测反合成途径,帮助化学家有效地确定目标分子的最佳合成途径。它已成为解决有机合成规划挑战的重要工具。近年来,人工智能(AI)驱动的反合成促进了对更复杂分子的探索,并显著减少了设计合成实验所需的时间和精力。单步反合成预测是反合成规划的重要组成部分,目前已经提出了几种基于深度学习的方法,并取得了良好的效果。这些方法可以大致分为三组:基于模板的、无模板的和半基于模板的方法。
基于模板的方法将逆转录预测作为一个模板检索问题,并将目标分子与预先计算的模板进行比较。这些模板捕捉了特定类型化学反应中反应中心的基本特征。它们可以手动或自动生成,并作为模型的指南,以确定给定分子的最合适的化学转化。尽管提供了可解释性和分子有效性,但基于模板的模型存在有限的泛化和可扩展性问题,这可能会阻碍它们的实际应用。无模板方法利用深度生成模型来生成反应物分子,而不依赖于预定义的模板。
大多数现有的方法将任务重新表述为序列到序列的问题,采用分子的序列表示,特别是简化的分子输入行输入系统(SMILES)。此外,不正确的子结构可能导致错误的预测。虽然无模板方法完全是数据驱动的,但它们引起了对可解释性、化学有效性和生成分子多样性的关注。基于半模板的方法利用了上述两种方法的优点。这些方法遵循两个阶段的程序:首先,通过识别反应位点将目标分子分割成合成子,然后使用离开基团选择、图生成或SMILES生成等技术将合成子转化为反应物。然而,该框架的两个学习阶段是独立的,导致计算复杂性增加。此外,将从预测反应位点获得的知识和见解传播到反应物完井中也构成了重大挑战。
提出的EditRetro方法用于分子链反合成(图源自Nature Communications )
研究的重点是无模板逆转录预测。现有的方法通常使用基于字符串的分子表示,因为它们易于操作并且与已建立的语言模型兼容,从而产生更高的生成效率。先前的研究表明,基于变压器的逆合成预测具有可接受的通用性和鲁棒性。然而,这些方法通过逐个标记的自回归解码策略从头生成反应物,其性能不理想且多样性有限。在实践中,化学反应经常引起局部分子变化,导致反应物和产物之间有明显的重叠。认识到这一事实,建议将问题重新定义为分子字符串编辑任务,并引入基于编辑的逆转录合成模型EditRetro,该模型可以实现高质量和多样化的预测。
研究的核心概念是通过使用Levenshtein操作的迭代编辑过程来生成反应物字符串。研究方法从基于编辑的序列生成模型的最新进展中获得灵感。具体来说,采用了EDITOR的操作,这是一个为神经网络机器翻译而设计的基于编辑的Transformer。模型架构包括一个编码器、一个重新定位解码器、一个占位符解码器和一个令牌解码器,如图b所示。解码过程包括采用重新定位、占位符插入和令牌插入操作,以确保生成反应物的准确性。重新定位策略预测输入标记的索引,包括重新排序和删除函数。随后,占位符策略预测所需的占位符数量,然后是令牌插入策略,以确定要插入的实际令牌。为了进一步提高预测的多样性,研究设计了一个重新定位采样和序列增强的推理模块,如图a所示。序列扩增随机选择分子图枚举的起始原子和方向来创建规范分子SMILES的变体,允许从产品字符串到反应物的多种编辑途径。重新定位采样对重新定位分类器的输出进行采样,为识别更广泛的反应类型提供了机会,如图c所示。
参考消息:
https://www.nature.com/articles/s41467-024-50617-1#Abs1
—END—
内容为【iNature】公众号原创,
转载请写明来源于【iNature】
微信加群
iNature汇集了4万名生命科学的研究人员及医生。我们组建了80个综合群(16个PI群及64个博士群),同时更具专业专门组建了相关专业群(植物,免疫,细胞,微生物,基因编辑,神经,化学,物理,心血管,肿瘤等群)。温馨提示:进群请备注一下(格式如学校+专业+姓名,如果是PI/教授,请注明是PI/教授,否则就直接默认为在读博士,谢谢)。可以先加小编微信号(love_iNature),或者是长按二维码,添加小编,之后再进相关的群,非诚勿扰。
投稿、合作、转载授权事宜
请联系微信ID:13701829856 或邮箱:iNature2020@163.com
觉得本文好看,请点这里!