AstraZeneca多模态Transformer引领分子结构解析:突破化学空间限制,驱动自动化与可解释性预测

学术   2024-12-08 00:01   韩国  

DRUGAI

AstraZeneca研究团队开发了MultiModalTransformer (MMT),这是一种创新的深度学习架构,能够直接从多种光谱数据(如1H-NMR、13C-NMR、HSQC、COSY、IR和质谱)中预测分子结构。MMT采用改进的Transformer模型及其注意力机制,可同时处理多模态数据,聚焦于最相关的光谱特征。即使仅使用模拟光谱进行训练,MMT在真实实验样本中仍能实现高达94%的正确识别率。


为应对广阔化学空间和有限实验数据的挑战,研究团队引入了一种创新的改进循环,使MMT能够适应新的化学空间。模型的鲁棒性通过以下事实得以验证:即使从略有错误的初始分子结构出发,MMT仍能正确识别56%的实验分子。此外,MMT通过基于Token的分析提供可解释的预测,揭示其决策过程的内在逻辑。


研究团队还开发了一个用户友好的图形界面(GUI),将整个改进循环的工作流程集成其中,便于化学实验室的实际应用。通过利用多样化的光谱输入和自适应学习技术,MMT代表了朝向全自动化结构解析迈出的重要一步,有望加速药物发现和天然产物研究。同时,研究表明,与光谱精确性相比,训练数据中广泛覆盖化学空间更为关键。

背景

当我们展望未来的化学实验室时,往往会设想一个完全自动化的系统:科学家输入想要合成的分子,高级软件提供合成路径建议,并由机器人执行。这之后是纯化步骤,为一系列分析仪器的检测准备样品。最后,一个自动化流程根据收集到的光谱数据确定分子的结构。要实现这一愿景,需要在多个领域取得进展,从路径预测到合成和纯化的自动化。而在这一流程中,光谱数据的自动解析以揭示分子结构是关键环节之一。


在本研究中,AstraZeneca研究团队提出了一种灵活的模型,能够直接将光谱数据转化为分子结构,从而为自动化结构解析提供解决方案,同时解决了当前计算机辅助结构解析(CASE)程序的一些局限性。


其他方法也被提出,例如Pesek等人的研究将IR、¹H和¹³C NMR以及质谱数据整合,用于构建分子结构,模拟光谱学家可能采用的解析流程。近年来,一些模型被开发出来以处理IR或¹H和¹³C NMR光谱,将光谱数据转化为标记化文本格式,用于预测分子结构(如SMILES)。其他框架通过处理¹H和¹³C NMR光谱来评估结构连通性,预测子结构并以概率排名的方式组装候选异构体。此外,基于CNN的DeepSAT系统利用HSQC光谱数据进行骨架预测。NMR-TS方法结合了机器学习和密度泛函理论,从NMR光谱中自动识别分子。然而,这一神经网络方法在生成候选结构时并未直接考虑光谱数据,而是依赖一定的随机性来预测正确的分子。


在IR光谱领域,深度学习和卷积神经网络的进展使得无需依赖数据库或基于规则的方法即可从FTIR光谱中识别官能团。然而,这些现有方法仍面临以下局限性:

  • 适用领域有限且依赖于庞大的数据库

  • 需要预先建议目标分子

  • 对多数据模态的整合考虑不足

AstraZeneca研究团队的方法针对这些局限性提出了一种从光谱到分子结构的自动化流程。该流程基于Transformer神经网络架构,能够同时处理多种光谱数据类型(如¹H-NMR、¹³C-NMR、HSQC、COSY、IR和MS)。通过Transformer的注意力机制,该模型可以聚焦于不同数据类型中最相关的光谱特征,从而学习光谱输入与分子结构之间的复杂关系。


此外,引入了一种创新的改进循环,使模型能够适应未知的化学空间。这个迭代过程增强了模型在新领域中预测结构的能力,有效扩展了其适用性。更重要的是,这一改进循环使我们的模型在最初仅使用模拟光谱训练的情况下,仍能解析真实的实验光谱。这一能力展示了模型的鲁棒性以及在实际分子结构解析任务中的应用潜力。


方法

谱数据生成与预处理

本研究利用模拟的多模态光谱数据,包括¹H NMR、¹³C NMR、COSY、HSQC、IR光谱和质谱(MS)信息。¹H和¹³C的化学位移通过图神经网络生成,并用于生成1D和2D NMR光谱。COSY和HSQC光谱基于预测的¹H和¹³C化学位移进行重建,同时应用规则化算法模拟¹H NMR峰分裂模式。IR光谱利用深度学习网络生成,MS信息则通过分子结构直接生成分子量和分子式。


在数据预处理中,化学位移数据进行了归一化,IR光谱被采样为1000个频率点。所有数据最终整合为单一文件格式存储,方便训练过程中的高效调用。


合成数据集生成

初始训练数据集包含来自ZINC数据库的约500万分子,分子量在250-350道尔顿之间。数据集按9:1分为训练集和测试集。为评估模型的泛化能力,另生成了包含150万分子的独立数据集,分子量范围扩展至0-500道尔顿,并剔除了特定元素的分子以保证与训练数据的一致性。


模型首先在ZINC数据集上进行训练和测试,以建立基准性能,并随后使用PubChem数据集验证改进循环的效果。PubChem数据集按分子量分为三个范围(0-250、250-350、350-500道尔顿),用于测试模型在未见化学空间中的表现。


神经网络架构与验证逻辑

MMT模型采用改进的Transformer架构,同时处理多种光谱输入。结构验证流程包括以下步骤:

  • 光谱嵌入层:将光谱数据转换为128维的潜在空间。

  • 编码器:对每种光谱的嵌入进行单独编码,并通过跨模态编码器整合不同光谱信息。

  • 解码器:生成与目标SMILES字符串相匹配的输出。

  • HSQC和COSY匹配:利用算法对生成的光谱与目标光谱进行误差分析,并排名候选结构。


模型训练与评估

训练过程分为三个阶段:

  • SMILES预测训练:模型通过教师强制学习将光谱数据转化为SMILES。

  • 分子量优化:引入分子量误差作为损失函数的一部分,增强模型性能。

  • 光谱数据缺失训练:随机删除部分光谱数据,提高模型在数据有限场景下的鲁棒性。

通过消融实验评估了不同光谱模态对预测精度的贡献。训练使用多GPU环境,优化器采用AdamW,学习率随训练进度动态调整。


改进循环与性能评估

为了提高模型在新化学空间中的适应性,提出了改进循环流程,包括生成类似分子、模拟光谱以及在新数据集上的微调训练。这一流程在模拟、独立数据集及实验数据上进行了测试,显示出在未见化学空间中显著的适应能力。


实验设计还包括通过多种采样方法生成SMILES,评估生成分子的正确率、有效性及结构多样性。进一步测试了在初始结构错误假设下的改进循环能力,验证了模型在处理真实世界结构解析任务中的鲁棒性。


结果与讨论

基础模型架构与优化

初步实验聚焦于优化MMT模型,该模型处理多种光谱数据类型,包括NMR(¹H、¹³C、HSQC和COSY)、IR和MS。通过SMILES预测准确率、结构相似性和生成分子有效性等指标评估了不同的模型配置和训练策略。实验结果表明,较大的模型和数据集在所有指标上均表现更优,最终选择了最大模型配置和包含400万分子的训练数据集进行后续分析。


训练策略分为三个阶段,逐步引入SMILES预测、分子量损失以及光谱数据缺失训练,从而全面提升了模型性能。此外,我们使用HSQC光谱匹配评估了模型的分子识别准确率。使用多项式采样时,模型达到89.9%的准确率,显著优于贪婪采样的50.0%。这些优化为MMT模型在光谱数据解析中的应用奠定了坚实基础。


光谱模态对模型性能的影响

为了探究不同光谱数据类型对模型性能的重要性,我们通过消融实验逐一去除了每种光谱模态,并在完全训练的模型上进行单轮微调训练。评估指标包括SMILES正确采样概率、贪婪采样的平均Tanimoto相似度,以及生成的无效分子数量。

结果显示,二维NMR数据(HSQC和COSY)对模型性能的贡献最为显著。去除HSQC数据导致SMILES正确概率从0.51骤降至0.04,Tanimoto相似度从0.82降至0.43,同时生成的无效分子数量达到44,847个。去除COSY数据的影响次之,无效分子数量增加至38,798个。


尽管实验表明¹³C NMR对模型性能的影响较小,但其耗时较长的获取过程可能使其在时间敏感的场景中被优先考虑削减。而IR光谱尽管对模型性能影响有限,但其快速的数据采集特点可能在需要快速解析的实际应用中具有重要价值。


二维NMR技术(HSQC和COSY)的显著影响表明,优先获取这两种光谱数据可显著提升结构解析的准确性,尤其是在时间和资源受限的情况下。基于这些发现,实验人员可优化数据采集策略,在降低实验时间和成本的同时保持高准确性。然而,这些基于机器学习的见解需与传统人类解析方法平衡,强调AI与人类专业知识在结构分析任务中的互补性。


改进循环评估

为了应对化学空间的广阔性问题(任何模型都无法完全覆盖),研究团队引入了一种改进循环,当模型遇到训练数据未涵盖的未知区域时激活。该循环通过生成模型建议在未探索化学空间中的结构相似分子,从而创建一个针对这些新区域的微调数据集。


改进循环结合了数据生成管道,包括:

  • 使用SGNN网络生成¹H和¹³C NMR光谱数据。

  • 应用基于规则的算法重建HSQC和COSY光谱,同时计算¹H NMR光谱中的偶合常数。

  • 使用消息传递神经网络生成IR光谱。

  • 利用RDKit从分子的SMILES表示计算精确分子量,模拟高分辨质谱(MS)中的分子离子峰。

这一全面的方法确保所有相关的光谱模态(包括MS数据)均在微调数据集中得以体现,从而增强了模型对新化学空间的适应能力。这种改进循环显著提高了模型在未见化学区域中的泛化性能,为分子结构解析的实际应用奠定了坚实的基础。


ZINC 数据集评估

研究团队最初在ZINC数据集的测试集中测试了改进循环,以验证是否可以在预训练网络的基础上实现进一步的性能提升。实验结果如图3所示,展示了ZINC测试数据在微调前后不同生成类似分子数量下的平均Tanimoto相似度(图a)和平均正确采样概率(图b)。

多项式采样(MNS) 方法表现出显著的效果,对每个目标分子生成3个候选分子,能够在前3个候选中正确识别高达96%的分子。采样过程中,我们应用了分子量过滤器,仅接受符合要求的分子。

贪婪采样 也展现出较强的性能,在微调后能够正确识别多达78%的分子。

模型性能随训练使用的类似分子数量增加至30时持续提升,但在50或100个类似分子时趋于平稳甚至略微下降。这可能是由于Mol2Mol模型在切换到新骨架之前,每个骨架生成最多30个类似分子,从而可能影响类似分子的质量和微调的有效性。


在本次实验中,我们将每个骨架生成的样本数量参数设置为30。虽然此参数可以调整,但当前研究中未对其进行进一步探讨。


这些结果表明,合理控制生成的类似分子数量对于微调过程的有效性至关重要,过多的样本可能会降低微调质量。通过优化采样和微调策略,可以进一步提升模型在化学空间中的适应能力和性能。


PubChem 测试数据集评估

为评估模型在初始训练集之外的多样化分子量和化学结构上的能力,研究团队将测试范围扩展至PubChem数据集,选择了三个分子量范围的测试集(每组100个分子):0-250 Da、250-350 Da和350-500 Da。


采用了此前用于ZINC数据集的改进循环方法,包括使用Mol2Mol模型生成分子类似物、模拟光谱数据、微调模型。为对比效果,我们还在整个PubChem训练集上对ZINC训练的MMT模型进行了微调(称为PC-FT),以评估改进循环与全面微调方法的相对表现。


关键发现

  • 改进循环(IC)显著优于基础模型:在所有分子量范围内,经过IC微调的模型在性能上均超越了基础模型。

  • 最佳性能通常出现在30个类似分子时:即便仅使用10个类似分子,IC的表现往往也优于PC-FT模型。

  • 对于较大的分子(350-500 Da):随着类似分子数量增加,性能不断提升,100个类似分子时表现最佳。

  • 迭代应用改进循环进一步提升准确性:在使用10个类似分子的基础上多次迭代后,模型准确性仍有所提高。

模型改进效果

跨分子量范围的评估结果展示了模型的适应能力以及改进循环在提升多样结构解析性能上的有效性。具体表现如下:


ZINC数据集(250-350 Da):改进循环使完美的Tanimoto匹配率从50%提高至73%(10个类似分子),30个类似分子时进一步提升至78%。

PubChem数据集(0-250 Da):改进循环使完美匹配率从14%提高至45%(10个类似分子),超过了PC-FT模型的44%。

此外,多项式采样在正确识别分子方面持续优于贪婪采样。对于ZINC数据集和PubChem数据集,多项式采样在前3个候选分子中分别实现了96%和68%的准确率。然而,选择单个最准确候选分子仍是一个挑战。


提高结构预测精度:针对模拟与实验数据的精细微调

研究团队对包含完整实验数据模态(¹H、¹³C、HSQC、COSY、IR和MS)的34个分子进行了实验,以评估MMT模型的性能。这些实验数据的峰值通过手动挑选,确保了准确性和一致性。

多项式采样与匹配方法的改进

早期研究表明,与贪婪采样相比,多项式采样(MNS)结合光谱误差排序显著提高了分子识别的准确性,从50%提升至90%。在本次实验中,我们采用了MNS(3x20采样),并通过分子量过滤器确保生成分子与目标分子的关键属性匹配。随后,通过开发的HSQC匹配算法对样本分子进行评分与排名,同时结合COSY匹配方法,使用三种排名方式进行评估:COSY排名、HSQC排名和综合排名。


实验结果

  • 模拟数据:在所有排名方法中,前3个候选分子的准确率达到100%。

  • ACD模拟数据:前3个候选的准确率为67%,前20个候选的准确率为94%。

  • 实验数据:前3个候选的准确率为62%,所有候选分子的总准确率为94%。

综合HSQC和COSY排名在所有数据类型中的表现均优于单一排名。例如,在实验数据中,综合排名的前10候选准确率为91%,而仅使用COSY或HSQC的准确率分别为88%。


与基础模型对比

预训练模型的基线性能表现有限,仅解决了以下比例的问题:

  • 模拟数据:58%

  • ACD模拟数据:16%

  • 实验数据:3%

经过改进循环的模型在实验数据上的准确率显著提高,表明改进循环的有效性。这种显著提升凸显了化学空间覆盖的全面性比训练数据的精确性更为重要。


模型的鲁棒性与适应性

进一步评估了改进循环的鲁棒性,即使从稍有错误的初始分子结构出发,模型仍保持了较好的性能:

  • 模拟数据:正确结构时为100%,修改后的结构时为85%。

  • ACD模拟数据:正确结构时为94%,修改后的结构时为65%。

  • 实验数据:正确结构时为94%,修改后的结构时为56%。

尽管性能因初始结构错误而有所下降,模型仍在大多数情况下能正确识别分子,这在实际应用中具有重要意义。化学家通常从不完整或部分错误的假设开始解析结构,而模型的鲁棒性使其能够优化和修正初始结构猜测,减少结构解析的迭代次数。


模型可解释性与实际应用

MMT模型通过Transformer的基于Token的预测提供了可解释性,揭示模型决策过程的直观见解。通过分析Token级别的置信评分,可以识别模型最有信心的结构特征以及需要进一步改进的区域。


图6展示了一个实验数据集的例子:

  • 目标分子(a)与模型的四个预测分子(b-e)进行比较。这些分子通过多项式采样从微调后的MMT模型中生成。

  • SMILES字符串使用颜色编码显示模型的Token级置信度:绿色表示高置信度,粉红色表示低置信度。

观察结果:

  • 所有建议的分子都共享核心结构特征,如两个芳环和一个脂肪族哌啶环,这些结构具有高置信度。

  • 替代基团的位置或具体官能团(如氯原子和氨基的位置)置信度较低。

  • 正确分子为最可能的建议,与光谱重建误差和整体样本概率有良好相关性。

解释性功能的实际意义

  • 指导实验工作:通过可视化模型对结构成分的置信度,化学家可以聚焦于不确定区域,开展有针对性的实验工作,如选择性二维NMR或化学衍生化。

  • 优先假设:对多种建议结构进行置信度可视化,有助于化学家快速筛选和优先考虑更可能的结构假设。

  • 评估预测可靠性:通过预测概率和光谱重建误差的相关性,为评估模型建议的可靠性提供了直观的指标。

结论

本研究开发了MultiModalTransformer (MMT)模型,这是一种创新的分子结构解析架构,能够整合包括NMR、IR和MS数据在内的多种光谱模态。研究结果表明,通过多样化光谱数据的整合,MMT在分子结构预测准确性上表现卓越,对实验样本的正确识别率高达94%。


我们设计了稳健的模拟数据生成管道和迭代改进循环,使模型在仅基于模拟数据训练的情况下,仍能在实验数据上表现出色。模型的鲁棒性通过以下方面得到验证:即使初始结构存在错误,MMT仍能保持显著的预测能力。此外,模型通过基于Token的分析提供可解释的预测,为其决策过程提供了直观的见解。


尽管通过增加实验数据的训练和自动化峰值挑选可进一步提升模型性能,现有模型已成为化学家的一项强大工具,在模拟与实验数据之间架起了有效桥梁。其高适应性在初始结构信息不完全的实际应用中尤为重要,标志着自动化结构解析领域的重大进步。

整理 | WJM

参考资料

Priessner M, Lewis R, Janet JP, Lemurell I, Johansson M, Goodman J, et al. Enhancing Molecular Structure Elucidation: MultiModalTransformer for both simulated and experimental spectra. ChemRxiv. 2024; 

doi:10.26434/chemrxiv-2024-zmmnw

DrugAI
关注人工智能与化学、生物、药学和医学的交叉领域进展,提供“原创、专业、实例”的解读分享。
 最新文章