AstraZeneca多模态Transformer引领分子结构解析：突破化学空间限制，驱动自动化与可解释性预测

学术 2024-12-08 00:01 韩国

DRUGAI

AstraZeneca研究团队开发了MultiModalTransformer (MMT)，这是一种创新的深度学习架构，能够直接从多种光谱数据（如1H-NMR、13C-NMR、HSQC、COSY、IR和质谱）中预测分子结构。MMT采用改进的Transformer模型及其注意力机制，可同时处理多模态数据，聚焦于最相关的光谱特征。即使仅使用模拟光谱进行训练，MMT在真实实验样本中仍能实现高达94%的正确识别率。

为应对广阔化学空间和有限实验数据的挑战，研究团队引入了一种创新的改进循环，使MMT能够适应新的化学空间。模型的鲁棒性通过以下事实得以验证：即使从略有错误的初始分子结构出发，MMT仍能正确识别56%的实验分子。此外，MMT通过基于Token的分析提供可解释的预测，揭示其决策过程的内在逻辑。

研究团队还开发了一个用户友好的图形界面(GUI)，将整个改进循环的工作流程集成其中，便于化学实验室的实际应用。通过利用多样化的光谱输入和自适应学习技术，MMT代表了朝向全自动化结构解析迈出的重要一步，有望加速药物发现和天然产物研究。同时，研究表明，与光谱精确性相比，训练数据中广泛覆盖化学空间更为关键。

背景

当我们展望未来的化学实验室时，往往会设想一个完全自动化的系统：科学家输入想要合成的分子，高级软件提供合成路径建议，并由机器人执行。这之后是纯化步骤，为一系列分析仪器的检测准备样品。最后，一个自动化流程根据收集到的光谱数据确定分子的结构。要实现这一愿景，需要在多个领域取得进展，从路径预测到合成和纯化的自动化。而在这一流程中，光谱数据的自动解析以揭示分子结构是关键环节之一。

在本研究中，AstraZeneca研究团队提出了一种灵活的模型，能够直接将光谱数据转化为分子结构，从而为自动化结构解析提供解决方案，同时解决了当前计算机辅助结构解析（CASE）程序的一些局限性。

其他方法也被提出，例如Pesek等人的研究将IR、¹H和¹³C NMR以及质谱数据整合，用于构建分子结构，模拟光谱学家可能采用的解析流程。近年来，一些模型被开发出来以处理IR或¹H和¹³C NMR光谱，将光谱数据转化为标记化文本格式，用于预测分子结构（如SMILES）。其他框架通过处理¹H和¹³C NMR光谱来评估结构连通性，预测子结构并以概率排名的方式组装候选异构体。此外，基于CNN的DeepSAT系统利用HSQC光谱数据进行骨架预测。NMR-TS方法结合了机器学习和密度泛函理论，从NMR光谱中自动识别分子。然而，这一神经网络方法在生成候选结构时并未直接考虑光谱数据，而是依赖一定的随机性来预测正确的分子。

在IR光谱领域，深度学习和卷积神经网络的进展使得无需依赖数据库或基于规则的方法即可从FTIR光谱中识别官能团。然而，这些现有方法仍面临以下局限性：

适用领域有限且依赖于庞大的数据库
需要预先建议目标分子
对多数据模态的整合考虑不足

AstraZeneca研究团队的方法针对这些局限性提出了一种从光谱到分子结构的自动化流程。该流程基于Transformer神经网络架构，能够同时处理多种光谱数据类型（如¹H-NMR、¹³C-NMR、HSQC、COSY、IR和MS）。通过Transformer的注意力机制，该模型可以聚焦于不同数据类型中最相关的光谱特征，从而学习光谱输入与分子结构之间的复杂关系。

此外，引入了一种创新的改进循环，使模型能够适应未知的化学空间。这个迭代过程增强了模型在新领域中预测结构的能力，有效扩展了其适用性。更重要的是，这一改进循环使我们的模型在最初仅使用模拟光谱训练的情况下，仍能解析真实的实验光谱。这一能力展示了模型的鲁棒性以及在实际分子结构解析任务中的应用潜力。

方法

谱数据生成与预处理

本研究利用模拟的多模态光谱数据，包括¹H NMR、¹³C NMR、COSY、HSQC、IR光谱和质谱（MS）信息。¹H和¹³C的化学位移通过图神经网络生成，并用于生成1D和2D NMR光谱。COSY和HSQC光谱基于预测的¹H和¹³C化学位移进行重建，同时应用规则化算法模拟¹H NMR峰分裂模式。IR光谱利用深度学习网络生成，MS信息则通过分子结构直接生成分子量和分子式。

在数据预处理中，化学位移数据进行了归一化，IR光谱被采样为1000个频率点。所有数据最终整合为单一文件格式存储，方便训练过程中的高效调用。

合成数据集生成

初始训练数据集包含来自ZINC数据库的约500万分子，分子量在250-350道尔顿之间。数据集按9:1分为训练集和测试集。为评估模型的泛化能力，另生成了包含150万分子的独立数据集，分子量范围扩展至0-500道尔顿，并剔除了特定元素的分子以保证与训练数据的一致性。

模型首先在ZINC数据集上进行训练和测试，以建立基准性能，并随后使用PubChem数据集验证改进循环的效果。PubChem数据集按分子量分为三个范围（0-250、250-350、350-500道尔顿），用于测试模型在未见化学空间中的表现。

神经网络架构与验证逻辑

MMT模型采用改进的Transformer架构，同时处理多种光谱输入。结构验证流程包括以下步骤：

光谱嵌入层：将光谱数据转换为128维的潜在空间。
编码器：对每种光谱的嵌入进行单独编码，并通过跨模态编码器整合不同光谱信息。
解码器：生成与目标SMILES字符串相匹配的输出。
HSQC和COSY匹配：利用算法对生成的光谱与目标光谱进行误差分析，并排名候选结构。

模型训练与评估

训练过程分为三个阶段：

SMILES预测训练：模型通过教师强制学习将光谱数据转化为SMILES。
分子量优化：引入分子量误差作为损失函数的一部分，增强模型性能。
光谱数据缺失训练：随机删除部分光谱数据，提高模型在数据有限场景下的鲁棒性。

通过消融实验评估了不同光谱模态对预测精度的贡献。训练使用多GPU环境，优化器采用AdamW，学习率随训练进度动态调整。

改进循环与性能评估

为了提高模型在新化学空间中的适应性，提出了改进循环流程，包括生成类似分子、模拟光谱以及在新数据集上的微调训练。这一流程在模拟、独立数据集及实验数据上进行了测试，显示出在未见化学空间中显著的适应能力。

实验设计还包括通过多种采样方法生成SMILES，评估生成分子的正确率、有效性及结构多样性。进一步测试了在初始结构错误假设下的改进循环能力，验证了模型在处理真实世界结构解析任务中的鲁棒性。

结果与讨论

基础模型架构与优化

初步实验聚焦于优化MMT模型，该模型处理多种光谱数据类型，包括NMR（¹H、¹³C、HSQC和COSY）、IR和MS。通过SMILES预测准确率、结构相似性和生成分子有效性等指标评估了不同的模型配置和训练策略。实验结果表明，较大的模型和数据集在所有指标上均表现更优，最终选择了最大模型配置和包含400万分子的训练数据集进行后续分析。

训练策略分为三个阶段，逐步引入SMILES预测、分子量损失以及光谱数据缺失训练，从而全面提升了模型性能。此外，我们使用HSQC光谱匹配评估了模型的分子识别准确率。使用多项式采样时，模型达到89.9%的准确率，显著优于贪婪采样的50.0%。这些优化为MMT模型在光谱数据解析中的应用奠定了坚实基础。

光谱模态对模型性能的影响

为了探究不同光谱数据类型对模型性能的重要性，我们通过消融实验逐一去除了每种光谱模态，并在完全训练的模型上进行单轮微调训练。评估指标包括SMILES正确采样概率、贪婪采样的平均Tanimoto相似度，以及生成的无效分子数量。

结果显示，二维NMR数据（HSQC和COSY）对模型性能的贡献最为显著。去除HSQC数据导致SMILES正确概率从0.51骤降至0.04，Tanimoto相似度从0.82降至0.43，同时生成的无效分子数量达到44,847个。去除COSY数据的影响次之，无效分子数量增加至38,798个。

尽管实验表明¹³C NMR对模型性能的影响较小，但其耗时较长的获取过程可能使其在时间敏感的场景中被优先考虑削减。而IR光谱尽管对模型性能影响有限，但其快速的数据采集特点可能在需要快速解析的实际应用中具有重要价值。

二维NMR技术（HSQC和COSY）的显著影响表明，优先获取这两种光谱数据可显著提升结构解析的准确性，尤其是在时间和资源受限的情况下。基于这些发现，实验人员可优化数据采集策略，在降低实验时间和成本的同时保持高准确性。然而，这些基于机器学习的见解需与传统人类解析方法平衡，强调AI与人类专业知识在结构分析任务中的互补性。

改进循环评估

为了应对化学空间的广阔性问题（任何模型都无法完全覆盖），研究团队引入了一种改进循环，当模型遇到训练数据未涵盖的未知区域时激活。该循环通过生成模型建议在未探索化学空间中的结构相似分子，从而创建一个针对这些新区域的微调数据集。

改进循环结合了数据生成管道，包括：

使用SGNN网络生成¹H和¹³C NMR光谱数据。
应用基于规则的算法重建HSQC和COSY光谱，同时计算¹H NMR光谱中的偶合常数。
使用消息传递神经网络生成IR光谱。
利用RDKit从分子的SMILES表示计算精确分子量，模拟高分辨质谱（MS）中的分子离子峰。

这一全面的方法确保所有相关的光谱模态（包括MS数据）均在微调数据集中得以体现，从而增强了模型对新化学空间的适应能力。这种改进循环显著提高了模型在未见化学区域中的泛化性能，为分子结构解析的实际应用奠定了坚实的基础。

ZINC 数据集评估

研究团队最初在ZINC数据集的测试集中测试了改进循环，以验证是否可以在预训练网络的基础上实现进一步的性能提升。实验结果如图3所示，展示了ZINC测试数据在微调前后不同生成类似分子数量下的平均Tanimoto相似度（图a）和平均正确采样概率（图b）。

多项式采样（MNS）方法表现出显著的效果，对每个目标分子生成3个候选分子，能够在前3个候选中正确识别高达96%的分子。采样过程中，我们应用了分子量过滤器，仅接受符合要求的分子。

贪婪采样也展现出较强的性能，在微调后能够正确识别多达78%的分子。

模型性能随训练使用的类似分子数量增加至30时持续提升，但在50或100个类似分子时趋于平稳甚至略微下降。这可能是由于Mol2Mol模型在切换到新骨架之前，每个骨架生成最多30个类似分子，从而可能影响类似分子的质量和微调的有效性。

在本次实验中，我们将每个骨架生成的样本数量参数设置为30。虽然此参数可以调整，但当前研究中未对其进行进一步探讨。

这些结果表明，合理控制生成的类似分子数量对于微调过程的有效性至关重要，过多的样本可能会降低微调质量。通过优化采样和微调策略，可以进一步提升模型在化学空间中的适应能力和性能。

PubChem 测试数据集评估

为评估模型在初始训练集之外的多样化分子量和化学结构上的能力，研究团队将测试范围扩展至PubChem数据集，选择了三个分子量范围的测试集（每组100个分子）：0-250 Da、250-350 Da和350-500 Da。

采用了此前用于ZINC数据集的改进循环方法，包括使用Mol2Mol模型生成分子类似物、模拟光谱数据、微调模型。为对比效果，我们还在整个PubChem训练集上对ZINC训练的MMT模型进行了微调（称为PC-FT），以评估改进循环与全面微调方法的相对表现。

关键发现

改进循环（IC）显著优于基础模型：在所有分子量范围内，经过IC微调的模型在性能上均超越了基础模型。
最佳性能通常出现在30个类似分子时：即便仅使用10个类似分子，IC的表现往往也优于PC-FT模型。
对于较大的分子（350-500 Da）：随着类似分子数量增加，性能不断提升，100个类似分子时表现最佳。
迭代应用改进循环进一步提升准确性：在使用10个类似分子的基础上多次迭代后，模型准确性仍有所提高。

模型改进效果

跨分子量范围的评估结果展示了模型的适应能力以及改进循环在提升多样结构解析性能上的有效性。具体表现如下：

ZINC数据集（250-350 Da）：改进循环使完美的Tanimoto匹配率从50%提高至73%（10个类似分子），30个类似分子时进一步提升至78%。

PubChem数据集（0-250 Da）：改进循环使完美匹配率从14%提高至45%（10个类似分子），超过了PC-FT模型的44%。

此外，多项式采样在正确识别分子方面持续优于贪婪采样。对于ZINC数据集和PubChem数据集，多项式采样在前3个候选分子中分别实现了96%和68%的准确率。然而，选择单个最准确候选分子仍是一个挑战。

提高结构预测精度：针对模拟与实验数据的精细微调

研究团队对包含完整实验数据模态（¹H、¹³C、HSQC、COSY、IR和MS）的34个分子进行了实验，以评估MMT模型的性能。这些实验数据的峰值通过手动挑选，确保了准确性和一致性。

多项式采样与匹配方法的改进

早期研究表明，与贪婪采样相比，多项式采样（MNS）结合光谱误差排序显著提高了分子识别的准确性，从50%提升至90%。在本次实验中，我们采用了MNS（3x20采样），并通过分子量过滤器确保生成分子与目标分子的关键属性匹配。随后，通过开发的HSQC匹配算法对样本分子进行评分与排名，同时结合COSY匹配方法，使用三种排名方式进行评估：COSY排名、HSQC排名和综合排名。

实验结果

模拟数据：在所有排名方法中，前3个候选分子的准确率达到100%。
ACD模拟数据：前3个候选的准确率为67%，前20个候选的准确率为94%。
实验数据：前3个候选的准确率为62%，所有候选分子的总准确率为94%。

综合HSQC和COSY排名在所有数据类型中的表现均优于单一排名。例如，在实验数据中，综合排名的前10候选准确率为91%，而仅使用COSY或HSQC的准确率分别为88%。

与基础模型对比

预训练模型的基线性能表现有限，仅解决了以下比例的问题：

模拟数据：58%
ACD模拟数据：16%
实验数据：3%

经过改进循环的模型在实验数据上的准确率显著提高，表明改进循环的有效性。这种显著提升凸显了化学空间覆盖的全面性比训练数据的精确性更为重要。

模型的鲁棒性与适应性

进一步评估了改进循环的鲁棒性，即使从稍有错误的初始分子结构出发，模型仍保持了较好的性能：

模拟数据：正确结构时为100%，修改后的结构时为85%。
ACD模拟数据：正确结构时为94%，修改后的结构时为65%。
实验数据：正确结构时为94%，修改后的结构时为56%。

尽管性能因初始结构错误而有所下降，模型仍在大多数情况下能正确识别分子，这在实际应用中具有重要意义。化学家通常从不完整或部分错误的假设开始解析结构，而模型的鲁棒性使其能够优化和修正初始结构猜测，减少结构解析的迭代次数。

模型可解释性与实际应用

MMT模型通过Transformer的基于Token的预测提供了可解释性，揭示模型决策过程的直观见解。通过分析Token级别的置信评分，可以识别模型最有信心的结构特征以及需要进一步改进的区域。

图6展示了一个实验数据集的例子：

目标分子（a）与模型的四个预测分子（b-e）进行比较。这些分子通过多项式采样从微调后的MMT模型中生成。
SMILES字符串使用颜色编码显示模型的Token级置信度：绿色表示高置信度，粉红色表示低置信度。

观察结果：

所有建议的分子都共享核心结构特征，如两个芳环和一个脂肪族哌啶环，这些结构具有高置信度。
替代基团的位置或具体官能团（如氯原子和氨基的位置）置信度较低。
正确分子为最可能的建议，与光谱重建误差和整体样本概率有良好相关性。

解释性功能的实际意义

指导实验工作：通过可视化模型对结构成分的置信度，化学家可以聚焦于不确定区域，开展有针对性的实验工作，如选择性二维NMR或化学衍生化。
优先假设：对多种建议结构进行置信度可视化，有助于化学家快速筛选和优先考虑更可能的结构假设。
评估预测可靠性：通过预测概率和光谱重建误差的相关性，为评估模型建议的可靠性提供了直观的指标。

结论

本研究开发了MultiModalTransformer (MMT)模型，这是一种创新的分子结构解析架构，能够整合包括NMR、IR和MS数据在内的多种光谱模态。研究结果表明，通过多样化光谱数据的整合，MMT在分子结构预测准确性上表现卓越，对实验样本的正确识别率高达94%。

我们设计了稳健的模拟数据生成管道和迭代改进循环，使模型在仅基于模拟数据训练的情况下，仍能在实验数据上表现出色。模型的鲁棒性通过以下方面得到验证：即使初始结构存在错误，MMT仍能保持显著的预测能力。此外，模型通过基于Token的分析提供可解释的预测，为其决策过程提供了直观的见解。

尽管通过增加实验数据的训练和自动化峰值挑选可进一步提升模型性能，现有模型已成为化学家的一项强大工具，在模拟与实验数据之间架起了有效桥梁。其高适应性在初始结构信息不完全的实际应用中尤为重要，标志着自动化结构解析领域的重大进步。

整理 | WJM

参考资料

Priessner M, Lewis R, Janet JP, Lemurell I, Johansson M, Goodman J, et al. Enhancing Molecular Structure Elucidation: MultiModalTransformer for both simulated and experimental spectra. ChemRxiv. 2024;

doi:10.26434/chemrxiv-2024-zmmnw

DrugAI

关注人工智能与化学、生物、药学和医学的交叉领域进展，提供“原创、专业、实例”的解读分享。

孙大文院士在《Chemical Engineering Journal》发文：太赫兹超材料携手深度学习，助力食品检测新突破！

智能饮食：通过基于Grounding DINO的膳食辅助应用程序推进健康信息学

湖南大学生物学院罗宵/信科院曾湘祥教授联合招聘“AI+Genomics方向”博士后

J. Pharm. Anal. | 化学自然语言引导的扩散式类药分子编辑：DiffIUPAC的魔法之旅

Nat. Comput. Sci. 评论 | 利用深度学习打造优化配体的创新之路

NeurIPS 2024 | DePLM: 用扩散去噪过程帮助大模型进行蛋白质优化

Nat. Commun. | 用预测表型取代观察表型，ML-GPS扩展基因-表型对新关联

中南大学王建新教授团队提出BANDRP模型，通过基于分子指纹和多组学的双线性注意力网络进行药物反应预测

Nat. Commun. | 避免耗时的自洽场迭代，DeepH-hybrid推动从头计算方法领域发展

Nat. Comput. Sci. | 精确属性控制，湖大、西电从头药物设计AI方法，登Nature子刊

Nat. Methods | 基于单细胞RNA测序的植入前小鼠和人类胚胎深度学习模型

Nat. Commun. | 计算速度远远优于DFT，NewtonNet推导ab initio海森矩阵用于过渡态优化

Nat. Commun. | 整理大规模扰动谱整合图，PRNet成功预测233种疾病的药物候选物

华东师范大学联合发布中医药领域多模态大模型：数智岐黄2.0

Nat. Commun. | 利用TE位点两侧邻近读数，MATES提高TE定量准确性

Nat. Methods | SurfDock：利用表面信息的扩散生成模型实现蛋白质-配体复合物结构精准预测

Nat. Commun.｜准确性达93.7%！高度自动化临床mNGS检测可快速识别病毒性呼吸道病原体

打破专利封锁，踏出中国小核酸药物未来之路！

Nat. Commun. | 疾病相关蛋白难成药，sChemNET探究microRNA疗法

Science | 在“放松”序列空间中实现可扩展的蛋白设计

PNAS | UBC大学团队发现AlphaFold-Multimer能够准确捕捉蛋白IDR区域的相互作用

Cell | 蛋白质-蛋白质相互作用的发现及其在健康与疾病中的重要意义

Chem. Sci. | 设计蛋白-蛋白相互作用界面的深度学习模型

Nat. Commun. | ClickGen: 一种基于模块化反应和强化学习对可合成化学空间定向探索的生成式AI模型

Nat. Commun. | 将合成与筛选速度提升6倍！！浙江大学提出最新全自动高通量系统

招聘 | 德克萨斯大学西南医学中心王涛实验室生物信息学与计算生物学博士后研究员

受限原料合成目标产物，MIT Coley团队提出解决方案

Trends Pharmacol. Sci. | 利用计算科学推进PROTAC药物发展

Nat. Comput. Sci. | 前瞻性分析：牛津大学团队展望小分子药物发现的未来

Brief. Bioinform. | 基于肿瘤免疫微环境数学建模和强化学习的免疫检查点抑制剂（ICI）联合化疗决策优化

Nat. Methods | 新算法利用空间转录组数据构建肿瘤的“空间进化图谱”

Artif. Intell. Chem. | 人工智能推动化学发展的二十种方式

报告免费领取 | 热门减肥增肌靶点调研及非临床研究策略报告

Nat. Biotechnol. | 透视疾病突变：揭示蛋白质相互作用网络中的全组学级别扰动

英伟达发布BioNeMo平台，加速全球生物制药与科学产业数字化升级

Boltz-1：让生物分子交互建模更普及

Nat. Mach. Intell. | 蛋白质语言模型也能预测热稳定性？滑铁卢大学团队亲测！

从理想变为现实，从中国走向世界：国产AI药物发现软件MolProphet的成长故事

Cell Systems | Genesis探索“暗物质“蛋白折叠，折叠蛋白成功率结果鼓舞人心

Trends Pharmacol Sci. | 计算策略的集成与联用推动抗菌肽智能研发

Nat. Commun. | 使用CADD针对AcpS设计全新抗生素家族，实验效果显著！

美国佛罗里达大学计算机系/药物化学系AI制药课题组诚招全奖博士

分子表征从「图」到「视频」，1.2亿帧、200万分子，湖大分子视频基础模型登Nature子刊

《卫生健康行业人工智能应用场景参考指引》发布，推动“人工智能+”在卫生健康领域创新发展

香港科技大学（广州）人工智能学域助理教授戴恩炎招收AI for Protein 全奖Ph.D. 及 Intern

J. Chem. Inf. Model. | 基于MoE的解离动力学模型助力设计“长效药”

NeurIPS 2024 | WKM: 增强智能体规划的世界知识模型

Protenix: AlphaFold3的再现 – ByteDance AML AI4Science团队

Google DeepMind 开源 AlphaFold 3

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉