解开分子结构:用于化学的多模态光谱数据集

学术   2024-08-27 00:01   韩国  

DRUGAI

今天为大家介绍的是来自Teodoro Laino团队的一篇论文。光谱技术是确定分子结构的重要工具。不同的光谱技术,如核磁共振(NMR)、红外光谱和质谱,可以深入了解分子结构,包括官能团的存在或缺失。化学家利用这些方法的互补性来获得优势。然而,由于缺乏包含多种光谱技术数据的综合多模态数据集,机器学习方法在从光谱预测分子结构的任务中,主要限于单一模态。本文引入了一个数据集,包含从专利数据中的化学反应中提取的79万种分子的模拟1H-NMR、13C-NMR、HSQC-NMR、红外和质谱(正负离子模式)光谱数据。该数据集使得可以开发基础模型来整合多种光谱模态的信息,模拟人类专家的分析方法。此外,作者提供了用于评估单一模态任务的基准,如结构解析、目标分子的光谱预测和官能团预测。该数据集有望自动化结构解析,简化从合成到结构确定的分子发现流程。数据集和基准代码可以在 https://rxn4chemistry.github.io/multimodal-spectroscopic-dataset 上找到。

人工智能(AI)和机器学习(ML)方法的快速发展为化学领域带来了新时代。计算方法已经改变了化学研究的各个方面,包括逆合成规划、通过贝叶斯优化进行反应优化、分子设计等。过去这些手工操作繁琐且耗时的任务,现在正在被自动化,大大加速了发现过程。尽管取得了这些进展,但化学中一个关键方面——结构解析,即通过光谱数据确定分子结构,仍然在很大程度上依赖于人类专家的经验。虽然化学家通常对所合成的分子有一定的直觉,但产品的实际组成需要通过光谱数据来验证。不同的光谱技术可以提供不同类型的信息。例如,某些官能团(如醇)会在红外光谱(IR)的特定区域(如3200-3300 cm−1)显示出特征峰,而质谱(MS)可以用来确定分子的分子量。类似于解开一个复杂的谜题,化学家能够访问的光谱模态越多,他们就能收集到更多的信息和线索,从而预测分子结构并解释观测到的光谱峰。


尽管已经开发了用于结构解析的AI/ML模型,但它们主要集中在单一的光谱模态上,如红外光谱(IR)或核磁共振(NMR)光谱。相比之下,人类专家通过结合各种光谱技术的信息,从多个模态中获得对分子结构的更深入理解。为了弥合这一差距并实现结构解析的自动化,需要一个包含多种光谱技术数据的多模态数据集。在计算机视觉和自然语言处理等其他领域,多模态数据集已经带来了显著的成就,如文本到图像生成、图像字幕生成、使用边界框进行物体检测,甚至是多任务模型。类似地,作者推测,一个用于化学光谱的多模态数据集也可能带来重要的进展。这样的数据集将成为开发能够整合多种光谱模态信息的AI/ML模型的宝贵资源,模拟人类专家在分析和解释光谱数据时所采用的方法。


选择的数据集


图 1


由于大多数光谱数据是在反应完成后获取的,旨在推断分子结构的数据集应涵盖与常见有机化学反应相似的化学空间。因此,作者选择使用由Lowe从美国专利数据库中提取的USPTO反应数据集。该数据集涵盖了1,435,481个化学反应,涉及各种反应类型,因此仅包含现实中的分子结构和常用的化学物质,如溶剂、反应物和试剂。作者识别了这些反应中的所有独特分子,并根据重原子数(除氢以外的所有原子)应用过滤标准,仅保留了重原子数在5到35之间的分子。此外,作者过滤掉了含有碳、氢、氧、氮、硫、磷、硅、硼和卤素以外元素的分子。这一步将分子数量从1,675,439减少到1,416,499。作者尝试模拟所有分子,但由于某些分子的模拟失败,最终仅包括了所有光谱模拟成功的分子(见图1)。

图 2


最终,作者收集了794,403个独特分子及其对应的IR、1H-NMR、13C-NMR、HSQC-NMR、负离子模式MS/MS和正离子模式MS/MS光谱。这些分子的结构以SMILES表示,此外还提供了每个分子的分子式(例如C6H12O6)。图2(A)展示了SMILES长度和重原子数的分布,覆盖了5到35个重原子的全部范围。此外,作者通过计算化学指纹的Tanimoto相似性,研究了200个随机抽取的分子的化学相似性(见图2(B))。可以看到,数据集包含了广泛的不相似化学结构,这是所期望的。化学相似性与IR光谱领域的相似性呈弱相关性,如图2(D)所示,这表明具有相似化学成分的分子在IR光谱上可能也具有相似性。


由于化学官能团通常在光谱的某些区域表现出特定的模式(例如,芳香环在1H-NMR中会在6.0-8.7 ppm范围内产生峰),作者对收集的数据集中的官能团组成进行了分析。在图2(B)中展示了这种分布。可以看出,最常见的官能团是烷烃、芳烃和醚类,其次是卤代烷,总体上涵盖了广泛的官能团类型。


数据生成

表 1


生成数据的概览可以在表1中找到。NMR模拟:作者使用MestReNova软件模拟了1H-NMR、13C-NMR和HSQC-NMR光谱。模拟过程中使用氘代氯仿作为溶剂,所有模拟均采用默认设置。对于13C-NMR光谱,生成了1H去耦光谱。作者利用MestReNova内置的光谱分析工具对光谱进行注释。对于1H-NMR光谱,作者使用自动多重分析功能生成一组峰值,包括每个峰的类型(如双峰、三峰等)和归一化的积分。同样的方法也用于确定13C-NMR光谱中峰的位置和强度。对于HSQC光谱,作者同样获取了峰的位置和积分信息。


红外光谱(IR)模拟:IR光谱可以通过将分子中的键近似为谐振子并计算其频率,或者通过测量分子随时间变化的偶极矩来模拟。虽然第一种方法计算成本较低,但只能得到光谱中每个峰的位置和强度,随后可以通过高斯函数等方法对其进行展宽处理。然而,这种方法忽略了泛频和非谐性。而基于偶极矩数据模拟的IR光谱虽然包含这些特征,但计算要求更高。作者开发了一条高通量管道,用于协调分子动力学模拟,并通过分子的偶极矩计算光谱。基于SMILES字符串,生成相应的蛋白质数据银行(PDB)文件,并使用通用AMBER力场(GAFF)优化分子几何结构。选择相同的力场进行分子动力学模拟,并使用AMBER工具生成用于大规模原子分子并行模拟器(LAMMPS)的输入文件。系统首先平衡250纳秒,然后记录分子的偶极矩,再继续250纳秒。根据Braun的方法,从偶极矩计算IR光谱。模拟的光谱范围为400-4000,分辨率为2 。


MS/MS模拟:作者选择使用竞争性碎片化模型(Competitive Fragmentation Modeling)用于代谢物识别(CFM-ID)套件来模拟MS/MS光谱。该套件支持模拟正负离子模式的电喷雾电离(ESI)MS/MS光谱。作者生成了三种不同电离能量(10eV、20eV和40eV)下正负离子模式作为氢加合物的光谱。此外,该套件还将MS/MS光谱中的碎片标注了相应的化学式。

表 2


为了评估模拟光谱与实验光谱的相似性,作者将其与251种分子及其对应的实验测量光谱进行了比较,这些实验数据来源于Van Bramer和Bastin的研究。在这251种分子中,有96种分子的所有光谱技术(不包括HSQC-NMR)都进行了测量,并在本文介绍的数据集中也进行了模拟。由于每种光谱技术的表示方式不同,需要采用多种方法进行比较。表2展示了实测光谱与作者模拟方法之间的光谱相似性。此外,作者还计算了每种模拟光谱与所有实验光谱的相似性,表中列出了所使用的相似性度量。

图 3


主要依赖基于余弦相似度的度量方法存在显著的局限性。例如,在NMR光谱的情况下,即使形状和积分准确模拟,但与实验测量的光谱相比,如果峰位有轻微的偏移(这是由溶剂引起的常见效应),也会导致余弦相似度大幅下降。虽然化学家可能会认为这两个光谱相似,但余弦相似度得分会明显低于峰值对齐时的得分。尽管存在这一限制,但可以看到,平均而言,所有模拟光谱与其对应的实验光谱的相似度都高于与其他实验光谱的平均相似度。这表明模拟数据在一定程度上真实地代表了实验测量的光谱。图3展示了模拟光谱与实验光谱之间相似性的直观对比。


从光谱推导结构的基准测试

表 3


作者设想该数据集的主要用途是从光谱中推导出完整的分子结构。为此,作者提供了从光谱中预测精确化学结构的基准结果(见表3)。作者使用基本的编码器-解码器transformer模型分别对每个单一模态以及1H-NMR和13C-NMR的组合进行训练。除了光谱数据,作者还为模型提供了化学式,即分子中存在的元素,作为先验信息。化学式可以通过高分辨率质谱实验获得。


为了在光谱上训练transformer模型,作者将光谱转换为结构化的文本表示。对于IR和NMR光谱,作者遵循了Alberts等人早期工作中描述的表示方法。对于IR光谱,这种表示方法将光谱转换为400个token,每个token从光谱的固定位置采样,并将强度归类为token。对于13C-NMR光谱,该表示方法为模型提供了光谱中每个峰的位置,而对于1H-NMR光谱,则提供了每个峰的积分、类型以及起始和结束位置。此外,作者还在正负MS/MS光谱上训练了一个模型。光谱中的每个峰通过m/z和强度来描述。由于作者为正负模式在不同能量水平下模拟了三个MS/MS光谱,因此将这些光谱进行了串联。


作者观察到,单独基于IR光谱训练的模型表现最差,其次是基于MS/MS光谱训练的模型。相比之下,1H-NMR和13C-NMR光谱的表现相对较好。令人鼓舞的是,1H-NMR和13C-NMR结合后的表现最好。这些结果可以通过每种模态所包含的信息来解释。虽然IR光谱可以很容易地用于确定分子中的官能团,但对于较大且更复杂的分子,光谱中的峰值开始重叠,导致信息提取变得困难。MS/MS光谱的低性能也由类似因素引起:分子越复杂,潜在的碎裂方式越多,从而增加了确定明确结构的难度。基于1H-NMR光谱训练的模型表现优于13C-NMR,因为1H-NMR光谱通常包含更多信息。然而,由于这两种光谱探测分子的不同方面,它们相互补充,结合后性能提高了7.8%。


官能团预测的基准测试

表 4


另一个可以利用该数据集探索的任务是从光谱中预测结构中的官能团。作者使用SMARTS模式从分子中提取官能团。虽然这项任务对化学家而言不如完整的结构解析有用,但在大多数情况下,可以通过官能团的变化来判断化学反应的成功与否。作者将该任务视为一个多类别、多标签分类问题。因此,作者评估了三种不同模型的性能,分别是提升树分类器、Jung等人实现的1D-CNN模型以及transformer模型,用于预测目标分子中存在的官能团。各模型在不同模态下的性能见表4(F1评分)。提升梯度树和1D-CNN模型训练使用的是每个光谱的未处理向量形式。相比之下,transformer模型使用了与结构解析任务中相同的表示方式。与前一个任务不同的是,此次没有将化学式作为输入。


在四种模态中,基于结构化文本表示训练的transformer模型表现优于1D-CNN和提升梯度树。仅在IR光谱上,1D-CNN的表现略微优于transformer模型。与MS/MS和NMR光谱相比,IR光谱并不稀疏,这解释了1D-CNN的良好表现。


光谱预测的基准测试

作者最初设计这个数据集是为了探索结构解析。然而,这个数据集也可以用于逆向任务,即根据目标分子预测相应的光谱。为此,作者训练了一个transformer模型,根据分子预测每种模态的光谱。作者使用了与“从光谱推导结构“相同的模型架构和表示方式。这意味着,虽然对于IR光谱,模型预测的是整个光谱,但对于其他模态,生成的是处理后的光谱形式。对于MS/MS光谱,这包括每个峰的m/z值及其强度。同样,对于13C-NMR光谱,模型预测每个峰的位置。而对于1H-NMR光谱,模型预测每个峰的起始和结束位置、类型以及积分。

表 5


为了比较预测光谱和目标光谱,作者使用了两种相似性度量:一方面使用贪婪余弦相似度,另一方面使用精确的token准确率。对于MS/MS、13C-NMR和1H-NMR光谱,作者在计算相似性之前,首先对预测光谱和目标光谱中的峰进行了对齐。结果见表5。


对于IR光谱,作者观察到无论是余弦相似度还是token相似度都较低。这可能是由于用于预测光谱的表示方法所致,因为每个光谱必须生成400个token的序列。其他方法,例如McGill等人提出的图神经网络,可能会表现得更好。对于正负MS/MS光谱,作者发现随着电离能量的增加,性能有所下降,可能是由于在较高电离能量下分子发生更大程度的碎裂,导致光谱更加复杂。预测的1H-NMR和13C-NMR光谱都表现出较高的余弦相似度,但token准确率较低。这是由两个因素造成的:一方面,仅使用峰的位置来计算相似性;另一方面,token准确率要求token的完全匹配,即使预测的峰值误差只有0.1ppm,也会被视为错误。

编译 | 黄海涛

审稿 | 曾全晨

参考资料

Alberts, M., Schilter, O., Zipoli, F., Hartrampf, N., & Laino, T. (2024). Unraveling Molecular Structure: A Multimodal Spectroscopic Dataset for Chemistry. arXiv preprint arXiv:2407.17492.

DrugAI
关注人工智能与化学、生物、药学和医学的交叉领域进展,提供“原创、专业、实例”的解读分享。
 最新文章