【文献分享】复杂混合物中生物活性天然产物的鉴定：当前和新兴技术策略综述

学术 2024-10-23 10:13 江苏

摘要

在天然产物化学领域，从成分繁多的复杂混合物中迅速鉴定出具有生物活性的天然产物（NPs），一直是一项艰巨的任务。这些混合物中包含的化合物不仅数量庞大，而且结构多样，生物活性也各不相同。正因如此，本篇综述文章旨在提供一份关于如何识别这些复杂混合物中的生物活性NPs的现有工具和新兴策略的全面概览。

尽管传统的生物活性导向分离（BGF）方法，结合核磁共振（NMR）和质谱（MS）分析以明确化合物结构，仍然是鉴定活性NPs的重要手段，但2018至2024年间的科技进步已经催生了诸如（生物）化学计量学分析、去重复分析和综合方法学等新技术。这些创新技术极大地提高了我们对生物活性化合物进行优先级排序和鉴定的效率。

对于投身于生物活性NPs研究的科学家们而言，如果他们期望在确保鉴定准确性的同时提高研究效率，本综述不仅突显了每种技术的优势与局限，还提供了这些技术如何协同作用以实现从复杂基质中鉴定生物活性天然产物的最高确信度的最新见解。

一

引言

在天然产物化学这一充满活力的领域，科学家们致力于从错综复杂的混合物中发掘并详细描述那些具有潜在新颖性和生物活性的代谢物。天然产物之所以备受瞩目，不仅因为它们所展现的丰富化学多样性，也因为它们与生物体之间固有的互动能力——无论是在生物体的防御机制、繁殖过程还是通讯活动中，都能找到它们的身影。正因如此，这些代谢物及其衍生物和类似物在现代医疗中占据了重要地位，广泛应用于抗癌、抗感染以及镇痛治疗领域。

随着人们对传统药用植物应用的兴趣日益增长，草药补充药物市场的扩大，天然产物也受到了更多研究者的关注。这些天然产物通常比合成化合物更易于在土壤中分解，因而在植物制药领域，它们不仅作为生物刺激剂，也被开发为生物控制剂，进行着广泛的研究。

然而，在这一研究热潮中，如何有效表征那些具有生物活性的天然产物，仍是一个巨大的挑战。为了克服这一难题，研究人员们通常会采用一种称为“生物活性导向分离”（BGF）的经典策略。这一策略包括将提取物进行一系列连续的色谱分离，随后通过生物学评估来确定活性部位。通过逐步简化提取物的复杂性，最终目标是成功分离并鉴定出一个或多个具有生物活性的代谢物（如图1所示）。

图1：天然产物结构表征流程及置信度评估示意图

本图详细展示了天然产物结构表征的流程，以及如何根据不同的分析路径和相应的置信度级别来进行。流程通常始于天然产物的提取，之后紧接着是生物导向性分离步骤（1和2）。在传统的鉴定过程中，我们会对分离得到的代谢物进行全面的分析，这包括二维核磁共振（2D NMR）、质谱（MS）和立体化学的深入解读（3）。为了提高效率，我们也可以选择直接对提取物或分馏物这样的复杂混合物进行质谱（MS）（4）或核磁共振（NMR）（5）分析。每项分析方法在初步的数据处理之后，都可以通过去重复步骤进一步精炼数据。将不同来源的数据进行整合，可以显著提升我们对代谢物表征的置信度（6）。更进一步，这一流程还允许我们实现对具有生物活性的代谢物进行早期的筛选和定位（7），从而加快了从复杂样本中发掘具有潜在价值的生物活性成分的步伐。

尽管我们不断开发出新的技术和方法，但获取足够的样本量以分离并确定新颖或生物活性代谢物的结构，依然是一个不小的挑战。这种情况常常导致我们能够从复杂的生物基质中分离出主要的天然产物，却忽略了那些含量较少的成分。虽然一些先进的色谱技术让我们有机会从样本中提取出少量（毫克级别）且纯度足够的次要代谢物，但这些微量的样本给精确的光谱分析带来了不小的难度。特别是对于那些具有多个不对称中心的天然产物来说，确定它们的相对或绝对构型更是一项复杂而艰巨的工作。

在生物活性导向分离的过程中，核磁共振（NMR）技术扮演着关键角色，它不仅能够表征新发现的生物活性天然产物（NPs），也能验证潜在活性代谢物的结构。为了更全面地理解这些分子，我们通常会借助高分辨率质谱（HRMS）分析来确定它们的精确分子式。当目标化合物能够结晶时，X射线晶体学则为我们提供了一种强有力的工具，用于解析其三维结构（如图1（3）所示）。然而，尽管这些分析方法极为强大，它们也需要足够的时间、大量的有机溶剂和足够的样本量。特别是对于样本量较少的情况，进行13C NMR、DEPT以及二维NMR实验将变得更加费时费力。

为了提升从复杂样本中早期鉴定次级活性天然产物的能力，近年来，科研人员开发了一系列创新策略，其中包括（生物）化学计量学方法。这些方法通过统计分析的手段，致力于从分析数据集中提取尽可能多的关键信息。这种方法一般在初步的分离步骤之后应用，以便在鉴定流程的早期阶段快速锁定潜在的活性成分。

尽管（生物）化学计量学能够从复杂的混合物或分馏物中筛选出一系列潜在的活性化合物，但它并不用于对这些化合物进行最终的鉴定和结构解析（参见图1（7））。为了加快这一进程，研究人员已经沿用了数十年的去重复策略。所谓的去重复，是指从复杂的混合物中快速识别出之前文献中已有报道的代谢物。许多数据库都能够助力这一过程，显著缩短已知化合物结构解析的时间。2019年，Wolfender等科学家就精心整理了一份全面的天然产物数据库清单。

在天然产物的注释工作中，化学分类学——即根据生物体合成的天然产物来对生物进行分类——有助于建立分类学上的联系。鉴于这些数据库可能包含大量的天然产物信息，Cordonnier等研究人员最近提出了基于化学分类学数据创建定制数据库的想法。此外，那些包含已知生物活性数据的数据库也能够加快和改善天然产物的注释工作。实际操作中，去重复分析可以基于实验获得的高分辨率质谱（HRMS）或核磁共振（NMR）数据，或者是基于理论预测数据。目前，质谱的碎片模式或核磁共振的化学位移可以被相当准确地预测。

近年来，分子网络分析作为一种极为有效的工具，由M. Wang等人在2012年提出。这种创新的计算机辅助方法使得串联质谱（MS/MS）数据的可视化和整理成为可能。利用全球天然产物社会分子网络（GNPS）等开放获取平台上的实验光谱库，我们可以在整个分子网络上传播代谢物的注释。此外，通过如Cytoscape这样的开源软件，我们还能将获得的分子网络通过添加生物学、分类学、光谱学、统计学等多元化信息进一步丰富。

令人感兴趣的是，众多成功的研究已经实现了分子网络与（生物）化学计量学的结合。这样，我们就可以从复杂的混合物（提取物或分馏物）中迅速标记出潜在的活性代谢物，并通过这些综合工作流程进行初步的注释。

依据代谢组学学会所设定的标准，这些化合物的鉴定置信度主要取决于可用信息的量和性质，即分析数据。作为首选的结构鉴定方法，我们通常对复杂混合物执行一维和二维核磁共振（NMR）实验，并结合高分辨率质谱（HRMS）数据来确定精确的质量和分子式。

然而，根据研究目标的不同，我们并不总是需要最高的结构鉴定置信度。在快速鉴定复杂混合物中已知化合物方面，现代综合方法（例如基于生物活性的分子网络）可能不如单一分离化合物的数据可靠。但如果我们的主要目标是避免重复分离那些已经被描述过结构和/或生物活性的天然产物，这种策略可以通过有选择性地关注感兴趣的天然产物来节省宝贵的时间。

在工具开发（包括软件、算法和数据库）的推动下，近年来涌现出不少综述性文献，全面总结了当下可用的工具与策略。基于此，本综述的目的在于提供一个新的视角，通过审视现有文献资料，并特别关注2019年以后新出现的策略，来更新这一领域的进展。

因此，本文重点介绍了一种新颖的思考方式，即通过一系列基础性研究，实现对复杂混合物中（生物）活性天然产物（NPs）的快速优先排序和鉴定。在第一部分中，我们详细介绍了最常用的统计工具和（生物）化学计量学分析方法，特别强调了主成分分析（PCA）、偏最小二乘法（PLS）、正交偏最小二乘法（OPLS）以及结合多重统计模型的综合工作流程。

随后，我们定义了质谱（MS）和核磁共振（NMR）去重复工具，并探讨了这些工具与化学计量学方法结合使用的情况。最后，我们讨论了基于所选择的不同方法的置信度水平。需要说明的是，由于研究所涉猎的范围非常广泛，本综述并非面面俱到，我们对可能遗漏的某些研究贡献表示歉意。

二

用于检测活性代谢物的化学计量学方法

略

三

用于复杂混合物中已知化合物快速注释的去重复工具

自1990年引入以来，去重复已成为研究人员在分离潜在（生物）活性天然产物（NPs）之前广泛使用的一种策略，以减少传统方法所需的时间。这一策略有助于快速注释复杂混合物（提取物或分数）中的已知化合物。这得益于专门的算法或软件，它们将获取的数据与实验或预测数据库中的数据进行比较。

由于简单的UV或DAD检测系统提供的有限结构信息，通常需要更强大的仪器来支持去重复策略。其中，质谱（MS）和核磁共振（NMR）仪器是最广泛使用的。这两种互补方法的优势和局限性在表2中概述。值得注意的是，基于MS2和分子网络（MN）数据的去重复策略目前正在被研究人员广泛探索。

考虑到这一点，本节重点介绍了近年来开发的MS和NMR去重复方法。随后，将定义MN及其不同的构建和可视化方式，并进行讨论。

3.1

质谱去重工作流程

质谱数据的解读是天然产物（NP）发现中的关键因素。高分辨质谱（HRMS）生成的大量数据集需要巨大的努力来提取有用的信息。为了解决这个问题，质谱数据的处理已经自动化。液相色谱-质谱（LC-MS）的后处理软件促进了自动化的背景减除、峰值对齐、峰值检测、去卷积和数据的组织。

3.1.1.数据采集、软件和后处理策略

在处理HRMS检测器生成的数据之前，自动采集所有检测到的代谢物的MS/MS谱图是必要的。主要使用的两种策略是数据依赖采集（DDA）和数据独立采集（DIA）。

在DDA模式下，前体离子在扫描事件中被选择，并在随后的MS/MS中通过碰撞诱导解离（CID）或高碰撞解离（HCD）进行碎片化。DDA通过基于预定义的标准（如强度阈值和选定前体离子的数量或动态排除）来启动碎片化。

在DIA模式下，MS/MS谱图不包含选定前体离子的信息。MS扫描中检测到的所有离子都在预定义的范围内被碎片化，提供全扫描MS/MS谱图。这种自动化采集模式可以在包括MSE（Waters Corporation）、全离子MS/MS碎片化（AIF, Agilent Technologies）、宽带CID（bbCID, Bruker）、多重MS/MS数据独立采集（MSX-DIA; ThermoFisher Scientific）或顺序窗口采集所有理论质谱（SWATH; Sciex）在内的多个HRMS仪器上操作。然而，这些采集模式中的产离子是混合的，与DDA不同，挑战在于产生清晰的去卷积MS/MS谱图，这些谱图与其前体离子相关联。

获取数据后，必须在进入代谢物注释工作流程之前处理MS和MS/MS数据。一些最常用的商业程序包括UNIFI（Waters）、Progenesis QI（Nonlinear Dynamics）、MetaboScape（Bruker）、MassHunter Proﬁler（Agilent）、Profiling Solution（Shimadzu）和Compound Discoverer（ThermoFisher）。另外，开源软件MZmine（用于DIA模式）和MSdial（用于DDA模式）也可以使用。

这些MS数据处理软件包执行几个关键步骤来提高数据质量并为进一步分析做好准备，包括对齐、噪声过滤、峰值检测、去同位素和去卷积。对齐通过校正RT或m/z值中的系统偏移，确保准确比较。噪声过滤消除随机噪声并提高信噪比。峰值检测基于其强度和形状识别和定位感兴趣的峰。去同位素去除非同位素峰，简化数据。去卷积解决重叠峰并分离共洗脱的化合物。这些后处理步骤提高了数据质量，增强了峰值检测，并为后续分析提供了精炼的数据集。

3.1.2. 用于质谱去重处理的天然产物实验数据库

在完成数据后处理之后，可以立即启动代谢物注释过程。这个过程始于应用去重策略，该策略在识别复杂混合物中的已知未知化合物中起着至关重要的作用，为我们提供了宝贵的洞见。实验数据库主要分为两种类型：内部MS/MS数据库和更广泛的共享MS/MS数据库。

一方面，内部MS/MS数据库由实验室创建，包含了在特定实验条件下获得的分离天然化合物或混合物的MS/MS谱图。这些数据库可以针对研究兴趣或样本类型进行定制，研究人员可以控制数据质量，并能持续更新和扩展数据库。然而，内部数据库可能存在覆盖范围有限和需要验证多种已知化合物的识别等局限性。

另一方面，更广泛的共享实验MS/MS数据库则汇集了来自不同来源的谱图，包括文献报告和社区贡献。商业实验数据库的例子包括美国国家标准与技术研究院（NIST）数据库、METLIN、mzCloud、MassBank和全球天然产物社交分子网络（GNPS）。这些数据库是开放获取的，受益于社区贡献，促进了可访问性和知识共享。然而，这些数据库的主要缺点是MS/MS谱图是在不同的仪器和变化的实验设置下获得的。此外，仪器特定的概念，如电离源（例如，电喷雾（ESI）、大气压化学电离（APCI）或基质辅助激光解吸电离（MALDI））可能促进或抑制某些化合物的电离，这严重损害了可交换MS/MS数据集的创建。

3.1.3. 理论天然产物数据库的虚拟碎片化工具

鉴于前述挑战，研究人员开发了一系列虚拟碎片化工具，包括MS-FINDER、CFM-ID、MetFrag、CSI:FingerID，以及由Advanced Chemistry Development, Inc.（ACD/Labs）提供的商业化工具MS Fragmenter。这些工具通过分析结构数据库中的化合物，并反复模拟化学键断裂过程，生成可能的碎片列表，然后将这些碎片与质谱/质谱（MS/MS）数据中的离子进行匹配，以实现化合物的注释。

以下是一些已知的、提供天然产物（NPs）结构下载的数据库的非穷尽列表：

《天然产物字典》（Dictionary of Natural Products, DNP）：
这是目前业界公认的最全面数据库之一，收录了超过300,000种来自植物、动物和微生物的天然产物。用户可以通过支付费用来下载这些天然产物的结构数据。
Reaxys 和 SciFinder：
这两个商业数据库各自包含了超过220,000种天然产物的详细资料。用户在购买相应的访问权限后，即可查询和研究这些天然产物的结构信息。
通用天然产物数据库（Universal Natural Products Database, UNPD）：
收录了超过229,000种天然产物，并提供了3D结构模型和可下载的分子描述信息。
开放天然产物集合（Collection of Open Natural Products, COCONUT）：
汇集了来自多个可访问数据库的超过411,000种天然产物。
LOTUS：
一个动态的、协作式的数据库，支持结构搜索和基于分类学的查询。
虚拟MS/MS数据库（In silico MS/MS DataBase, ISDB）
包含超过170,000种天然产物及其正模式下的MS/MS谱图。

为了提升注释的准确性，研究人员可以对这些数据库应用各种筛选条件，如物种、属和植物科等。尽管如此，虚拟碎片化算法的精确度仍有待提高。据研究显示，目前仅有17-25%的化合物能够通过这些算法被准确识别（其中CFM-ID是单个工具中表现最好的）。不过，通过结合虚拟碎片化算法和化合物的特定信息（例如保留时间RT、分子式和碰撞交叉截面CCS值），可以显著提高识别的准确率。

3.2

NMR去重工作流程

核磁共振（NMR）是识别天然产物（NPs）的另一种常用技术。它能够提供包括分子的连接性、立体化学和官能团在内的详尽结构信息。NMR的优势在于其非破坏性质，允许样品在分析后仍可用于进一步的研究。这些特性使得NMR成为精确鉴定和全面理解代谢物结构与性质的强大工具。现代NMR技术所提供的一维（1D）和二维（2D）数据集，使得包括立体异构体在内的结构鉴定可以在较短的时间内完成。结合分子式或X射线实验等信息，NMR能够确保代谢物注释的高置信度。

在传统NMR分析中，描述一个新的代谢物需要一套完整的1D和2D数据，如1H、13C、DEPT、COSY、HSQC和HMBC。借助纯化的NP样品和高性能的NMR设备，可以迅速完成实验。然而，样品的纯化过程可能既耗时又费力，并可能导致重复分离已知的NP。在样品量有限的情况下，结构阐明过程可能变得尤为漫长。幸运的是，基于人工智能的工具如今能够显著加速并改进基于NMR数据的NP结构解析。例如，基于HSQC相关性的新型小分子精确识别技术（SMART 2.0），以及使用先进计算方法确定实验信息与候选分子计算磁张量之间相关性的DP4+。此外，还开发了专门用于复杂混合物去重的工具，这些工具能够在不经纯化的情况下提出结构假设，避免了重复分离已知结构和/或生物活性的NP。

在一维NMR中，1H NMR由于其高灵敏度而被广泛应用于代谢组学研究。尽管如此，1H NMR在注释单个化合物时存在一定的局限性，尤其是当需要使用加载图进行注释时。在仅基于1H NMR的代谢组学研究中，区分主要代谢物（如糖、脂肪酸和氨基酸）和次级/特殊代谢物（即NPs）是一个挑战，这通常需要与实验化学位移进行比较来实现。因此，1H NMR很少单独用于注释，通常与质谱（MS）等其他方法结合使用。到目前为止，还没有开发出能够以高置信度注释NPs的1H NMR去重工作流程。

相比之下，13C NMR由于其天然丰度低和旋磁比低，灵敏度相对较弱。但它能够识别所有有机化合物，包括那些质子较少的化合物（例如，没食子酸）。13C NMR揭示了比1H NMR更多的结构信息，并能够区分某些异构体。在进行1H-解耦的13C-NMR实验时，化学位移重叠的风险较小，且受实验条件的影响也较小，尤其是氘代溶剂的选择。因此，基于13C NMR的去重方法和算法变得越来越重要，这些方法和算法已经发展了40多年。最近，这种方法已经进一步扩展到二维NMR实验中。

3.2.1. 基于¹³C NMR的去重策略及相关工具

2017年见证了一项创新的化学分析技术的诞生——CARAMEL，这是一种计算机辅助的¹³C NMR方法，专为粗提物的化学分析设计。CARAMEL通过层次聚类分析（HCA）将¹³C NMR谱图中的化学位移（dC）进行有序组织，并以簇的形式可视化展示。每个簇代表特定天然产物（NP）的化学位移特征。这一过程利用了包含预选NP结构数据和丰富元数据（包括名称、¹³C化学位移、分子量和化学分类信息）的SDF数据库，并通过ACD/Labs的C+H Predictors和DB软件进行处理。通过将实验测得的dC与数据库中的数据进行比对，可以准确地将NP归类到特定的NMR化学位移簇中。

进入2020年，A. Brugui`ere及其同事推出了另一种基于¹³C NMR的去重工具——MixONat。这款免费软件能够对混合物进行去重，不仅基于传统的13C NMR谱图，还可以结合DEPT-135和-90谱图来区分不同类型的碳环境（如CH3、CH2、CH和Cq）。在这一去重过程中，碳的多重性作为关键的区分标准。这一方法依赖于一个包含预测和/或实验dC-SDF数据的数据库，这些数据按碳类型进行分类。Nuzillard在2021年首次提出的Knapsack搜索算法，利用LOTUS数据库或ACD/Labs的NMR predictors (C, H)软件或nmrshiftdb2，大大简化了这一任务。用户可以根据自定义参数进一步细化搜索结果，以提高去重的准确性和效率。

采用这两种先进的策略，我们已不再必须通过分离复杂混合物中的单一天然产物（NP）来验证已知化合物的存在。这些方法使我们能够迅速识别提取物中的关键NP，而不会损失任何样品。这样，在完成鉴定过程后，我们能够回收全部原始提取物的质量，实现了样品利用的最大化。

3.2.2. 基于¹³C NMR去重处理的天然产物数据库

在执行¹³C NMR去重处理的过程中，天然产物数据库（NP DBs）扮演着至关重要的角色。这些数据库依据实验数据或预测的化学位移来构建。如果某个数据库包含了特定氘代溶剂中目标NP的实验化学位移（dC），那么利用这些数据库将显著提升匹配的精确度。尽管目前有多个NP的NMR数据库（参见第3.1.3节），但据我们所知，还没有专门针对13C NMR去重处理混合物而优化的数据库。理想的数据库应当全面、免费，并且能够以与之前讨论的工具兼容的格式提供数据。此外，它还应包含已知NP的结构信息，并允许用户根据化学分类学数据进行筛选，同时提供不同氘代溶剂中1H和13C的实验化学位移数据。值得庆幸的是，目前该领域的协作计划正在积极推进。

此外，使用预测的dC-SDF也是可行的。基于NP结构的预测，已经开发了一些商业和开放获取的工具。这些NP数据库，无论是否经过参数过滤，都可能对用户具有重要价值。如前所述（参见第3.1.3节），ACD/Labs的NMR Predictors（C, H）是一款商业软件，它在超过70%的情况下，能够将dC-SDF预测的变化控制在±1.3 ppm以内。此外，还有如nmrshiftdb2这样的免费算法可供使用。这些工具利用已知dC的大型数据库，并通过算法基于结构相似性来生成预测。例如，Kuhn和Nuzillard在2022年创建的acd_lotusv7 DB（最新版本为acd_lotusv9 DB），它与CARAMEL和MixONat兼容，源自开源的LOTUS NP结构数据库，并包含了最新版本中218,478个NP的预测dC-SDF。这项工作是对首次开放获取方法的一次重要更新，被称为天然产物预测的13C NMR数据（PNMRNP）数据库，它整合了来自UNPD和Knapsack搜索的数据。PNMRNP数据库的构建基于结构去重、生物分类学、代谢物结构知识以及它们的光谱指纹这四大支柱。

3.3

NMR与MS的应用及其必备条件

在天然产物化学研究中，核磁共振（NMR）和质谱（MS）技术的联合应用极大地促进了复杂样本中代谢物鉴定的准确性和效率。NMR以其提供分子结构的详尽信息而著称，尤其擅长解析分子间的连接关系和立体化学结构。而MS技术则凭借其精确的质量分析和碎片模式，成为结构解析的得力助手。

这两种技术的强强联合，不仅能够提升我们对代谢物结构的理解，还能有效解决分析过程中的不确定性，如区分那些结构相似的同分异构体。尽管如此，要想充分运用NMR和MS的协同效应，研究者需要对这两种技术都有深入的了解，并掌握复杂的数据分析技巧，以确保数据的准确解读和整合。

在实际应用中，选择NMR还是MS进行代谢物鉴定，往往取决于样品的可用量。NMR由于其灵敏度相对较低，通常需要较多的样品量。当样品稀缺时，MS凭借其对微量样品的分析能力，成为更合适的选择。不过，随着低温探头和微流NMR技术的发展，NMR的灵敏度得到了显著提升，使得它能够处理更小体积的样品，甚至低至微量级别，这在一定程度上弥合了NMR与MS在样品需求量上的差异。

3.4

分子网络去重复

分子网络（MN）的应用为数据去重复提供了一种新颖的方法，这一计算技术自诞生以来，极大地推动了天然产物（NP）研究的进步。

3.4.1. 定义

2012年，M. Wang等人开发的分子网络技术，为串联质谱/质谱（MS/MS）数据分析带来了革命性的变革。该技术通过将不同天然产物的离子以节点的形式呈现，并根据它们的光谱相似性通过边相互连接，从而将复杂的数据结构化、可视化。这种方法不仅有助于鉴定已知化合物、发现新的化合物类似物，还能探索复杂样本中的化学多样性。这种类型的分子网络被称为经典分子网络（CMN）。具体来说，构建LC-HRMS2数据的分子网络，需要对原始光谱数据进行处理，以识别特定天然产物对应的分子离子（节点）。然后，通过GNPS等算法将这些节点按其光谱相似度连接起来，相似度越高，连接线越粗。余弦分数是衡量两个离子碎片模式相似性的指标，其值从0（完全不同）到1（完全相同）。Cytoscape软件的使用使得网络中的分子簇可视化成为可能，这些簇代表了具有相似碎片模式的化合物。GNPS数据库可以通过与实验光谱的比对来注释天然产物，随着用户贡献的增加，数据库也在不断扩充。此外，用户还可以利用各种商业或免费的算法（如SIRIUS和MetFrag）进行实验MS2的自动比对，以进行额外的注释。通过这种传播机制，可以对分子网络中相邻的天然产物结构进行假设。

值得注意的是，除了CMN的基本概念，针对特定的研究需求和挑战，已经开发出了多种不同的分子网络方法。

3.4.2. 质谱数据驱动的分子网络多样性

3.4.2.1. 基于特征的分子网络（FBMN）

传统分子网络（CMN）主要依赖于MS/MS数据的相似性比较，可能受限于质谱聚类的一些固有限制。为解决这一问题，A. T. Aron及其同事在2017年提出了一种创新方法——基于特征的分子网络（FBMN）。FBMN通过比较具有相似MS/MS光谱但保留时间（RT）或碰撞交叉截面（CCS）不同的化合物，解决了构性异构体和立体异构体的鉴定难题。此外，FBMN通过消除重复节点，优化了数据的代表性，并提高了统计分析的准确性。FBMN的分析需要先使用MZmine、MSDIAL、MetaboScape、Progenesis QI等软件进行数据预处理，然后导出特征定量表和MS/MS光谱概要文件，上传至GNPS平台以构建FBMN。

3.4.2.2. 离子身份分子网络（IIMN）

离子身份分子网络（IIMN）作为FBMN的重要补充，由R. Schmid等人于2021年开发。在液相色谱-高分辨质谱（LC-HRMS）分析中，单一化合物可能产生多种离子形态，如[M-H]-、[M+Na]+等，在CMN或FBMN中这些形态被视作独立的节点。IIMN旨在将这些形态聚合为单一节点，这一过程称为解卷积，已被某些后处理软件如Progenesis QI集成在其分析流程中。

3.4.2.3. 基于构建块的分子网络（BBMN）

基于构建块的分子网络（BBMN）由Q.-F. He等人在2021年提出，是一种高选择性、高效率的分子网络构建策略。BBMN专注于识别源自特定生物合成途径的特征性碎片，从而筛选出具有生物合成相关性的化合物。这种方法将庞大的MS2数据转化为简洁、精准的信息，加快了数据分析的速度。

3.4.2.4. MetGem

MetGem由F. Olivon等人在2018年开发，它结合了CMN的构建和t分布随机邻域嵌入（t-SNE）的可视化技术。MetGem通过关注整体数据中的局部细节而非单个光谱间的连接来进行光谱聚类，避免了在设定相似性阈值时产生过多的自环节点或将分子家族合并的问题。尽管t-SNE方法无法提供节点间关系的具体信息，但它与GNPS的CMN余弦分数方法相辅相成。

3.4.3. 基于核磁共振数据的分子网络

尽管基于质谱的去重工作流程不断优化，成为最广泛应用的方法，但它在区分同分异构体和确保化合物全面电离方面仍有局限。

代谢组学和二维实验去重（MADbyTE），由Flores-Bocanegra等人在2021年开发，是首个基于核磁共振（NMR）的分子网络去重工具。MADbyTE算法通过异核和同核实验（HSQC和TOCSY）识别复杂混合物中的自旋系统特征，并通过化学相似性网络可视化样品间的共同特征。

3.5

基于生物活性的分子网络

基于分子网络（MN），已经开发了几种策略来快速检测复杂混合物中的（生物）活性天然产物（NPs）。可以利用如Cytoscape软件这样的工具，将（生物）化学计量学和分类学等额外信息整合到MN中。

3.5.1. 生物信息学工作流程的结合策略

L.-F. Nothias等人在2021年描述了第一种结合策略。在这项研究中，应用了一种生物信息学工作流程来发现来自Euphorbia dendroides的抗病毒化合物。在生物活性提取物的分馏步骤之后，对馏分进行了LC-MS/MS实验和生物活性评估。这允许计算基于特征离子强度与馏分生物活性水平的皮尔逊相关性的生物活性得分。随后，这些结果与MN结合，允许识别两种针对基孔肯雅病毒的生物活性化合物。该工作流程进一步成功应用于发现其他活性化合物。

3.5.2. 包含生物活性信息的分子网络

F. Olivon等人提出的另一个工作流程在MN中包括了如生物活性（IC50）和分类数据等额外信息。产生的MN能够快速检测针对Wnt途径和基孔肯雅病毒的潜在化合物。通过NMR实验对它们进行鉴定。

如上所述，MADbyTE允许基于NMR数据创建网络。该工作流程可以包括（生物）活性数据作为额外的特征。通过这种方式，它可以帮助阐明结构-活性关系，特别是当不同的自旋系统具有生物学相关性时。MADbyTE的效率在L. Flores-Bocanegra等人的研究中得到了证明。基于生物学的NMR网络允许检测和发现三种新的棕榈霉素，它们对转化生长因子-b激活的激酶1（TAK1）具有生物活性。

3.6

分子网络的高级数据分析

为协助复杂混合物中化合物的注释，已开发出多种高级分子网络分析工具，如下所示：

MolNetEnhancer
这是一个工作流程，用于通过整合MS2LDA、虚拟注释工具（如NAP或DEREPLICATOR）和ClassyFire的额外数据和信息来增强分子网络。
MS2LDA
用于识别质量碎片和/或中性损失的群组，由MotifDB支持，MotifDB是一个开放数据库，允许用户在自己的实验中高效搜索已表征的模式。
网络注释传播（NAP）
这是一种计算方法，通过从光谱库匹配传播注释来注释分子网络，以提高虚拟碎片化候选结构的排名。
DEREPLICATOR(+)
这是一个虚拟数据库搜索工具，允许使用虚拟碎片化图来注释MS/MS数据中的代谢物。
MolDiscovery
这是一种MS数据库搜索方法，通过使用学习的概率模型将小分子与它们对应的质谱匹配，从而提高小分子鉴定的效率和准确性。
数据重分析用户界面（ReDU）
这是一种基于社区的方法，通过将GNPS平台与MassIVE数据存储库链接，促进公共质谱数据的发现和重用。它允许研究人员访问、分析或将自己的数据与公共数据集成，促进协作探索。
合并网络极性
这是一种将基于质谱的实验中产生的正离子和负离子模式的分子网络结合起来的方法。
Qemistree
这是一个计算工具，基于MS/MS特征构建树，使应用基于系统发育的工具来研究样品的化学组成成为可能。

这些工具的共同目标是提高从复杂数据集中识别和注释化合物的准确性和效率，从而推动天然产物研究的进展。

四

提高代谢物坚定的确信度

在天然产物研究领域，对复杂混合物中代谢物的鉴定确信度是一个长期存在的难题。通常，新发现的天然产物（NP）会通过核磁共振（NMR）谱图、高分辨质谱（HRMS）的精确质量数据，以及红外（IR）、紫外（UV）等补充光谱数据来描述。对于那些具有手性中心的生物活性NPs，我们会尽可能通过X射线晶体学来确定它们的绝对构型，或者采用NMR基础的Mosher方法、光学旋转色散、电子圆二色谱和振动圆二色谱等替代技术来实现。

尽管我们通过综合多种方法来提高鉴定的准确性，但数据误解的风险仍然存在。因此，代谢物鉴定任务组与科学界合作，提出了一套鉴定报告的标准化标准：

级别0：明确的3D结构。当代谢物被成功分离，并且能够提供完整的立体化学信息时，我们将其定为这一级别。此时，必须根据天然产物的指南，全面解析1D和2D NMR数据。

级别1：有信心的2D结构。这意味着注释是基于与已知标准品的比较，或是基于两种正交信息（如MS/MS谱图、保留时间RT或碰撞交叉截面CCS）来确认的。这一级别仅适用于已知NPs的鉴定，并不能用于未知化合物的全面表征，后者需要更详尽的NMR数据分析。

级别2：假定结构注释。在这一级别，注释是通过将实验数据与文献或数据库中的信息进行手动或虚拟比较来完成的。必须至少有两个正交信息来支持注释，例如MS/MS和精确质量，同时需要排除所有其他可能性。

级别3：假定化合物类别。这一级别允许我们基于光谱信息进行部分结构注释。代谢物的部分匹配只能提供关于可能的异构体、化合物类别或子结构的有限信心，这意味着可能存在多个符合条件的候选结构。

级别4：未知化合物。在这一级别，我们仅有色谱或NMR数据可供分析，且这些数据无法与文献中的信息相匹配。

这五个鉴定级别的划分旨在便于研究者进行判断，但不同研究之间的注释比较依旧充满挑战。这是因为每个数据处理流程可能依赖于不同的实验设备、数据集或注释方法，这些差异使得跨研究的直接比较变得复杂。

五

总结

生物体合成了众多具有复杂化学结构的潜在生物活性天然产物（NPs）。在从这些复杂的基质中鉴定出具有生物活性的NPs时，化学计量学工具发挥着至关重要的作用，这些工具能够根据特定的研究目标进行定制。质谱（MS）和核磁共振（NMR）技术的结合，已被证明对于全面解析复杂混合物中的NPs至关重要。通过整合这两种技术的互补优势，研究人员能够更准确地鉴定和表征混合物中的化合物，从而显著提高研究的置信度。近期的研究表明，通过结合多种分析方法对NPs进行表征，可以进一步提升这些表征的准确性。

用于快速高效识别已知代谢物的数据库提供了丰富的信息，包括化学结构、光谱数据、化学性质、来源以及NPs的生物活性。这些资源不仅节省了时间和资源，尤其是在处理复杂混合物时，还加速了科研和发现的进程。这些数据库为科学家提供了一个起点，帮助他们探索具有特定性质或活性的化合物。

然而，我们必须认识到NP数据库的局限性。数据库中的信息可能是基于实验或预测的、可能不完整或过时，这要求研究人员必须批判性地评估信息，并进行多源交叉验证。不同数据库的数据质量和可靠性可能参差不齐，因此在应用这些数据时需要谨慎，并进行必要的验证。此外，有限的可访问性和数据集成的挑战也是我们必须面对的障碍。

当前算法的发展，尤其是人工智能（AI）在NP发现领域的应用，已经取得了显著进展。AI有望彻底改变这一领域，通过加速大量数据的有效分析、预测化学结构，以及从复杂混合物中识别潜在的生物活性化合物。AI还能够整合不同数据源，如基因组、化学和生物信息，为研究人员提供更深入的洞见，帮助他们理解NPs与其生物靶标的复杂相互作用。AI的应用潜力巨大，有望开辟新领域，促进一系列NPs的发现，并对制药、营养保健品和农用化学品等行业产生深远影响。

在这个气候变化和新兴病原体对人类健康和资源构成威胁的时代，天然产物化学和生物功能探索领域的专家们必须采用基于数学和计算机科学的先进工具和策略，以确保在加速研究进程的同时保持准确性。我们必须合理利用每种工具和策略的优势和局限性。本综述强调，算法和AI将在与NPs相关的领域，如化学计量学和复杂混合物的去重中发挥越来越重要的作用，以利用NPs的内在生物效应，例如识别先导结构和理解复杂的生物相互作用。这些工具并不免除研究人员对结果有效性的系统性质疑的责任。专家知识仍然是确定研究优先级和解释结果的关键因素。此外，为了提高NP领域的效率，建议研究人员参与全球范围内的光谱和生物数据共享计划，利用现有的开放数据库。研究界的这种综合方法的承诺，无疑将极大地促进NP专家的工作，更广泛地讲，也将有利于那些寄希望于这些自然资源的人类。

ACD/Labs作为一款专业的化学分析软件平台

将大数据与人工智能技术结合

在天然产物研究中提供了多方位的支持！

1、基于碳谱数据库的天然产物结构排重

基于核磁碳谱数据库检索来快速确认已知化合物的结构或者得到骨架参考信息，是目前天然产物结构解析工作中一个重要的手段，能有效提高结构定性的效率！ACD碳谱数据库已经收录了130多万的天然产物及类天然产物的核磁碳谱信息，是目前最大的天然产物核磁碳谱数据库，为天然产物的结构排重、辅助结构鉴定提供了强有力的支持！

了解更多

2、基于MS数据的天然产物识别

MS Structure ID Suite基于样品组分的高分辨质谱数据，通过Molecules Formula Generator工具快速计算化合物的精确分子组成，结合庞大的本地ChemSpider数据库进行检索，并可结合色谱保留时间参数及质谱碎片特征对候选结构进行筛选分析，以获得最优结果。

了解更多

3、人工智能助力天然产物结构解析

ACD/Structure Elucidator软件作为CASE技术应用的佼佼者，经过20多年的技术打磨及功能完善，已经为全球不同领域的用户解决了超过1000多个复杂化合物结构解析的难题，并且接近有100篇文献报道了该软件技术的应用。

另外，基于多谱图同步处理技术(NMR Sync)，ACD软件可帮助我们更快地对整套谱图进行标峰处理；基于Combined Concurrent Verification (CCV)和Unbiased Verification(UBV)技术可实现同分异构体的快速确认。软件可实现一键自动标峰、结构-谱图自动归属验证打分、一键导出详细、专业的报告等功能，为核磁解析的研究者大大提升工作效率！

了解更多

4、专业的化合物谱图数据库管理平台

对天然产物化学研究领域而言，有效地把已有的化学实验数据(尤其是化学结构、原始谱图文件等)进行电子化储存、管理，无疑对后续的实验有很大的帮助，如实现结构排重、避免重复实验、快速查询数据等。从实验室管理的角度而言，对不同实验人员产生的实验数据电子化储存的规范化、统一化也尤为重要，有利于科研数据的有效积累，形成实验室内部的知识库。ACD/Spectrus平台为此提供了强有力的帮助！

了解更多

5、基于成药性质的天然产物结构改造

ACD/Percepta从分子结构出发，可快速、准确地预测化合物的物理化学性质、 ADME/Tox 性质。用户也可以基于化合物的 ADME-Tox 性质对先导化合物进行结构优化和设计，从而得到满足成药性要求的目标物，加快新药项目研发。

ACDLabs

核磁结构定性，质谱结构定性，色谱分析方法开发，理化性质预测，药物分子设计。