在天然产物化学这一充满活力的领域,科学家们致力于从错综复杂的混合物中发掘并详细描述那些具有潜在新颖性和生物活性的代谢物。天然产物之所以备受瞩目,不仅因为它们所展现的丰富化学多样性,也因为它们与生物体之间固有的互动能力——无论是在生物体的防御机制、繁殖过程还是通讯活动中,都能找到它们的身影。正因如此,这些代谢物及其衍生物和类似物在现代医疗中占据了重要地位,广泛应用于抗癌、抗感染以及镇痛治疗领域。
随着人们对传统药用植物应用的兴趣日益增长,草药补充药物市场的扩大,天然产物也受到了更多研究者的关注。这些天然产物通常比合成化合物更易于在土壤中分解,因而在植物制药领域,它们不仅作为生物刺激剂,也被开发为生物控制剂,进行着广泛的研究。
然而,在这一研究热潮中,如何有效表征那些具有生物活性的天然产物,仍是一个巨大的挑战。为了克服这一难题,研究人员们通常会采用一种称为“生物活性导向分离”(BGF)的经典策略。这一策略包括将提取物进行一系列连续的色谱分离,随后通过生物学评估来确定活性部位。通过逐步简化提取物的复杂性,最终目标是成功分离并鉴定出一个或多个具有生物活性的代谢物(如图1所示)。
图1:天然产物结构表征流程及置信度评估示意图
尽管我们不断开发出新的技术和方法,但获取足够的样本量以分离并确定新颖或生物活性代谢物的结构,依然是一个不小的挑战。这种情况常常导致我们能够从复杂的生物基质中分离出主要的天然产物,却忽略了那些含量较少的成分。虽然一些先进的色谱技术让我们有机会从样本中提取出少量(毫克级别)且纯度足够的次要代谢物,但这些微量的样本给精确的光谱分析带来了不小的难度。特别是对于那些具有多个不对称中心的天然产物来说,确定它们的相对或绝对构型更是一项复杂而艰巨的工作。
在生物活性导向分离的过程中,核磁共振(NMR)技术扮演着关键角色,它不仅能够表征新发现的生物活性天然产物(NPs),也能验证潜在活性代谢物的结构。为了更全面地理解这些分子,我们通常会借助高分辨率质谱(HRMS)分析来确定它们的精确分子式。当目标化合物能够结晶时,X射线晶体学则为我们提供了一种强有力的工具,用于解析其三维结构(如图1(3)所示)。然而,尽管这些分析方法极为强大,它们也需要足够的时间、大量的有机溶剂和足够的样本量。特别是对于样本量较少的情况,进行13C NMR、DEPT以及二维NMR实验将变得更加费时费力。
为了提升从复杂样本中早期鉴定次级活性天然产物的能力,近年来,科研人员开发了一系列创新策略,其中包括(生物)化学计量学方法。这些方法通过统计分析的手段,致力于从分析数据集中提取尽可能多的关键信息。这种方法一般在初步的分离步骤之后应用,以便在鉴定流程的早期阶段快速锁定潜在的活性成分。
尽管(生物)化学计量学能够从复杂的混合物或分馏物中筛选出一系列潜在的活性化合物,但它并不用于对这些化合物进行最终的鉴定和结构解析(参见图1(7))。为了加快这一进程,研究人员已经沿用了数十年的去重复策略。所谓的去重复,是指从复杂的混合物中快速识别出之前文献中已有报道的代谢物。许多数据库都能够助力这一过程,显著缩短已知化合物结构解析的时间。2019年,Wolfender等科学家就精心整理了一份全面的天然产物数据库清单。
在天然产物的注释工作中,化学分类学——即根据生物体合成的天然产物来对生物进行分类——有助于建立分类学上的联系。鉴于这些数据库可能包含大量的天然产物信息,Cordonnier等研究人员最近提出了基于化学分类学数据创建定制数据库的想法。此外,那些包含已知生物活性数据的数据库也能够加快和改善天然产物的注释工作。实际操作中,去重复分析可以基于实验获得的高分辨率质谱(HRMS)或核磁共振(NMR)数据,或者是基于理论预测数据。目前,质谱的碎片模式或核磁共振的化学位移可以被相当准确地预测。
近年来,分子网络分析作为一种极为有效的工具,由M. Wang等人在2012年提出。这种创新的计算机辅助方法使得串联质谱(MS/MS)数据的可视化和整理成为可能。利用全球天然产物社会分子网络(GNPS)等开放获取平台上的实验光谱库,我们可以在整个分子网络上传播代谢物的注释。此外,通过如Cytoscape这样的开源软件,我们还能将获得的分子网络通过添加生物学、分类学、光谱学、统计学等多元化信息进一步丰富。
令人感兴趣的是,众多成功的研究已经实现了分子网络与(生物)化学计量学的结合。这样,我们就可以从复杂的混合物(提取物或分馏物)中迅速标记出潜在的活性代谢物,并通过这些综合工作流程进行初步的注释。
依据代谢组学学会所设定的标准,这些化合物的鉴定置信度主要取决于可用信息的量和性质,即分析数据。作为首选的结构鉴定方法,我们通常对复杂混合物执行一维和二维核磁共振(NMR)实验,并结合高分辨率质谱(HRMS)数据来确定精确的质量和分子式。
然而,根据研究目标的不同,我们并不总是需要最高的结构鉴定置信度。在快速鉴定复杂混合物中已知化合物方面,现代综合方法(例如基于生物活性的分子网络)可能不如单一分离化合物的数据可靠。但如果我们的主要目标是避免重复分离那些已经被描述过结构和/或生物活性的天然产物,这种策略可以通过有选择性地关注感兴趣的天然产物来节省宝贵的时间。
在工具开发(包括软件、算法和数据库)的推动下,近年来涌现出不少综述性文献,全面总结了当下可用的工具与策略。基于此,本综述的目的在于提供一个新的视角,通过审视现有文献资料,并特别关注2019年以后新出现的策略,来更新这一领域的进展。
因此,本文重点介绍了一种新颖的思考方式,即通过一系列基础性研究,实现对复杂混合物中(生物)活性天然产物(NPs)的快速优先排序和鉴定。在第一部分中,我们详细介绍了最常用的统计工具和(生物)化学计量学分析方法,特别强调了主成分分析(PCA)、偏最小二乘法(PLS)、正交偏最小二乘法(OPLS)以及结合多重统计模型的综合工作流程。
随后,我们定义了质谱(MS)和核磁共振(NMR)去重复工具,并探讨了这些工具与化学计量学方法结合使用的情况。最后,我们讨论了基于所选择的不同方法的置信度水平。需要说明的是,由于研究所涉猎的范围非常广泛,本综述并非面面俱到,我们对可能遗漏的某些研究贡献表示歉意。
略
自1990年引入以来,去重复已成为研究人员在分离潜在(生物)活性天然产物(NPs)之前广泛使用的一种策略,以减少传统方法所需的时间。这一策略有助于快速注释复杂混合物(提取物或分数)中的已知化合物。这得益于专门的算法或软件,它们将获取的数据与实验或预测数据库中的数据进行比较。
由于简单的UV或DAD检测系统提供的有限结构信息,通常需要更强大的仪器来支持去重复策略。其中,质谱(MS)和核磁共振(NMR)仪器是最广泛使用的。这两种互补方法的优势和局限性在表2中概述。值得注意的是,基于MS2和分子网络(MN)数据的去重复策略目前正在被研究人员广泛探索。
考虑到这一点,本节重点介绍了近年来开发的MS和NMR去重复方法。随后,将定义MN及其不同的构建和可视化方式,并进行讨论。
3.1.1.数据采集、软件和后处理策略
在处理HRMS检测器生成的数据之前,自动采集所有检测到的代谢物的MS/MS谱图是必要的。主要使用的两种策略是数据依赖采集(DDA)和数据独立采集(DIA)。
在DDA模式下,前体离子在扫描事件中被选择,并在随后的MS/MS中通过碰撞诱导解离(CID)或高碰撞解离(HCD)进行碎片化。DDA通过基于预定义的标准(如强度阈值和选定前体离子的数量或动态排除)来启动碎片化。
在DIA模式下,MS/MS谱图不包含选定前体离子的信息。MS扫描中检测到的所有离子都在预定义的范围内被碎片化,提供全扫描MS/MS谱图。这种自动化采集模式可以在包括MSE(Waters Corporation)、全离子MS/MS碎片化(AIF, Agilent Technologies)、宽带CID(bbCID, Bruker)、多重MS/MS数据独立采集(MSX-DIA; ThermoFisher Scientific)或顺序窗口采集所有理论质谱(SWATH; Sciex)在内的多个HRMS仪器上操作。然而,这些采集模式中的产离子是混合的,与DDA不同,挑战在于产生清晰的去卷积MS/MS谱图,这些谱图与其前体离子相关联。
获取数据后,必须在进入代谢物注释工作流程之前处理MS和MS/MS数据。一些最常用的商业程序包括UNIFI(Waters)、Progenesis QI(Nonlinear Dynamics)、MetaboScape(Bruker)、MassHunter Profiler(Agilent)、Profiling Solution(Shimadzu)和Compound Discoverer(ThermoFisher)。另外,开源软件MZmine(用于DIA模式)和MSdial(用于DDA模式)也可以使用。
这些MS数据处理软件包执行几个关键步骤来提高数据质量并为进一步分析做好准备,包括对齐、噪声过滤、峰值检测、去同位素和去卷积。对齐通过校正RT或m/z值中的系统偏移,确保准确比较。噪声过滤消除随机噪声并提高信噪比。峰值检测基于其强度和形状识别和定位感兴趣的峰。去同位素去除非同位素峰,简化数据。去卷积解决重叠峰并分离共洗脱的化合物。这些后处理步骤提高了数据质量,增强了峰值检测,并为后续分析提供了精炼的数据集。
3.1.2. 用于质谱去重处理的天然产物实验数据库
在完成数据后处理之后,可以立即启动代谢物注释过程。这个过程始于应用去重策略,该策略在识别复杂混合物中的已知未知化合物中起着至关重要的作用,为我们提供了宝贵的洞见。实验数据库主要分为两种类型:内部MS/MS数据库和更广泛的共享MS/MS数据库。
一方面,内部MS/MS数据库由实验室创建,包含了在特定实验条件下获得的分离天然化合物或混合物的MS/MS谱图。这些数据库可以针对研究兴趣或样本类型进行定制,研究人员可以控制数据质量,并能持续更新和扩展数据库。然而,内部数据库可能存在覆盖范围有限和需要验证多种已知化合物的识别等局限性。
另一方面,更广泛的共享实验MS/MS数据库则汇集了来自不同来源的谱图,包括文献报告和社区贡献。商业实验数据库的例子包括美国国家标准与技术研究院(NIST)数据库、METLIN、mzCloud、MassBank和全球天然产物社交分子网络(GNPS)。这些数据库是开放获取的,受益于社区贡献,促进了可访问性和知识共享。然而,这些数据库的主要缺点是MS/MS谱图是在不同的仪器和变化的实验设置下获得的。此外,仪器特定的概念,如电离源(例如,电喷雾(ESI)、大气压化学电离(APCI)或基质辅助激光解吸电离(MALDI))可能促进或抑制某些化合物的电离,这严重损害了可交换MS/MS数据集的创建。
3.1.3. 理论天然产物数据库的虚拟碎片化工具
鉴于前述挑战,研究人员开发了一系列虚拟碎片化工具,包括MS-FINDER、CFM-ID、MetFrag、CSI:FingerID,以及由Advanced Chemistry Development, Inc.(ACD/Labs)提供的商业化工具MS Fragmenter。这些工具通过分析结构数据库中的化合物,并反复模拟化学键断裂过程,生成可能的碎片列表,然后将这些碎片与质谱/质谱(MS/MS)数据中的离子进行匹配,以实现化合物的注释。
以下是一些已知的、提供天然产物(NPs)结构下载的数据库的非穷尽列表:
《天然产物字典》(Dictionary of Natural Products, DNP):
这是目前业界公认的最全面数据库之一,收录了超过300,000种来自植物、动物和微生物的天然产物。用户可以通过支付费用来下载这些天然产物的结构数据。
Reaxys 和 SciFinder:
这两个商业数据库各自包含了超过220,000种天然产物的详细资料。用户在购买相应的访问权限后,即可查询和研究这些天然产物的结构信息。
通用天然产物数据库(Universal Natural Products Database, UNPD):
收录了超过229,000种天然产物,并提供了3D结构模型和可下载的分子描述信息。
开放天然产物集合(Collection of Open Natural Products, COCONUT):
汇集了来自多个可访问数据库的超过411,000种天然产物。
LOTUS:
一个动态的、协作式的数据库,支持结构搜索和基于分类学的查询。
虚拟MS/MS数据库(In silico MS/MS DataBase, ISDB)
包含超过170,000种天然产物及其正模式下的MS/MS谱图。
为了提升注释的准确性,研究人员可以对这些数据库应用各种筛选条件,如物种、属和植物科等。尽管如此,虚拟碎片化算法的精确度仍有待提高。据研究显示,目前仅有17-25%的化合物能够通过这些算法被准确识别(其中CFM-ID是单个工具中表现最好的)。不过,通过结合虚拟碎片化算法和化合物的特定信息(例如保留时间RT、分子式和碰撞交叉截面CCS值),可以显著提高识别的准确率。
在传统NMR分析中,描述一个新的代谢物需要一套完整的1D和2D数据,如1H、13C、DEPT、COSY、HSQC和HMBC。借助纯化的NP样品和高性能的NMR设备,可以迅速完成实验。然而,样品的纯化过程可能既耗时又费力,并可能导致重复分离已知的NP。在样品量有限的情况下,结构阐明过程可能变得尤为漫长。幸运的是,基于人工智能的工具如今能够显著加速并改进基于NMR数据的NP结构解析。例如,基于HSQC相关性的新型小分子精确识别技术(SMART 2.0),以及使用先进计算方法确定实验信息与候选分子计算磁张量之间相关性的DP4+。此外,还开发了专门用于复杂混合物去重的工具,这些工具能够在不经纯化的情况下提出结构假设,避免了重复分离已知结构和/或生物活性的NP。
在一维NMR中,1H NMR由于其高灵敏度而被广泛应用于代谢组学研究。尽管如此,1H NMR在注释单个化合物时存在一定的局限性,尤其是当需要使用加载图进行注释时。在仅基于1H NMR的代谢组学研究中,区分主要代谢物(如糖、脂肪酸和氨基酸)和次级/特殊代谢物(即NPs)是一个挑战,这通常需要与实验化学位移进行比较来实现。因此,1H NMR很少单独用于注释,通常与质谱(MS)等其他方法结合使用。到目前为止,还没有开发出能够以高置信度注释NPs的1H NMR去重工作流程。
相比之下,13C NMR由于其天然丰度低和旋磁比低,灵敏度相对较弱。但它能够识别所有有机化合物,包括那些质子较少的化合物(例如,没食子酸)。13C NMR揭示了比1H NMR更多的结构信息,并能够区分某些异构体。在进行1H-解耦的13C-NMR实验时,化学位移重叠的风险较小,且受实验条件的影响也较小,尤其是氘代溶剂的选择。因此,基于13C NMR的去重方法和算法变得越来越重要,这些方法和算法已经发展了40多年。最近,这种方法已经进一步扩展到二维NMR实验中。
3.2.1. 基于13C NMR的去重策略及相关工具
2017年见证了一项创新的化学分析技术的诞生——CARAMEL,这是一种计算机辅助的13C NMR方法,专为粗提物的化学分析设计。CARAMEL通过层次聚类分析(HCA)将13C NMR谱图中的化学位移(dC)进行有序组织,并以簇的形式可视化展示。每个簇代表特定天然产物(NP)的化学位移特征。这一过程利用了包含预选NP结构数据和丰富元数据(包括名称、13C化学位移、分子量和化学分类信息)的SDF数据库,并通过ACD/Labs的C+H Predictors和DB软件进行处理。通过将实验测得的dC与数据库中的数据进行比对,可以准确地将NP归类到特定的NMR化学位移簇中。
进入2020年,A. Brugui`ere及其同事推出了另一种基于13C NMR的去重工具——MixONat。这款免费软件能够对混合物进行去重,不仅基于传统的13C NMR谱图,还可以结合DEPT-135和-90谱图来区分不同类型的碳环境(如CH3、CH2、CH和Cq)。在这一去重过程中,碳的多重性作为关键的区分标准。这一方法依赖于一个包含预测和/或实验dC-SDF数据的数据库,这些数据按碳类型进行分类。Nuzillard在2021年首次提出的Knapsack搜索算法,利用LOTUS数据库或ACD/Labs的NMR predictors (C, H)软件或nmrshiftdb2,大大简化了这一任务。用户可以根据自定义参数进一步细化搜索结果,以提高去重的准确性和效率。
采用这两种先进的策略,我们已不再必须通过分离复杂混合物中的单一天然产物(NP)来验证已知化合物的存在。这些方法使我们能够迅速识别提取物中的关键NP,而不会损失任何样品。这样,在完成鉴定过程后,我们能够回收全部原始提取物的质量,实现了样品利用的最大化。
3.2.2. 基于13C NMR去重处理的天然产物数据库
在执行13C NMR去重处理的过程中,天然产物数据库(NP DBs)扮演着至关重要的角色。这些数据库依据实验数据或预测的化学位移来构建。如果某个数据库包含了特定氘代溶剂中目标NP的实验化学位移(dC),那么利用这些数据库将显著提升匹配的精确度。尽管目前有多个NP的NMR数据库(参见第3.1.3节),但据我们所知,还没有专门针对13C NMR去重处理混合物而优化的数据库。理想的数据库应当全面、免费,并且能够以与之前讨论的工具兼容的格式提供数据。此外,它还应包含已知NP的结构信息,并允许用户根据化学分类学数据进行筛选,同时提供不同氘代溶剂中1H和13C的实验化学位移数据。值得庆幸的是,目前该领域的协作计划正在积极推进。
此外,使用预测的dC-SDF也是可行的。基于NP结构的预测,已经开发了一些商业和开放获取的工具。这些NP数据库,无论是否经过参数过滤,都可能对用户具有重要价值。如前所述(参见第3.1.3节),ACD/Labs的NMR Predictors(C, H)是一款商业软件,它在超过70%的情况下,能够将dC-SDF预测的变化控制在±1.3 ppm以内。此外,还有如nmrshiftdb2这样的免费算法可供使用。这些工具利用已知dC的大型数据库,并通过算法基于结构相似性来生成预测。例如,Kuhn和Nuzillard在2022年创建的acd_lotusv7 DB(最新版本为acd_lotusv9 DB),它与CARAMEL和MixONat兼容,源自开源的LOTUS NP结构数据库,并包含了最新版本中218,478个NP的预测dC-SDF。这项工作是对首次开放获取方法的一次重要更新,被称为天然产物预测的13C NMR数据(PNMRNP)数据库,它整合了来自UNPD和Knapsack搜索的数据。PNMRNP数据库的构建基于结构去重、生物分类学、代谢物结构知识以及它们的光谱指纹这四大支柱。
在天然产物化学研究中,核磁共振(NMR)和质谱(MS)技术的联合应用极大地促进了复杂样本中代谢物鉴定的准确性和效率。NMR以其提供分子结构的详尽信息而著称,尤其擅长解析分子间的连接关系和立体化学结构。而MS技术则凭借其精确的质量分析和碎片模式,成为结构解析的得力助手。
这两种技术的强强联合,不仅能够提升我们对代谢物结构的理解,还能有效解决分析过程中的不确定性,如区分那些结构相似的同分异构体。尽管如此,要想充分运用NMR和MS的协同效应,研究者需要对这两种技术都有深入的了解,并掌握复杂的数据分析技巧,以确保数据的准确解读和整合。
在实际应用中,选择NMR还是MS进行代谢物鉴定,往往取决于样品的可用量。NMR由于其灵敏度相对较低,通常需要较多的样品量。当样品稀缺时,MS凭借其对微量样品的分析能力,成为更合适的选择。不过,随着低温探头和微流NMR技术的发展,NMR的灵敏度得到了显著提升,使得它能够处理更小体积的样品,甚至低至微量级别,这在一定程度上弥合了NMR与MS在样品需求量上的差异。
分子网络(MN)的应用为数据去重复提供了一种新颖的方法,这一计算技术自诞生以来,极大地推动了天然产物(NP)研究的进步。
3.4.1. 定义
3.4.2. 质谱数据驱动的分子网络多样性
3.4.2.1. 基于特征的分子网络(FBMN)
传统分子网络(CMN)主要依赖于MS/MS数据的相似性比较,可能受限于质谱聚类的一些固有限制。为解决这一问题,A. T. Aron及其同事在2017年提出了一种创新方法——基于特征的分子网络(FBMN)。FBMN通过比较具有相似MS/MS光谱但保留时间(RT)或碰撞交叉截面(CCS)不同的化合物,解决了构性异构体和立体异构体的鉴定难题。此外,FBMN通过消除重复节点,优化了数据的代表性,并提高了统计分析的准确性。FBMN的分析需要先使用MZmine、MSDIAL、MetaboScape、Progenesis QI等软件进行数据预处理,然后导出特征定量表和MS/MS光谱概要文件,上传至GNPS平台以构建FBMN。
3.4.2.2. 离子身份分子网络(IIMN)
3.4.2.3. 基于构建块的分子网络(BBMN)
3.4.2.4. MetGem
3.4.3. 基于核磁共振数据的分子网络
尽管基于质谱的去重工作流程不断优化,成为最广泛应用的方法,但它在区分同分异构体和确保化合物全面电离方面仍有局限。
代谢组学和二维实验去重(MADbyTE),由Flores-Bocanegra等人在2021年开发,是首个基于核磁共振(NMR)的分子网络去重工具。MADbyTE算法通过异核和同核实验(HSQC和TOCSY)识别复杂混合物中的自旋系统特征,并通过化学相似性网络可视化样品间的共同特征。
基于分子网络(MN),已经开发了几种策略来快速检测复杂混合物中的(生物)活性天然产物(NPs)。可以利用如Cytoscape软件这样的工具,将(生物)化学计量学和分类学等额外信息整合到MN中。
3.5.1. 生物信息学工作流程的结合策略
3.5.2. 包含生物活性信息的分子网络
F. Olivon等人提出的另一个工作流程在MN中包括了如生物活性(IC50)和分类数据等额外信息。产生的MN能够快速检测针对Wnt途径和基孔肯雅病毒的潜在化合物。通过NMR实验对它们进行鉴定。
如上所述,MADbyTE允许基于NMR数据创建网络。该工作流程可以包括(生物)活性数据作为额外的特征。通过这种方式,它可以帮助阐明结构-活性关系,特别是当不同的自旋系统具有生物学相关性时。MADbyTE的效率在L. Flores-Bocanegra等人的研究中得到了证明。基于生物学的NMR网络允许检测和发现三种新的棕榈霉素,它们对转化生长因子-b激活的激酶1(TAK1)具有生物活性。
为协助复杂混合物中化合物的注释,已开发出多种高级分子网络分析工具,如下所示:
MolNetEnhancer
这是一个工作流程,用于通过整合MS2LDA、虚拟注释工具(如NAP或DEREPLICATOR)和ClassyFire的额外数据和信息来增强分子网络。
MS2LDA
用于识别质量碎片和/或中性损失的群组,由MotifDB支持,MotifDB是一个开放数据库,允许用户在自己的实验中高效搜索已表征的模式。
网络注释传播(NAP)
这是一种计算方法,通过从光谱库匹配传播注释来注释分子网络,以提高虚拟碎片化候选结构的排名。
DEREPLICATOR(+)
这是一个虚拟数据库搜索工具,允许使用虚拟碎片化图来注释MS/MS数据中的代谢物。
MolDiscovery
这是一种MS数据库搜索方法,通过使用学习的概率模型将小分子与它们对应的质谱匹配,从而提高小分子鉴定的效率和准确性。
数据重分析用户界面(ReDU)
这是一种基于社区的方法,通过将GNPS平台与MassIVE数据存储库链接,促进公共质谱数据的发现和重用。它允许研究人员访问、分析或将自己的数据与公共数据集成,促进协作探索。
合并网络极性
这是一种将基于质谱的实验中产生的正离子和负离子模式的分子网络结合起来的方法。
Qemistree
这是一个计算工具,基于MS/MS特征构建树,使应用基于系统发育的工具来研究样品的化学组成成为可能。
在天然产物研究领域,对复杂混合物中代谢物的鉴定确信度是一个长期存在的难题。通常,新发现的天然产物(NP)会通过核磁共振(NMR)谱图、高分辨质谱(HRMS)的精确质量数据,以及红外(IR)、紫外(UV)等补充光谱数据来描述。对于那些具有手性中心的生物活性NPs,我们会尽可能通过X射线晶体学来确定它们的绝对构型,或者采用NMR基础的Mosher方法、光学旋转色散、电子圆二色谱和振动圆二色谱等替代技术来实现。
尽管我们通过综合多种方法来提高鉴定的准确性,但数据误解的风险仍然存在。因此,代谢物鉴定任务组与科学界合作,提出了一套鉴定报告的标准化标准:
生物体合成了众多具有复杂化学结构的潜在生物活性天然产物(NPs)。在从这些复杂的基质中鉴定出具有生物活性的NPs时,化学计量学工具发挥着至关重要的作用,这些工具能够根据特定的研究目标进行定制。质谱(MS)和核磁共振(NMR)技术的结合,已被证明对于全面解析复杂混合物中的NPs至关重要。通过整合这两种技术的互补优势,研究人员能够更准确地鉴定和表征混合物中的化合物,从而显著提高研究的置信度。近期的研究表明,通过结合多种分析方法对NPs进行表征,可以进一步提升这些表征的准确性。
用于快速高效识别已知代谢物的数据库提供了丰富的信息,包括化学结构、光谱数据、化学性质、来源以及NPs的生物活性。这些资源不仅节省了时间和资源,尤其是在处理复杂混合物时,还加速了科研和发现的进程。这些数据库为科学家提供了一个起点,帮助他们探索具有特定性质或活性的化合物。
然而,我们必须认识到NP数据库的局限性。数据库中的信息可能是基于实验或预测的、可能不完整或过时,这要求研究人员必须批判性地评估信息,并进行多源交叉验证。不同数据库的数据质量和可靠性可能参差不齐,因此在应用这些数据时需要谨慎,并进行必要的验证。此外,有限的可访问性和数据集成的挑战也是我们必须面对的障碍。
当前算法的发展,尤其是人工智能(AI)在NP发现领域的应用,已经取得了显著进展。AI有望彻底改变这一领域,通过加速大量数据的有效分析、预测化学结构,以及从复杂混合物中识别潜在的生物活性化合物。AI还能够整合不同数据源,如基因组、化学和生物信息,为研究人员提供更深入的洞见,帮助他们理解NPs与其生物靶标的复杂相互作用。AI的应用潜力巨大,有望开辟新领域,促进一系列NPs的发现,并对制药、营养保健品和农用化学品等行业产生深远影响。
在这个气候变化和新兴病原体对人类健康和资源构成威胁的时代,天然产物化学和生物功能探索领域的专家们必须采用基于数学和计算机科学的先进工具和策略,以确保在加速研究进程的同时保持准确性。我们必须合理利用每种工具和策略的优势和局限性。本综述强调,算法和AI将在与NPs相关的领域,如化学计量学和复杂混合物的去重中发挥越来越重要的作用,以利用NPs的内在生物效应,例如识别先导结构和理解复杂的生物相互作用。这些工具并不免除研究人员对结果有效性的系统性质疑的责任。专家知识仍然是确定研究优先级和解释结果的关键因素。此外,为了提高NP领域的效率,建议研究人员参与全球范围内的光谱和生物数据共享计划,利用现有的开放数据库。研究界的这种综合方法的承诺,无疑将极大地促进NP专家的工作,更广泛地讲,也将有利于那些寄希望于这些自然资源的人类。
ACD/Labs作为一款专业的化学分析软件平台
将大数据与人工智能技术结合
在天然产物研究中提供了多方位的支持!
基于核磁碳谱数据库检索来快速确认已知化合物的结构或者得到骨架参考信息,是目前天然产物结构解析工作中一个重要的手段,能有效提高结构定性的效率!ACD碳谱数据库已经收录了130多万的天然产物及类天然产物的核磁碳谱信息,是目前最大的天然产物核磁碳谱数据库,为天然产物的结构排重、辅助结构鉴定提供了强有力的支持!
MS Structure ID Suite基于样品组分的高分辨质谱数据,通过Molecules Formula Generator工具快速计算化合物的精确分子组成,结合庞大的本地ChemSpider数据库进行检索,并可结合色谱保留时间参数及质谱碎片特征对候选结构进行筛选分析,以获得最优结果。
ACD/Structure Elucidator软件作为CASE技术应用的佼佼者,经过20多年的技术打磨及功能完善,已经为全球不同领域的用户解决了超过1000多个复杂化合物结构解析的难题,并且接近有100篇文献报道了该软件技术的应用。
另外,基于多谱图同步处理技术(NMR Sync),ACD软件可帮助我们更快地对整套谱图进行标峰处理;基于Combined Concurrent Verification (CCV)和Unbiased Verification(UBV)技术可实现同分异构体的快速确认。软件可实现一键自动标峰、结构-谱图自动归属验证打分、一键导出详细、专业的报告等功能,为核磁解析的研究者大大提升工作效率!
对天然产物化学研究领域而言,有效地把已有的化学实验数据(尤其是化学结构、原始谱图文件等)进行电子化储存、管理,无疑对后续的实验有很大的帮助,如实现结构排重、避免重复实验、快速查询数据等。从实验室管理的角度而言,对不同实验人员产生的实验数据电子化储存的规范化、统一化也尤为重要,有利于科研数据的有效积累,形成实验室内部的知识库。ACD/Spectrus平台为此提供了强有力的帮助!
ACD/Percepta从分子结构出发,可快速、准确地预测化合物的物理化学性质、 ADME/Tox 性质。用户也可以基于化合物的 ADME-Tox 性质对先导化合物进行结构优化和设计,从而得到满足成药性要求的目标物,加快新药项目研发。