中国农业科学院油料所油料品质化学与加工利用团队发表食品顶刊综述:化学计量学策略在基于LC-MS的食品代谢组学数据处理的机会和挑战

2023-12-24 14:14   湖北  

近日,中国农业科学院油料作物研究所油料品质化学与加工利用创新团队在食品顶刊Trends in food science and technology(JCR 1区,IF:15.3)上发表了题为“Analytical opportunities and challenges for data handling with chemometrics strategies from LC-MS based food metabolomics”的综述性论文。博士研究生覃佐剑为本文的第一作者,魏芳研究员为本文的通讯作者

该综述讨论了近年来化学计量学策略在食品代谢组学数据处理中的应用,并重点介绍了峰检测、保留时间校正、缺失值填充、代谢物注释等重要的数据处理步骤。此外,还针对基于化学计量学的统计学方法在食品溯源、食品安全、食品营养等方面的应用进行了全面的总结。最后强调了化学计量学结合食品代谢组学的机会和挑战,以指导未来食品代谢组学的进一步研究




一、背景介绍

近年来,食品掺假、食品安全、食品营养等食品相关主题成为研究热点,并受到越来越多的关注。先进分析技术和化学计量学方法的发展和应用,有助于这些关键问题的进一步理解。代谢组学在食品体系的应用,被定义为食品代谢组学,在食品代谢物轮廓谱分析、食品污染物分析和疾病生物标志物发现等方面展现了出巨大的潜力。相较于其它分析技术,LC-MS可以达到最好的代谢物覆盖范围,可以覆盖从极性到非极性的食品小分子分析。目前,LC-MS技术已成为食品代谢组学分析中应用最广泛的分析技术 (Roca et al., 2021)

食物代谢组的数据分析一直是一项具有挑战性的工作。基于LC-MS的食品代谢组学分析为食品样本提供了复杂的质谱信息(例如,代谢物特征、同分异构体、同位素峰、不同加合离子形式等),涉及数千种小分子代谢物。随着样本数量的增加,数据处理的难度也成倍增加。化学计量学已经成为食品组学研究中数据处理和分析的重要工具。实验设计、数据采集、数据预处理、食品代谢物注释、二级质谱库检索、统计分析和生物解释等都与化学计量学策略密切相关。本文综述了基于LC -MS的食品代谢组学数据处理中化学计量学策略和工具的进展和挑战,为食品代谢组学研究提供参考

二、基于化学计量学的食品代谢组学数据处理

Fig. 1. Typical workflow of LC-MS-based metabolomics.

在基于LC-MS的食品代谢组学研究中,典型的工作流程一般包括样品制备、数据采集、数据预处理、代谢物注释和代谢通路分析等步骤。典型的工作流程如图1所示。数据预处理、代谢物注释和代谢通路分析是代谢组学程序中最复杂的部分,需要有经验的工作人员结合化学计量学方法和生物信息学软件进行综合分析和注释,从而可以从色谱质谱数据中提取有效数据以支持分析,挖掘代谢物信息,进而以支持生物学观点。


Table. 1.Typical chemometric and bioinformatics packages in data preprocessing in food metabolomics

“⚫” indicates the software that includes the data processing function corresponding column; “-” indicates the software does not include corresponding data processing function.


Table 2 Representative compound and MS/MS databases of food metabolomics

Level 0 means the database include the stereochemistry discrimination, internal standards reference information and two of the three orthogonal parameters (MS1, RT, MS/MS); Level 1 means internal standards reference information and two of the three orthogonal parameters (MS1, RT, MS/MS) are included in the database; Level 2 means the database only includes two of the three orthogonal parameters information (MS1, RT, MS/MS) ; Level 3 means the database only includes one of the three orthogonal parameters information (MS1, RT, MS/MS); Level 4 means the database includes none of the three orthogonal parameters information (MS1, RT, MS/MS). Lipid MAPS includes comprehensive internal standards information and MS1, MS/MS for lipids and is annotated as Level 1.

基于化学计量学的算法和工具(单步和多步工具)极大地促进了复杂的食品代谢组学数据中有效信息的获取。机器学习和深度学习在数据预处理方面的应用进一步提高了代谢特征的准确性和数据结果(Melnikov et al., 2020)的可靠性MS/MS据库匹配仍然是代谢物鉴定的主要方法,基于机器学习的RT和MS/MS预测工具提高了代谢物在食品代谢物数据库中的覆盖率,增强了对未知代谢物(Silva et al , 2021 ; Wang et al , 2021)结构的表征能力此外,化学计量学结合高级工具(如分子网络技术、生化反应网络等)越来越多地被应用于未知代谢物的鉴定和注释,展现了在未知代谢物结构鉴定的潜力。


三、基于化学计量学的统计分析策略



在食品代谢组学中,不同样品组之间的生物学解释或相关性很大程度上依赖于统计分析结果,通常被定义为"化学计量学"。通常,在预处理过程后,需要对包含大量代谢物特征的多元数据进行处理,以降低数据维度,提取有价值的信息。近年来,化学计量学在食品真伪鉴别、食品溯源、食品安全与营养等领域得到了广泛的应用。总的来说,化学计量学方法在统计分析中的作用可以分为三类:( i )探索性分析,( ii )判别分析,( iii )回归分析和预测这些典型的方法如图2所示

Fig. 2. Typical chemometrics methods in data analysis. A: score plot of four- classification PLS-DA discriminant analysis. B: The display of k-NN model and the Euclidean Distance between the unknown sample and examples. C: Random Forest model includes n trees. D: Two-classification model from SVM analysis, the parts between the dashed lines represent the hyperplane of the classification. E: The display of ANN classification model, which includes input layer, hidden layer and out layer. F: DL models with input layer, multiple layer and output layer.

探索性分析又称无监督分析,是指在没有样本( Blaise et al , 2021)的真实分类标签的情况下,通过可视化工具将数据聚类成组并强调其差异性和相似性。在没有先验知识的情况下,客观探索样本与群体之间的内在相互作用。在探索性分析中,主成分分析(principal component analysis,PCA)被广泛应用于食品代谢组学数据的初步阐明,对不同样本进行分组,确定样本的稳定性和异常值。HCA是一种快速预览所有样品的有效方法,借助树状图可以清晰地阐明聚类结果。判别分析是一种具有先验知识的方法,通常用于对样本进行分组或用适当的判别函数来预测样本独立变量的类别。判别分析包括线性判别分析(LDA)偏最小二乘判别分析( PLS-DA)正交偏最小二乘判别分析(OPLS-DA)k - NN, RF, SVMs,人工神经网络(ANN)和深度学习(DL)等。在食品代谢组学中,回归分析提供了一种定量预测的方法,通常用于寻找解释变量(x),并建立多元线性模型,以最优最小协方差评估响应变量(y)。PLS-R是一种有效的方法来减少过拟合问题。其他一些回归方法,如主成分回归(PCR)支持向量机回归(SVM-R)MLR(多元线性回归)等也可用于定量预测但在实际回归分析中应用较少(Medina et al., 2019)

四、化学计量学策略结合代谢组学在食品组学中的应用


食品相关问题(如食品真实性、食品安全、食品营养等)对人类健康、营养和疾病具有潜在影响,引起了广泛的关注。食品的指纹图谱(食品组分)是其真伪、掺假、产地和质量的重要标志。结合化学计量学策略的代谢组学不仅可以进行全面的指纹图谱解析,还可以获得食品之间的显著差异,已成为解决食品相关问题的有力工具(图3)。为了全面了解LC-MS技术结合化学计量学在食品组学中的应用,我们以关键词(“chemometrics”, “food metabolomics”, “LC-MS”, “Data analysis”)检索了主流文献数据库(Pubmed, Web of Science, ScienceDirect等),并将其总结在表3中

Fig. 3. Applications of chemometrics with LC-MS based food metabolomics in foodomics, mainly involved in food authentication (food fraud and quality, food geographical origin), food safety (the analysis of pesticide residues, microbial toxin contaminants, chemical contaminants, veterinary drugs residues), food nutrition (food intervention, diet and disease, personal nutrition).


Table 3 Applications of chemometrics with food metabolomics in foodomics



五、挑战及未来展望


液相色谱-质谱联用(LC-MS)食品代谢组学的发展伴随着数据量和数据复杂度的爆发式增长目前,基于化学计量学的工具和数据库解决了食品代谢组学数据预处理中的挑战;嵌入鲁棒算法的一步或多步的数据处理工具可用于食品代谢组学数据处理由于缺乏MS/MS谱图信息基于机器学习的代谢物预测工具和化学/生物反应网络有效地增加了食品代谢物的覆盖率,提高了对未知代谢物的注释能力然而,由于食品化合物的复杂性,目前的工具和数据库还不足以对复杂未知物进行可靠的注释。目前代谢物注释的准确性和数据处理结果的可靠性仍需进一步提高(Valdés et al., 2022)同时,对于食品代谢组学庞大的实验数据,基于化学计量学的数据整合工具和方法也是必不可少的。

此外,本综述还总结了化学计量学方法结合食品代谢组学在食品掺假、食品安全、食品营养等方面的应用,突出了化学计量学方法在食品研究中的重要作用化学计量学工具的发展及应用为拓展食品科学领域的知识提供了新的可能(Chen, Li, & Xu, 2022; Ortea, 2022)然而,由于对生物系统内部发生的生物和化学过程的了解有限仍然需要开发新的化学计量学方法、改进计算工具以及补充食品代谢数据库,以便于更全面地了解食品问题中食品组分与生物系统之间的联系


本综述得到了国家自然科学基金(U21A20274),国家重点研发计划重点专项(2021YFD1600103),湖北省科技创新专项(2021BEC021),中国农业科学院农业科技创新专项(CAAS-ASTIP-2013-OCRI)等项目的资助。

END

供稿:覃佐剑

责任编辑:魏芳

论文链接:https://doi.org/10.1016/j.tifs.2023.104298


关于我们



中国农业科学院油料作物研究所油料品质化学与营养创新团队脂质分析实验室致力于突破脂质组分析所面临的生物基质复杂、脂质及其代谢产物种类繁多且结构复杂、定性和定量分析困难等共性关键技术瓶颈,建立高效,高通量的脂质组分析平台,并将该平台广泛应用于:(1)不同生物种质资源中脂质组成;(2)应用于食品安全与质量控制;(3)脂质的生物功能与营养学评价;(4)开发新的功能脂质。


脂质组分析平台:

扫码关注更多精彩

油料脂质分析实验室
中国农业科学院油料作物研究所脂质剖析与鉴定课题组致力于突破脂质组分析所面临的生物基质复杂、脂质及其代谢产物种类繁多且结构复杂、定性和定量分析困难等共性关键技术瓶颈,建立高效,高通量的脂质组分析平台。
 最新文章