大家好,本周分享一篇2024年发表在Trends in Food Science & Technology(IF 15.3)的文章,题目为“Unveiling the chemical complexity of food-risk components: A comprehensive data resource guide in 2024”。该研究的通讯作者为瑞士苏黎世联邦理工学院环境工程系的张大川博士。
简介
随着气候变化、环境污染、全球工业化和新农业实践的影响,越来越多的具有潜在风险的化学物,包括人源化学物质和生物源化学物质,进入食品供应链,对食品安全和保障提出了新的挑战。尽管一些食品风险成分(Food Risk Components,FRCs)已经被获取和监管,但食品中检测到的大量成分的毒性和暴露水平仍然未知,它们对食品安全的影响仍然存在疑问。因此,已经构建了多个关于新兴FRC的数据库,以帮助进行食品安全评估、监管和沟通;然而,其关注领域、数据内容、质量、可获取性等尚未得到系统总结,阻碍了这些数据库的应用。
本综述的主要目的是介绍具有代表性的不同关注领域的FRC数据库,以及它们的化学表示、数据质量和可用性以及成功的应用。
背景介绍
食品风险成分( FRCs )引发全球关注,造成贸易障碍,危害公共健康和食品系统弹性。FRCs包括人为和生物来源的化学物质,如农药残留、环境污染物、非法或有风险的添加剂、生物来源的食品毒素等。据世界卫生组织( WHO )估计,受FRC污染的食品导致每10个人中就有1人患病,每年造成42万人死亡。随着全球工业化的进程以及随之而来的环境污染,如金属的开采和冶炼、工业废水的排放、固体废弃物的堆放、农药的使用等,食品中检测到的人为污染物的数量持续上升。
除人为污染物外,存在于动植物体内或由真菌和细菌产生的生物毒素也会对人类健康产生不利影响。真菌毒素是次级毒性真菌代谢产物,主要由曲霉属( Aspergillus )、镰刀菌属( Fusarium )、链格孢属( Alternaria )和青霉属( Penicillium )的真菌产生,可引起食品、蔬菜和水果的污染。细菌毒素是细菌产生的能够影响细胞外基质和细胞膜的毒性分子、多肽和蛋白质。可食用的植物中也可能含有某些有毒的代谢产物,如马铃薯中的糖苷生物碱和鱼薄荷中的马兜铃酸,可引起肝脏和肾脏损伤等健康风险。此外,动物产品中存在的一些多肽和蛋白质会干扰人体新陈代谢中的关键酶、受体和离子通道的活性,并对体内平衡和神经心血管系统造成损害。
不仅如此,食品掺假造假也会影响食品的安全性。美国食品制造商协会估计,全球每年的食品欺诈和掺假成本在100亿至150亿美元之间,约占所有商业食品销售额的10% 。在掺假活动中,常将不在允许范围内的低质原料和非法添加物非法添加到食品中,以延长货架期、增强色泽、掩盖不愉快的风味、改善外观和质地。此外,食品添加剂的不当使用也会引入潜在风险。
随着对FRC管理和评估的变化,积累了大量的数据,从而建立了FRC数据库。这些数据库主要包括三类:标准的、大规模的通用科学数据库和特定领域的科学数据库。(1)标准数据库,如WHO / FAO食品添加剂法典通用标准在线数据库,通常由国际组织或监管机构主导,记录FRCs的法规和标准。(2)大型通用数据库,如ToxCast ,包含了众多化学物质的数据,其中一些数据与食品安全相关。(3)特定领域的科学数据库,如AdditiveChem 为特定的领域和定制的功能提供了高质量的数据,用于数据的查询和分析。这些数据库已被广泛用于政策制定、科学研究和教育,并促进了数据驱动方法的发展,包括计算毒理学、食品信息学和新兴的基于人工智能( AI )的方法。
然而,数据驱动方法的快速发展也对FRC数据的质量和全面性提出了更高的要求,因为错误或有偏的数据可能导致不可靠的模型和研究结论。随着多组学方法的快速发展,除了已被列入FRC法规和科学数据库中研究成熟的FRC外,新兴的FRC也在食品中被检测到,并在出版物中被报道。那些以前被忽视的FRCs也可能导致负面的健康影响。由于分子结构的改变,它们在靶向检测中通常被忽视,从而影响膳食暴露评估的结果。这些被掩盖的FRCs通常比其天然形式具有更高的吸收和生物利用度,并可能在肠道微生物的作用下转化为毒性更强的形式,从而导致健康影响。基于数据驱动的方法,如自然语言处理(NLP) 、化学信息学、基因组挖掘等,已被用于识别新兴FRC,填补食品安全数据库中的数据空白,取得了比传统方法更好的效率。
Fig. 1. 食品风险成分数据库的开发与应用
食品风险成分数据库及其应用
从Web of Science、PubMed和Google Scholar中检索了与FRC数据相关的出版物。对于没有产生科学出版物的FRC,从Google和Bing中检索数据。最后,检索了50个FRC数据库,其中11个关于农药和兽药残留;5项是关于食品掺假和非法添加物;10项是关于食品添加剂;4种为食品接触材料;8种为生物毒素;其中12个为整合数据库,包含多种FRC类型。
表1. 具有代表性的食品风险成分数据库
Fig. 2. 具有代表性的食品风险成分数据库时间表。颜色代表数据库的类型。注:ToxCast, Toxicity ForeCaster; DSSTox, Distributed Structure-Searchable Toxicity; Tox21, The Toxicology in the 21st Century; GEMS, Global Environment Monitoring System; CONT11, 11 food contaminants; MRL, Maximum Residue Limits; RASFF, The Rapid Alert System for Food and Feed; EMA, Economically Motivated Adulteration; FADB, Food Adulteration Database; FOCUS-DB, Food-Additive-Consumption-Safety Database; FCCdb, The Food Contact Chemicals database; FCCmigex, Migrating and Extractable Food Contact Chemicals; DBETH, Database for Bacterial ExoToxins; TPPT, Toxic Plants – Phytotoxin; ATDB, the Animal Toxin Database; KEGG, Kyoto Encyclopedia of Genes and Genomes; T3DB, The Toxin and Toxin Target Database; FRCD, Food Risk Component Database; JMPR, The Joint FAO/WHO Meeting on Pesticide Residues; MSDVDR, Mass Spectral Database of Veterinary Drug Residues; CAC, Codex Alimentarius Commission; GRAS, Generally Recognized as Safe; SCOGS, Select Committee on GRAS Substances; FEMA, The Flavor and Extract Manufacturers Association of the United States; JECFA, The Joint FAO/WHO Expert Committee on Food Additives; GSFA, Codex General Standard for Food Additives; USP, US Pharmacopeia; FDA, Food and Drug Administration; EURL-FCM, The European Union Reference Laboratory for Food Contact Materials.
食品风险成分数据库使用的化学标识符和表示方法
FRC结构的图像通常出现在在线的FRC数据库中。然而,过大的数据量使得这类图像不适合共享、传输或检索信息。为了加快信息的共享,各种化学标识/表示被提出。在此,介绍了FRC数据库广泛使用的四种类型的化学表示方法,以帮助研究人员组织和使用数据,并评估FRC数据库的数据标准化和质量。这些介绍包括来自国际纯粹与应用化学联合会( IUPAC )的名称、IUPAC国际化学标识符( InChI )、化学文摘服务( CAS )注册号和简化分子线性输入规范( SMILES )。表2给出了常见的FRC及其标识符列表以及SMILES的基本用法。
表2. 食品风险成分的化学表示法。注:SMILES, simplified molecular-input line-entry system; FRC, food risk component; InChI, International Chemical Identifier; IUPAC, International Union of Pure and Applied Chemistry; CAS, Chemical Abstracts Service.
IUPAC名称
1958年,IUPAC根据直链上所有碳原子的烷烃名称,给出了有机化合物的分等级命名法。这恰恰与有机化合物的名称和结构有关;然而,考虑到有些名称过于复杂,难以回忆和重用,在FRC数据库中,简单名称(如氯硝胺,代替2 , 6 -二氯- 4 -硝基苯胺)往往比IUPAC名称更受青睐。
SMILES
SMILES是一种使用短ASCII字符串描述化合物结构的线条符号。因其简单性而被广泛使用。在SMILES中,符号-,=,#和:分别表示单键,双键,三键和芳香键。相邻原子之间通过单键或芳香键连接。它是一种比其他大多数结构表示更简洁的表示方法,使其适合存储大量数据。FRCs的结构数据也可以保存在结构数据文件中,如SDF和mol2,其中包括连通性、2D或3D空间中的坐标、键合顺序和其他相关的细节信息。
InChI
InChI是化学物质的非专有标识符,可用于电子或印刷数据源,便于链接不同的数据集合。标识符描述化学物质的各种信息层,如原子、键连接、互变异构信息、同位素信息、立体化学、电子电荷信息等。这种直接的表示经常在数据库中充当搜索操作符。
CAS登记号
CAS将其登记号分配为科学出版物中提到的化学物质的标识符。这些数字通常由带有校验位的序列号组成,缺乏结构信息。例如,丙烯酰胺的CAS号为79 - 06 - 1:三个数被两个破折号隔开。值得注意的是,CAS数并不与化合物一一对应。虽然每个CAS编号对应一种独特的化学物质,但在实际应用中,单个化合物可能有多个CAS编号。这种情况是由于不同的异构形式,不同的水合物或盐,甚至是历史原因造成的。因此,在使用CAS号进行化合物鉴定或参考时,认识到一个化合物可能与多个CAS号相连是至关重要的。
食品风险成分数据库中使用的化学标识符
通过总结化学标识符在FRC数据库中的使用频率,发现除了常见的FRC名称外,CAS号是FRC数据库( 46%的FRC数据库使用 )中最常用的表示形式,其次是SMILES ( 36% )、InChI ( 22% )和IUPAC名称( 20% ) 。约35%的数据库提供了FRC分子结构的详细信息,如SMILES或InChI。在不同类型的FRC数据库中,生物毒素数据库最全面地利用了化学标识物--几乎都提供了分子结构的信息。关于环境污染物、农药和兽药残留的数据库提供的化学标识信息较少,这可能是因为这些数据库主要集中于法规和标准。在所有食品掺假数据库中,FADB - China是唯一收录食品掺假事件涉及的关键化学品/非法添加物信息的数据库,其他数据库则主要集中在法规、司法记录、事件报告、监控记录或分析方法等方面。与法规数据库和标准数据库相比,科学领域数据库能更好地管理FRC化学标识符。80%以上的科学领域特定数据库至少使用一种化学标识符,而法规和标准数据库的数量约为50%。
现有FRC数据库的局限性及改进建议
在过去的几十年中,已经建立了超过50个FRC数据库(图2),其中许多数据库已经更新了不止一次。尽管取得了许多成就,但我们也注意到一些持续存在的挑战,如更新延迟、可访问性问题、可重复性问题、数据质量次优和欠发达地区覆盖不足等。
可访问性
现有FRC数据库的一个主要挑战在于其可访问性。值得注意的是,在这篇综述中,大约有15%的数据库无法被公众获取,因此无法在研究中复制或使用。此外,超过60%的数据库不方便批量下载。尽管计算机方法,如计算机筛选,在加强食品安全评估和监管方面具有广阔的前景,但现有数据共享策略的局限性可能会阻碍其广泛应用。
数据质量和可追溯性
由于数据采集、清洗和处理方法的差异,不同来源的FRC数据质量可能存在显著差异。值得注意的是,大约20%的数据库只包含自己质量控制标准的第一手数据,而其余80%的数据库包含了来自出版物和其他数据库的信息。然而,我们发现大多数数据库的原始数据来源披露不足,这造成了数据质量的低置信度和数据库之间的不一致性。
及时性和更新性
研究结果表明,由国际组织主持的数据库更新的及时性与由研究小组管理的数据库更新的及时性之间存在显著差异。具体来说,几乎所有由国际组织主持的数据库都有更新记录,而由研究小组维护的数据库中只有40%有更新记录。然而,缺乏当前的科学发现可能会削弱从这些数据库中得出的结论的强度。
不一致性
总的来说,大约30%的FRC数据库,特别是那些与法规和标准有关的数据库,没有提供任何关于化学标识符的信息,而大约65%的数据库没有提供详细的分子信息,例如SMILES和InChI。这种不足是一个重大的问题,可能导致数据库和研究之间的不一致性。需要采取紧急行动,向更加规范和透明的数据标注和管理实践过渡。
数据覆盖偏差
数据覆盖偏差是另一个值得关注的问题,特别是缺乏针对欠发达地区的食品安全数据。现有的数据库主要由发达国家和中国、印度等少数发展中大国的国家机构和研究人员建立,并倾向于关注各自边界内的食品安全状况。GEMS/Food等国际组织建立的数据库为食品安全数据的全球共享提供了平台。然而,即便是这些努力也并非完全全面,存在偏颇之处。例如,在GEMS/Food中,来自美洲和欧洲地区的记录与来自世界其他地区的记录之比约为8:1,这凸显了发展中国家和地区在食品安全数据方面的不足。
改进建议
尽管在过去的几十年中取得了巨大的成就,但现有的FRC数据库在可访问性、数据质量、及时更新和不一致性等方面仍然面临着不足。在短期改进上,建议数据库适当地包括FRCs的化学标识符,如CAS注册号、InChI,并尽可能包括SMILES或结构数据文件,以帮助研究人员和其他利益攸关方认识FRCs的化学本质。这可以帮助避免与之前发现的其他数据库之间的严重不一致性。
必须鼓励FRC数据库致力于更好的数据可用性,并为数据采集提供以用户为中心的接口。这不仅可以促进这些数据库的广泛应用,同时也极大地促进了大数据和基于AI的方法在食品科学中的未来发展。此外,我们鼓励FRC数据库通过适当陈述原始数据资源来提高数据质量,例如,通过展示数据是否直接从内部实验中收集,从出版物中提取,或从其他数据库中集成,包括数据清洗程序和质量检查标准。
从长期来看,应继续鼓励加强标准化的数据共享策略。可检索性、可访问性、互操作性和重用( FAIR )原则为FRC数据库管理和共享数据提供了可重用的标准,应精确实施。此外,应继续鼓励建立专门针对发展中国家和地区案例的FRC数据库,国际组织主办的FRC数据库也需要更多地关注这些地区的食品安全状况。最后,应研究并习惯在食品安全领域使用新的数据标注和管理方法,包括基于NLP的自动数据提取和大型语言模型。迄今为止,已有少数数据库从这些方法中获益。例如,Zhang等人开发了一个食品风险成分数据库( Food Risk Component Database,FRCD ),该数据库包含了来自152,737篇出版物的12,018个FRC。然而,NLP的应用仅限于对FRC命名实体的注释,未能对暴露水平、在各自食物类别中的含量以及对分子结构和性质相关的详细信息进行处理。随着人工智能的快速发展,我们预见,这些方法将显著提高从大量文献和媒体报道中识别和组织FRC数据的效率,缓解更新过晚和对数据质量信心不足的问题。
作为克服当前限制的第一步,根据FAIR指南,我们提出了未来开发和管理FRC在线数据库的五项一般举措,以改善数字资源在食品安全中的使用。
(1)透明的数据来源:数据库应该在任何可能的情况下陈述数据资源。对于室内实验的数据,应引入详细的实验步骤,以提高重现性。对于出版物和其他数据库来源的数据,应明确提及原始来源,并提供交叉引用和URL链接进行验证。
(2)免费访问:数据库应该是免费的,没有任何限制,包括需要注册或登录。在永久数据存储库(如Zenodo )中保存副本是非常受欢迎的。
(3)长期维护和稳定URL:在同一URL上维护数据库至少3年,特别是当数据库结果为科学出版物时。
(4)安全和隐私措施:鼓励数据库使用HTTPS协议,特别是在网站接受或传输敏感数据的情况下。
(5)数据的可获得性和格式:数据库应解决底层数据的可获得性,包括数据下载的格式和术语。
数据驱动识别研究较少或未知的食品风险成分
近年来,数据驱动的策略被用于识别新兴的FRC并展示其潜力。本文重点讨论了在现有FRC数据库的覆盖范围之外,识别研究较少或未知的FRC的3种有力工具,即自然语言处理(NLP)、基于化学信息学的可疑物筛选和非靶向分析以及基因组挖掘。
Fig.3. 数据驱动的战略,以确定研究较少和未知的食品风险成分。(A)使用自然语言处理(NLP)从文献和舆论中挖掘食品风险成分数据。(B)利用化学信息学工具对FRC进行疑似筛选和非靶向分析。(C)用于识别生物食品风险成分的基因组挖掘。
总结
在过去的几十年中,已经发布了超过50个食品风险成分(FRC)数据库,为科学研究、政策制定和教育做出了巨大贡献。然而,我们的分析揭示了持续存在的挑战,如更新延迟、可访问性问题、可重复性问题、次优的数据质量以及欠发达地区的覆盖不足。为了解决这些缺点,我们提出了一个旨在加强未来FRC数据库的倡议,优先考虑可检索性、可访问性、互操作性和可重用性的原则。此外,我们强调了未来策略的潜力,例如,自然语言处理,化学信息学驱动的可疑和非靶向分析,以及基因组挖掘,用于检测和分析现有数据库之外的新的FRC。通过拥抱这些倡议和策略,为一个强大的框架奠定了基础,以促进加强食品安全评估和知情决策,以应对不断发展的挑战。
编辑:李文婷
责任编辑:魏芳
文章引用:https://doi.org/10.1016/j.tifs.2024.104513
文章信息:Dachuan Zhang, Dongliang Liu, Jiayi Jing, Bingxuan Jia, Ye Tian, Yingying Le, Yaochun Yu, Qian-Nan Hu. (2024). Unveiling the chemical complexity of food-risk components: A comprehensive data resource guide in 2024. Trends in Food Science & Technology.
● 关于我们
中国农业科学院油料作物研究所油料品质化学与营养创新团队脂质分析实验室致力于突破脂质组分析所面临的生物基质复杂、脂质及其代谢产物种类繁多且结构复杂、定性和定量分析困难等共性关键技术瓶颈,建立高效,高通量的脂质组分析平台,并将该平台广泛应用于:(1)不同生物种质资源中脂质组成;(2)应用于食品安全与质量控制;(3)脂质的生物功能与营养学评价;(4)开发新的功能脂质。