FlavorMiner:一个从结构数据中提取分子风味特征的机器学习平台

学术   2024-10-14 07:55   湖北  

撰文:宋方亮

编辑:肖冉

今天介绍一篇由洛斯安第斯大学化学和食品工程系Fabio Herrera-Rocha等人于2024年6月在《Theoretical and Computational Chemistry》上发表的一篇题为“FlavorMiner: A Machine Learning Platform for Extracting Molecular Flavor Profiles from Structural Data”的文章。本文提出了FlavorMiner,一个基于ML的多标签风味预测,它来自涵盖超过 934 种不同食品的多样化训练数据集,可用于任何食品的风味挖掘。

·摘要

风味是推动消费者接受食品的主要因素。然而,由于食品成分的复杂性,追踪风味的生物化学是一项艰巨的挑战。本研究介绍了 FlavorMiner,一种基于 ML 的多标签风味预测器。FlavorMiner 无缝集成了算法和数学表示的不同组合,并通过类平衡策略进行了增强,以解决输入数据集的固有类问题。值得注意的是,随机森林和k近邻结合扩展连接指纹和RDKit分子描述符在大多数情况下始终优于其他组合。 重采样策略在减轻与类不平衡相关的偏差方面优于权重平衡方法。FlavorMiner显示出卓越的准确性,平均ROC AUC得分为0.88。该算法被用于分析可可代谢组学数据,揭示了其帮助从复杂的食物代谢组学数据中提取有价值见解的巨大潜力。

01.亮点

1. 设计了FlavorMiner机器学习平台,旨在通过分子结构预测风味特征,解决将单个分子与食品产品中的风味联系起来的挑战。

2. 平台集成了多种算法和数学表示方法,其中随机森林(Random Forest)和K-近邻(K-Nearest Neighbors)表现最佳。

3. 该平台已应用于可可代谢组学数据,展示了其在广泛的食品产品风味分析中的潜力。

02

图文赏析

图1 FlavorMiner 算法的 Flavor 预测和数据可视化的工作流程。

图2 在测试集上使用原始描述符数据训练的算法的分类指标。这些指标包括每种算法的召回率(蓝色条)、特异性(橙色条)和 ROC AUC 分数(绿色条)。(a) 用分子描述符训练的随机森林。(b) 使用扩展连接指纹训练的随机森林。(c) 用分子描述符训练的 K 最近邻。(d) 使用扩展连接指纹训练的 K 最近邻。(e) 用分子图训练的卷积图神经网络。

图3  FlavorMiner中目标风味音符优化分类器的性能。指标包括每种算法的召回率(蓝色条)、特异性(橙色条)和ROC AUC评分(绿色条)。(a)在训练期间使用5倍交叉验证获得的分类指标。(b)使用测试集获得的分类指标。随机森林用于苦味、果味、甜味、异味、花香和坚果味。K近邻用于酸味。

图 4 使用 ECFP 的随机森林预测器中代表高 VIP 分数的片段。此图显示了与使用扩展连接指纹(ECFP)训练的随机森林预测器中具有最高变量重要性(VIP)分数的5位对应的片段。(a)苦涩,(b)果味,(c)甜。

图5 可可加工阶段中每种目标风味的分子计数。


·总结

本研究开发了一种开放访问的风味ML预测器FlavorMiner,可以预测水果味、花香、异味、坚果味、酸、甜和苦的味道。 这填补了当前风味预测工具领域的空白,因为很少有开放的选项可用于预测这些特定的风味笔记。FlavorMiner的平均ROC AUC得分为0.88。该算法的表现与其他苦味和甜味预测类似,但优于现有的花香和水果预测。它也是第一个预测坚果味和异味的工具。表现最好的图5 可可加工阶段中每种目标风味的分子计数。


模型被选中组成FlavorMiner的主干,进一步分析揭示了以下性质,这些性质可以将分子定义为花香、异味和坚果味的积极或消极,例如大小、极性、电子结构、稳定性以及它们分配到疏水环境中的倾向。这些研究结果为进一步深入剖析风味化学特性奠定了坚实的基础。将FlavorMiner与可可代谢组学数据结合使用,突显了其阐明加工食品中风味形成的分子基础的潜力。

参考文献

Herrera-Rocha F, Fernández-Niño M, Duitama J, et al. FlavorMiner: A Machine Learning Platform for Extracting Molecular Flavor Profiles from Structural Data[J]. 2024.



科学私享
聚焦食品科学前沿进展
 最新文章